本文由多部分部分讨论如何从三个角度 (概念、实践和最佳实践) 收集数据、交换数据、获取数据、模型数据以及可视化数据。
在本系列的第一篇文章中, 我们已经看到了如何通过银行、金融服务和保险 (bfsi) 领域的示例从概念上理解数据。
在本文中, 我们将学习如何根据您的业务场景使用阿里云快速 bi来处理数据 (即清理数据)。在即将到来的破译数据过程中, 我们可能需要快速 bi, 因此请确保您已注册阿里云帐户。如果您还没有, 请通过此链接注册一个免费帐户。
什么是数据争用?
数据纠纷 (有时被称为数据咀嚼) 是将数据从一种格式转换为另一种格式的过程, 目的是使其更适合分析, 更有价值。随着大数据和物联网应用的迅速增长, 数据类型和格式的数量每天都在增加。这使得数据纠纷成为大数据处理不可或缺的元素, 特别是对于较大的应用程序。
什么是快速 bi?
阿里云快速 bi是构建在云上的灵活而轻量级的业务分析平台。快速 bi 的基本组件如下所示:
- 数据源
- 数据
- 工作表 (快速 bi 基本)
- 工作簿 (快速 bi 专业版和专业版)
- 仪表 板
- 门户 (快速 bi 专业版和专业版)
争用数据 (概念)
数据争用包括:
- 数据清理
- 数据编辑
数据清理
数据清理或数据清理是检测、分析、从数据集中删除不准确记录, 并用适当的数据替换数据中不准确的部分的过程。数据清理可以通过数据争用工具或脚本来完成。
例如, 假设数据集在日期列中具有一些错误的值, 如 “s29-05-2018”, 而不是 “29-05-2018″。对一个人来说, 这似乎是一个微不足道的错误, 但对一个系统来说, 这个条目是不可读的。系统可能不会将此项读取为日期, 而是将其作为字符串。
请注意:我们可以使用 excel 本身来清理数据, 但可能会错过一些东西。最好是通过脚本或工具来做。如果数据源是数据库, 则可以使用 bi 工具执行此操作。
数据编辑和准备
数据编辑和准备只不过是一个手动过程, 用于为报告目的更改数据、数据类型。
例如, 假设数据集具有 “mm-dd-yyyy” 格式的日期值, 但我们需要 “dd-mm-yyyyy” 格式。这意味着我们需要手动更改它。
请注意:数据编辑和准备通常在 excel 本身中进行, 或者, 如果数据源是数据库, 那么我们可以使用 bi 工具进行。
争用数据 (实用)
正如我们前面所讨论的, 我们将使用 excel 来处理数据。除此之外, 我还想分享我为自动争抢数据而编写的 python 脚本。
用例1:atm 分析
在这里, 我们将看看我们的第一个用例, 一个在本用例中, 我们将看到如何在 excel 中对数据进行争用。
我们的数据集是干净的, 但是, 为了进行演示, 我们将首先使这些数据的某些部分错误或不准确。
现在我们的数据包含一些错误的值, 例如:
- 交易记录有一些错误的数据, 因此它将列识别为字符串而不是 “日期”。
- 不。的撤回必须包含整数, 但它包含十进制数。
- 工作日包含一个小 h, 这使得它有新的分类价值。
- 工作日和假日序列也包含错误的数据。
我们需要处理这个问题, 因为如果处理不当, 就会导致不准确的结果, 进而导致错误的见解。
让我演示如何在 excel 中处理此问题。请看下表:
类型 | 结果 |
数量 | 1 |
文本 | 2 |
逻辑值 | 4个 |
错误值 | 16 |
数组值 | 64 |
使用类型函数, 我们可以很容易地找到错误的数据。请按照以下步骤操作:
1. 插入用于验证数据的新列。
2. 编写公式 “= 类型 (范围)”
3. 将筛选器应用于要验证的列。
由此, 我们可以很容易地找到日期列是否有错误的值。因为它包含文本, 所以我们可以区分文本和数字, 但我们无法找出它是否有浮点而不是整数。在此过程中, 我们还可能使用其他功能, 如 isnumber ()、istext 等。
我们可能无法分析每个单元格以查找不正确的数据。因此, 使用任何争吵工具或脚本都是非常重要的。
用例 2: 客户360
在这里, 我们去我们的下一个用例客户 360。
我们将使用 python 脚本自动对数据进行争用。我将写一篇关于破译数据的编程方法的单独文章, 以揭示其中隐藏的见解。
python 代码
# =============================================================================
# #Importing the necessary modules
# =============================================================================
import pandas as pd
import numpy as np
# =============================================================================
# #Data Wrangling or Data munging
# =============================================================================
def datawrangler(data):
data=data
重命名 (列 = lambdax:x. 替换 (“,”), 就地 = true) # 获取列名称列 = data.columns.values 列 = pd。数据框架 (列, 列 = [“列字段”]) # 获取列类型列数据类型 = pd。datframe (data. dtype) 列 data.dtypes. index = range (len (列)) #Adding 列类型, 其各自的列列 [“列 type”] = 范围内 x 的列数据类型 (len (列)): 如果 (列 [‘ ‘ 列 type ‘. iloc [x]) np.dtype(np.int64) 或(列 [“列类型”]. iloc [x]) 为 np.dtype(np.float64): data[columns[‘ColumnFields’].iloc[x]]=data[columns[‘ColumnFields’].iloc[x]].fillna(0), 如果 (列 [列类型 “]. iloc [x]) 不 np.dtype(np.int64): 数据 [列 [列字段”]. iloc [x]] = 数据 [列 [“列字段”]. iloc [x]. fillna (方法 = “ffill”) 如果 “日期” (列 [“列字段”]. 现应 (np.str.lower). iloc [x]): 数据 [列 [列 [列)]. iloc [x]] = 数据 [列 [列 [列. iloc [x]]. 谨施用日期时间) 如果 (列 [‘ 列类型 ‘]. iloc [x]) 是 np.dtype(np.float64): 对于 y 在范围 (len (数据)): 如果 (np.modf(data[columns[‘ColumnFields’].iloc[x]].iloc[y])[0]) 在 [‘ 0.0 ‘, 0.0]: 数据 [列 [‘ 列字段 ‘。ta[columns[‘ColumnFields’].iloc[x]].astype(np.dtype(np.int64)) 如果 (列 [列类型 “]. iloc [x]) 不 np.dtype(np.int64) 和 (列 [列类型”]. iloc [x]) 不 np.dtype(np.float64) 和 (“日期” 不在 (列 [“列字段”]), 则会中断。适用 (np.str.lower). iloc [x]): 对于 y 范围 (len (数据)): 如果 (数据 [列 [‘ 专栏 ‘]. iloc [x]. iloc [y]]. is数字 ()): data[columns[‘ColumnFields’].iloc[x]]=data[columns[‘ColumnFields’].iloc[x]].astype(np.dtype(np.int64)
中断返回数据 # = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 输入 (“” \ n = n 输入文件位置 \\ n\ n “) data=pd.read_csv(location,index_col=0) savelesa = 输入 (” \ n\ n 输入文件保存位置 \ n \ t “) = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = == = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 标头 = 无)
争做数据 (最佳实践)
- 检查数据是否清晰或是否需要纠结始终是一种最佳做法。
- 检查数据是否有异常和异常值。
- 将分类值转换为小写或大写, 然后将其转换为句子大小写, 以避免重复相同的值。
- 查找导致错误结果的空值和 nan 值。
- 使用数据争夺战或准备工具来争夺数据, 以避免人为错误。
收集数据 (概念)
数据接收是分析和商业智能的关键成功因素。我们需要了解 oltp 和 olap。
oltp 是一种在线交易处理系统。oltp 系统的重点是记录事务期间是否发生了更新、插入和删除。oltp 查询更简单、更短, 因此处理所需的时间更少, 所需的空间也更少。oltp 系统的一个常见示例是 atm 数据库, 在该数据库中, 我们通过使用短交易来修改帐户的状态。
另一方面, olap 是一个在线分析处理系统。olap 数据库存储由 oltp 输入的历史数据。使用 olap, 您可以从大型数据库中提取信息并对其进行分析以进行决策。olap 系统的一个典型示例是数据仓库, 它从多个 oltp 数据源中积累数据以查询和分析数据。
对于 oltp 和 olap, 我们可能有文件或数据库作为数据源csv 和。Xls。我们还需要为我们的应用程序考虑不同类型的数据库。连接器可用于轻松连接数据库。
收集数据 (实用)
现在让我们看看如何将数据引入快速 bi。
首先, 您需要设置快速 bi。您需要有一个阿里云帐户。
- 您需要有一个阿里云帐户。登录您的阿里云账户。
- 输入您的控制台并导航到快速 bi 产品控制台。
- 选择 “区域”, 然后选择 “快速 bi 专业版”。
已创建快速 bi 实例。
如何将文件导入到快速 bi 专业版中
- 选择 “个人工作区”。
- 单击 “数据源”、”上载”、”上载文件”、”命名文件” 和 “确定”。
- 数据已成功引入快速 bi。
请注意:文件仅在个人工作区中支持。
如何从数据库中提取数据到快速 bi 专业版
- 选择 “默认工作区”。单击 “数据源”, 单击 “创建数据源”, 单击 “选择数据源”。
注意:您可以选择云数据库或外部数据库。 - 填写 “连接详细信息”, 单击 “测试连接”, 然后保存。
- 建立数据源连接。
请注意:请选择个人工作区以外的工作区, 以便可以使用工作簿。
收集数据 (最佳实践)
- 如果您使用的是文件, 则始终输入争用的数据。
- 不要将 oltp 数据库连接为源, 因为这样做可能会降低源系统的性能。
- 连接阿里云平台提供的 olap 数据库或使用 rds 服务。
- 始终使用自定义查询来接收数据, 而不是接收所有表。
总结
如果您正确地执行了这些步骤, 则应该已成功地将数据引入快速 bi, 这是破译数据以发现隐藏见解过程中的一个重要里程碑。
请确保您已注册阿里云帐户, 即可享受快速 bi pro 的免费试用版。在本多部分教程的下一篇文章中, 我们将了解如何使用快速 bi 对数据进行建模。在本系列文章的下一部分中, 请参阅所有内容。请继续关注。
作者: 阿里云科技股份作者 ranjith udakumar。