如果您实际上没有使用大数据,并且您只从您在媒体上听到的了解它—如何使用它来优化流量、做出金融交易决策、挫败恐怖阴谋、使设备更智能、更自作,甚至跟踪运动成绩——你可能会说这是一个梦想成真。
然而,对于那些真正提取、分析和管理大数据以便它能够完成所有这些奇妙的事情的人来说,这通常只是一场噩梦。
您可能还喜欢:利用您的 Db2 技能与大数据。
挖掘大数据:所有苦差事和格鲁特工作?
与只查看电子表格、表格和仪表板相比,使用高容量、快速变化的数据流可能非常令人难以置信,而且绝对要复杂得多。
您是否知道每天生成 2.5 个五分之一字节的数据 – 随着 IoT 的进步,这种速度会加速得更快?有了如此数量惊人的信息,你如何赶上?
假设您想使用大数据来回答一个简单的问题,例如,”在过去一小时内有多少用户登录了我们公司的在线应用?如果你只有几百个用户,这很容易回答,但是如果你正在谈论一个数百万人使用的普通应用程序呢?
如果你认为得到答案会像一二三,那么,让我们看看你是否正确。
所谓的简单过程实际上涉及:
-
将所有原始数据存储在存储库中 – “数据湖”。如果要在未来保持所有信息不变,则此过程需要了解并遵守压缩、分区和命名规则的最佳做法。
-
编写代码以简单地了解您收集的数据。
-
如果正在处理提取、转换、加载(ETL) 作业(每个作业需要数天编写和运行数小时),则执行其他编码或编程 — 因为数据没有直观地描述。”
-
通过指派开发人员来管理和控制业务流程系统(例如 Apache Airflow 或 NiFi),确保 ETL 作业高效运行。
-
创建 NoSQL 数据库来管理有状态的 ETL。
-
管理集成分析数据库(如 Amazon Redshift)以用于执行 SQL 查询。
最后,在您首次问:”我如何准确预测客户想要什么并做出真正有针对性的报价”后,您又经过近一年又数千个开发人员提出了答案。
毕竟,您没有完成,因为下一步是重复。
是的,重复这个困难而复杂的过程。除了在软件、存储和人力开支上多花费数十万美元,以确保流程中所有代码详尽部分都很好地运行在一起之外,每次需要其他业务时,您都必须执行此过程问题已解答或添加了新的数据源
挖掘大数据与小型数据?无竞赛
毫无疑问,使用”小”数据(例如 ERP 和财务数据)的人很容易。方法很简单:获取数据库,使用一些 SQL 查询和仪表板来点击它,并且您有可以使用的内容。
不需要棘手的代码重流程(仅需要基于 GUI 的工具)或笨重和笨拙的体系结构,任何具有基本 SQL 知识的人都可以访问和利用业务数据来回答相当简单的问题。
击败大数据复杂性,从噩梦中醒来
如果目标是简化大数据并减少将原始数据流转换为有用和可用信息所需的时间和资源,则需要从完全不同的角度解决问题。
-
减少将数据转换为可行表单所需的系统数量。谁说你必须有三个独立的开源框架来进行数据编目、集成和服务?相反,构建一个系统,该系统可应用于大型和流式数据分析中的常见用例。
-
可视化数据。如果您编写代码时只对实际架构或体系结构的内容有模糊的了解,那你就是在浪费时间。如果您有一个视觉目录,该目录可立即提供数据结构的图片,包括与不同值、值分布相关的统计信息以及数据在完整数据集中发生的频率,该怎么办?
-
自动化代码繁重的过程。成功使用大数据意味着在存储、分区和 SQL 操作中采用最佳实践。已内置这些最佳实践的解决方案将优化性能并降低成本。
不,这样的解决方案不会使大数据像 Excel 那样简单。但是,您现在可以告别庞大而昂贵的数据工程团队、长达数月的数据项目,只是为了回答简单的分析查询、在基础架构上花费太多时间以及其他大数据噩梦。