为了了解大数据的当前和未来状况, 我们与来自28个组织的 31名 it 高管进行了交谈。我们问他们: “您在数据接收、分析和报告中看到的最流行的语言、工具和框架是什么?”以下是他们告诉我们的:

python, spark, kafka

  • 随着大数据和进军 alcml, scala 和 python 正引领着 apache spark 的普及。从 olap 多维数据集和数据仓库移动到使用 python 应用 ml 的组织较少的结构。由于存在库支持, 开发人员正在编写 python ml 模型。
  • 卡夫卡的流水线摄入。用于编程的 r 和 python。java 很流行。sql 还没有消失。不是大数据的最好的朋友, 但打开了对更广泛的人可以访问数据的访问。加特纳在 hadoop 上的 sql 从幻灭的低谷中走出来。
  • 我们看到了很多哈多普、火花和卡夫卡。新兴的技术是在数据仓库, 那里有很多兴趣在雷德班, 雪花, 和大查询。ml 就在外面增加了紧张流的功能。早期的兴趣在那里。第三个是库伯涅特斯。人们对利用规模化消费非常感兴趣。
  • 其他开源工具也被广泛使用, 如 spark、r 和 python。这就是为什么平台提供了与这些开源工具的集成。在我们的工作流程中, 可以引入一个新节点, 在其中编写 python、r 或 spark 代码的脚本。在执行时, 节点将执行代码, 并将成为工作流中节点管道的一部分。
  • 在一段时间内, r 占主导地位, 特别是在数据科学操作模型方面。现在真正的创新围绕着 python。大量的工具、库和支持。人们开始探索火花和卡夫卡。火花以极快的速度处理巨大的成交量。卡夫卡是一个将数据输入 spark 的邮件系统。r 对于分析历史数据非常有用。取模型, 获取实时数据, 并帮助封送数据, 使其能够实时运行并应用模型。
  • 一些常见的工具和框架包括内存中的关系数据库, 如 voltdb、spark、storm、flink、卡夫卡和 nosql 数据库。
  • 我们为所有 crud 数据操作提供了 linq 类型的 api, 可以从各种语言 (如 c#、go、java、javascript、python、ruby、schara 和 swift) 调用这些操作。我们的主数据访问设计为高性能 (可预测的低延迟) 数据库, 其创建目的是编程而不是声明性的, 因此, 我们目前不支持 sql

我们支持将数据导出到后端数据仓库和数据湖进行分析。在摄入方面, 卡夫卡和 kinesis 等工具作为客户内部的默认数据通信管道, 正获得吸引力。

  • 我们将 sql 视为各种规模的公司用于驻留在我们平台中的数据的主要协议。在部署管理方面, 我们看到 docker 和 kubernetes 的使用迅速增加。对于数据摄取, apache 卡卡被我们的许多客户使用, 我们最近宣布在并发合作伙伴计划中认证我们的卡夫卡连接器。为了进行分析, 我们经常看到 apache spark 与 apache 点火一起用作内存中的数据存储。
  • apache 卡卡基本上已成为将大量数据 (特别是传感器数据) 以近乎实时的速度流式传输到数据分析平台的标准。为了获得最高的分析性能, 数据库内机器学习和高级分析正成为组织提供大规模预测分析的一种日益重要的方式。对于报告而言, 目前市场上有各种数据可视化工具–从 tableau 到 looker 到 microsoft power bi, 再到 ibm cognos, 再到 microstrategy 和许多其他工具。业务分析师从来没有更多的选择来报告和可视化数据。但是, 他们应该坚持要求其基础数据分析平台具有规模和性能, 使他们能够在几秒钟或几分钟内完全准确地从最大数量的数据中获得洞察, 而不是在商机过去之后。
  • 我们利用多个数据接收和编排工具, 其中 apache 卡夫卡和 nifi 项目最为流行。我们将 hadoop yarn 与 hbases/hdfs 一起用于持久性层, 我们利用数据处理、预测建模、分析和深度学习项目, 如 apache zeppelin、spark\ spark 流媒体、风暴、科学学习和 elasticsearch。除了上述开源项目外, 我们还利用 talend、pentaho、tableau 和其他一流的商业许可工具。
  • tensorflow, tableau, powerbi

    • 1) 我们使用亚马逊雅典娜 (apache presto) 进行日志分析。2) 我们使用模式分析进行数据可视化和报告。3) 我们使用趋势流来分析交通模式。
    • 从 ml 的角度来看数据科学。dl 框架、滕索流、pytortors、keras、caffe 的可用性在应用 ml 和创建大规模数据模型方面产生了巨大的变化。
    • 通过这些平台, 以实现大规模洞察

    tableau、powerbi、microstrategy、tibco 和 qlik 试图扩大前面的仪表板的人数。

  • 我们看到很多 spark 是在组织远离 mapreduce 的时候。java 和 python 很受欢迎。卡夫卡被用来摄入。可视化 arcadia 数据、tableau、qlik 和 powerbi, 用于可视化。
  • 许多项目使用多种语言和多种分析工具。当然, 我们看到了大量的 sql 使用和面向数据科学的语言 (如 python 和 r), 但也大量使用了经典的编程语言 (如 java 和 c#)。对于数据科学, 我们看到的最重要的软件包是 tensorflow, 紧随其后的是自助 bi 工具, 如 tableau、powerbi 和 clickview。
  • 其他

    • 开源。更多的数据正在转向流数据。这是由对实时答案的需求所驱动的。
    • 这取决于项目。我们看到多种机制被用于摄入、充实、文档分类器。科学 byte, thompson reuters-本体, 智能标记工具, 深入了解数据。个性洞察, 情绪分析丰富的数据。
    • 客户从浏览器驱动他们使用的内容。客户正在寻找如何构建他们已经拥有的工具。sql 仍然是大数据的语言。在 hadoop 和其他数据库的顶部工作。
    • odata 并不是那么新, 但人们正在从服务器端和客户端使用它。其他人使用 graphql 动态查询和获取数据。服务器方面有很多新技术。mongodb 对某些事情做得很好。我们对他们提供的东西越来越具体。redis 适用于缓存。s3 对于以弹性搜索和 s3 作为后端的数据存储非常有用。更清晰的技术和设计模式。
    • 使用 r 和 python 的人坚持他们使用的东西。系统中有许多 api 具有更多的支持。从摄入的角度来看, 您希望提供尽可能多的数据进出系统的方法。支持尽可能多的工具。这不是临界质量。迎合人才。开发人员工具和 api 支持这两种工具和 api。
    • 较大的公司希望人们使用相同的工具进行 bi 和数据科学, 因为他们有各种工具, 很难在一个工具上标准化成千上万的人。与不同的后端集成和加速生产的方式因工具而异。我们提供集成、加速和数据是什么以及数据的语义含义的目录。目录位于平台的中心位置。将安全性、集成和加速拉到与所有工具和数据源配合使用的中央开源层。
    • 大数据世界正在所有环境 (本地、云等) 以如此多的方式快速发展。我们看到了许多不同的语言、执行引擎和数据格式。我们的核心价值是让客户绕过不得不处理所有这些不同的工具和标准

    这使他们能够开发一次数据管道, 作为可重复框架的一部分, 然后将其部署到大量, 而不考虑技术、平台或语言。例如, 我们的客户使用 infoworks 在 cloudera 上实现一次本地, 然后运行这些相同的管道, 而无需使用 dataproc 在 google 云上重新编码。

    以下是我们与谁交谈:

    Comments are closed.