为了了解大数据的当前和未来状况, 我们与来自28个组织的 31名 it 高管进行了交谈。我们问他们: “您在数据接收、分析和报告中看到的最流行的语言、工具和框架是什么?”以下是他们告诉我们的:
python, spark, kafka
- 随着大数据和进军 alcml, scala 和 python 正引领着 apache spark 的普及。从 olap 多维数据集和数据仓库移动到使用 python 应用 ml 的组织较少的结构。由于存在库支持, 开发人员正在编写 python ml 模型。
- 卡夫卡的流水线摄入。用于编程的 r 和 python。java 很流行。sql 还没有消失。不是大数据的最好的朋友, 但打开了对更广泛的人可以访问数据的访问。加特纳在 hadoop 上的 sql 从幻灭的低谷中走出来。
- 我们看到了很多哈多普、火花和卡夫卡。新兴的技术是在数据仓库, 那里有很多兴趣在雷德班, 雪花, 和大查询。ml 就在外面增加了紧张流的功能。早期的兴趣在那里。第三个是库伯涅特斯。人们对利用规模化消费非常感兴趣。
- 其他开源工具也被广泛使用, 如 spark、r 和 python。这就是为什么平台提供了与这些开源工具的集成。在我们的工作流程中, 可以引入一个新节点, 在其中编写 python、r 或 spark 代码的脚本。在执行时, 节点将执行代码, 并将成为工作流中节点管道的一部分。
- 在一段时间内, r 占主导地位, 特别是在数据科学操作模型方面。现在真正的创新围绕着 python。大量的工具、库和支持。人们开始探索火花和卡夫卡。火花以极快的速度处理巨大的成交量。卡夫卡是一个将数据输入 spark 的邮件系统。r 对于分析历史数据非常有用。取模型, 获取实时数据, 并帮助封送数据, 使其能够实时运行并应用模型。
- 一些常见的工具和框架包括内存中的关系数据库, 如 voltdb、spark、storm、flink、卡夫卡和 nosql 数据库。
- 我们为所有 crud 数据操作提供了 linq 类型的 api, 可以从各种语言 (如 c#、go、java、javascript、python、ruby、schara 和 swift) 调用这些操作。我们的主数据访问设计为高性能 (可预测的低延迟) 数据库, 其创建目的是编程而不是声明性的, 因此, 我们目前不支持 sql
我们支持将数据导出到后端数据仓库和数据湖进行分析。在摄入方面, 卡夫卡和 kinesis 等工具作为客户内部的默认数据通信管道, 正获得吸引力。
tensorflow, tableau, powerbi
- 1) 我们使用亚马逊雅典娜 (apache presto) 进行日志分析。2) 我们使用模式分析进行数据可视化和报告。3) 我们使用趋势流来分析交通模式。
- 从 ml 的角度来看数据科学。dl 框架、滕索流、pytortors、keras、caffe 的可用性在应用 ml 和创建大规模数据模型方面产生了巨大的变化。
- 通过这些平台, 以实现大规模洞察
tableau、powerbi、microstrategy、tibco 和 qlik 试图扩大前面的仪表板的人数。
其他
- 开源。更多的数据正在转向流数据。这是由对实时答案的需求所驱动的。
- 这取决于项目。我们看到多种机制被用于摄入、充实、文档分类器。科学 byte, thompson reuters-本体, 智能标记工具, 深入了解数据。个性洞察, 情绪分析丰富的数据。
- 客户从浏览器驱动他们使用的内容。客户正在寻找如何构建他们已经拥有的工具。sql 仍然是大数据的语言。在 hadoop 和其他数据库的顶部工作。
- odata 并不是那么新, 但人们正在从服务器端和客户端使用它。其他人使用 graphql 动态查询和获取数据。服务器方面有很多新技术。mongodb 对某些事情做得很好。我们对他们提供的东西越来越具体。redis 适用于缓存。s3 对于以弹性搜索和 s3 作为后端的数据存储非常有用。更清晰的技术和设计模式。
- 使用 r 和 python 的人坚持他们使用的东西。系统中有许多 api 具有更多的支持。从摄入的角度来看, 您希望提供尽可能多的数据进出系统的方法。支持尽可能多的工具。这不是临界质量。迎合人才。开发人员工具和 api 支持这两种工具和 api。
- 较大的公司希望人们使用相同的工具进行 bi 和数据科学, 因为他们有各种工具, 很难在一个工具上标准化成千上万的人。与不同的后端集成和加速生产的方式因工具而异。我们提供集成、加速和数据是什么以及数据的语义含义的目录。目录位于平台的中心位置。将安全性、集成和加速拉到与所有工具和数据源配合使用的中央开源层。
- 大数据世界正在所有环境 (本地、云等) 以如此多的方式快速发展。我们看到了许多不同的语言、执行引擎和数据格式。我们的核心价值是让客户绕过不得不处理所有这些不同的工具和标准
这使他们能够开发一次数据管道, 作为可重复框架的一部分, 然后将其部署到大量, 而不考虑技术、平台或语言。例如, 我们的客户使用 infoworks 在 cloudera 上实现一次本地, 然后运行这些相同的管道, 而无需使用 dataproc 在 google 云上重新编码。
以下是我们与谁交谈:
- cheryl martin, v. p. 研究首席数据科学家, areion
- 亚当·斯密, 首席运营官,自动化洞察
- amy o ‘ connor, cloudera首席数据和信息官
- colin britton, devo首席战略官
- oj ngo, 首席技术官, dh2i 联合创始人
- alan Weintraub, 首席技术官办公室, docauthority
- kelly stirman,cmo 和战略副总裁, dremio
- dennis duckworth,动物区产品营销总监
- nikita ivanov, gridgain systems创始人兼首席技术官
- tom zawacki, infugroup首席数字官
- ramesh menon, infoworks产品副总裁
- ben slate, instaclustr首席产品官
- 杰夫·弗里德, intersystems产品管理总监
- bob hollander, intervision服务与业务发展高级副总裁
- ilya pukko, jitterbit首席建筑师
- rosaria silipo, 首席数据科学家和tobias koetter, 大数据经理兼柏林办事处主任, knime
- bill peterson, v. p. 工业解决方案, mapr
- 杰夫·希利, vertica 产品营销,微焦点
- 德里克·史密斯, 首席技术官和联合创始人和
“target =” _ black “> katie horvath, naveego首席执行官