为了了解大数据的当前和未来状况, 我们与来自28个组织的 31名 it 高管进行了交谈。我们问他们: “开发人员需要记住如何处理大数据?”这是他们告诉我们的。
业务问题
- 开发人员希望构建很酷的解决方案。需要专注于重要的事情, 并与企业合作解决问题。
- 请注意, 现代大数据技术是特定于用例的。需要为您的用例选择合适的解决方案。
- 想想你正在做的事情的商业背景。了解围绕数据的法规和约束。施工时要记住。考虑记录、合规性和安全性。与其他软件的桥梁, 并将功能构建到大数据应用程序中。连接到业务以利用信息并了解约束和治理。
- 开发人员和解决方案架构师可能会变得近视。需要有一个更大的画面。在应用和解决方案的开发中有用, 知道什么是可以借鉴的更大背景的一部分, 产品创造会影响更大的画面。
- 1) 始终考虑数据的来源。2) 我是否与业务中的管理员有正确的联系, 这些人是数据的管理者?我正在研究的业务成果是什么, 我是否有业务伙伴看到价值?你不可能在真空中工作, 也不可能成功。
- 如果你在零售领域, 你的重点应该是 “我如何帮助提供更好的零售体验?”如果你在石油和天然气领域, 你需要问: “我如何有效地从地下获得石油”开发人员需要专注于如何为特定业务提供价值以响应其特定行业, 而不是将所有时间都花在构建他们可以从市场中获得的横向功能上。有一个很大的诱惑建立自己的东西, 因为它可能是有趣或有趣的。开发人员必须记住, 从头开始构建第一个端到端数据管道在第一时间是很有趣的。但是, 当您必须构建10或100或1000个数据管道时, 它就不再那么有趣了。维护您编写的原始代码会拖累您创建新数据管道的能力。因此, 您可以自动化的基本流程越多, 您就需要花更多的时间来专注于实际特定于您的业务的功能。
规模
2) 这是更多的记录。对大数据的含义有一个明确的定义。无论定义如何, 都不是什么新鲜事, 所有你需要涵盖的问题 (安全、数据访问、痛点)。不要太舒适, 小心点。一切都加剧了–一切都大了100x。
大数据的规模在数量、种类、用户和使用上有很大的不同。这从传统变成了为用户构建一些东西。您需要为用户启用自助服务。考虑到所需的大量实验, 开发人员无法预构建解决方案, 他们需要让业务用户访问以进行探索。专注于灵活性和用户自助服务。我的用户可以自己做多少?每个人都想使用数据。在谷歌, 80% 的人每天都可以访问数据目录。开发人员需要解决性能、可扩展性和安全性等棘手的技术问题, 并使数据可供业务用户使用。
数据智能是一种新的营销操作系统, 因为我们正在信息智能基础层之上开发程序和应用程序。适用于成功软件开发的相同核心原则也适用于大数据。可伸缩性、可靠性、可扩展性等概念对于高效有效的数据驱动软件或程序开发至关重要。任何发展倡议都必须具有足够的可扩展性, 以获取当今世界创造的数据量和速度。该系统必须具有最高的可靠性和完整性, 以确保正常运行时间、准确性和实时访问数据智能。而且, 该系统的设计必须利用用于 ui/app 开发的 api、实时数据馈送订阅以及与任何合作伙伴/外部系统集成的能力, 实现可扩展性。
安全
- 静态数据。网络上的数据。当数据返回到数据中心时, 请确保您有足够的保护和服务器。静态保护和安全数据需要更加集中。开发人员需要接受如何保护数据的培训。电线保护的数据越来越好。
- 安全性和规模, 如何为整个企业、你以外的人获得洞察。我们需要考虑如何帮助分析师与不像他们的群体沟通。下一步是思考如何向人们呈现答案, 让他们受益。
许多其他
- 分析人士需要做出比开发商更大的改变。从关系数据库移开。数据分析人员应该学习 python 和 sql 以外的其他知识。nosql 正在获胜, 关系将是事务处理。开发人员会发现自己处于更好的位置。适应基于微服务的编码和平台
随着 kubernetes (k8) 在 devops 中的重要性越来越大–基础设施中没有人关注 k8 和容器。
为工作选择合适的工具。注意不要开始得太低级。而不是编译器查看一个平台, 以获得更高质量的结果。ml 是一个通过示例学习的范例。使用引用。做别人做的事。与值得信赖的推荐人、linkedin、用户组、专家交谈。
在评估项目时, 请查看数据集。尝试连接数据, 看看可以连接多少数据, 需要多长时间。查看连接和数据加载速度。对图形数据库等新解决方案持开放态度。
要实际。在硅谷, 开发商正在引领新的和创新的技术应用–卡夫卡, spark 将引领您的下一份工作。拿起你的手臂, 并采用新技术。非硅谷组织希望这样做, 但不能那么快。找到利用技术的妥协方案 (hadoop、卡夫卡、spark), 但可以利用工具平台来帮助您使用新技术。
运行大数据分析的成本可能很高。为了避免大的计算费用, 必须使用深思熟虑和有效的方法来解决大规模分析问题。
不要急于建立一个预测模型!高效、适当的数据转换和数据清理过程通常是取得有意义结果甚至预测的关键。明智地投入您的时间, 并将足够的处理能量投入到数据准备步骤中。
不要记录愚蠢的狗屎。分析/科学家必须是一名工程师来准备数据。bi 是关于回答有关你所知道的事情的问题。数据科学就是要问有关这些问题的问题。数据科学让工程师们感到沮丧, 因为他们想要的是创建代码时没有考虑过的东西。更早开始一起工作。围绕使数据可访问和可发现的接口, 并获得围绕数据 (而不仅仅是函数) 的良好 api。
1) 了解数据世界中有很多不同的成分。人民的部分。人们比10至15年前更精通技术。业务部门经理更多的是 “技术”。这不是一个黑洞。2) ai 是非常重要的。流媒体、容器–2019年都是一成翻近分的。如果专注于事务性, ai 或容器将在它们处运行, 并变成流应用程序。边缘的分析。不仅在边缘捕获, 在边缘运行分析。做好准备, 开始接受教育。这不会全部发生在云、数据中心或笔记本电脑中。
掌握一些核心格式和标准– apache 实木复合地板是最流行的存储数据进行分析的方式。在霍顿作品和云德拉的安慰下, 我们看到实木复合地板是军备竞赛的赢家。熟悉 apache arrow, 因为它支持十多种编程语言。它是应用程序组织和处理内存中数据的标准方式。更高效的代码和内存应用程序。
数据工程技能将是至关重要的, 并在未来寻求。了解如何有效地存储、寻址、移动数据并将其带到分析中。也闯入了数据科学世界。了解导致数据错误的错误。能够查看数据, 以查看错误的上升位置。调试不仅仅是过程代码, 而是数据的处理方式和旅途中发生的事情。
大数据不是灵丹妙药。它在分布式系统上的运行面临很多挑战
spark 是一个功能强大的计算框架, 但在分布式系统上变得很复杂。了解应用程序如何连接到分布式系统。
作为对专有大数据技术的下意识反应, 许多开发人员在不了解随之而来的所有复杂性的情况下, 都采用了使用开源项目和构建 diy 技术堆栈的方法。他们最终使用了流媒体、窗口、nosql、imdb 等技术的 lego 构建块 1) 请记住, diy 技术很难创建, 但多年来更难维护。一旦主要开发人员离开公司, 就需要更换堆栈。2) 虽然开源技术库很丰富, 但将各种技术分层往往会导致大的延迟问题, 导致客户体验不佳, 有时甚至失去业务。3) 所有这些技术最终都会推高运行应用程序的硬件成本。保持简单可以是更便宜, 更高性能, 更容易管理多年来。
大数据就是数据–它不应该被认为是特殊的或不同的。开发人员面临的数据挑战, 无论您数多, 都是业务条件变化的结果, 也是大量数据使其成为可能的所有这些新的、快速的、地理位置分散的数据和计算的结果。云平台玩家, 并通过构建私有云基础架构。开发人员可以使用许多工具, 其中一些工具对于许多用例来说并不理想。我们经常在我们的客户和潜在客户中看到, 有一个经过批准的工具、数据管理产品列表, 可以使用, 并推荐使用。如果开发商想使用其他的东西, 他们要么必须去 “无赖”, 希望他们未经批准的选择能成功, 试图推动公司对其他东西的认证和采用, 要么他们必须通过正式的程序争取新的东西 “工具的评估、测试和认证。许多开发人员不愿意打这些仗, 所以他们只能使用劣质的工具和平台, 需要编写额外的复杂代码来弥补工具和平台本身的缺陷。例如, 我们在卡桑德拉看到了这一点。尽管使用卡桑德拉面临挑战, 但许多大型企业已将卡桑德拉作为为数不多的主要数据管理平台之一, 而卡桑德拉在操作用例中尤其强大。
开发人员需要记住, 存储大数据是不够的。基于数据的实时事务处理和决策往往是长期目标, 在选择技术时应铭记。
开发人员应继续学习新的和正在出现的语言, 以便从数据 (如 scora、python 和 r) 中获得洞察。但是, 数据的 “通用语言” 是 sql。时间已经证明, 即使是在过去十年中更新的数据管理方法 (如 hdfs), 最终也依赖 sql 进行分析。一个例子是 nosql 的定义是如何扩展到 “不仅 sql” 的, 以及 hadoop 引擎上出现的 sql。因此, 开发人员应继续提高他们在最新语言和工具上的技能, 但在评分和完善其数据模型时, 没有替代基于 sql 的数据分析平台。
说到底, 这一切都与数据有关。如果您尝试锁定数据模型或构建不灵活的应用程序, 您将在未来遇到麻烦。如果您需要原始、完美干净的数据, 您的应用程序将无法在现实世界中工作。
以下是我们与谁交谈:
研究首席数据科学家,
亚当·斯密, 首席运营官,自动化洞察
amy o ‘ connor, cloudera首席数据和信息官
colin britton, devo首席战略官
oj ngo, 首席技术官, dh2i 联合创始人
alan Weintraub, 首席技术官办公室, docauthority
kelly stirman,cmo 和战略副总裁, dremio
dennis duckworth,动物区产品营销总监
nikita ivanov, gridgain systems创始人兼首席技术官
tom zawacki, infugroup首席数字官
ramesh menon, infoworks产品副总裁
ben slate, instaclustr首席产品官
杰夫·弗里德, intersystems产品管理总监
bob hollander, intervision服务 & 业务发展高级副总裁
ilya pukko, jitterbit首席建筑师
rosaria silipo, 首席数据科学家和tobias koetter, 大数据经理兼柏林办事处主任, knime
bill peterson, v. p. 工业解决方案, mapr
杰夫·希利, vertica 产品营销,微焦点
德里克·史密斯, 首席技术官和联合创始人,纳韦戈首席执行官凯蒂·霍夫斯
michael lafleur,普罗尼解决方案架构全球主管
斯蒂芬·布鲁姆首席技术官
com/”target =” _ black “> pubnub
scott parker, sinequa产品营销总监
克拉克·帕特森, 产品营销主管,流线型
鲍勃·夏娃, tibco高级董事
徐宇, 创始人兼首席执行官, 托德·布拉什卡, 首席技术官,虎格图
bala venkatrao, 产品 v. p., unravel
madhup mishra, voltdb产品营销副总裁
alex gorelik, 创始人兼首席技术官,水线数据