为了了解大数据的当前和未来状况, 我们与来自28个组织的 31名 it 高管进行了交谈。我们问他们: “你认为什么是成功的大数据计划的最重要因素?”
使用案例
- 选择正确的项目–一个明确定义的问题, 这是一个痛点。从小开始, 简单。它需要规划和组织的支持以及高管的赞助。这就需要通过新的政策和程序进行文化变革。
- 根据公司和项目的规模, 有必要制定计划。这个计划不一定要从一开始就完美;它可以通过一个试点项目进行细化。然而, 在启动大数据计划之前, 有必要定义: 1) 大数据技术触及的项目。2) 具有关键能力的关键人物。3) 时间范围。4) 成功因素/指标, 以检查的过程中, 以确定项目是否在轨道上 (仍然有用)。5) 正确的工具来接收、转换和分析数据, 并最终将结果可视化。该工具还应与各种其他开源和广泛使用的数据分析和数据可视化工具无缝集成。
- 收集他们需要的数据, 并确定他们在数据中的价值。公司不知道他们想用 ai 做什么。定义他们试图解决的业务问题是转型的。让他们看看自己的业务数据, 以及他们拥有的数据中的价值主张在哪里。他们用这些数据做出了什么决定?ml 依赖于可以自动做出的决策的统计信息。
- 任何大数据计划都应该考虑以下因素: 1) 你想推动哪些业务决策?2) 哪些技术和分析方法将有助于实现这些决定?3) 您计划如何实施从大数据中获得的见解?4) 你要跟上的质量尺寸是什么?5) 项目团队中的人员需要什么样的技能?
- 从组织上讲, 必须有一套明确的目标和实现这些目标的任务。这似乎很明显, 也不是大数据举措所独有的, 但往往缺失。 从技术上讲, 使用多种不同的工具和数据模型查看数据的灵活性非常重要。大多数重要的应用程序都需要多个数据模型。即使一开始你似乎可以用一个模型 (如关系表) 做所有的事情, 你也经常会发现在项目中期有一个新的要求、机会或工具, 可以更好地使用不同的模型。对数据源进行清查和评估数据质量也是至关重要的。重要数据通常分布在多个孤岛上, 因此互操作性和数据转换是成功项目的关键部分。
数据
客户有许多不同的数据源–很难维护主数据引用, 而且您最终会得到大量的重复。主数据管理 (mdm) 问题是可以应用于其余数据的上下文。它是有大数据的 ai/ml 的基石。弥合筛选数据的差距, 使科学家和分析师更加有效。
数据虚拟化引起了人们的极大兴趣。访问所有的来源, 以用于任何潜在的用途-分析或视觉或任何用户。数据和分析之间存在瓶颈。我们需要做出改变。将所有数据放在仓库或湖泊中将不起作用, 因为总会有更多的数据。定义最关键的用例。确定数据阻碍您的位置。
质量是关于控制的, 而不是数量的。源控制、安全性和保留。您需要可靠和有效的数据。对分析的信任程度取决于数据的可靠性。非结构化数据来自文件共享、ecm, 并放入大型数据存储库, 用于快速做出明智的决策。我们有能力查看源存储库, 将相似信息放在一起, 并针对类别实施策略。敏感信息可能具有 “高度安全” 的安全许可, 并且可能无法用于大型数据存储库。查看有关如何处理数据的信息、生成类别和生成策略。如果安全策略发生更改, 则能够将更改应用于基本文件文档, 并允许根据新的安全协议使用。
虚拟数据湖具有多个数据源, 您需要能够访问所有数据。odata 是一个标准的微服务推送。以结构化格式有效地获取数据的方法。可以在任何数据库上启用 api 的 jdbc。我们能够实时查询数据。odata 在添加字段和列方面是动态的, 并启用了虚拟数据湖–它可以是 salesforce, 但数据可以驻留在任何地方。获取实时数据更新。
为您的客户提供更高的价值。数据具有内在的价值。通过挖掘过程, 您可以发现改进现有产品和为客户创造新见解的机会。
随着大量数据的出现, 您需要担心速度和种类。您如何处理您正在摄入的数据量?您是否能够将您正在输入的数据与各种数据源集成?
组织正在收集各种数据, 并希望查看这些数据。大数据的运作正在成为一项可执行的任务。以往项目的答案是数字转型的结果。感觉我们正在将大数据从一个项目转移到一切如常。tb 三角-关于功能、实时流媒体平台和历史数据的遗留系统。一旦你到了 tb, 三条腿中的一条就断了。您不可能拥有所有三个现有技术。这是一个多 tb 的问题。
在 hadoop 集群中, 将数据放到一个位置, 具有一个真实来源。如何使用数据来确保数据, 以确保人们做出数据驱动的决策。使用数据来提高企业的各个级别。帮助分析人员和组织从数据中讲述故事。以前只使用视觉, 但在仪表板之后该怎么办?围绕数据进行沟通的最后一步是以他们能够理解的方式与观众进行交谈–为他们提供一个相关的、可操作的故事
你想完成什么?
知道数据中的内容。如何理解它。对所有数据进行爬网并对其进行配置文件, 以便您可以使用适当的业务术语自动标记。寻找具有策略号、部门 id 的数据集, 通过字段并像人类分析师一样将两者分开。优化和使用指纹数据, 这样您就不必在每次出现新结果时都重新搜索。使用指纹训练系统和识别的东西。一旦所有内容都被标记, 您就可以搜索内容并了解数据, 应用业务策略。一致的标签允许您通过自动标记数据来编写数据的策略。
每个人都听说过 (甚至使用过) “数据沼泽” 这个词。当公司错误地混合了来自不同来源、不同信任级别或确定性级别的数据时, 就会出现这种情况。由于无法评估任何特定数据的值和准确性, 因此无法对生成的计算或分析具有很高的信任度, 因此整个数据收集的值会降低。因此, 数据准确性和正确性对于所有数据项目都非常重要-知道您使用的数据是正确的、真实的、最新的, 来自信誉良好或受信任的来源 (这可以帮助其他评估)。同样, 到目前为止, 每个人都听说过大数据的三个 v (有时扩大到五个或更多的 v)。卷通常是大多数人关注的焦点–处理可用的数据量越来越大。速度, 即提供新数据的速度, 也在继续增加。而 “品种” 被用作 nosql 平台兴起的原因, 这样可以很容易地处理传统 rdbms 系统无法处理的新的非结构化数据。
在技术方面, 最成功的大数据计划都有一个共同点, 即数据驱动组织依靠专门构建的高性能、开放的数据分析平台, 完全准确地采取行动的能力。要使业务取得成功, 他们需要在几秒钟内完全准确地从这些数据中获得洞察。例如, 在保健方面, 医院寻求预测和预防败血症等感染。如果没有一个基础平台能够非常快速地分析所有数据 (而不是数据样本), 那么这种感染就会无法被发现和处理。这就是为什么大数据分析计划不仅是关键任务, 而且是生活关键。
工具
- 在过去的五年里, 我们一直在将数据输入数据湖。现在我们看到需要从我们的数据中获得更好的见解和结果。预测分析, ml, ai, 更深入的模式匹配。关联和查找数据湖中的数据模式。增强数据湖中的分析数据。第一种方法是使用图形来计算新信息的能力。将这些点与新的数据集连接。ml 更强大, 因为我们现在能够更快地分析更多的数据。内置的 ml 内的图形使我们能够看到医生/病人是如何形成一个社区。预测最好通过图形本身来解决
它能够提供证据, 因为它更容易看到连接和路径。
您需要一个 “简单按钮” 来分解数据处理平台中固有的复杂性–hadoop、spark、卡夫卡。利用工具简化并更快地取得更多进展。云一直很大。组织正在跨多个云提供商对冲他们的赌注。aws 和 azure 的出现最多, 但人们希望进行混合和匹配。在不同的地方访问哪些服务?在云端的 hadoop, 雪花。人们比以往任何时候都更倾向于利用云。
查看用于收集性能统计、趋势分析和报告的软件。智能扩展和向上扩展。确定解决业务问题所需的资源。根据需要向上和向下旋转资源和服务器。收集和分析数据以实现流程自动化。
使用容器构建 ai 和分析应用程序。存储、搜索和使用以影响分析应用程序。这是容器成熟度的函数。智能公司正在保存所有其他数据-事务、旧数据和容器数据。需要保留和存储尽可能多的数据。
其他
- 把操作的一侧弄好。您需要能够可靠地运行解决方案以满足业务需求。我们专注于使用活动应用程序操作大数据。应用程序始终处于打开状态, 我们对操作有纪律。
- 在数据方面取得成功的最佳做法是什么?五件事: 1) 文化–改变事物, 拥有数据驱动的文化。让企业中的执行赞助商利用数据进行创新。其中一个有用的工具是跨公司数据和分析社区, 用于共享项目、见解、方法和数据。2) 如何围绕收集、创建、摄入、管理、使用来收集、创建、接收、获取见解。所需的各类技能。集中式-数据工程非常专注于构建数据资产。分析和科学家分散与业务一致。3) 如何在敏捷、精益的世界中构建路线图。确定两年战略举措。管理风险, 物联网, 收集/使用客户数据。收集更多数据, 更好地分析, 获取洞察并将其集成到业务流程系统中。4) 坚持寻找见解并将其投入生产。它们会影响哪些业务流程?我们可以做出哪些预测来帮助客户?如何集成到业务流程或系统中。5) 正确调整数据治理的大小。希望超级用户能够访问大量数据。相反, 您不希望高级用户不适当地访问和使用数据。审核如何查找洞察、数据的血统、以这种方式适当同意使用数据。
- 在过去五年中, 从构建数据湖中获得预期设置-很容易获得数据, 但我们如何获得价值呢?有多种挑战。大多数人都不容易使用该系统。只有牧师, 软件工程师, 可以进入数据湖。其次, 数据往往处于原始状态, 诚信没有保障, 治理也不到位 “
重置对数据湖和大数据之旅的期望。您可以采取的后续步骤-继续使用传统的数据仓库、数据集市方法。如果在云中有不同的选项, 或者您可以查看数据即服务的理念。以思维的速度自助。灵活、灵活, 提供自助服务体验。
我们与客户合作, 在整个过程中已经使用大数据为客户 360, etl 处理。他们都有大数据, 很可能与 cloudera 或 hortonworks 有硬件和关系。当最终用户开始使用该平台时, 运营团队是第一道防线。无法实现业务目标。用于欺诈建模的火花。模型失败, 事务泄漏。找出如何确保欺诈管道按时完成。客户端希望运行大数据和 hadoop 的报告, 这些报告没有按时完成, 也不知道原因。让生活更轻松。了解发生了什么, 问题出在哪里, 以及如何解决。关于使用 ai/ml 做什么的规定建议。
最重要的因素是创建一个大数据系统, 允许在创建数据时实时接收、事务和分析数据。创建一个需要 etl 过程的系统往往会导致系统不够快、响应不够, 无法推动实时决策。
我们认为数据管道的开发和操作自动化是绝对关键的。组织通常主要关注加快开发过程, 结果在无法投入生产时, 他们的项目就会陷入困境。创建可重复、可扩展和弹性的数据管道有一系列挑战, 这些挑战与偶尔运行一次数据分析不同。大数据项目的开发和持续管理及治理必须自动化, 以实现真正的大数据敏捷性。
大数据的成功来自三个关键的程序要素: 1) 没有最高水平的数据准确性和完整性的准确性、分析和定位将不会有效。而且, 事实上, 在很多情况下, 可能会花费更多的钱或更低的客户满意度。2)粒度与流行的信念相反, 成功不一定是 “大数据”, 而是正确的数据, 几乎没有属性和大见解。为了使大数据有价值, 我们必须确保与我们的数据相关的属性和见解的深度粒度。3)激活大数据和出色的洞察是无效的, 没有激活。我们与客户合作, 开发可通过 bi 团队、saas 平台和市场销售计划进行激活的数据和智能。
以下是我们与谁交谈:
linkedn. com/kelly大幅度 man/”target =” _ black “> kelly stirman, cmo 和 v. p. 策略, dremio
dennis duckworth,动物区产品营销总监
nikita ivanov, gridgain systems创始人兼首席技术官
tom zawacki, infugroup首席数字官
ramesh menon, infoworks产品副总裁
ben slate, instaclustr首席产品官
杰夫·弗里德, intersystems产品管理总监
bob hollander, intervision服务与业务发展高级副总裁
ilya pukko, jitterbit首席建筑师
rosaria silipo, 首席数据科学家和tobias koetter, 大数据经理兼柏林办事处主任, knime
bill peterson, v. p. 工业解决方案, mapr
杰夫·希利, vertica 产品营销,微焦点
德里克·史密斯, 首席技术官和联合创始人,纳韦戈首席执行官凯蒂·霍夫斯
michael lafleur,普罗尼解决方案架构全球主管
stephen blum, cto, pubnub
scott parker, sinequa产品营销总监
克拉克·帕特森, 产品营销主管,流线型
鲍勃·夏娃, tibco高级董事
徐宇, 创始人兼首席执行官, 托德·布拉什卡, 首席技术官,虎格图
bala venkatrao, 产品 v. p., unravel
madhup mishra,产品营销副总裁,
com/”target =” _ black “> voltdb
alex gorelik, 创始人兼首席技术官,水线数据