为了了解大数据的当前和未来状况, 我们与来自28个组织的 31名 it 高管进行了交谈。我们问他们: “你对大数据的状态有什么顾虑吗”以下是他们告诉我们的:

安全

  • 整个方法带来了移动数据的安全挑战。假数据生成。内部攻击。api 漏洞。
  • 我更担心的是内部故障, 而不是外部故障。员工可以访问他们不应该访问的数据。人为错误因素。人类在这个过程中制造了漏洞。没有受过良好的训练或自满。
  • 安全和隐私。物理或虚拟数据湖有很多非常重要的东西。

质量

  • 对质量和背景相关性重视不够。技术的趋势是收集更多更接近最终用户的原始数据。危险在于原始格式的数据存在质量问题。缩小最终用户和原始数据之间的差距会增加数据质量方面的问题。中间的东西正在精简, 但原始数据有质量问题, 这很好。保持对质量数据的关注。一旦您开始将处理移交给 ai/ml, 您就需要了解数据。从质量、格式和上下文来看, 数据的重要性变得更加重要。
  • 信息的生命周期, 以实现治理的质量和适当的治理和执行。经适当批准的; 经适当批准的什么是记录?我们如何管理新记录中的合规性视角?可靠性、质量和合规性等同于治理。
  • 随着分析速度的加快, 需要更快地访问数据。人类开始被从这个过程中删除。监督在哪里?我们如何知道应使用用于驱动分析和操作的数据?我们如何知道这些算法是适当的、合乎道德的和无偏见的, 它们正在继续以这些方式执行?当 “坏数据” 进入系统时, 即使是意外的情况下, 会发生什么?它是被发现和拒绝, 还是会在所有由此产生的行为都被污染的情况下进行处理?这些都是对我们目前掌握大数据的一些关切, 也是需要解决的问题。
  • 数据完整性。确保来自可靠来源的数据没有错误或 “干净”, 必须是数据提供商和我们的客户的优先事项。完整性较低的数据会降低业务分析和智能的准确性。准确性越低, 目标选择和转换合适受众的效率越低, 客户满意度降低的风险也就越低

2;颜色: rgb(34, 38, 53);保证金: 20px 0px 5px;字体大小: 30px;清楚的: 两者;字母间距:-0.5 px;字体样式: 正常;字体-变种连字: 正常;字体变量帽: 正常;孤儿: 2;文本对齐: 开始;文本缩进: 0px;文本转换: 无;空白: 正常;寡妇: 2;字间距: 0px;-webkit-text-宽度: 0px;背景颜色: rgb(255, 255, 255);文本装饰风格: 初始;文本装饰颜色: 初始; “> 数据量

  • 查看如何处理新数据以及如何应用新数据。新数据的速度在增长, 如何将其应用于我们目前正在做的工作?一只脚在路上, 一只脚在未来。我们如何利用新数据进行创新?此外, 还可以对数据的业务案例进行前瞻性思考。高管难以回答他们想用数据做什么的问题, 即如何很好地利用数据。
  • 我相信数据可以给公司和人类带来巨大的变化。只是太多了。数以十亿计的田地。我们必须记录数据, 以便能够从中获得价值。数据超出了管理和理解数据的能力。你最终会得到不可预测的结果和著名的失败。通过将管道安装到位来防止故障, 以便数据可用。

商业案例

  • 更关心的是 ai/ml 周围的夸张. 需要回到解决问题和创造价值的上来。一般大数据已经通过弧线, 阿能 ml 现在就在其中。需要从数据中创造价值。
  • 当今大数据面临的最大挑战往往是如何以足够快的速度从数据中获取价值, 以推动实时决策。这也是我们在采用内存中计算解决方案方面实现高速增长的原因之一, 这些解决方案提供了公司实现大数据目标所需的速度和可扩展性。
  • 一个值得关注的问题是市场幻灭。关于大数据的炒作太多, 一些组织有不切实际的期望, 随着炒作演变为对机器学习和 ai 的炒作, 有可能项目失去任务授权, 或者失败的项目会引起强烈反响。数据湖倡议尤其如此, 这些倡议往往是在没有明确应用的情况下开始的, 成为无法明显提供价值的数据沼泽。

其他

  • 最有趣的是围绕商业角色和开源的持续对话。这个行业并没有确定最好的办法。查看各种开放式核心和支持合同

允许商业实体在提供回报的同时创造收入的模式是什么?

  • 我个人担心数据的道德处理。我们要做到的是这样一种模式, 即我们渴望把一切都绕开, 而不是研究数据如何使用的长期影响。什么是可以接受的, 什么是不可接受的?企业是开源中的一些收购的地方–红帽、cloudera–平台空间是如何从那里演变的?说到底, 大数据作为一个概念依然存在。它的实现方式可能会发生变化。
  • 就在几天前, 我们得到了大数据领域两名历史玩家合并的消息。访问云技术中的历史参与者领域可能会给当前的大数据技术带来一些变化, 例如托管大数据框架 (如 amazon emr 或 azure hdinsight) 而不是内部部署数据中心的趋势。
  • ai 使用得太频繁了。需要让人参与界定问题、解释结果和应用结果。
  • 随着公司转向抽象复杂性的云服务, 成本可能会失控。可能会卡住, 而不会从服务中提取。
  • 知道如何有效地使用它的人。让合适的人做正确的基础设施。较小的客户没有工具或基础设施。转到云服务模型。需要复杂和工具来获得他们所期望的性能水平。确保技术与预置和云用例相关。
  • 随着大量实验的进行, 大数据的状态正在不断变化。以下是我对它的最大关切: 1) hadoop 市场崩溃–虽然 hadoop 被吹捧为为大数据提供经济解决方案的银弹, 但 hadoop 并没有达到它的炒作, 我们看到所有的供应商下一步都转向 ai 和 ml。2)流行语宾果-我对大数据的另一个担忧是, 所有的解决方案听起来都是一样的。我不断从客户那里听到的一点是, 他们需要在购买前尝试一下。他们看到 “流行语宾果” 与这么多大数据供应商一起玩, 他们不会信任他们中的任何一个前进。3) nosql 不符合其炒作–noql 声称要解决困扰 rdbms 40多年的网络规模问题, 其横向扩展架构。然而, 他们开始像 hadoop 一样失败。他们在扩展过程中放弃了 sql 和 acid。这就像把孩子和洗澡水一起扔了, 而不是顾客想要的东西。
  • 不可否认的是, 大数据将继续增长。这对企业来说是一个挑战和机会。捕获、存储和管理越来越大的数据是很有挑战性的。因此, 由于成本的原因, 一些组织删除或干脆忽略了来自制造设备的数据。这是可以理解的, 但那句老话听起来是真的, 因为企业需要花钱赚钱。而且, 更重要的是, 传统企业可能会通过不投资于其大数据分析计划来省钱, 但它们有可能失去市场份额, 面临资金充足的数据联通最终灭绝的风险。你只需要把 uber 看作是一个渴望数据的破坏者的例子, 它可能会彻底改造我们今天所知道的交通行业。所以, 我担心的是, 那些不投资于能够分析数据的数据分析平台的组织, 在数据可能存在大规模的情况下, 可能会错过使用数据作为差异化的一生机会
  • 被卡住的数据计划仍然被卡住, 因为组织认为成功根本不可能。与此同时, 市场继续发展, 现在的自动化程度甚至比一年前还要大。有工具可以帮助这些公司成功, 而不需要大量的工程专家。他们只需要接受教育, 一年前不可能的事情现在可能是可能的, 因为更多的数据工程流程已经自动化。

    以下是我们与谁交谈:

    Comments are closed.