moss-covered-rocks-in-stream

大数据可能是过去十年中被滥用最多的词汇之一。它得到了企业经理、技术专家和资深学者的广泛推广、讨论和传播。诸如”数据是新石油”这样的口号被广泛接受为不容置疑的真理。

这些信念推动Hadoop技术向前发展。其堆栈以前由雅虎开发,现在归Apache软件基金会所有,被公认为”大数据解决方案”。

您可能还喜欢:
流的工作原理。

许多公司开始提供商业、企业级和支持版本的 Hadoop,直到它开始被许多行业(从中型公司到财富 500 强)所采用。

分析由异质来源产生的大量数据,试图提高公司的竞争力和盈利能力的可能性,是对 Hadoop 进行投资的关键原因。

另一个重要点是,使用 Hadoop 取代昂贵的旧数据仓库安装,同时努力提高性能和数据可用性,同时降低运营成本。

然而,在过去几年中,越来越多的分析师关注大数据市场,开始发表文章,宣布Hadoop世界即将崩溃。这些陈述背后的主要动机可以概括如下:

  • 部署模型正在从本地解决方案转向混合、完整和多云体系结构。Hadoop 并不是一种完全做好云准备的技术。此外,云供应商多年来一直在销售更便宜、易于管理和使用的解决方案。
  • 机器学习技术和平台正在迅速达到生产力成熟度。Hadoop 堆栈不是围绕机器学习概念而构思的,即使多年来添加了对它的支持。
  • 先进和实时分析市场正在迅速增长。Hadoop 堆栈似乎不适合实现这些创新类型的分析。

简单地说,分析师们开始宣称Hadoop不再是一项创新技术,为了解决未来的挑战,需要将一些不同的东西放在盘子里。

相反,从更实证的角度来看,分析我们个人过去的经验,基于 Hadoop 堆栈的解决方案被证明是很难和昂贵的开发和维护。此外,具有适当技能和任何经证明经验的专业人员不容易被征聘。

因此,许多采用者最终没有达到其在技术之上开发的垂直解决方案的成熟度。其结果是,将这些系统从 PoC 和原型状态转移到真正的生产状态似乎几乎是一个遥不可及的终点线。

这些并不是最近围绕 Hadoop 技术以及”大数据”运动出现失望的独特关键原因。许多 Hadoop 供应商使用的建议可以确定主要动机之一,将Data Lake等概念定位为数据管理的核心从经济和项目治理的角度来看,大多数这些举措最终证明确实昂贵。

这些复杂的存储库充满了历史数据,在幸运的情况下,引用到最后一个关闭日的一系列快照。虽然这在很多业务场景中是可以接受的,但企业世界需要对所发生的事情立即做出反应。因此,公司越来越要求更准确、更快速的洞察,以便立即预测可用输入操作集可能产生的结果和情景。

如今,有效解决这些迫切需求的最佳方法之一是采用事件流处理体系结构。回到各种分析师提出的观点,很明显,事件流处理至少可以成为一个完美的主干:

  • 实施多云架构(跨不同数据中心和云供应商实时或近乎实时地集成分布式数据)。
  • 机器学习模型的部署和监控,享受实时预测的强大功能。
  • 实时数据处理,同时分析历史数据,同时不损失准确性。

由于这些原因,流技术每天都在进步,通过批处理,将市场份额消耗到更多规范的解决方案。

Hadoop 供应商大多数决定通过将其大数据分发(开源环境提供的流式处理框架之一)纳入其中来满足这些迫切需求。选定的解决方案通常是阿帕奇风暴或阿帕奇火花流。

不幸的是,结果是最终增加了更多的复杂性到他们的堆栈;所提供的产品最终包括大量的计算引擎,使得选择适合工作的工具对于像建筑师和开发人员这样的操作人物来说很痛苦。

相反,其他供应商正试图通过使用流引擎进行批处理,转而采用新的方法来处理有界(例如文件)和无界(例如无限传入的推文序列)类型的数据源的组合。

流和批处理之间的关系是什么?虽然在批处理框架之上运行流处理作业几乎是不可能的,但相反的情况在很大程度上是可行的。例如,我们可以使用流处理框架读取文本文件,将每个文件行转换为单个事件并处理它。另一方面,批处理框架不能处理每个事件,尽管它可以处理一组事件:要达到类似的结果,必须连续计划。

结论

总之,流处理可以标识为批处理的超集。因此,批处理可以识别为流处理的特殊情况。

总之,使用事件流处理引擎可以:

  • 处理绑定数据(静止数据)和未绑定数据(动态数据)。
  • 提供可调低延迟(从毫秒到秒)的流程数据仍以高吞吐量执行。
  • 提供不同的处理语义(最多一次、至少一次或完全一次)。
  • 以分布式方式处理异构数据,横向扩展系统。

然而,这一切有阴暗的一面;构建和开发基于流处理的解决方案似乎不像看起来那么容易。尽管此类技术是轻量级的,并且通常需要一个不太复杂的堆栈,但它们最初并不简单,以正确的方式使用

相关文章

Comments are closed.