随着大数据环境的日益发展,流数据计算变得越来越普遍。许多企业也采用或转向流式处理消息传递,而不是仅仅依靠 REST API。

Apache Flink 已成为在很短的时间内流式传输数据计算的常用框架。与 Apache Spark 相比,它有许多优点(例如,轻量级、丰富的 API、开发人员友好、高吞吐量、活跃和充满活力的社区)。

当我开始从事一个新项目时,我必须处理流数据(例如事件、服务器日志),经过初步研究,我发现Flink最适合我的特定用例。

此博客基于我在 Flink 中的工作,从一个简单的示例开始,以真实用例的子集开始。我也分享一些例外和方法来解决这些问题,这将有助于初学者。

您可能还喜欢:ETL 的状态:传统云

链接到本系列中的文章和内容的简短摘要。(所有代码示例都可在GitHub上找到。

第 1 部分入门指南,我分享了一个使用自定义 SourceFunction 和( TumblingWindow 固定大小、固定时间、非重叠)作为流生成的整数总和的示例。

第 2 部分本文第 1 部分对此进行了改进,并分享了一个键控数据流计算的示例。这一个使用Flink reduce 的方法 sum ,以达到相同的结果。

第 3 部分换档,我采取 Flink 的实际用例的子集(请参阅本文从zalando.com)。我分享了一个示例,说明如何处理连接事件以识别简单的模式。

第 4 部分– 根据第 3 部分中的示例进行改进,我分享了如何使用 Flink 的前 5 大企业 ETL 工具.

  • 实施ETL工具之前需要了解的事项
  • 为数据驱动时代转换 ETL.
  • Comments are closed.