2024 年 Kafka 和 Flink 数据流的 5 大趋势

数据流是技术领域最相关的流行语之一，用于构建可扩展的实时应用程序和创新的业务模型。您是否想知道我预测的 2024 年推动数据运转的 5 大数据流趋势？了解 Apache Kafka 和 Apache Flink 扮演什么角色。发现事件驱动架构的新技术趋势和最佳实践，包括数据共享、数据契约、无服务器流处理、多云架构和 GenAI。

一些关注者可能会注意到，这变成了一系列过去关于2021 年 5 大数据流趋势， 2022 年前 5 名，以及 2023 年前 5 名。趋势随着时间的推移而变化，但拥有可扩展的实时基础设施作为中央数据中心的巨大价值仍然存在。使用 Apache Kafka 进行数据流传输是一段让数据动态运转的旅程和演变。

Gartner 2024 年顶级战略技术趋势

研究和咨询公司 Gartner 每年都会定义顶级战略技术趋势。这一次的趋势是围绕构建新的（人工智能）平台并通过自动化创造价值，同时保护投资。在更高的层面上，这一切都与自动化、扩展和开拓有关。以下是 Gartner 的内容预计 2024 年：

这很有趣（但并不奇怪）：Gartner 的预测与我关注的 2024 年 Apache Kafka 数据流的五个趋势重叠并互补。我探讨了数据流如何加快上市速度，并在独立的数据流中实现良好的数据质量。数据产品，以及生成式人工智能等技术的创新。

2024 年 5 大数据流趋势

我发现以下主题在与全球客户、潜在客户和更广泛的数据流社区的对话中更频繁地出现：

通过独立数据产品共享数据以加快创新
数据合同可实现更好的数据治理和政策执行
无服务器流处理，可以更轻松地构建可扩展、弹性的流应用
多云部署可在客户所在地经济高效地交付价值
可靠的生成式人工智能 (GenAI)，嵌入准确的最新信息，以避免产生幻觉

以下部分更详细地描述了每种趋势。这些趋势与许多场景相关，无论您使用开源 Apache Kafka 或 Apache Flink、商业平台还是像 Confluence Cloud 这样的完全托管的云服务。我以现实世界的案例研究开始每个部分。文章末尾包含完整的幻灯片和视频录制。

跨业务部门和组织的数据共享

数据共享是指在不同个人、组织或系统之间交换或提供数据访问的过程。这可能涉及在组织内共享数据或与外部实体共享数据。数据共享的目标是向需要的人提供信息，无论是出于协作、分析、决策还是其他目的。显然，对于几乎所有数据共享用例，实时数据都胜过慢速数据。

NASA：与 Apache Kafka 实时数据共享

NASA 支持天基和地面观测站之间的实时数据。通用坐标网络 (GCN) 允许在天文学社区中发出实时警报。有了这个系统，美国宇航局研究人员、私人太空公司，甚至后院天文学爱好者都可以发布和接收有关天空当前活动的信息。

NASA

Apache Kafka 在数据共享的天文学研究中发挥着重要作用。特别是在涉及黑洞和中子星的情况下，天文学家越来越多地寻找“时域”，并希望研究爆炸瞬变和变化。为此，天文台越来越多地采用流技术向天文学家发送警报，并将数据实时提供给科学用户。

演讲“通用坐标网络：利用 Kafka 在 NASA 进行实时开放天文学”探讨了架构选择、挑战以及在使 Kafka 适应开放科学和开放数据共享方面吸取的经验教训美国宇航局。

NASA 在 Kafka 中采用 OpenID Connect / OAuth2 的方法旨在安全地将 Kafka 从单个组织内部的访问扩展到普通公众的访问。

使用集群链接、流共享和 AsyncAPI 与 Kafka 进行流数据交换

Kafka生态系统提供各种功能来实时共享任何规模的数据。有些是特定于供应商的。我从 Confluence 的角度来看这个，这样你就会看到很多创新的选择（即使你想用开源 Kafka 自己构建它）：

Kafka Connect 连接器生态系统可与其他数据源和接收器集成，开箱即用
HTTP/REST 代理和连接器，供 Kafka 使用简单且易于理解的请求-响应（不幸的是，HTTP 也是流数据的反模式）
使用原生 Kafka 协议（而不是像 MirrorMaker 这样的单独基础设施）进行集群链接，用于在 Kafka 集群之间进行复制
通过访问控制、加密、配额和退款计费 API 进行简单的点击按钮即可公开 Kafka 主题的流共享
生成 AsyncAPI 规范，以便与非 Kafka 应用程序共享数据（如支持 AsyncAPI 的其他消息代理或 API 网关，AsyncAPI 是基于异步事件的消息传递合约的开放数据（类似于 HTTP/REST API 的 Swagger）

以下是汽车行业 Kafka 集群之间双向复制的集群链接示例：

流数据交换

另一个用于轻松访问金融服务中的 Kafka 主题的流共享示例：

汇合流共享

用于数据治理和政策执行的数据合同

数据合同是一种协议或谅解，定义了管理各方之间数据交换或共享的条款和条件。它是一种正式安排，指定如何在实体之间处理、使用、保护和共享数据。当多方需要交互和利用共享数据时，数据合同至关重要，以确保清晰度并遵守商定的规则。

Raiffeisen Bank International：跨国家数据共享的数据合同

Raiffeisen Bank International (RBI) 正在整个集团范围内扩展事件驱动架构，作为全银行转型计划的一部分。这包括创建参考架构以及在 12 个国家/地区重复使用技术和概念。

使用架构注册表的 Apache Kafka 的策略执行和数据质量

良好的数据质量是微服务或数据网格等解耦架构中最关键的要求之一。 Apache Kafka 成为这些架构事实上的标准。但 Kafka 是一个愚蠢的代理，仅存储字节数组。 Apache Kafka 的架构注册表强制执行消息结构。

这篇博文研究了架构注册表的增强功能，以利用策略和规则的数据契约来在字段级和高级用例（例如将恶意消息路由到死信队列）上强制执行良好的数据质量。

使用 Apache Flink 进行无服务器流处理，实现可扩展、弹性流应用

无服务器流处理是指一种计算架构，开发人员可以在其中构建和部署应用程序，而无需管理底层基础设施。

在流处理的上下文中，它涉及数据流的实时处理，而无需显式配置或管理服务器。这种方法使开发人员能够专注于编写代码和构建应用程序。云服务负责运营方面，例如扩展、配置和维护服务器。

Sencrop：使用 Apache Kafka 和 Apache Flink 的智能农业

Sencrop 旨在满足专业农民的需求，提供一系列互联
气象站，可直接从您的地块为您提供精准的农业天气数据。< /p>

整个欧洲有超过 20,000 个联网的农业气象站。
直观、用户友好的应用程序：访问准确的超本地数据以优化您的日常操作。
预防风险并降低成本：简化投入并减少对环境的影响和相关成本。

Apache Flink 成为流处理的事实标准

Apache Kafka 和 Apache Flink 越来越多地联手构建创新的实时流处理应用程序。

两个 apache 项目

图中的Y轴显示每月独立用户数（基于Maven下载统计）。

不幸的是，操作 Flink 集群非常困难。比卡夫卡还难。因为Flink不仅仅是一个分布式系统，它还必须保持应用程序的状态数小时甚至更长时间。因此，无服务器流处理有助于接管操作负担。它也让开发人员的生活变得更轻松。

请继续关注 2024 年提供无服务器 Flink 的令人兴奋的云产品。但请注意，一些供应商使用与 Kafka 相同的技巧：配置 Flink 集群并将其移交给您不是无服务器或完全托管的产品！

多云提供经济高效且可靠的客户体验

多云是指使用多个云提供商的服务来满足特定业务或技术要求的云计算策略。在多云环境中，组织将工作负载分布在两个或多个云平台上，包括公共云、私有云或两者的组合。

多云战略的目标是避免对单一云提供商的依赖，并利用不同提供商的优势来满足各种需求。成本效率和地区法律（例如在美国或中国运营）需要不同的部署策略。有些国家不提供公共云。那么私有云是唯一的选择。

New Relic：超大规模多云 Kafka 部署以实现实时可观察性

New Relic 是一家软件分析公司，为应用程序和基础设施提供监控和性能管理解决方案。它旨在帮助组织深入了解其软件和系统的性能，从而使他们能够有效地优化和解决问题。

可观测性有两个关键要求：第一，实时监控任意规模的数据。其次，在应用程序运行的地方部署监控解决方案。 New Relic 的明显结果是在客户所在的地方使用 Apache Kafka 和多云处理数据。

可靠的生成式人工智能 (GenAI)，具有准确的上下文以避免幻觉

生成式人工智能是一类人工智能系统，通常通过从现有数据中学习模式和结构来生成新内容，例如图像、文本甚至整个数据集。这些系统使用神经网络等技术来创建未明确编程的内容，而是根据训练期间学到的模式和知识生成的内容。

元素认知：由 Apache Kafka 提供支持的 GenAI 平台

Elemental Cognition 的 AI 平台开发负责任且透明的 AI，有助于解决问题并提供可理解和信任的专业知识。

Confluence Cloud 为 AI 平台提供支持，以实现可扩展的实时数据和数据集成用例。我建议您查看他们的网站，从各种令人印象深刻的用例中学习。

元素认知

使用大型语言模型 (LLM) 通过 Apache Flink 和 GenAI 进行状态流处理

使用 Kafka 和 Flink 进行流处理，实现实时数据和历史数据的数据关联。有状态流处理器从 CRM、忠诚度平台和其他应用程序获取现有客户信息，将其与客户对聊天机器人的查询相关联，并对 LLM 进行 RPC 调用。

流处理

Kafka 和 Flink 2024 年数据流趋势的幻灯片和视频录制

您想查看更多详细信息吗？本部分提供了整个幻灯片和一个引导您浏览内容的视频。

幻灯片

这是幻灯片来自我的演示文稿。

视频录制

这是我的演示文稿的视频录制。

2024年让数据流更加成熟，Apache Flink成为主流

对于 2024 年的数据流趋势，我有两个结论：

数据流在成熟度曲线上呈上升趋势。越来越多的项目构建流应用程序，而不仅仅是利用 Apache Kafka 作为数据库、数据仓库和数据湖之间的哑数据管道。
Apache Flink 成为主流。该开源框架凭借可扩展的引擎、SQL、Java 和 Python 等多个 API 以及来自不同软件供应商的无服务器云产品而大放异彩。后者使构建应用程序变得更加容易。

对于具有微服务或数据网格的成功企业架构来说，通过数据契约进行数据共享是强制性的。数据流是生成式人工智能等技术趋势创新的基础。因此，我们正处于采用 Apache Kafka 和 Apache Flink 等数据流技术的临界点。

2024 年，与 Apache Kafka 和 Apache Flink 一起启动数据的最相关、最令人兴奋的数据流趋势是什么？你们的策略和时间表是什么？您是否使用无服务器云产品或自我管理的基础设施？让我们在 LinkedIn 上联系并进行讨论！通过订阅我的时事通讯随时了解新的博客文章。