金融服务行业人工智能的数据流（第 1 部分）

Posted by Socrates on 2024年2月1日 | Featured

在金融服务行业 (FSI) 不断发展的格局中，组织面临着众多阻碍其实现人工智能驱动转型的挑战。遗留系统、严格的法规、数据孤岛和缺乏敏捷性造成了混乱的环境，需要更有效的方式在整个组织内使用和共享数据。

在这个由两部分组成的系列中，我深入研究了我个人的观察，剖析了 FSI 内部普遍存在的问题，并仔细检查了阻碍进展的因素。我还将强调整合遗留系统、应对严格监管环境以及打破阻碍敏捷性和数据驱动决策的数据孤岛的必要性。

最后但并非最不重要的一点是，我将介绍一种经过验证的数据策略方法，其中采用数据流技术将帮助组织彻底改造其数据管道，从而实现实时数据摄取、高效处理以及不同系统的无缝集成。如果您对展示所有实际操作的实际用例感兴趣，请留意我们即将发布的报告。

但在深入研究解决方案之前，让我们先了解问题。

复杂性、混乱和数据困境

走进大型金融机构往往会揭示出令人着迷的见解：两年来的技术进步在我眼前展开。核心业务继续依赖于运行 COBOL 的大型机系统，而辅助服务层充当访问核心和扩展服务产品的网关，而这些服务产品无法在核心系统中完成。

数据经过大量批量处理，并在夜间进行 ETL 过程，以促进这些层之间的传输。实时数据访问带来了挑战，即使是简单的状态更新也需要通过网关进行多次尝试和查询。

建立了数据仓库，通过ETL作为数据转储场，其中近一半的数据未被使用。商业智能 (BI) 工具提取、转换和分析数据，为业务决策和产品设计提供有价值的见解。由于要处理的数据量巨大，批处理和分布式处理盛行，导致数据孤岛和变化趋势的延迟反映。

近年来，出现了更敏捷的方法，数据转向二进制键值格式，以实现更好的云可扩展性。然而，由于架构的复杂性，服务之间的数据传输成倍增加，导致维护数据完整性面临挑战。此外，这些创新主要迎合新项目，让开发人员和内部用户在系统内的多个环节中导航来完成任务。

<表格样式=“最大宽度：100％；宽度：自动；表格布局：固定；显示：表格；”宽度=“自动”>
<标题>

现实理想状态

<正文>

数据孤岛

财务运营或团队地理位置的分散性。不同的部门或业务单位维护着自己多年来实施的数据和系统，导致数据孤立且难以协作。已经有几次尝试打破孤岛，而这些解决方案在某种程度上导致了以下许多问题之一（即数据管道混乱）。

整个组织的数据综合视图。能够在需要时快速查看和提取数据。

旧系统

金融服务机构 (FSI) 经常需要处理已经存在多年的遗留系统。这些系统通常缺乏快速适应变化的敏捷性。因此，访问和处理这些遗留系统中的数据可能非常耗时，导致延迟，有时甚至导致完全无法充分利用最新数据。

与旧系统和现代化 ETL 管道的数据同步。迁移并退出旧流程。

数据过载

来自各种来源的大量数据（包括交易、客户互动、市场数据等）可能会令人难以承受，使得提取有价值的见解和得出可操作的情报变得具有挑战性。这往往会导致高昂的存储费用，并且大部分时间数据没有得到充分利用。

进行基础设施变革，以采用更大的数据摄取量、有计划的数据存储策略以及通过充分的故障转移和恢复计划安全保护和存储数据的更具成本效益的方式。

数据管道混乱

管理 FSI 内的数据管道可能是一项复杂的工作。由于数据源、格式和集成点众多，数据管道可能会变得支离破碎且混乱。不一致的数据格式、不兼容的系统和手动流程可能会导致错误和效率低下，从而使确保数据流畅和保持数据质量变得具有挑战性。

数据目录是一个集中式存储库，充当组织数据资产的全面库存和元数据管理系统。

减少冗余、提高效率、简化数据流以及引入自动化、监控和定期检查。

开放数据计划

随着合作伙伴协作和政府开放 API 项目的需求不断增加，FSI 面临着调整其数据实践的挑战。与外部合作伙伴和政府实体安全、无缝地共享数据的需求正在不断增长。金融服务机构必须建立框架和流程来促进数据交换，同时确保隐私、安全和遵守法规。

安全且定义明确的数据访问 API，可通过通用标准确保数据互操作性。另外，还可以对接入点进行版本和访问控制。

显然，金融服务机构试图进入人工智能领域面临着很多障碍。现在，让我们重点关注组织用于将数据从 A 点移动到 B 点的不同数据管道，以及许多团队面临的挑战。

了解批量、微批量和实时数据管道

移动数据的方法有很多种。为了简单起见，我将今天最常见的管道分为三类：

批量
微批次
实时

1。批处理管道

这些通常用于一次按计划的“块”处理大量数据 – 通常是在夜间处理、定期数据更新或批量报告中。批处理管道非常适合即时数据处理并不重要且输出通常是报告的场景，例如投资概况和保险索赔。

主要的挫折包括处理延迟、可能过时的结果、可扩展性复杂性、管理任务序列、资源分配问题以及提供实时数据见解的限制。我曾亲眼目睹一位保险客户因为需要处理的数据量（更新保费、投资详细信息、文件、代理佣金等）而在晚上跑出窗外进行批量处理。

并行处理或map-reduce是一些缩短时间的技术，但它们也带来了复杂性，因为并行都要求开发人员了解数据的分布、数据的依赖关系，并了解数据的分布情况。能够在map和reduce函数之间进行操作。

2。微批量管道

微批处理管道是批处理管道的一种变体，其中数据以更小、更频繁的批次定期处理，以实现更低的延迟和更新鲜的结果。它们通常用于金融交易洞察、点击流分析、推荐系统、承保和客户流失预测。

微批量管道的挑战包括管理处理频率和资源使用之间的权衡，处理微批量之间潜在的数据不一致，以及解决启动频繁处理作业的开销，同时仍保持效率和可靠性。

3。实时管道

这些管道在数据流入后立即对其进行处理。它们提供最小的延迟，对于需要即时反应的应用程序至关重要，例如实时分析、交易欺诈检测、监控关键系统、交互式用户体验、持续模型训练、和实时预测。

然而，实时管道面临着处理高吞吐量、保持一致的低延迟、确保数据正确性和一致性、管理资源可扩展性以适应不同的工作负载以及处理潜在的数据集成复杂性等挑战，所有这些都需要强大的架构设计并认真执行，以提供准确、及时的结果。

总而言之，以下是一张表中有关所有三个管道的重要信息。

<表格样式=“最大宽度：100％；宽度：自动；表格布局：固定；显示：表格；”宽度=“自动”>
<标题>

批量微批量实时

<正文>

节奏

安排更长的间隔

预定的短间隔

实时

数据大小

大

定义的小块

大

缩放

垂直

水平

延迟

高（小时/天）

中（秒）

低（毫秒）

数据存储

数据仓库、数据湖、数据库、文件

分布式文件系统、数据仓库、数据库

流处理系统、数据湖、数据库

开源技术

Apache Hadoop、Map-reduce

Apache Spark™

Apache Kafka®、Apache Flink®

行业用例示例

移动文件（客户签名扫描），以及从主机传输核心银行数据或核心保单信息的数据。用于机器学习的大型数据集。

准备近乎实时的业务报告，并需要使用来自大型数据集查找的数据，例如生成投资风险管理审查。每日市场趋势分析。

实时交易/欺诈检测、即时索赔批准、监控关键系统和客户聊天机器人服务。

顺便说一句，有些人可能将管道分类为 ETL 或 ELT。

ETL（提取、转换和加载）在将数据移至数据仓库之前在单独的处理服务器上转换数据。
ELT（提取、加载和转换）首先在数据仓库中转换数据，然后再到达目的地。

根据数据的目的地，如果数据要进入数据湖，您会看到大多数管道都在执行 ELT。而对于数据源，例如数据仓库或数据库，由于它需要以更结构化的方式存储数据，因此您会看到更多的 ETL。在我看来，所有三个管道都应该使用这两种技术将数据转换为所需的状态。

使用数据管道的常见挑战

管道分散在各个部门，IT 团队使用各种技术和平台来实施它们。根据我自己与现场数据工程师合作的经验，以下是使用数据管道的一些常见挑战：

难以访问数据

非结构化数据可能很棘手。缺乏元数据使得很难在存储库中找到所需的数据（例如客户信件、电子邮件、聊天日志、法律文档）。
某些数据分析工具或平台可能对输入数据格式有严格要求，导致将数据转换为所需格式时遇到困难。因此，多个复杂的管道会转换逻辑（以及大量逻辑）。
严格的安全措施和法规遵从性可能会在获取必要数据时引入额外的步骤和复杂性。（个人身份数据、索赔健康记录）。

嘈杂的“脏”数据

数据湖很容易出现重复数据等问题。
系统中持续存在腐烂或过时的数据可能会影响 AI 模型和见解的准确性和可靠性。
数据输入期间的输入错误未被捕获和过滤。（最大的数据处理故障排除时间浪费）
不同数据集之间的数据不匹配以及数据不一致。（不正确的报告和管道错误）

性能

数据量大，缺乏高效的存储和处理能力。
检索数据的方法，例如 API，其中的请求和响应不适合大量数据提取。
相关数据在系统中的位置及其存储位置会严重影响数据处理的频率以及检索数据的延迟和成本。

数据可见性（数据治理和元数据）

元数据不充分会导致数据资产的可用性、所有权和使用情况不明确。
难以确定特定数据的存在性和可用性，阻碍了数据的有效使用和分析。

疑难解答

识别不一致、解决数据质量问题或排除数据处理故障可能非常耗时且复杂。

在重新设计 AI 数据框架（包括预测性和生成性）的过程中，我将解决数据工程师的主要痛点，并帮助解决当今困扰 FSI 的一些最大挑战。

将 FSI 从 A 点带到 AI

从数据角度来看，人工智能驱动的世界可以分为两个主要类别：推理和机器学习。这些域的数据要求和使用情况有所不同。

机器学习需要来自历史、运营和实时来源的全面数据集，以便训练更准确的模型。将实时数据纳入数据集中可以增强模型并促进敏捷和智能系统。
推理优先考虑实时焦点，利用机器学习生成的模型来响应传入事件、查询和请求。

构建生成式人工智能模型是一项重大任务。对于 FSI，重用现有模型（基础模型）并在特定领域进行一些微调以适应您的用例是有意义的。 “微调”将要求您提供高质量、大容量的数据集。老话说得好：垃圾进来，垃圾出去。如果数据不可靠，首先，你将不可避免地得到不可靠的人工智能。

在我看来，要为尽可能最好的人工智能成果做好准备，建立以下基础至关重要：

数据基础设施：您需要一个强大、低延迟、高吞吐量的框架来传输和存储大量财务数据，以实现高效的数据提取、存储、处理和检索。它应该支持分布式和云计算，并优先考虑网络延迟、存储成本和数据安全。
数据质量：为了提供更好的数据来确定模型，最好进行数据清理、标准化、重复数据删除和验证流程，以消除不一致、错误和冗余。

现在，如果我说有一个简单的解决方案，我要么是一个能够解决世界危机的杰出天才，要么就是公然撒谎。然而，考虑到我们已经存在的复杂性，最好专注于生成 ML 所需的数据集，并简化推理阶段做出决策所需的数据。然后，就可以逐步解决当前数据过于杂乱带来的问题。一次专注一个领域，首先解决业务用户的问题，不要过于雄心勃勃，这是最快的成功之路。

但我们会将其留到下一篇文章。

摘要

由于遗留系统和其他业务整合等因素，在金融服务行业实施数据策略可能会很复杂。将人工智能引入这种组合可能会带来性能挑战，并且一些企业可能很难为机器学习应用程序准备数据。

在我的下一篇文章中，我将引导您了解一种经过验证的数据策略方法，以简化麻烦的数据管道，以实现实时数据摄取、高效处理以及不同系统的无缝集成。

Tags: data, 数据

Comments are closed.