GenAI 无处不在,各行业的组织都在向其团队施加压力,要求他们加入这场竞赛 – 77% 的企业领导者担心他们已经错过了 GenAI 的优势。

数据团队正在争先恐后地响应号召。但构建真正推动业务价值的生成式 AI 模型非常困难。

 

从长远来看,与 OpenAI API 的快速集成并不能解决问题。这是 GenAI,但护城河在哪里?为什么用户应该选择您而不是 ChatGPT?

快速检查该框感觉就像向前迈出了一步。不过,如果您还没有考虑如何将法学硕士与您的专有数据和业务环境联系起来,以真正推动差异化价值,那么您就落后了。

这并不夸张。本周,我仅就这个主题就与六位数据领导者进行了交谈。他们中的任何一个人都清楚这是一场比赛。在终点线,将会有赢家和输家:百视达和 Netflix。

如果您觉得发令枪已经响了,但您的团队仍在起跑线上伸展并谈论“泡沫”和“炒作”,我总结了五个残酷的事实,以帮助您摆脱自满情绪。

1。您的生成式人工智能功能没有得到很好的采用,并且您的货币化速度很慢

“Barr,如果生成式人工智能如此重要,为什么我们目前实现的功能却没有得到如此广泛的采用?”

嗯,有几个原因。第一,你的人工智能计划并不是为了应对大量明确的用户问题而设计的。对于大多数数据团队来说,这是因为你正在比赛,而且时间还早,你想获得一些经验。然而,用不了多久,您的用户就会遇到 GenAI 最好解决的问题,当这种情况发生时,与您的 Tiger 团队集思广益将 GenAI 与用例联系起来的方法相比,您将获得更好的采用。

而且因为还很早,所以已经集成的生成式 AI 功能只是“ChatGPT 但在这里”。

让我举个例子。考虑一下您每天可能使用的生产力应用程序来共享组织知识。像这样的应用程序可能会提供一项功能,可以在非结构化文本块上执行“总结”、“更长”或“改变语气”等命令。 1 个命令等于 1 个 AI 积分。

是的,这很有帮助,但它没有差异化

也许团队决定购买一些 AI 积分,或者他们只是简单地单击另一个选项卡并询问 ChatGPT。我不想完全忽视或低估不向 ChatGPT 公开专有数据的好处。尽管如此,与全国各地的财报电话会议上描绘的内容相比,这也是一个较小的解决方案和愿景。

从生成式人工智能概念转化为利润。

从概念到价值的中间步骤。

所以请考虑一下:您的 GenAI 的优势和附加值是什么?让我给你一个提示:高质量的专有数据。

这就是为什么 RAG 模型(或者有时是微调模型)对于 Gen AI 计划如此重要。它使法学硕士能够访问该企业的专有数据。 (我将在下面解释原因。)

2。您害怕使用 Gen AI 做更多事情

这是真的:生成式人工智能令人生畏。

当然,您可以将 AI 模型更深入地集成到组织的流程中,但这感觉有风险。让我们面对现实吧:ChatGPT 产生幻觉并且无法预测。存在知识中断,使用户容易受到过时输出的影响。即使是偶然的,数据处理不当和向消费者提供错误信息也会产生法律后果。

幻觉生成聊天

听起来很真实,对吧? Llama 2 肯定这么认为。

您的数据事故会产生后果。这就是为什么必须准确了解您向 GenAI 提供的内容以及数据的准确性。

匿名 调查,我们向数据领导者发送了调查,询问他们的团队离实现 Gen AI 用例还有多远,其中一个回答是,“我不认为我们的基础设施是阻碍我们发展的因素。我们在这里行事非常谨慎——鉴于形势变化如此之快,而且‘流氓’聊天机器人存在声誉受损的风险,我们正在按兵不动,等待炒作平息一点!”

这是我采访过的许多数据领导者的广泛共识。如果数据团队突然暴露了面向客户的安全数据,那么他们就会陷入困境。数据治理是一个重要的考虑因素,也是一个高栏以清除。

这些都是真正的风险,需要解决方案,但你不能通过袖手旁观来解决它们。还有一个真正的风险是,你的业务会被最先解决这个问题的团队从根本上扰乱。

通过微调和 RAG 将法学硕士扎根于您的专有数据中是解决这个难题的重要组成部分,但这并不容易……

3。 RAG 很难

我相信 RAG(检索增强生成)和微调是企业生成人工智能未来的核心。然而,在大多数情况下,RAG 是一种更简单的方法;开发 RAG 应用程序仍然很复杂。

Reddit 上的 RAG 对话。

我们就不能开始咆哮吗?有什么大不了的?

RAG 似乎是定制 LLM 的明显解决方案。但即使对于最有才华的数据工程师来说,RAG 开发也有一个学习曲线。他们需要了解提示工程、向量数据库和嵌入向量、数据建模、数据编排、数据管道以及所有 RAG 的内容。而且,因为它是新的(Meta AI 于 2020 年推出),许多公司还没有足够的经验来建立最佳实践。

<图>
RAG 应用程序架构RAG 实现架构

以下是 RAG 应用程序架构的过度简化:

  • RAG 架构将信息检索与文本生成器模型相结合,因此它可以在尝试回答用户问题时访问您的数据库。
  • 数据库必须是包含专有数据的可信来源,并且它允许模型包含最新可靠 >将信息转化为反应和推理。
  • 在后台,数据管道将各种结构化和非结构化数据源提取到数据库中,以保持数据库的准确性和最新性。
  • RAG 链接受用户查询(文本)并从数据库中检索相关数据,然后将该数据和查询传递给 LLM,以生成高度准确和个性化的响应。

此架构有很多复杂性,但它确实有重要的好处:

  • 它为您的 LLM 提供准确的专有数据,从而使其更有价值。
  • 它将模型引入数据,而不是将数据引入模型,这是一种相对简单且经济高效的方法。

我们可以看到这在现代数据堆栈中成为现实。最大的参与者正在以极快的速度工作,通过在存储企业数据的环境中为法学硕士提供服务,使 RAG 变得更容易。 Snowflake Cortex 现在使组织能够分析数据直接在 Snowflake 中快速构建 AI 应用程序。 Databricks 的新基础模型API 提供直接在 Databricks 内即时访问 LLM 的能力。微软发布 Microsoft Azure OpenAI 服务,并且 Amazon 最近推出了 Amazon Redshift 查询编辑器

<图>
雪花数据云架构

雪花数据云

我相信所有这些功能都有很好的机会推动高采用率。但是,它们也加强了对这些数据存储中的数据质量的关注。如果输入 RAG 管道的数据是异常、过时或其他不可信的数据,那么您的生成式 AI 计划的未来是什么?

4。无论如何,您的数据还没有准备好

认真仔细地审视您的数据基础设施。很有可能,如果您拥有完美的 RAG 管道、经过微调的模型和清晰的用例,可供明天使用( 这不是很好吗?),您仍然没有干净的、建模良好的数据集来将其全部插入。

假设您希望聊天机器人与客户进行交互。为了做任何有用的事情,它需要了解该组织与客户的关系。如果您现在是一家企业组织,那么这种关系可能是跨 150 个数据源和 5 个孤立的数据库定义的……其中 3 个数据库仍在本地。

如果这描述了您的组织,那么您的数据基础设施可能需要一年(或两年!)才能为 GenAI 做好准备。

这意味着,如果您希望选择使用 GenAI 做一些事情很快,您需要在一个现代数据平台……昨天。否则教练会叫你上场,你的裤子就会脱下来。

您的数据工程团队是确保数据健康的支柱。现代数据堆栈使数据工程团队能够在未来持续监控数据质量。

现在已经是 2024 年了。在没有数据可观察性的情况下启动网站、应用程序或任何数据产品都是有风险的。您的数据是一种产品,需要数据可观察性和治理,以便在数据通过 RAG 管道之前查明数据差异。

5。你在不知不觉中已经将关键的一代 AI 玩家排除在外

生成式人工智能是一项团队运动,尤其是在开发方面。许多数据团队都犯了将关键人物排除在 Gen AI Tiger 团队之外的错误,从长远来看,这让他们付出了代价。

应该加入人工智能老虎团队?领导层或主要业务利益相关者,带头采取举措并提醒团队业务价值。软件工程师将开发代码、面向用户的应用程序和 API 调用。数据科学家考虑新的用例,微调他们的模型,并将团队推向新的方向。这里失踪了谁?

数据工程师。

数据工程师对于 Gen AI 计划至关重要。他们将能够理解专有业务数据,从而提供相对于 ChatGPT 的竞争优势,并且他们将构建管道,通过 RAG 向法学硕士提供该数据。

如果您的数据工程师不在房间,那么您的老虎团队就没有全力以赴。 GenAI 中最具开拓性的公司告诉我,他们已经在所有开发团队中嵌入了数据工程师。

赢得 GenAI 竞赛

如果这些残酷的事实中的任何一个适用于您,请不要担心。生成式人工智能正处于起步阶段,仍然有时间重新开始,迎接挑战。

退后一步,了解人工智能模型可以解决的客户需求,让数据工程师进入早期开发阶段,从一开始就确保竞争优势,并花时间构建一个可以提供稳定流的 RAG 管道高质量、可靠的数据。

并投资现代数据堆栈。像数据可观测性这样的工具将成为数据质量最佳实践的核心组成部分——没有高质量数据的生成人工智能只是一堆废话。


Comments are closed.