让数据适配人工智能的方法
智能体人工智能正在改变大数据范式,它要求我们主动把数据引入专门的智能计算平台。这种转变颠覆了我们对数据建模和存储的传统认知,因为低级机器学习(LLM)能利用比传统机器学习小得多的数据集进行上下文学习。如今,现代人工智能不断扩大的上下文窗口和工具调用能力,正让许多传统的ETL/ELT流程逐渐过时,这迫使数据工程师重新思考工作方法。
造成这种变化的原因是什么?
这种转变的原因之一是人们使用数据的方式在改变。
软件工程师和数据科学家构建企业应用和仪表盘,以满足非技术用户的需求。业务分析师和最终用户则被动接收这些内容。应用虽有一些交互功能,但都遵循固定的预设工作流程。数据工程师的工作是提供适合这些应用的数据格式。

数据使用模式正从以“构建者”为中心(技术用户创建应用程序)向以“交互者”为中心(非技术用户通过人工智能代理直接与数据交互)转变。
越来越多非技术用户直接与数据交互,他们能根据自身需求编写应用程序和工具。现有的SaaS应用不仅集成并排聊天界面,还利用CopilotKit等框架更自然地嵌入自然语言交互。有前瞻性的开发者将AI代理嵌入应用程序,使代理能以工具调用的形式访问后端API。
其次,重心发生了转移。过去,因数据量巨大,需将计算资源部署到数据所在位置,以避免大量数据迁移。但现在,前沿人工智能模型(LLM)成为重心,人工智能应用围绕它们构建。

重心转移导致技术架构翻转。与以往定制计算资源处理数据不同,智能体人工智能应用使用大型语言模型(LLM)作为推理引擎,能理解用户意图、推理任务并调用工具执行操作。这一新应用浪潮旨在将用户意图直接转化为行动。
这两种变化如何影响数据工程师的工作?以下五个原则在准备用于人工智能的数据时需牢记。
1. 重新思考ETL/ELT:从规范化到上下文
目前,数据工程师花费大量精力进行数据规范化、创建清晰的数据模式和构建转换管道,目的是让下游分析师和应用程序理解数据。
这并不意味着ETL/ELT不再重要,提供数据依然关键。但可以依靠代理解释模式、理解关系和处理各种格式的数据,而无需大量预处理。
然而,仅在现有表上添加数据目录和MCP服务器,会浪费智能体技术能力,还会增加AI智能体的工作难度。为什么呢?

人工智能代理能理解上下文中的数据,不需要所有数据都预先规范化到固定模式。实际上,随着表数量增加,代理难以正确解读数据和编写正确的SQL语句来连接数据。而且,数据切片增多会增加冲突和歧义的概率。例如,两个表可能都有“贷款金额”列,但含义不同。数据结构越经过处理、规范化和分散化,上下文信息越难传递。
要维护数据可用性工作流程,但要思考每个规范化步骤是否必要。代理人能否在适当上下文中理解数据,而无需转换?委托人信息能否从原始条款清单或融资备忘录中摘录文字解释,而不只是用数字表示?
要避免只向AI代理开放非结构化数据,组织中真正可操作的数据通常还是结构化数据。
2. 优先考虑数据整理而非数据收集
情境式学习让内容整理比资料收集更重要。
在大数据时代,目标是收集尽可能多的数据,因为更多数据意味着更好的机器学习模型。
但人工智能代理基于情境学习构建,即在提示中提供一两个示例。学习学习模型(LLM)能有效模仿这些示例,无论是遵循流程还是格式风格。随着情境学习出现,示例质量比数量更重要。

向代理展示的示例数据会影响它对类似数据的理解。可以创建示例库,并选择用于特定用户查询的示例。随着数据管理重要性增加,数据工程师构建以下工具很关键:
• 找出高质量的数据,如完整、准确且有代表性的数据样本。
• 随着标准变化,定期更新示例。
• 验证精心整理的数据能否作为智能体学习的有效示例。
数据工程师需要赋能的数据管理员角色很重要,支持的存储类型也会变化,包括图数据库和向量数据库。
3. 构建面向代理的基础设施:感知与行动
人工智能代理需要支持感知数据和根据数据采取行动这两种核心能力的基础设施。
并非所有数据格式都能被基于语言模型的智能体平等访问。要考虑智能体解析、理解和提取数据格式含义的难易程度。能保留语义含义且预处理需求低的格式可降低交互阻力。
AI代理通过调用工具(函数、API和服务)执行操作,这些工具让它们能处理数据。基础设施要确保代理能发现和使用这些工具,这意味着要有清晰的接口、完善的文档和可靠的执行。

从人工智能代理的角度审核数据访问模式和工具。自主系统有效使用它们需要了解哪些信息?哪些环节存在阻碍?
4. 将代理工件作为一级数据进行管理
人工智能代理不仅消耗数据,还会生成数据。实际上,人工智能生成的内容会远超系统中“原始”数据的数量。
当智能体生成输出、做出决策、编写代码或记录推理过程时,这些都成为数据。

无论数据是人工创建、从软件系统收集还是由人工智能代理生成,都要符合行业规范和法规。除合规性外,这些代理生成的数据对调试、审计、训练未来代理和理解系统行为有价值。
对代理程序生成的数据要严格对待:
• 存储代理输出系统
• 保留决策日志和推理痕迹
• 将代理生成的代码作为版本化工件管理
• 确保这些数据可用于分析和未来培训
这些工件将成为数据生态系统的一部分,要据此设计存储和访问模式。
5. 将观察与训练联系起来
提升智能体性能的最快方法是实现可观测性和训练之间的闭环。人工智能智能体基础设施需要双向管道,将模型性能和可观测性与持续训练联系起来。
首先,需要一个可观测性平台,它能追踪数据质量指标,尤其要检测数据漂移(输入数据特征的变化)和概念漂移(输入和输出之间关系的变化),还要监控关键的模型性能指标,如准确率、延迟和幻觉率,并建立与预定义阈值关联的自动触发器。
可观测性平台要扩展以纳入人工反馈。用户对生成内容的每一次修改都要记录下来,用于改进人工智能模型。

其次,需要一个重训练流程,在收到监控系统触发的事件时自动激活。它要完全自动化,负责提取最新版本的训练数据,启动模型重训练或微调任务,并对新训练的模型进行全面评估和回归测试。在智能体时代,构建这种将性能监控直接连接到自动化部署的闭环系统,对机器学习/数据工程师至关重要,两者的界限将越来越模糊。
数据工程师的角色如何变化
这五大转变都围绕一个主题:从僵化、预设的工作流程转向灵活、情境感知的架构。现代代理的工具调用和反射能力,让僵化的ETL/ELT流水线不再那么重要。情境学习使范例精选比详尽的范例收集更有价值。
数据工程的重要性没有降低,只是发生了变化。过去十年构建数据基础设施的技能依然有用,但要应用于不同的目标。我们不用预先设计每个工作流程,而是要创建一个让代理能自行设计工作流程的环境。
本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



