如果AI智能体想要可行,关键在于这些地方。
神译局是36氪旗下的编译团队,重点介绍海外新技术、新观点、新趋势,重点介绍科技、商业、职场、生活等领域。
编者按:2025年是AI智能体的第一年。理解AI智能体的关键是把它当人看。因此,一个完整的AI智能体技术栈需要三个层次来填补空缺,这样智能体才能被自己使用,并且可以很好地使用。文章来自编译。
大约18个月前,有人向我们展示了“AI智能体”项目。它的巨大潜力不言而喻。如今,我们对这一领域的全景有了更清晰的认识。
简而言之,AI智能体正在将劳动力转化为软件——这是一个价值数万亿美元的市场。自从我们第一次发文讨论以来,我们已经与该领域的许多优秀企业合作,并希望进一步深化。
但是,如果你和我们一样关注这一领域,你可能已经发现了一个问题:技术进步和实际应用之间存在脱节。
另一方面,技术进步很快。“工具使用”最近出现了(例如Operatorator、CU、Gemini “推理”和优化(如O3)、R1、3.7 Sonnet)这类AI新能力,两者都是AI“智能体”的基本前提,也将把我们推向更贴近未来的世界。AI智能体能在这个世界上独立行动,并以远低于几个月前预期的成本实施复杂的任务。持续优化新能力和AI性能和成本(参照Deepseek及相关进展)正为未来爆发的需求奠定基础。这是喜讯。
不太好的消息是,技术进步和实际应用之间仍然存在差距。在工作场景中部署AI的想法与实际着陆有差距。例如,根据麦肯锡最近对100家年收入超过5000万美元的机构的调查,63%的领导人认为部署AI是当务之急,但91%的受访者表示还没有做好充分的准备。
一切还处于起步阶段。而这就是你的机会——你的核心任务是为技术突破和大规模应用搭建桥梁。你需要让人们真正看到变化,渴望变化,让变化被利用。
那么,怎样才能走到这一步呢?事实证明,AI智能体技术栈的几个关键层次可能会被遗漏。
现在,我们缺少了三个必要的层次,加上一个“加分项”:
责任层:透明、可验证的工作和推理能力的基础。
前后层:解锁企业知识、文化和目标系统。
合作层:通过共享知识系统使智能体能无缝合作。
AI智能体赋能:在B2A兴起的领域(企业到智能体),为其提供工具软件,使其自主性最大化。
我们关注的是建设这些层次的企业,或者像Maisa(下面详细介绍)那样整合各个层次的企业。
随着这些挑战的解决,随着基础设施的完善,我们将能够用AI处理更复杂(更有意义)的任务。一旦这成为常态,许多现在无法想象的新市场就会及时诞生。
但是,第一,我们应该出现这些层——原因如下:
解锁自主:从RPA(机器人流程自动化)到APA(智能流程自动化)
要理解如何做到完全自主,首先要看到人们对“过程自动化”的认识发生了很大的变化。
我们正在从机器人过程中自动化(RPA)走向智能化流程自动化(APA)。
RPA是一个价值数十亿美元的行业,拥有UiPath。、BluePrism、Workfusion和其他巨头企业。这证明每个人都非常愿意为高价值任务的自动化买单。如果你想知道如何打开智能体经济,你可能希望从RPA开始。一旦你看到它的优点和局限性,你就会明白为什么智能体是不可避免的下一步。
RPA的优点:RPA擅长处理基于规则的结构化任务,跨越多个业务系统(100-200个步骤)。RPA可以通过规则有效固化公司知识(如增值税号码处理),只要底层系统是静态的,自动化就可靠运行。
另外,RPA已经有了强大的产品市场契合度。
RPA的限制:RPA自动化的任务范围可以一直受到限制,因为你需要详细规划RPA的每一步流程(比如点击这里的鼠标,以特定的方式设计表格等。),并且必须保证流程永远不会改变——否则系统会崩溃。
RPA的边界是:你不能为所有操作建立完美可复制的流程投影(有些企业甚至需要聘请顾问来“挖掘”自己的流程来建模)。事实上,你可能并不总是需要这种行为——做好工作的本质是对环境做出反应,吸收变化,动态管理。
总之,RPA在某些任务上表现出色,但是完全缺乏灵活性——可靠性,但是非常不灵敏。
大语言模型(LLMs)崛起:LLMs的崛起意味着一个重大的变化。LLM提供无限、廉价、自适应的智能,可以定义和整合解决复杂问题所需的前后文本。随着推理能力的提高,LLM大大拓展了自动化任务的边界。

1.0:人力——2.0:RPA——3.0:APA
然而,LLM并不完美。他们不擅长重复步骤,但他们可以在工作过程的非结构化阶段展示自己的才华——这不仅可以成为优势,还可以成为劣势,这取决于你的预期结果是更有创意还是更确定性。
无论如何,LLM都是一个“黑盒子”。你不能100%确定系统会做什么,为什么会这样。即使是推理路径或模型提供的解释也可能是完全虚构的。
企业需要确定性,否则任何系统都很难落地。即使你想让LLM更有创造力,如果你不能理解它结论的产生逻辑,这种“创造”也将毫无价值。
那么我们该怎么办呢?
RPA具有很强的产品市场匹配度,系统运行清晰可见。但其任务范围有限,缺乏真正的灵活性和前后理解能力,需要大量的“外部准备”。
大语言模型(LLM)更加擅长处理难以用规则表达的非结构化信息,但它们仍然是“黑箱”。
AI智能体和APA的答案是:我们应该把它们结合起来。
我们应该RPA系统的可靠性和LLM的灵活性(以及低成本),这体现在可验证性和前后层面——必须融入AI智能体技术栈。如果我们想实现大规模应用,这个领域的开发者必须解决这个问题。

没有这个关键的多层能力,APA就无法实现。
责任层:大规模应用、学习和监督的关键
想想小学的数学课:光写答案是得不到满分的,老师会要求“展示解决问题的过程”——这是为了验证你是否真正理解推导逻辑。
这是目前大多数AI系统的致命缺陷(包括看似显示的逻辑链模型)。我们不知道为什么AI会产生特定的行动或思维链——它只是“产生”。
当我们与Maisa团队合作时,我们意识到这个问题的重要性。例如,公司创始人Davidid Villalón与Manuel Romero提出的,准确地揭示了当前AI智能体生态的症结。
公司被迫盲目信任AI的思维过程。Maisa在最初的产品研发中遇到了客户的要求:AI系统的每一步操作,尤其是决策背后的原因,都必须向验证方确认。
这种需求催生了Maisa的“工作链”(Chain of Work)概念-我们认为这将是职场AI智能体落地的核心要素。
Maisa的核心是知识控制部件。(KPU)——一种专有的推理引擎,将AI步骤编码化(而不是依靠转瞬即逝的“思维链”文本)。
KPU通过将推理与实施分开,完成了确定性和可审计性的结果:所有操作都记录在显式的“工作链”中,LLM式的创造力与传统软件的稳定性相结合。KPU不同于传统的RPA或依靠背后“推断”的前沿实验室方案,构建了信任:团队可以清晰地追溯AI的每一步动机和方法,调整或改进随机阶段,以确保变化的一致性部署。
我经常和创始人开玩笑:最好的B2B软件是那种可以帮助人们升职的产品——那些让内部利益相关者嗅到“引入即立功”机会的产品。AI现在承诺的是这种收入,但也有风险:没有人愿意引入一个最终会失败的系统。
构建这种可追溯性,将风险收益比例拉回到有益范围。AI自动化无疑对企业有很大的好处,但关键在于降低与落地相关的具体风险和感知风险。
Maisa的“工作链”正在实现这一点——并且已经取得了成效。
前后文层:优秀员工的关键
优秀员工的标准是什么?不仅要看资历或经验。最终决定员工成功的是个人风格、适应能力,以及你要做什么以及如何表达清楚的能力。
例如:你雇佣的销售人员会花时间去理解品牌调性及其背后的逻辑,而非机械地导出普通文案。
例如:你雇佣的HR知道自己是在塑造企业文化,而不仅仅是编写员工守则。
GPT-4不能成为优秀员工的核心原因是:无论你怎么努力,它都不能真正理解你或者你的企业。GPT-按照规则行动,但你期望人类员工能够掌握细节,知道机器没有背景能力。即使你把规则输入到AI流程或者定制GPT中,你也无法穷尽所有的隐藏条件。
原因如下:
职场隐性知识不能完全记录:新员工可以通过观察、直觉、反馈和提问来学习。能否获得和整合这些“隐性知识”是区分优秀和普通员工的关键。
显性知识分散在非结构化数据中:它们存在于PDF指南、代码甚至公司邮件中,而不是在数据库中。
目前大部分AI工具还没有接入公司的非结构化数据生态系统,更不用说了解当前员工的想法了。
我们之前讨论过,与RPA相比,智能身体的一个优势就是前后理解能力。它提供适应性,避免了“流程投影”的高价成本。
知识组织是合理的,并且已经在有限的环境中得到验证(行业标准的检索增强生成(RAG)或者嵌入技术是一个很好的开始,但是面对大量的数据或者专业知识还是会崩溃的)。
Maisa的解决方案是虚拟前后窗口(VCW,Virtual Context Window):其机制类似于操作系统的分页机制。数字员工可以根据需要“载入”和“引导”数据,实现无限记忆和零矛盾——无需微调或笨拙搜索。此外,VCW还可以作为员工长期的know-how知识库,这意味着它可以无缝地适应新的指令或数据。
前后层必须是AI智能体技术栈的关键。顾客将其视为“入职培训”空间,让AI员工融入公司独特的方法和风格。
难点在于:如何为公司封装这篇文章,并将其注入智能体基因——从入职到未来,实现知识的“调用”和持续学习。
这个领域的其它探索活动包括:
准备AI智能体的非结构化数据
系统不断收集和生成新的前后文数据。
模型微调系统更加简单。
长前后的记忆系统和窗口
AI具有情商和人格直觉。
协调层:管理智能体员工队伍
未来,公司可能要管理一支AI智能体员工队伍——客户服务、销售、HR、不同公司提供的智能体将承担财务等职责。
所有这些都已经悄然开始。AI智能体的招聘信息已经出现在现实中:

招聘信息面向AI智能体
这类智能体需要与人类进行“对话”,彼此之间也需要互动。他们需要权限设置和规则约束,隐私和安全是核心考虑因素。
这是AI智能系统领域的关键时期。表面上看,智能系统集群的合作是不可阻挡的,但可能会出现另一个场景:公司(尤其是行业巨头)试图垄断智能系统的开发和管理系统,抵制外部合作,从而形成赢家通吃的局面。
但是到目前为止,还没有数据表明AI产品将处于垄断状态。除了GPU,建立AI系统的核心要素(如基础模型)还没有被少数企业控制。——OpenAI、Claude、Gemini、Mistral、DeepSeek等玩家并存。
鉴于目前智能领域的创业公司数量激增,更有可能的是,深度参与这一领域的团队将比巨头更快地解决通信和权限问题,而不是被巨头封杀。
繁荣的智能体生态终将实现多方共赢:客户可以无限选择AI人才,选择最佳方案;创始人可以利用网络效应从连接者的身份中受益——每增加一个新的智能体,生态价值就会提高一分。
所以,智能体之间的通信尤为重要。
前沿企业已经采取行动:Maisa的KPU等技术可以实现多模型适应,保证灵活性。然而,随着基本模型的不断进化,我们需要建立一个安全的知识交换和共享系统。
当智能体生态全面启动时,这些问题迫切需要前瞻性思考。
前沿:AI智能体配置工具
一旦责任层、前后层、协调层得到解决,真正的快乐才刚刚开始。
AI智能体工具市场已经初具规模——这类软件旨在提高智能体的工作效率,有人开始称这一新兴领域为“B2”A"(企业到智能体)。
这是一个关键突破:智能体将在实施者中升级为自主决策者。想象一下,如果人类被禁止使用计算器或计算机——一旦你部署了智能体,你必须为它配置成功所需的工具。
我们已经窥探到了原型:ChatGPT调用浏览器,Claude控制光标,ElevenLabs可以让他们张嘴说话。但是将来可能比现在强十倍。
智能体需要能够相互支付服务费,签订合同,或者访问人机交互系统。
应用和基础设施将相互鼓励。AI智能体领域也是如此:基础设施层将催生新的智能体和工具,这将反馈基础设施的进化。
将智能体作为终端用户来构建工具,这个领域仍然是一片蓝色的海洋。我们非常关注。

聚焦当前AI智能体差距,以优秀人类员工为原型,展望未来AI智能体形态
真正挑战AI智能体落地。
有一点需要明确:我们全力以赴投注智能体,对其潜力充满信心。对于我们和合作创始人来说,AI智能体的普及是必然趋势。
令人兴奋的是,新的生态是从零开始构建的。我们应该明白如何推动人们接受一个全新的计算范式——这一切都有它的生命周期,我们仍然处于起点。
建立这些层次,是使AI智能体成为大众信赖的日常工具的关键。跨越应用差距,正需要突破这些挑战。
对于那些面临挑战的企业,我们欢呼。它们是AI智能体革命的基础设施。
译者:boxi。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




