Claude可以操纵计算机,吴恩达:智能体工作流越来越成熟。

2024-11-16

受 ChatGPT 强大的问答能力,大型语言模型(LLM)为了提供良好的消费体验,供应商通常会优化模型来回答人们的问题。


伴随着智能体研究的不断完善,提升似乎有了新的方向。


斯坦福大学教授吴恩达今天指出,人工智能著名学者:「目前有一种趋势是优化模型以满足智能体的工作流程,这将大大提高智能体的性能。」,并且写了一篇博客,简单地阐述了这一趋势。



本文对博客内容进行了编译、整理,不改变本意,以下是博客内容:


继 ChatGPT 许多问题在解决问题上取得突破性成功后, LLM 研究与开发都集中在为消费者提供良好的体验上。所以,LLM 调整到回答问题或遵循人类提供的指令。很大一部分指令调整指导模型的数据集可以为人们编写的问题和指令提供更有用的答案,面向 ChatGPT、Claude、Gemini 等等。


但是智能体的工作负荷不同,人工智能软件并非直接对消费者做出反应,而是在迭代工作过程中:


  • 反省自己的导出;
  • 使用工具;
  • 编写规划;
  • 配合多智能体环境。

主要模型制造商也越来越多地用于升级。 AI 智能模型。


以使用工具(或函数调用)为例。如果 LLM 当被问及当前天气时,这将无法从训练数据中获得所需信息。相反,它可能会产生 API 通过调用请求获取信息。甚至在 GPT-4 应用程序开发人员在调用原始支持函数之前就已经使用了。 LLM 通过编写更复杂的提醒,生成函数调用 LLM 什么函数可以使用? LLM 生成一个字符串,用于确定是否需要调用函数。


在 GPT-4 后来,这种调用的产生变得更加可靠,后来许多其它模型本来就支持函数调用。现在,LLM 调用函数可以决定搜索信息以进行搜索增强生成。 (RAG)、执行代码,发送电子邮件,在线订单等。


近期,Anthropic 推出了升级版 Claude 3.5 Sonnet,可以像人类一样使用电脑。这意味着 LLM 原生计算机的使用方向向前迈出了一大步,将帮助许多开发者。一些团队也致力于使用它。 LLM 使用计算机构建立新一代 RPA(机器人流程自动化)应用程序。


伴随着智能体工作流程的成熟,我看到的是:


第一,许多开发者正在进行。 prompt LLM 执行他们想要的智能体行为。这能快速而丰富地探索!


开发非常有价值的应用程序的开发者在极少数情况下会对其进行微调。 LLM,实现特定的智能体功能更加可靠。例如,尽管有很多 LLM 他们自己支持函数调用,但是他们把可用函数的描述作为输入,然后(希望)产生导出。 token 为了实现这一点,请求正确的函数调用。针对应用程序的特定函数调用微调模型,对于生成正确函数调用非常重要的任务关键应用程序,可以显著提高可靠性。(但是请防止过早提升!我仍然看到太多的团队在微调,但是他们可能需要花更多的时间在这种行为之前。 prompt。)


最后,当开发人员看起来很有价值的时候,比如使用工具或者使用电脑的能力,主要是 LLM 供应商正在将这些能力直接构建到他们的模型中。尽管 OpenAI o1-preview 高级推理对消费者有帮助,但是我估计它对智能体推理和规划会更有用。


大部分 LLM 所有的问题都得到了优化,主要目的是为消费者提供良好的体验,我们已经可以把它们放在一边了。「移植」为了构建有意义的应用程序,在复杂的智能体工作流程中。构建一个支持智能体内特定操作的 LLM 这一趋势将极大地提高智能体的性能。在接下来的几年里,我相信,在这个方向上,智能体技能将会得到很大的提升。


原文链接:


https://www.deeplearning.ai/the-batch/issue-275/


本文来自微信微信官方账号“机器之心”,编辑:小舟,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com