第一个AI是清华团队领导，问世世界各地的agent系统基准测试

商界观察

2023-08-09

AI 智能体，或者自主智能代理，不仅仅是贾维斯等科幻电影中的人类超级助手，更是现实世界中的人类超级助手。 AI 该领域的研究热点。特别是 GPT-4 为代表的 AI 大型模型的出现，将 AI 智能体的概念推向了科技的前沿。

斯坦福“虚拟小镇”之前爆红，25 个 AI 智能体在虚拟小镇自由成长，举办情人节派对；英伟达等提出的具体代理模型 Voyager，还学会了《我的世界》中的各种生存能力，闯出了自己的一片天空；另外，能够独立实现目标。 AutoGPT、BabyAGI 和 AgentGPT 等，同时也引起了公众的普遍兴趣和热烈讨论。

甚至，前特斯拉 AI 总监、重归 OpenAI 的技术大牛 Andrej Karpathy 根据一次开发者活动，每当有新的 AI 当智能论文出现时，OpenAI 内部便会非常感兴趣，并认真展开讨论。。

虽然当前 AI 智能体研究异常火爆，目前 AI 对行业缺乏系统化、规范化的评价标准。 LLMs 智能水平作为代理商。

因此，来自清华大学，俄亥俄州立大学，加州大学伯克利分校研究小组便提出了第一个系统的基准测试。——AgentBench，用于评定 LLMs 在各种现实世界中，智能体是一种挑战。 8 各种环境的表现(如推理和管理能力)。

研究数据显示，顶级商业语言模型(例如 GPT-四是在复杂的环境中表现出色，在开源模型中具有明显的优势。。所以，研究小组建议，有必要进一步努力改善开源。 LLMs 学习能力。

有关研究论文以“AgentBench: Evaluating LLMs as Agents""问题，已经在预印本网站上发布了。 arXiv 上。此外，还发布了相关数据、环境和集成评估包。 GitHub 上。

01 第一次系统基准测试

在过去的研究和实践中，基于文本的游戏环境已经被用于语言代理的评价。但由于封闭的离散行动空间，通常受到限制，其重点主要集中在模型常识的基本能力上。

最近，一些关于身体代理的尝试使用了基于游戏和图形的用户界面。（GUI）以及复杂的多模态模拟器的室内场景。但是，尽管这些模拟器非常复杂，无法准确反映 LLMs 其多模态特性也给纯文本带来了实际用例中的使用情况。 LLMs 快速评估带来障碍。

另外，大多数代理商的基准测试都集中在一个单一的环境中，这限制了它在不同的应用领域进行全面的简述。 LLMs 的能力。

在这项工作中，研究小组操作系统（OS）、数据库（DB）、知识图谱（KG）、卡牌对战（DCG）、场景猜谜（LTP）、家居（Alfworld）、网上购物（WebShop）和网页浏览(Mind2Web）8 使用不同的环境任务时， AgentBench 对 25 基于不同的语言模型(包括 API 对模型和开源模型进行了全面评估。

测试数据显示，像 GPT-4 这种顶级模型可以处理各种现实世界的任务，大部分开源 LLMs 在 AgentBench 以上表现远不及以上表现为基础 API 的 LLMs；甚至，最强大的开源模型 openchat-13b-v3.2 也和 gpt-3.5-turbo 它们之间存在着显著的性能差距。

尽管通过广泛的对齐训练，LLMs 不仅能掌握传统 NLP 任务，如问题答案、自然语言推理、文本摘要等，也能表现出理解人类意图和执行指令的能力，但它们在 AgentBench 在任务方面(例如行动有效性、长前后文、多轮一致性和代码训练)的表现相对落后。

研究小组说，未来还需要更多的工作来进行更严格、更系统的评估，并提供强大的开源工具来促进这种评估。，如逐步完善 AgentBench，使之更全面、更包容，并建立更系统的系统。 LLMs 评估系统等。

02 在硅谷，“自主”AI代理竞赛正席卷硅谷

AI 随着大型模型的不断进化，新助手诞生了。目前，“自主”AI 代理商的竞争激发了硅谷的热潮。它不仅吸引了个人开发者，也吸引了微软和谷歌等巨头公司 Alphabet，而且很多创业公司也积极参与其中。

以初创公司 Inflection AI 举例来说，公司的创始人 Reid Hoffman 和 Mustafa Suleyman 播客表示，他们正在开发一个个人助理，可以当导师，也可以处理类似于安排航班积分和酒店等任务的事务。

MultiOn 企业开发者 Div Garg 表示，其目标是把它发展成个体。 AI 与虚拟助手“贾维斯”相似的朋友。她们希望这位代理能与个人服务联系起来。

Generally Intelligent CEO Kanjun Qiu 说:“对于人来说容易的事情对于电脑来说还是很难的，如果给老板安排一组重要客户的会议。这需要非常复杂的推理能力，这涉及到获得每个人的喜好，解决冲突，同时在与客户合作时保持认真细致。”

Qiu 与其他四位代理开发人员预测，第一批能够可靠执行多步任务并具有一定独立能力的系统将在一年内上市，密切关注编码和营销等垂直领域。

微软 CEO Satya Nadella 曾在接受《金融时报》采访时表示：“不管是微软自己的吗？ Cortana，或者亚马逊 Alexa 、谷歌助理，苹果助理 Siri，都不够聪明，没有达到最初的预期。”

抛开存在的担忧不谈，AI 代理商已显示出巨大的潜力和市场。虽然我们在实践和应用中可能会遇到一些挑战，但随着时间的推移，我们有望在不断的优化和优化中见证这些挑战，就像历史上许多创新一样。 AI 代理商对人类社会产生了积极而深刻的影响。

参考链接：

https://www.reuters.com/technology/race-towards-autonomous-ai-agents-grips-silicon-valley-2023-07-17/

本文来自微信微信官方账号“学术头条”（ID：SciTouTiao），作者：学术头条，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

最新中国500强出炉：国家电网第一，泡泡玛特首次上榜

小红书靠世界杯赚到了什么？

西班牙夺冠，中国赞助商赢麻了

2026世界人工智能大会启幕 300余款首发产品展现AI产业新突破

词元出海开辟数字贸易新赛道

项目推荐

康小虎百岁计划・健康大使招募计划

毛加健康

康老板 · 氧疗堂

第一个AI是清华团队领导， 问世世界各地的agent系统基准测试

01 第一次系统基准测试

02 在硅谷，“自主”AI代理竞赛正席卷硅谷

延伸阅读

项目推荐

第一个AI是清华团队领导，问世世界各地的agent系统基准测试