Anthropic收购Vercept补全Claude视觉能力，加速AI智能体布局

02-28 06:48

Computer Use是Anthropic布局AI智能体领域的重要举措。

2月25日（当地时间），Anthropic宣布收购西雅图AI初创企业Vercept，旨在弥补其智能体工具“Computer Use”的视觉短板。

Computer Use是Anthropic为旗下Claude大模型开发的核心功能，能让Claude像人类一样“查看屏幕、操作鼠标键盘、使用软件”，完成多步骤、跨应用的复杂任务，该功能于2024年10月随Claude 3.5 Sonnet一同推出。

可以说，Computer Use是Anthropic进军AI智能体领域的关键一步。

而Vercept专注于打造“视觉优先”的AI智能体，核心优势是实现“类人屏幕交互与电脑操控”的无API自动化，这与Computer Use的核心卖点高度契合。

Anthropic此次收购的核心目标，是解决其AI模型在视觉理解精度上的不足。当前用户正借助Claude处理越来越复杂的工作，例如编写跨代码库的程序、整合多来源研究成果、管理跨工具工作流程等。通过Computer Use，Claude能在实时应用中完成这些操作，处理多步骤任务，解决单纯依靠代码无法应对的问题。

Vercept在高精度UI识别和空间推理方面的技术积累，恰好能填补这一空白。该公司源自艾伦人工智能研究所（AI2），创始团队实力强劲：CEO Kiana Ehsani曾负责AI2的机器人与具身智能团队，联合创始人Luca Weihs专注于AI Agent与强化学习研究，Ross Girshick更是计算机视觉领域的先驱。公司成立仅一年多，已累计融资5000万美元，投资方包括前谷歌CEO施密特、DeepMind首席科学家杰夫·迪恩等行业大佬。

在Vercept团队看来，AI要高效完成复杂任务，必须攻克感知与交互难题。其产品Vy不采用“读取代码”的路径，而是以视觉优先为核心——通过视觉模型识别屏幕上的每一个按钮，再模拟鼠标键盘操作，这意味着它能适配任何带屏幕的软件。在UI元素识别基准测试ScreenSpot v1中，Vercept自研模型的准确率高达92%，而OpenAI的同类模型仅为18.3%。

此次收购发生在Anthropic新一代模型Claude Sonnet 4.6发布之后。在OSWorld评估中，Sonnet模型的准确率从2024年底的不足15%提升至72.5%，在处理复杂电子表格浏览、跨标签页表单填写等任务时，已接近人类水平。

这是Anthropic的第二笔公开收购——去年12月该公司刚收购编码代理引擎Bun。两次收购的方向一致：让Claude不仅具备代码编写能力，还能像人类一样在各类软件中进行实时操作。

Vercept的产品Vy将于3月25日停止服务，其团队将正式加入Anthropic。

Anthropic公司简介

Anthropic由前OpenAI研究副总裁达里奥·阿莫迪兄妹于2021年创立，核心团队曾参与GPT-2和GPT-3的早期研发。因与OpenAI在发展方向上存在分歧，他们离职创办了这家专注于AI安全与研究的公司。

依托创始人团队的背景优势，Anthropic的融资进展迅速，自成立以来累计融资已超300亿美元。2026年2月，公司完成300亿美元的G轮融资，投后估值达到3800亿美元，成为全球估值第二高的AI独角兽，仅次于OpenAI。本轮融资的参与方包括光速创投、门洛风险投资、摩根士丹利投资、NX1资本及卡塔尔投资局等。

Anthropic最核心的产品是Claude系列大语言模型，按能力分为三个层级：