AI化身数字打工人:PinchBench“龙虾排行榜”揭晓谁最擅长干活

1天前
养虾模型哪家强,谁才是真正的干活能手?

过去两年,AI领域讨论最多的话题很简单:哪个模型更聪明。


谁的推理能力更强,谁的考试分数更高,谁又刷新了哪个榜单的纪录。


但到了2026年,大家的关注点变了,不再执着于模型的“聪明程度”,转而关心一个更实际的问题:哪个模型更会干活?



随着OpenClaw这类Agent框架的爆火,越来越多开发者不再满足于和AI聊天,而是让大模型真正接手各类任务。


写代码、查资料、处理邮件、整理文件、调用API,甚至能自己拆解复杂流程,一步步把事情完成。


在开发者圈子里,这件事有个很形象的说法:养龙虾


把模型接入Agent框架,就像往水箱里放一只龙虾,让它在里面自主运行任务、调用工具、调整工作流,看看它到底能不能把活干明白。



那么,到底哪款大模型最适合“养龙虾”呢?


最近,OpenClaw创始人Peter Steinberger发布了一份名为PinchBench的基准测试榜单。



这份榜单一口气实测了32个主流大模型,从成功率、速度和成本三个维度进行了全面对比。



它也成为了目前第一份专门针对Agent任务的“龙虾大模型排行榜”。


榜单一公布,很多人的第一反应是:这个排名有点出乎意料。


从成功率来看,第一名并非大家常提及的“新模型”,而是Anthropic的旗舰模型Claude Opus 4.6。


它在PinchBench中的任务成功率达到了82.5%



紧随其后的是Claude Opus 4.5,成功率为81.3%;第三名是谷歌的Gemini 3.1 Pro Preview,成功率81.1%


前三名的成功率都在80%以上,差距非常小。


更有意思的是后续排名:第四名是Claude Sonnet 4,成功率80.5%;第五名是国产模型Kimi K2.5,成功率80.1%;第六名是另一款国产模型MiniMax M2.1,成功率79.5%


也就是说,在核心的成功率指标上,国产模型已稳稳进入第一梯队


不过有些模型的排名让人意外,比如OpenAI的新模型GPT-5.4,成功率仅78%,排在第九位;不少开发者常用的GPT-4o,成功率甚至只有56.3%,处于榜单倒数位置。



这其实说明了一个关键问题:传统的大模型排行榜,无法很好地预测AI在Agent任务中的表现。


过去的很多榜单本质是“考试模式”,比如知识问答、数学推理、代码题,只要模型给出正确答案就算完成任务。


但在Agent系统中,AI要做的事情完全不同:它不仅要理解指令,还要自主拆解任务、调用工具、读取文件、生成中间结果、执行多步骤操作。



中间任何一步出错,整个任务都可能失败。


换句话说,Agent任务测试的不是模型“会不会答题”,而是它能否像数字员工一样,一步步把事情做完。


从PinchBench的结果还能看出一个明显趋势:在Agent场景中,模型并非越大越好。


很多中型模型反而更稳定,因为它们推理速度快、思考路径短,在多步骤工作流中不容易“迷路”。


比如排名靠前的Claude Sonnet 4和MiniMax M2.1,都不是各家公司体量最大的模型版本,但在真实任务中表现很稳定。


这意味着大模型正出现新的分工:旗舰模型负责展示极限能力,中型模型则承担实际的生产任务。


当然,“养龙虾”还绕不开一个核心问题——成本。



Agent系统比普通聊天更消耗Token,模型需要反复思考、生成中间步骤、调用工具,一次完整任务的Token消耗可能是普通对话的几倍甚至十几倍。



之前在OpenClaw开发者聚会上,有人分享过自己的使用账单:每个月光Token费用就要1000到2000美元,还有更夸张的玩家每天消耗10亿Token。



所以开发者圈里流行一句玩笑:安装OpenClaw很便宜,养龙虾却很贵。


不过PinchBench榜单的最大价值,不只是排名本身。



它第一次比较系统地回答了Agent时代的现实问题:当AI真的开始“打工”时,我们该给它配哪种“大脑”?


更值得关注的是,这背后反映了AI行业的变化:以前评价AI像看考试成绩,比分数、比榜单排名;现在则更看重实际能力——它到底能不能把活干完


换句话说,AI不再只是会聊天、会写文字的工具,而是越来越像能被安排任务的数字员工。


现在开发者见面寒暄,常说的不再是“你用哪个模型”,而是更接地气的一句:


你现在养了几只龙虾?U0001f99e


本文来自微信公众号“科技狐”(ID:kejihutv),作者:老狐,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com