AI化身数字打工人：PinchBench“龙虾排行榜”揭晓谁最擅长干活

03-13 06:33

养虾模型哪家强，谁才是真正的干活能手？

过去两年，AI领域讨论最多的话题很简单：哪个模型更聪明。

谁的推理能力更强，谁的考试分数更高，谁又刷新了哪个榜单的纪录。

但到了2026年，大家的关注点变了，不再执着于模型的“聪明程度”，转而关心一个更实际的问题：哪个模型更会干活？

随着OpenClaw这类Agent框架的爆火，越来越多开发者不再满足于和AI聊天，而是让大模型真正接手各类任务。

写代码、查资料、处理邮件、整理文件、调用API，甚至能自己拆解复杂流程，一步步把事情完成。

在开发者圈子里，这件事有个很形象的说法：养龙虾。

把模型接入Agent框架，就像往水箱里放一只龙虾，让它在里面自主运行任务、调用工具、调整工作流，看看它到底能不能把活干明白。

那么，到底哪款大模型最适合“养龙虾”呢？

最近，OpenClaw创始人Peter Steinberger发布了一份名为PinchBench的基准测试榜单。

这份榜单一口气实测了32个主流大模型，从成功率、速度和成本三个维度进行了全面对比。

它也成为了目前第一份专门针对Agent任务的“龙虾大模型排行榜”。

榜单一公布，很多人的第一反应是：这个排名有点出乎意料。

从成功率来看，第一名并非大家常提及的“新模型”，而是Anthropic的旗舰模型Claude Opus 4.6。

它在PinchBench中的任务成功率达到了82.5%。

紧随其后的是Claude Opus 4.5，成功率为81.3%；第三名是谷歌的Gemini 3.1 Pro Preview，成功率81.1%。

前三名的成功率都在80%以上，差距非常小。

更有意思的是后续排名：第四名是Claude Sonnet 4，成功率80.5%；第五名是国产模型Kimi K2.5，成功率80.1%；第六名是另一款国产模型MiniMax M2.1，成功率79.5%。

也就是说，在核心的成功率指标上，国产模型已稳稳进入第一梯队。

不过有些模型的排名让人意外，比如OpenAI的新模型GPT-5.4，成功率仅78%，排在第九位；不少开发者常用的GPT-4o，成功率甚至只有56.3%，处于榜单倒数位置。

这其实说明了一个关键问题：传统的大模型排行榜，无法很好地预测AI在Agent任务中的表现。

过去的很多榜单本质是“考试模式”，比如知识问答、数学推理、代码题，只要模型给出正确答案就算完成任务。

但在Agent系统中，AI要做的事情完全不同：它不仅要理解指令，还要自主拆解任务、调用工具、读取文件、生成中间结果、执行多步骤操作。

中间任何一步出错，整个任务都可能失败。

换句话说，Agent任务测试的不是模型“会不会答题”，而是它能否像数字员工一样，一步步把事情做完。

从PinchBench的结果还能看出一个明显趋势：在Agent场景中，模型并非越大越好。

很多中型模型反而更稳定，因为它们推理速度快、思考路径短，在多步骤工作流中不容易“迷路”。

比如排名靠前的Claude Sonnet 4和MiniMax M2.1，都不是各家公司体量最大的模型版本，但在真实任务中表现很稳定。

这意味着大模型正出现新的分工：旗舰模型负责展示极限能力，中型模型则承担实际的生产任务。

当然，“养龙虾”还绕不开一个核心问题——成本。

Agent系统比普通聊天更消耗Token，模型需要反复思考、生成中间步骤、调用工具，一次完整任务的Token消耗可能是普通对话的几倍甚至十几倍。

之前在OpenClaw开发者聚会上，有人分享过自己的使用账单：每个月光Token费用就要1000到2000美元，还有更夸张的玩家每天消耗10亿Token。

所以开发者圈里流行一句玩笑：安装OpenClaw很便宜，养龙虾却很贵。

不过PinchBench榜单的最大价值，不只是排名本身。

它第一次比较系统地回答了Agent时代的现实问题：当AI真的开始“打工”时，我们该给它配哪种“大脑”？

更值得关注的是，这背后反映了AI行业的变化：以前评价AI像看考试成绩，比分数、比榜单排名；现在则更看重实际能力——它到底能不能把活干完。

换句话说，AI不再只是会聊天、会写文字的工具，而是越来越像能被安排任务的数字员工。

现在开发者见面寒暄，常说的不再是“你用哪个模型”，而是更接地气的一句：

你现在养了几只龙虾？U0001f99e

本文来自微信公众号“科技狐”（ID：kejihutv），作者：老狐，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

百年伊藤洋华堂的解体变革：零售业巨头的兴衰启示

“养龙虾”消耗海量Token，电网能成最大赢家？国产AI模型OpenRouter调用量超美，电力出海仍需时日

马斯克新AI项目“数字擎天柱”亮相，原“巨硬”项目陷入停滞

“养龙虾”热潮背后：是机遇还是智商税？

小屏与流量时代，戏曲好戏的标准是否改变？

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂