Harness如何重塑Token经济学
本文来自微信公众号:未尽研究,作者:未尽研究
过去两年,关于大模型商业模式的讨论,常被简化为“每百万token多少钱”的问题。行业内最常见的比较方式,也变成了谁更便宜、谁更省、谁更适合大规模调用。
然而,当智能体逐渐发展为长时运行、分工协作、反复评估的系统后,token的价值衡量单位正发生“偏移”。评估一个模型,除了生成一段文本的成本,更要关注完成一个任务的最终可靠成本,且后者的重要性日益凸显。
Anthropic近期的一篇工程文章探讨了如何为长时间应用开发设计智能体。将单智能体与全套harness在同一任务中对比:用Claude Opus 4.5制作2D复古游戏制作器时,单智能体运行20分钟,成本9美元;全套harness运行6小时,成本200美元,表面看贵了二十多倍。
但二者的差异远不止“贵与慢”,而是结果层级的本质不同。单智能体虽做出界面,试玩时核心游戏逻辑却存在问题,实体不响应输入;全套harness则将一句话需求扩展为16个功能点、10个迭代周期的完整规格,还实现了动画、行为模板、音效、AI辅助生成及导出分享等可用功能。
这一对比揭示了智能体时代的新经济学事实:token的主要用途不再是“生成内容”,而是让看似完成的演示真正可用。

也就是说,harness正推动我们从token单价转向结果单价。旧范式中,一次调用对应一轮问答,token成本与输出长度大致相关,价格越低越有优势。但当任务涉及长时软件开发、复杂工具调用和多轮自我修正时,成本的决定因素不再是模型输出字数,而是系统为获得可靠结果所经历的规划、执行、测试、返工和重新生成的轮次。具体而言,上下文重置虽能缓解长任务中的一致性崩塌和“上下文焦虑”,却需付出额外的调度复杂性、token开销和延迟代价。可见,harness并非免费的工程包装,而是增加token消耗的结构性投资。
这引出了harness改变token经济学的第一重机制:将token从内容成本转变为控制成本。
在Anthropic的前端设计实验中,生成器与评估器形成循环,评估器通过Playwright MCP实际操作页面、截图、打分,再将反馈传递给生成器。这种循环通常运行5到15轮,完整一次可持续四小时。这里消耗的大量token,并非为了让模型多生成HTML内容,而是让模型在可验证的反馈回路中不断调整,逼近更优答案。token的作用从一次性生成转向长程控制、外部校验和方向修正,它购买的不是文本,而是达成目标的路径。
进一步看,harness还重新排列了token在整个工作流中的分布。数字音乐站(DAW)实验的账单数据颇具启发性:在复杂智能体式编码系统中,真正消耗预算的是“生成”环节,但决定这笔大额支出是否有效的,却是相对少量的规划和验证开销。便宜的规划器与评估器,在某种程度上成为昂贵构建器的“资本监督者”。因此,token经济学需要用少量监督token约束大量生成token,避免浪费。

这正是harness改写成本结构的关键。过去,质量保障(QA)、规划、代码审查看作模型之外的附属环节,如今它们本身成为token消费和产出质量的一部分。且评估器发现的并非表面瑕疵,而是直接导致功能失效的深层bug,如拖拽填充未触发、删除条件判断错误、API路由顺序引发422返回等。
单智能体的最大问题,不是风格不够美观,而是生成看似成功、实际逻辑不通的“伪成品”。harness的作用,就是用额外token打破这种“伪完成”,让系统从演示性产出转向可验证产出。于是,token的边际价值也发生改变:最贵的token未必最重要,能减少返工和幻觉的token才最有价值。
harness的价值并非固定不变。随着Claude Opus 4.6发布,作者开始拆除4.5时期关键的脚手架。Opus 4.6更擅长规划、维持长时智能体任务、在大代码库中稳定工作,也更精通代码审核和除bug。因此,原先依赖迭代拆解和频繁评估器介入的结构被简化。对于Opus 4.6能力范围内的任务,评估器成为不必要的开销。这说明harness并非越多越好,仅在模型能力边界附近最具经济价值。一旦模型内生掌握某些能力,原先补偿功能的harness组件就会从“投资”变为“负担”。
由此,harness改变token经济学的第二重机制,是让成本结构成为动态、边界驱动的模式。
每个harness组件本质上都基于一个假设:模型单独无法做好这件事,需用外部结构补充。这些组件体现了对模型能力局限的判断,而这些判断需不断测试,因为模型进步迅速,旧假设会很快过时。所以,今天值得花费的token,明天可能就不再值得。token经济学不再是固定价目表,更像随模型能力变化的边际收益曲线。
结合商业背景看,变化更清晰。Anthropic当前官方定价已开始对低延迟、合规性和高能力单独收费。Claude Opus 4.6的快速模式是标准价的6倍,输入和输出每百万token分别为30美元和150美元;若要求美国境内推理,所有token类别加收1.1倍费用。OpenAI也在采取类似策略。
再看OpenAI,GPT-5.4标准短上下文输入每百万token 2.50美元,输出15美元,部分区域处理加收10%;同时,内建工具消耗的token按所选模型费率计费。这背后的商业逻辑是:智能体时代,用户购买的不仅是“文本生成”,还有速度、验证、工具调用、地域处理和长时执行等系统能力。harness越为主流,token就越像生产流程中的通用燃料,而非聊天接口的字数费用。
那么,harness究竟如何改变token经济学?它将token从静态计量单位转变为动态组织资源。过去关注一次调用的token用量,现在则关注这些token在规划、生成、验证、返工和工具调用各环节的分配,以及它们是否减少失败、提升完成率、将“像样的结果”转化为“可交付的结果”。
从这个角度看,未来最重要的价格指标,或许不再是每百万token单价,而是完成一个真实任务的总成本、减少一次返工节省的预算,以及提高一个百分点成功率所需的边际token。行业真正在意的,并非harness比单智能体更贵,而是智能体时代真正昂贵的从来不是token本身,而是失败、返工和伪完成。harness的重要性,不在于它增加了token消耗,而在于它开始决定哪些token值得花费,哪些只是无谓消耗。
最后,理解了harness与token经济学的关系,你还会争论大模型和harness哪个更重要吗?
--
参考:
https://www.anthropic.com/engineering/harness-design-long-running-apps
https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



