Harness如何重塑Token经济学

04-01 06:36

本文来自微信公众号：未尽研究，作者：未尽研究

过去两年，关于大模型商业模式的讨论，常被简化为“每百万token多少钱”的问题。行业内最常见的比较方式，也变成了谁更便宜、谁更省、谁更适合大规模调用。

然而，当智能体逐渐发展为长时运行、分工协作、反复评估的系统后，token的价值衡量单位正发生“偏移”。评估一个模型，除了生成一段文本的成本，更要关注完成一个任务的最终可靠成本，且后者的重要性日益凸显。

Anthropic近期的一篇工程文章探讨了如何为长时间应用开发设计智能体。将单智能体与全套harness在同一任务中对比：用Claude Opus 4.5制作2D复古游戏制作器时，单智能体运行20分钟，成本9美元；全套harness运行6小时，成本200美元，表面看贵了二十多倍。

但二者的差异远不止“贵与慢”，而是结果层级的本质不同。单智能体虽做出界面，试玩时核心游戏逻辑却存在问题，实体不响应输入；全套harness则将一句话需求扩展为16个功能点、10个迭代周期的完整规格，还实现了动画、行为模板、音效、AI辅助生成及导出分享等可用功能。

这一对比揭示了智能体时代的新经济学事实：token的主要用途不再是“生成内容”，而是让看似完成的演示真正可用。

也就是说，harness正推动我们从token单价转向结果单价。旧范式中，一次调用对应一轮问答，token成本与输出长度大致相关，价格越低越有优势。但当任务涉及长时软件开发、复杂工具调用和多轮自我修正时，成本的决定因素不再是模型输出字数，而是系统为获得可靠结果所经历的规划、执行、测试、返工和重新生成的轮次。具体而言，上下文重置虽能缓解长任务中的一致性崩塌和“上下文焦虑”，却需付出额外的调度复杂性、token开销和延迟代价。可见，harness并非免费的工程包装，而是增加token消耗的结构性投资。

这引出了harness改变token经济学的第一重机制：将token从内容成本转变为控制成本。

在Anthropic的前端设计实验中，生成器与评估器形成循环，评估器通过Playwright MCP实际操作页面、截图、打分，再将反馈传递给生成器。这种循环通常运行5到15轮，完整一次可持续四小时。这里消耗的大量token，并非为了让模型多生成HTML内容，而是让模型在可验证的反馈回路中不断调整，逼近更优答案。token的作用从一次性生成转向长程控制、外部校验和方向修正，它购买的不是文本，而是达成目标的路径。

进一步看，harness还重新排列了token在整个工作流中的分布。数字音乐站（DAW）实验的账单数据颇具启发性：在复杂智能体式编码系统中，真正消耗预算的是“生成”环节，但决定这笔大额支出是否有效的，却是相对少量的规划和验证开销。便宜的规划器与评估器，在某种程度上成为昂贵构建器的“资本监督者”。因此，token经济学需要用少量监督token约束大量生成token，避免浪费。

这正是harness改写成本结构的关键。过去，质量保障（QA）、规划、代码审查看作模型之外的附属环节，如今它们本身成为token消费和产出质量的一部分。且评估器发现的并非表面瑕疵，而是直接导致功能失效的深层bug，如拖拽填充未触发、删除条件判断错误、API路由顺序引发422返回等。

单智能体的最大问题，不是风格不够美观，而是生成看似成功、实际逻辑不通的“伪成品”。harness的作用，就是用额外token打破这种“伪完成”，让系统从演示性产出转向可验证产出。于是，token的边际价值也发生改变：最贵的token未必最重要，能减少返工和幻觉的token才最有价值。

harness的价值并非固定不变。随着Claude Opus 4.6发布，作者开始拆除4.5时期关键的脚手架。Opus 4.6更擅长规划、维持长时智能体任务、在大代码库中稳定工作，也更精通代码审核和除bug。因此，原先依赖迭代拆解和频繁评估器介入的结构被简化。对于Opus 4.6能力范围内的任务，评估器成为不必要的开销。这说明harness并非越多越好，仅在模型能力边界附近最具经济价值。一旦模型内生掌握某些能力，原先补偿功能的harness组件就会从“投资”变为“负担”。

由此，harness改变token经济学的第二重机制，是让成本结构成为动态、边界驱动的模式。

每个harness组件本质上都基于一个假设：模型单独无法做好这件事，需用外部结构补充。这些组件体现了对模型能力局限的判断，而这些判断需不断测试，因为模型进步迅速，旧假设会很快过时。所以，今天值得花费的token，明天可能就不再值得。token经济学不再是固定价目表，更像随模型能力变化的边际收益曲线。

结合商业背景看，变化更清晰。Anthropic当前官方定价已开始对低延迟、合规性和高能力单独收费。Claude Opus 4.6的快速模式是标准价的6倍，输入和输出每百万token分别为30美元和150美元；若要求美国境内推理，所有token类别加收1.1倍费用。OpenAI也在采取类似策略。

再看OpenAI，GPT-5.4标准短上下文输入每百万token 2.50美元，输出15美元，部分区域处理加收10%；同时，内建工具消耗的token按所选模型费率计费。这背后的商业逻辑是：智能体时代，用户购买的不仅是“文本生成”，还有速度、验证、工具调用、地域处理和长时执行等系统能力。harness越为主流，token就越像生产流程中的通用燃料，而非聊天接口的字数费用。

那么，harness究竟如何改变token经济学？它将token从静态计量单位转变为动态组织资源。过去关注一次调用的token用量，现在则关注这些token在规划、生成、验证、返工和工具调用各环节的分配，以及它们是否减少失败、提升完成率、将“像样的结果”转化为“可交付的结果”。

从这个角度看，未来最重要的价格指标，或许不再是每百万token单价，而是完成一个真实任务的总成本、减少一次返工节省的预算，以及提高一个百分点成功率所需的边际token。行业真正在意的，并非harness比单智能体更贵，而是智能体时代真正昂贵的从来不是token本身，而是失败、返工和伪完成。harness的重要性，不在于它增加了token消耗，而在于它开始决定哪些token值得花费，哪些只是无谓消耗。

最后，理解了harness与token经济学的关系，你还会争论大模型和harness哪个更重要吗？

参考：

https://www.anthropic.com/engineering/harness-design-long-running-apps

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

张雪机车登顶世界冠军：一场颠覆行业的赛道革命

别再说高敏感人群矫情了，他们的苦你真的不懂

钛白粉市场迎涨价潮：成本激增推动月内三连涨，企业仍面临盈利压力

政策扶持+设施升级：澳大利亚会奖旅游全力抢占中国市场

珍酒李渡：白酒寒冬中的破局之道

项目推荐

AI云印侠

宾果智能

幸福绩效