智能体“烧Token”引算力危机，模型服务商纷纷调整套餐策略

04-22 06:48

本文来自微信公众号：特大号，作者：特大明白

近日，大模型第一股智谱发布的退款公告在行业内引发关注。公告显示，因算力紧张导致用户体验不佳，智谱决定为Coding Plan用户提供限时退款服务。这一举措并非个例，近期多家大模型服务商都在悄然调整Coding Plan策略，包括限购、停售、调整套餐配额等。背后的核心原因，是以“小龙虾”为代表的智能体对Token的巨大消耗引发了算力荒，让服务商难以维持原有的包月套餐模式。甚至用户简单的一句“你好”，都可能导致智能体消耗大量Token。

智能体为何如此消耗Token？

在人类看来，简单的对话如“你好”与“您好”仅需少量字节，但智能体的工作逻辑截然不同，其内部运行存在大量“隐性消耗”。

01 固定“起步价”高昂

普通AI聊天工具的“起步成本”几乎为零，而智能体如“小龙虾”的起步消耗却很高。用户发送“你好”二字时，智能体向底层模型传输的内容远不止于此——首先需要发送包含角色定位、功能说明的system prompt（类似“岗位说明书”），这部分内容会直接消耗大量Token，构成基础开销。

02 工具调用增加额外消耗

智能体如OpenClaw在调用工具时，不仅要向模型传递工具名称，还需附带工具的JSON schema（结构描述），以便模型理解调用方式。这意味着工具调用会产生两层Token消耗：工具列表文本和schema内容，且schema会被计入上下文，进一步增加成本。

03 技能清单的隐性开销

即使未实际调用某个技能，系统提示词中也会包含紧凑版的技能清单，说明各技能的功能。这部分内容同样会消耗Token，如同在“工具箱”之外额外携带“操作手册”，进一步推高Token用量。

04 历史对话反复加载

用户发送新消息时，智能体通常会将完整的历史对话重新带入上下文，以维持会话连贯性。会话越长，每次新消息的Token消耗就越高。即便对历史对话进行压缩或剪裁，仍需承担可观的成本。用户感受到的“智能联想”能力，实则是Token消耗的直接体现。

05 工具输出占用上下文窗口

智能体调用工具（如读取网页、文件、日志等）后，工具输出的结果和附件会持续占用模型的上下文窗口，成为“隐形消耗大户”。这些内容即使不再直接相关，仍会被计入Token用量。

06 记忆文件加载的代价

为解决智能体“失忆”问题，用户常使用MEMORY.md等记忆文件。这些文件平时存储在磁盘中，但一旦需要加载到模型窗口，就会消耗大量Token。此外，智能体调用子智能体、模型选择不当导致的“弯路”、技能调用额外API等，都会进一步增加Token消耗。

智能体的工作流程本质是“大力出奇迹”：即使用户输入简短，系统内部也可能触发多步思考和多次模型调用。从消息标准化、系统提示词拼接（包含工具、技能、身份等信息），到会话历史、工具结果的整合，再到模型对输入意图的判断，每一步都伴随着Token消耗。例如，用户发送“谢谢”，智能体需完成全套流程后才会回复，过程中已消耗大量Token。

这种现象并非“小龙虾”独有，近期走红的Hermes等智能体也存在类似问题。为减少Token浪费，用户可养成以下习惯：

①减少寒暄，直接下达任务指令；

②使用精准完整的提示词，避免重复沟通；

③拆分大型文件（如日志、代码库），避免整份投喂；

④明确回复篇幅要求，减少冗余内容；

⑤不同任务切换会话，避免单一会话过长；

⑥及时删除无用工具和技能，简化功能；

⑦选择更智能的模型，减少无效消耗；

⑧简单任务（如翻译、修图）优先使用普通AI工具，避免浪费智能体资源。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com