纯Python开源Hermes首次击败OpenAI Codex，解释型语言实现逆袭

05-28 06:33

一个完全由Python编写的开源项目，居然打败了OpenAI用Rust开发的王牌产品！最终对决比分6比5，Hermes用实打实的工程优化上演逆袭，一直被诟病性能偏弱的解释型语言，这次终于实现了突破。

一个纯Python开源项目击溃OpenAI王牌产品的消息，今天直接刷爆了整个科技圈：

在针对真实场景命令行任务的11项基准测试中，Hermes Agent以6:5的比分，成功超越了OpenAI的Codex。

在这场对比测试中，Hermes Agent展现出了非常惊艳的底层优化能力。

通过一系列精准的工程调整，它成功把项目启动时间从原本的701ms压缩到了258ms。

更让业内意外的是，Hermes全程采用纯Python开发，而Codex则是性能优势显著的Rust编写。

这一次，Python赢了Rust！

在编程领域，这绝对算得上是一次颠覆性的突破。

三项工程优化，砍掉63%启动耗时

在这次优化之前，Hermes对Codex的战绩还是5胜6负处于下风。

这次的逆转既没有更换大模型，也没有堆砌额外算力，完全依靠三个纯工程层面的优化实现，每一步都精准命中了性能瓶颈。

我们来看看这些优化具体是怎么实现的：

第一步：新增Bitwarden磁盘缓存

优化前Hermes每次启动，都需要调用Bitwarden Secrets Manager的API拉取凭据，单次就需要消耗380毫秒。

之前的缓存只存在于进程内部，哪怕连续两次执行hermes chat -q命令，第二次启动仍然需要重新拉取凭据，造成了大量不必要的耗时。

开发团队给出的解决方案，就是新增二级磁盘缓存。

缓存文件权限设置为最安全的0600，存放在/cache/bws_cache.json路径下，默认有效期为300秒。

另外，访问令牌本身不会写入磁盘，同样默认300秒有效期，过期后才会重新拉取。

这一步优化，直接砍掉了380毫秒的启动耗时。

第二步：模型目录延迟加载

hermes_cli.models._PROVIDER_MODELS是一个存储了所有AI服务商模型信息的大型字典。

优化前这个字典会在模块加载阶段就提前导入，直接占用了约55毫秒的启动时间。

但实际上，只有和model_flow相关的处理函数才会用到这个字典。

开发团队借助PEP 562规范的模块级getattr实现了懒加载，只有当真正需要访问模型目录的时候，才会执行导入操作。

这一步，又节省了55毫秒。

第三步：配置文件读取去重

优化前main.py文件开头，重复读取了两次config.yaml配置文件。

第一次调用yaml.safe_load是为了实现密钥脱敏桥接，第二次调用完整的load_config()方法（包含深度合并逻辑）仅仅是为了读取一个布尔值。

开发团队把两次读取合并为一次，又省下了17毫秒。

三项优化加起来，Hermes的启动时间从701ms大幅降到258ms，降幅高达63%。

不得不说，这就是实打实的工程优化美学：依靠性能分析找到瓶颈，再一步步把冗余开销全部砍掉。

最终6:5，Hermes成功实现翻盘

测试结果不会说谎，优化前后的表现对比非常明显。

优化之前，Hermes对阵Codex的总战绩是5胜6负：单轮任务被Codex压制，多轮任务虽然略占优势，但优势并不突出。

完成优化之后，整个局面彻底反转。

单轮任务（共8项）：Hermes的中位框架开销降到了和Codex持平，甚至部分场景还要更低。原本被Codex拉开差距的启动劣势，被彻底抹平。

多轮任务（共3项）：优化前Hermes在5轮对话的总开销上就已经领先，优化完成后优势进一步扩大。

最终总比分定格在6:5，Hermes成功实现反超。

这意味着，一个纯Python编写的开源项目，在框架开销——这个最考验底层开发功力的维度，击败了用Rust编写、背靠万亿市值科技公司的闭源产品。

Python凭什么赢下Rust？

这件事最反常识的点就是：Python怎么可能赢过Rust？

长期以来，Python在性能讨论中几乎一直处于弱势：解释型语言、GIL全局锁、动态类型开销……种种标签都让大家默认它性能不如编译型语言。

当初OpenAI选择用Rust开发Codex CLI的时候，业内所有人都觉得顺理成章——Rust本身就是为高性能设计的。

但Hermes这次逆袭，恰恰说明了一个关键结论：在AI Agent赛道，框架层面的架构选择，比编程语言本身的原始性能更加重要。

开发者netrunner的评论一针见血：「Python在多轮任务上打赢Rust，本质上是架构决策的胜利，而不是语言速度的胜利」，他还补充道「Codex很可能在上下文处理环节，做了过度工程化的设计」。

有不少人提出疑问：「为什么不把Hermes也迁移到Rust？那样不是更快吗？」

Hermes联合创始人兼首席科学家Teknium给出的回答非常直接：「那样就没法快速编辑代码，也没办法做实时改进和迭代了」。

换句话说，Python的核心优势本身就不是速度，而是灵活易用、快速迭代。

对于需要持续进化、能从每次交互中学习的AI Agent来说，对开发者友好的特性和快速迭代能力，本身就是最大的优势。

上线三月星标破16万，硬刚巨头的开源项目

Hermes Agent的增长速度本身就足够惊人：从2026年2月25日上线到现在，仅仅过去三个月，GitHub星标就已经突破16.7万。

日活Token消耗量达到3530亿，接近同类项目OpenClaw的两倍。可以说，它是2026年增长速度最快的开源Agent框架，没有之一。

GitHub开源地址：https://github.com/nousresearch/hermes-agent

Hermes的核心优势，是一套闭环自主学习架构：

每次完成复杂任务之后，Agent都会自动把解决方案提炼成可以重复使用的Skill技能。下次遇到同类任务，直接调用已有技能即可，不需要从头开始推理。

NousResearch内部基准测试显示：当Hermes积累了20个以上自主生成的技能后，完成同类任务的速度比全新实例快40%。

更惊艳的是v0.12版本新增的自治Curator模块：这是一个在后台自动运行的Agent，会定期对技能库进行评分、修剪和合并。

换句话说，Hermes不光能自主学习技能，还能自己整理归纳学到的内容，不断优化自身技能库。

编程语言不是天花板，架构才是

Python赢了Rust这件事，看起来像是编程语言之间的逆袭爽文，但它背后揭示的道理其实更加深刻。

在AI Agent领域，底层编程语言的性能差异，其实已经变得越来越不重要。

Hermes这次优化总共挤出了443毫秒，已经是框架层面能做到的极限了。而一次大语言模型调用的延迟，动辄就是几百毫秒甚至好几秒。

这意味着，在通向通用人工智能的路上，真正的核心竞争从来都不是「用什么语言写」，而是「怎么让Agent越用越聪明」。

而Hermes这次用纯Python干翻Rust开发的Codex，恰恰证明了一件事：在Agent进化的赛道上，开放、可编辑、可快速迭代的架构，比「跑得更快」更接近通用人工智能的本质需求。

Rust确实是一款性能优秀的工具，但通用人工智能需要的，从来都不只是一把更快的刀。

参考资料：

https://x.com/Teknium/status/2058885472513065471?s=20

https://github.com/NousResearch/hermes-agent/pull/31968

本文来自微信公众号“新智元”，作者：ASI启示录，编辑：桃子 David，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

免费开放报名！上海工会夜校徐汇分校推出六一专属亲子特别课程

中高考临近！上海公安开通考生身份证办理绿色通道，贴心服务护航赶考路

火灾警示宣传月｜河南多地创新开展消防宣传安全知识走近群众

安检屏刷屏的小红球火了！茂名荔枝季开启，这份游玩攻略请收好

复材前沿资讯：黑磷研究成果登顶Nature Physics

项目推荐

AI云印侠

幸福绩效

企业数字化人才孵化系统