纯Python开源Hermes首次击败OpenAI Codex,解释型语言实现逆袭
一个完全由Python编写的开源项目,居然打败了OpenAI用Rust开发的王牌产品!最终对决比分6比5,Hermes用实打实的工程优化上演逆袭,一直被诟病性能偏弱的解释型语言,这次终于实现了突破。
一个纯Python开源项目击溃OpenAI王牌产品的消息,今天直接刷爆了整个科技圈:
在针对真实场景命令行任务的11项基准测试中,Hermes Agent以6:5的比分,成功超越了OpenAI的Codex。

在这场对比测试中,Hermes Agent展现出了非常惊艳的底层优化能力。
通过一系列精准的工程调整,它成功把项目启动时间从原本的701ms压缩到了258ms。

更让业内意外的是,Hermes全程采用纯Python开发,而Codex则是性能优势显著的Rust编写。
这一次,Python赢了Rust!
在编程领域,这绝对算得上是一次颠覆性的突破。


三项工程优化,砍掉63%启动耗时
在这次优化之前,Hermes对Codex的战绩还是5胜6负处于下风。
这次的逆转既没有更换大模型,也没有堆砌额外算力,完全依靠三个纯工程层面的优化实现,每一步都精准命中了性能瓶颈。

我们来看看这些优化具体是怎么实现的:
第一步:新增Bitwarden磁盘缓存
优化前Hermes每次启动,都需要调用Bitwarden Secrets Manager的API拉取凭据,单次就需要消耗380毫秒。
之前的缓存只存在于进程内部,哪怕连续两次执行hermes chat -q命令,第二次启动仍然需要重新拉取凭据,造成了大量不必要的耗时。
开发团队给出的解决方案,就是新增二级磁盘缓存。
缓存文件权限设置为最安全的0600,存放在
另外,访问令牌本身不会写入磁盘,同样默认300秒有效期,过期后才会重新拉取。
这一步优化,直接砍掉了380毫秒的启动耗时。

第二步:模型目录延迟加载
hermes_cli.models._PROVIDER_MODELS是一个存储了所有AI服务商模型信息的大型字典。
优化前这个字典会在模块加载阶段就提前导入,直接占用了约55毫秒的启动时间。
但实际上,只有和model_flow相关的处理函数才会用到这个字典。
开发团队借助PEP 562规范的模块级getattr实现了懒加载,只有当真正需要访问模型目录的时候,才会执行导入操作。
这一步,又节省了55毫秒。
第三步:配置文件读取去重
优化前main.py文件开头,重复读取了两次config.yaml配置文件。
第一次调用yaml.safe_load是为了实现密钥脱敏桥接,第二次调用完整的load_config()方法(包含深度合并逻辑)仅仅是为了读取一个布尔值。
开发团队把两次读取合并为一次,又省下了17毫秒。
三项优化加起来,Hermes的启动时间从701ms大幅降到258ms,降幅高达63%。
不得不说,这就是实打实的工程优化美学:依靠性能分析找到瓶颈,再一步步把冗余开销全部砍掉。

最终6:5,Hermes成功实现翻盘
测试结果不会说谎,优化前后的表现对比非常明显。
优化之前,Hermes对阵Codex的总战绩是5胜6负:单轮任务被Codex压制,多轮任务虽然略占优势,但优势并不突出。
完成优化之后,整个局面彻底反转。
单轮任务(共8项):Hermes的中位框架开销降到了和Codex持平,甚至部分场景还要更低。原本被Codex拉开差距的启动劣势,被彻底抹平。
多轮任务(共3项):优化前Hermes在5轮对话的总开销上就已经领先,优化完成后优势进一步扩大。

最终总比分定格在6:5,Hermes成功实现反超。
这意味着,一个纯Python编写的开源项目,在框架开销——这个最考验底层开发功力的维度,击败了用Rust编写、背靠万亿市值科技公司的闭源产品。

Python凭什么赢下Rust?
这件事最反常识的点就是:Python怎么可能赢过Rust?
长期以来,Python在性能讨论中几乎一直处于弱势:解释型语言、GIL全局锁、动态类型开销……种种标签都让大家默认它性能不如编译型语言。
当初OpenAI选择用Rust开发Codex CLI的时候,业内所有人都觉得顺理成章——Rust本身就是为高性能设计的。

但Hermes这次逆袭,恰恰说明了一个关键结论:在AI Agent赛道,框架层面的架构选择,比编程语言本身的原始性能更加重要。
开发者netrunner的评论一针见血:「Python在多轮任务上打赢Rust,本质上是架构决策的胜利,而不是语言速度的胜利」,他还补充道「Codex很可能在上下文处理环节,做了过度工程化的设计」。

有不少人提出疑问:「为什么不把Hermes也迁移到Rust?那样不是更快吗?」
Hermes联合创始人兼首席科学家Teknium给出的回答非常直接:「那样就没法快速编辑代码,也没办法做实时改进和迭代了」。
换句话说,Python的核心优势本身就不是速度,而是灵活易用、快速迭代。

对于需要持续进化、能从每次交互中学习的AI Agent来说,对开发者友好的特性和快速迭代能力,本身就是最大的优势。
上线三月星标破16万,硬刚巨头的开源项目
Hermes Agent的增长速度本身就足够惊人:从2026年2月25日上线到现在,仅仅过去三个月,GitHub星标就已经突破16.7万。
日活Token消耗量达到3530亿,接近同类项目OpenClaw的两倍。可以说,它是2026年增长速度最快的开源Agent框架,没有之一。

GitHub开源地址:https://github.com/nousresearch/hermes-agent
Hermes的核心优势,是一套闭环自主学习架构:
每次完成复杂任务之后,Agent都会自动把解决方案提炼成可以重复使用的Skill技能。下次遇到同类任务,直接调用已有技能即可,不需要从头开始推理。
NousResearch内部基准测试显示:当Hermes积累了20个以上自主生成的技能后,完成同类任务的速度比全新实例快40%。

更惊艳的是v0.12版本新增的自治Curator模块:这是一个在后台自动运行的Agent,会定期对技能库进行评分、修剪和合并。
换句话说,Hermes不光能自主学习技能,还能自己整理归纳学到的内容,不断优化自身技能库。
编程语言不是天花板,架构才是
Python赢了Rust这件事,看起来像是编程语言之间的逆袭爽文,但它背后揭示的道理其实更加深刻。
在AI Agent领域,底层编程语言的性能差异,其实已经变得越来越不重要。
Hermes这次优化总共挤出了443毫秒,已经是框架层面能做到的极限了。而一次大语言模型调用的延迟,动辄就是几百毫秒甚至好几秒。
这意味着,在通向通用人工智能的路上,真正的核心竞争从来都不是「用什么语言写」,而是「怎么让Agent越用越聪明」。
而Hermes这次用纯Python干翻Rust开发的Codex,恰恰证明了一件事:在Agent进化的赛道上,开放、可编辑、可快速迭代的架构,比「跑得更快」更接近通用人工智能的本质需求。
Rust确实是一款性能优秀的工具,但通用人工智能需要的,从来都不只是一把更快的刀。
参考资料:
https://x.com/Teknium/status/2058885472513065471?s=20
https://github.com/NousResearch/hermes-agent/pull/31968
本文来自微信公众号“新智元”,作者:ASI启示录,编辑:桃子 David,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com





