Claude受限,国产平替能否扛起大旗?

09-10 06:09
你的下个代码大模型,不一定非是Claude。

近日,全球AI代码生成的竞争格局迎来新拐点。


在编程领域,曾经的王者Anthropic逐渐失去锋芒,地位开始动摇。


一方面,OpenAI GPT - 5系列模型强势崛起,在与Claude Code的较量中后来居上,AI大神Karpathy也现身推荐GPT - 5 Pro强大的代码能力。


另一方面,Anthropic自身操作令人费解,先是承认自家模型(包括Claude Opus 4.1和Opus 4)性能下降,本周又宣布对包括中国在内的部分地区限制其AI产品和服务的使用。



在这一关键节点,多家国产大模型厂商向Anthropic发起正面挑战。月之暗面发布了Kimi - K2 - 0905版本,阿里发布了超万亿参数的Qwen3 - Max - Preview。


前者作为Kimi - K2系列模型的最新版本,将上下文长度扩展到256k,针对前端开发等实际编程任务进行优化,长代码生成的正确性、稳定性和逻辑一致性有所提升。后者是阿里迄今最大的模型,在通用知识、数学推理、编程等多种任务上表现更佳。


可见,国产大模型厂商近期在代码生成任务上发力明显。Kimi - K2 - 0905强调工具调用能力,提升了模型与Agent框架(如Roo Code)的集成性。


使用该模型调用外部工具时,格式正确率达100%,无需人工修正。它完全兼容Anthropic API,便于接入与迁移。对WebSearch Tool的支持,可通过实时信息检索提升任务效果。


随着0905版本发布,近30天Kimi - K2系列模型在Hugging Face中的下载量超过39万。


有人评价最新的Kimi - K2 - 0905:“终于不用再为处理复杂的长任务而感到挫败了。”



此消彼长,国产大模型在代码生成领域持续发力,全球竞争格局或许真的要改变了。



能力、价格双优势,让国产大模型更能打


作为Kimi K2系列的最新版本,Kimi - K2 - 0905和其他国产大模型厂商的新模型(如Qwen3 - Max - Preview)一样,挑战Claude的传统优势领域,强调智能编程领域的性能提升。


从技术细节看,Kimi - K2 - 0905采用主流的MoE架构,参数规模达万亿级别,推理时实际激活参数为320亿。



参数概览


该模型与Claude Sonnet 4在SWE - bench Verified等真实编程基准对比中,Kimi - K2 - 0905在部分测试(如多语言环境、命令行/终端交互)中超越了对手。



实战表现如何?我们用它制作了一个经典小游戏。


指令为:“制作一个和微信打飞机类似的网页小游戏,需要美观,好玩,功能齐全。”



Kimi - K2 - 0905生成游戏代码(部分截图)


网页端实现效果惊艳,有浩瀚星空背景、高速移动拖影、概率回血道具、不同颜色敌人爆炸效果,玩得好还有连击加分。



我们玩了一会儿,困难模式确实有难度。



据知名博主“karminski - 牙医”测试,Kimi - K2 - 0905前端水平显著提升,空间理解和召回能力增强。


在“鞭炮连锁爆炸测试”中,需要生成超一千行代码,Kimi - K2 - 0905表现出色。



原贴地址:https://x.com/karminski3/status/1963834619276709933?s=46


Kimi - K2 - 0905在API定价上也有竞争优势。


据悉,Kimi开放平台上架的kimi - k2 - 0905 - preview模型API,定价与上一代一致,计费方案为缓存未命中时每百万输入tokens/4元,缓存命中时每百万输入tokens/1元,每百万输出tokens/16元。详细定价策略见下图:



以美元计价的价格与国内价格相近。



与Anthropic夸张的定价相比,Kimi等国产编程模型堪称“开源Claude平替”,能全方位兼容Anthropic API和Claude Code,延续开发者使用习惯。


尤其是在Anthropic对国内和其他地区“断供”的背景下,保障现有项目和工作流平稳落地至关重要。


结语


在AI编程领域,国内AI厂商有不同发展方向。一部分厂商注重产品和用户体验,另一部分则打磨基础模型。


例如腾讯和字节主要在产品侧更新自家编码产品,字节更新Trae Solo版本、腾讯发布CodeBuddy IDE等,试图超越Cursor的核心竞争力。


而以月之暗面为代表的AI新势力,选择直接提升大模型核心能力,通过技术创新和性能打磨,与国际一线厂商(如Anthropic)竞争。


国内玩家在上下文窗口扩展、真实编程任务优化、Agent工具调用等方面表现出色,逼近甚至超越海外同类产品。


同时,主流AI编程工具(如Cursor、Windsurf、Trae、Cline等)和第三方Agent产品(如flowith和Genspark等)主动接入国内优秀大模型,中国AI新势力已融入主流开发与应用生态。


如今,国产大模型在性能参数和实际开发体验上都获得认可。这种“正反馈循环”一旦形成,有望积累开发者口碑,创建繁荣应用生态,撬动更广阔市场。


本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:冷猫、杜伟,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com