全民票选AI王者：LMArena三年逆袭成17亿美元独角兽

01-08 06:42

一场AI界的“全民选秀”火爆出圈！LMArena让全球网民盲投选出最强AI，从校园小项目三年逆袭，近日融资1.5亿美元估值达17亿美元。众包投票挑战专家评判，争议中成为行业标杆，你的一票或许就能造就下一个AI顶流！

一场AI界的“全民选秀”火爆出圈！

ChatGPT、Claude、Gemini、Grok等一众AI“选手”齐聚，等待着来自全球的“投票”。

这并非娱乐选秀，而是真实在lmarena.ai上演的AI实力对决。

这个曾是校园开源小项目的平台，近日刚完成1.5亿美元融资，估值跃升至17亿美元。

OpenAI、Google、xAI、Microsoft等顶级AI实验室，纷纷将自家模型送上这个“赛场”。

如今，AI强弱不再由大公司单方面定义，决定权交到了全球网民手中。

这场特殊的“AI评选”究竟如何运作？谁会成为下一个受追捧的AI顶流？让我们一同揭开它的面纱。

LMArena的起源：从校园项目到硅谷新贵

故事始于2023年，加州大学伯克利分校Sky Computing Lab里，一群研究生与教授开发了名为Chatbot Arena的开源小项目。

创始人团队包括伯克利计算机科学教授Ion Stoica（同时是Databricks联合创始人）、研究生Anastasios Angelopoulos（现任CEO）和Wei-Lin Chiang（现任CTO）。

他们最初只是想做个简单实验：让网友匿名对比不同AI聊天机器人的回答，选出更优者。

没想到项目上线后迅速走红，成为AI圈热门的众包基准平台。

短短三年，Chatbot Arena积累了大量用户。2025年5月，它转型为营利性公司并更名为LMArena，完成1亿美元种子轮融资，估值6亿美元。

转折点在2026年1月6日——LMArena宣布完成1.5亿美元新一轮融资，由Felicis和加州大学投资臂联合领投，Andreessen Horowitz、The House Fund等多家知名机构跟投，公司估值飙升至17亿美元，总融资额超2.5亿美元！

目前，LMArena已有超500万月活跃用户，覆盖150个国家，每月产生超6000万次对话。

全球网民成了“投票评委”，连顶级AI实验室都争相将自家最新模型送来参与比拼。

从学术小实验到硅谷新贵，LMArena用三年完成了令人瞩目的逆袭，而让它脱颖而出的关键，正是其独特的“盲盒PK”投票机制。

盲盒PK机制：全民参与的AI评选

就像选秀节目的舞台公演环节，LMArena的核心模式“Arena模式”同样充满看点，关键在于一个“盲”字！

打开lmarena.ai进入战斗模式，输入问题后，系统会随机匹配两个匿名AI模型并给出答案。

用户不知道答案来自哪个模型，只能凭感受投票，投票后才会揭晓模型身份，比如左边是Gemini-3-Pro，右边是Grok-4.1。

这种类似拆盲盒的形式，既公平又具吸引力。

投票结果会纳入评分体系，LMArena采用Elo评分系统实时计算，模型获胜加分、失败扣分。

7天前的总分榜单中，Gemini-3-pro位居榜首

除总榜外，平台还会公布不同类别的榜单，涵盖文本对话、网页开发、视觉理解、图像生成与编辑、搜索、文本/图像生成视频等领域。

热门类别里，Gemini-3-Pro在文本和视觉领域领先，Grok-4.1-thinking紧随其后；图像编辑类中，GPT-Image-1.5和Gemini的变种交替占据榜首。

为何顶级AI模型都愿参与这场“评选”？CEO Anastasios Angelopoulos给出答案：领先的AI公司也难以自行判断模型优劣，未公开发布的新模型会先在LMArena测试，借助网友反馈快速迭代。

网友也不只是测试者，还能体验当“评委”的乐趣——无需懂技术，几分钟就能上手投票，将喜欢的AI推向“C位”。

数百万张投票形成的榜单，模型排名全由网友决定。

争议与竞争：众包vs专家评估

和选秀节目一样，LMArena也面临“黑幕”质疑与竞争。有人认可其民主性，也有人觉得不够严谨。

最受吐槽的是众包投票易被操纵。2025年有论文指出，Meta在Llama 4发布前提交36个私有变体模型反复测试“刷分”，影响排行榜公平性。

还有人认为网民投票不够专业，无法与专家评判相比。这就引出了LMArena的主要竞争对手——Scale AI。Scale AI采用付费专家（如律师、教授、医生）为AI答案打分的模式，2025年9月推出“Seal Showdown”平台公开挑战LMArena，称其方法更严谨、更具代表性，能避免众包的噪音与偏见。

针对争议，联合创始人Ion Stoica曾表示：最高质量的评估标准，是让人们在熟悉的话题上投票。LMArena认为，用户对自己的问题最了解，能给出真实反馈；付费专家可能存在偏见或脱离实际需求。而且全球150国用户的多样性，让排行榜更全面，避免单一文化影响。

尽管争议不断，LMArena的排行榜仍成了行业事实标准，大公司依旧争相参与。

未来规划：从评选平台到AI服务提供商

LMArena不满足于仅做评选平台，正计划拓展业务，向AI界的“综合服务提供商”迈进。

新一轮1.5亿美元融资主要用于扩充计算资源、招聘顶尖工程师，以及推出企业级AI评估服务。

未来，LMArena不仅向网友开放盲测，还将为OpenAI、Google等大厂提供付费专业评估服务，包括模型测试、反馈收集、报告生成，甚至定制基准测试。

在强化学习领域，LMArena也有布局。联合创始人Ion Stoica曾透露，公司考虑用海量用户投票数据训练AI模型，即RLHF（人类反馈强化学习）——以“好回答”为奖励、“差回答”为惩罚，让AI不断优化。

投资者Felicis合伙人Peter Deng表示：成为行业基准后，产品会自然扩展，核心价值在于与AI实验室的深度合作，结合内部数据与外部比较数据。

LMArena用三年证明：AI时代，众包力量可挑战传统专家评估，民主投票能成为有效的评判标准。更重要的是，它让普通用户从旁观者变成参与者，每一票都可能影响AI的发展方向。

ChatGPT、Grok、Gemini等模型谁能持续领先，谁会被黑马超越，全看“网民评委”的选择。AI的未来，或许就藏在你的下一次投票中。

参考资料：

https://www.theinformation.com/articles/ai-evaluation-startup-lmarena-valued-1-7-billion-new-funding-round?rc=epv9gi

本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

AI驱动扩产浪潮，国产半导体设备迎来黄金发展期

智谱复刻Anthropic模式之路：挑战重重的商业化突围

沪指十四连阳态势延续半导体产业链领涨煤炭板块强势拉升

同是聚酯纤维，价格为何差百倍？揭开背后的成本、品牌与认知博弈

500亿让利基民背后：公募机构的转型阵痛与被动时代的开启