全民票选AI王者:LMArena三年逆袭成17亿美元独角兽

01-08 06:42

一场AI界的“全民选秀”火爆出圈!LMArena让全球网民盲投选出最强AI,从校园小项目三年逆袭,近日融资1.5亿美元估值达17亿美元。众包投票挑战专家评判,争议中成为行业标杆,你的一票或许就能造就下一个AI顶流!


一场AI界的“全民选秀”火爆出圈!


ChatGPT、Claude、Gemini、Grok等一众AI“选手”齐聚,等待着来自全球的“投票”。


这并非娱乐选秀,而是真实在lmarena.ai上演的AI实力对决。


这个曾是校园开源小项目的平台,近日刚完成1.5亿美元融资,估值跃升至17亿美元。


OpenAI、Google、xAI、Microsoft等顶级AI实验室,纷纷将自家模型送上这个“赛场”。


如今,AI强弱不再由大公司单方面定义,决定权交到了全球网民手中。


这场特殊的“AI评选”究竟如何运作?谁会成为下一个受追捧的AI顶流?让我们一同揭开它的面纱。


LMArena的起源:从校园项目到硅谷新贵


故事始于2023年,加州大学伯克利分校Sky Computing Lab里,一群研究生与教授开发了名为Chatbot Arena的开源小项目。


创始人团队包括伯克利计算机科学教授Ion Stoica(同时是Databricks联合创始人)、研究生Anastasios Angelopoulos(现任CEO)和Wei-Lin Chiang(现任CTO)。



他们最初只是想做个简单实验:让网友匿名对比不同AI聊天机器人的回答,选出更优者。


没想到项目上线后迅速走红,成为AI圈热门的众包基准平台。


短短三年,Chatbot Arena积累了大量用户。2025年5月,它转型为营利性公司并更名为LMArena,完成1亿美元种子轮融资,估值6亿美元。


转折点在2026年1月6日——LMArena宣布完成1.5亿美元新一轮融资,由Felicis和加州大学投资臂联合领投,Andreessen Horowitz、The House Fund等多家知名机构跟投,公司估值飙升至17亿美元,总融资额超2.5亿美元!


目前,LMArena已有超500万月活跃用户,覆盖150个国家,每月产生超6000万次对话。


全球网民成了“投票评委”,连顶级AI实验室都争相将自家最新模型送来参与比拼。



从学术小实验到硅谷新贵,LMArena用三年完成了令人瞩目的逆袭,而让它脱颖而出的关键,正是其独特的“盲盒PK”投票机制。


盲盒PK机制:全民参与的AI评选


就像选秀节目的舞台公演环节,LMArena的核心模式“Arena模式”同样充满看点,关键在于一个“盲”字!


打开lmarena.ai进入战斗模式,输入问题后,系统会随机匹配两个匿名AI模型并给出答案。


用户不知道答案来自哪个模型,只能凭感受投票,投票后才会揭晓模型身份,比如左边是Gemini-3-Pro,右边是Grok-4.1。


这种类似拆盲盒的形式,既公平又具吸引力。


投票结果会纳入评分体系,LMArena采用Elo评分系统实时计算,模型获胜加分、失败扣分。



7天前的总分榜单中,Gemini-3-pro位居榜首


除总榜外,平台还会公布不同类别的榜单,涵盖文本对话、网页开发、视觉理解、图像生成与编辑、搜索、文本/图像生成视频等领域。


热门类别里,Gemini-3-Pro在文本和视觉领域领先,Grok-4.1-thinking紧随其后;图像编辑类中,GPT-Image-1.5和Gemini的变种交替占据榜首。


为何顶级AI模型都愿参与这场“评选”?CEO Anastasios Angelopoulos给出答案:领先的AI公司也难以自行判断模型优劣,未公开发布的新模型会先在LMArena测试,借助网友反馈快速迭代。


网友也不只是测试者,还能体验当“评委”的乐趣——无需懂技术,几分钟就能上手投票,将喜欢的AI推向“C位”。


数百万张投票形成的榜单,模型排名全由网友决定。


争议与竞争:众包vs专家评估


和选秀节目一样,LMArena也面临“黑幕”质疑与竞争。有人认可其民主性,也有人觉得不够严谨。


最受吐槽的是众包投票易被操纵。2025年有论文指出,Meta在Llama 4发布前提交36个私有变体模型反复测试“刷分”,影响排行榜公平性。



还有人认为网民投票不够专业,无法与专家评判相比。这就引出了LMArena的主要竞争对手——Scale AI。Scale AI采用付费专家(如律师、教授、医生)为AI答案打分的模式,2025年9月推出“Seal Showdown”平台公开挑战LMArena,称其方法更严谨、更具代表性,能避免众包的噪音与偏见。



针对争议,联合创始人Ion Stoica曾表示:最高质量的评估标准,是让人们在熟悉的话题上投票。LMArena认为,用户对自己的问题最了解,能给出真实反馈;付费专家可能存在偏见或脱离实际需求。而且全球150国用户的多样性,让排行榜更全面,避免单一文化影响。


尽管争议不断,LMArena的排行榜仍成了行业事实标准,大公司依旧争相参与。


未来规划:从评选平台到AI服务提供商


LMArena不满足于仅做评选平台,正计划拓展业务,向AI界的“综合服务提供商”迈进。


新一轮1.5亿美元融资主要用于扩充计算资源、招聘顶尖工程师,以及推出企业级AI评估服务。



未来,LMArena不仅向网友开放盲测,还将为OpenAI、Google等大厂提供付费专业评估服务,包括模型测试、反馈收集、报告生成,甚至定制基准测试。


在强化学习领域,LMArena也有布局。联合创始人Ion Stoica曾透露,公司考虑用海量用户投票数据训练AI模型,即RLHF(人类反馈强化学习)——以“好回答”为奖励、“差回答”为惩罚,让AI不断优化。


投资者Felicis合伙人Peter Deng表示:成为行业基准后,产品会自然扩展,核心价值在于与AI实验室的深度合作,结合内部数据与外部比较数据。


LMArena用三年证明:AI时代,众包力量可挑战传统专家评估,民主投票能成为有效的评判标准。更重要的是,它让普通用户从旁观者变成参与者,每一票都可能影响AI的发展方向。


ChatGPT、Grok、Gemini等模型谁能持续领先,谁会被黑马超越,全看“网民评委”的选择。AI的未来,或许就藏在你的下一次投票中。


参考资料:


https://www.theinformation.com/articles/ai-evaluation-startup-lmarena-valued-1-7-billion-new-funding-round?rc=epv9gi


本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com