大型混战今年：进化大赛，效率大赛，落地对决

2024-12-17

下面的文章来源于连接 Insight ，作者王慧莹

在过去的一年里，国内每一家大企业都在大模型的使用场景和商业模式上下了很大功夫。一方面是大模型的能力迭代，另一方面是 Agent、场景等竞争，技术与产品的迭代非常直观，直接推动了大型行业的百度竞争。

———— / BEGIN / ————

日行千里，火烧油两年过去了，大模型产业的快速发展如何？

不同于两年前“百模对决”争夺技术的场景，玩家之间有两个速度之争:一个是技术迭代和产品更新的速度，一个是商业赚钱和应用落地的速度。

技术和产品的迭代非常直观，直接推动了大型行业的竞争。从大语言模型到大文学视频模型，再到 3D 产生大模型，几乎每隔几个月就会出现一个让人眼前一亮的大模型。

每个人都在尝试和探索。每一次技术的扩展，都会把前瞻性的大模型厂商推到聚光灯下，引发新一轮的行业跟随。

有些人领先，有些人追逐。这种不成熟的技术，给探路者带来了弯道超车的机会，也给商业化带来了压力。

尤其是今年下半年，整个行业的趋势更加微妙。市场逐渐摆脱了大模型的魅力，资本回归理性，行业内两股势力也发生了站位的转变。

一方面，阿里、字节等巨头的投资明显加快，收集了大型创业公司的核心人才，推出了一系列 AI 商品；一方面，创业公司开始重新评估自己的路线，国内“” AI “六小虎”有两个逐渐放弃预训练模式，业务重心转向 AI 应用。

这背后，直指行业第二次速度之争：商业效率。

毫无疑问，目前的大型跑道高度拥堵。随着计算率成本的上升和计算率分配的有限，对于创业公司来说，大型跑道的战斗时间轴越长，创业公司的压力就越大。

" AI 大型(跑道)，将只剩下一个 10 中国工程院外籍院士张亚勤曾经说过，家族企业扮演着重要的角色。这些都是业界的共识，最终的胜利属于少数玩家。

目前还不确定大模型最终会进化成什么样，但可以肯定的是，在大模型的浪潮下，技术还在迭代，场景还在惊艳，商业化总是在实践的道路上。

在过去的几年里，大模型并不缺少惊艳的时刻，行业也处于百家争鸣的时期。无论是暂时领先的玩家，还是努力追赶的玩家，都可以在跑步中抢到更多的蛋糕。

3D 世界、自主 Agent、思考大模型…

大型模型惊艳迭代

从 ChatGPT 惊艳亮相开始，新一轮的亮相 AI 整整两年的浪潮都在奔涌。AI 想像被重新启动，大模型站立 C 位置，围绕大模型的讨论与尝试也爆发式增长。

大型模型的最终结果是什么？这个问题的答案吸引了很多玩家来回滚动技术，滚动应用。

根据 lifearchitect.ai 数据，到目前为止，全世界都有。 467 一个大模型。随着新技术的不断涌现，行业内的赛车越来越激烈，大模型厂商也在不断迭代升级，旨在离开。 AGI 更进一步。

到了今年，除了百家争鸣之外，一个明显的变化就是， ChatGPT 以大语言模型为代表的局限性越来越明显。比如他们只能处理文本领域的任务，不能与物理和社会环境互动；虽然大模型词库非常丰富，但他们不具备理解人类价值观的文本的能力...

随着技术的重构，大模型产业也在不断完善和进化，产业正在寻找下一个更“类人”的模型或应用。

北京时间 12 月 3 日，" AI “李飞飞创造的教母” World Labs 推出最新结果：世界模型，一个单一的图像就可以生成 3D 世界。

图源 World Labs 官网

在过去，我们知道的大多数 GenAI 只有工具才能制作图像 / 视频 2D 内容。World Labs 则完成了在 3D 在生成过程中，提高了视频的控制性和一致性。World Labs 他们所生成的场景的独特之处在于它们具有互动性，并且可以修改。

这是今年 9 月份创立 World Labs 到目前为止，李飞飞团队推出的第一个成就也是他走向空间智能的第一步。早在成立之初，李飞飞团队就看到了空间智能，其初衷就是空间智能。 AI，可对世界进行建模，同时根据 3D 时空中物体 / 地点 / 互动推理。

李飞飞的个人影响，加上空间智能的想象，World Labs 成立三个月后，有消息称其估值达到。 10 亿美金。

北京时间两天后 12 月 5 日，Google Deepmind 随后发布了最新的基础世界模型 Genie 2。这是今年年初推出的 Genie 模型升级版，Genie 2 只需一张图片就可以生成有趣的图片。 AI 系统。DeepMind 透露，Genie 2 它有能力从不同的角度生成一个连贯的世界(比如第一人称视角和距离视角)，这个世界可以持续一分钟，尽管在大多数情况下。 10 到 20 秒之间。

假设世界模型展示了模型理解虚拟世界运行规律，并且能够准确地进行预测， OpenAI 今年 9 月推出的 o1 一系列的模型就是能够思考。

那时，OpenAI CEO 奥特曼对 o1 “我觉得这次感觉很自信，” o1 发布模型最重要的信息是，AI 发展不仅没有放缓，而且我们对未来几年的胜利也有把握。”

与 GPT 不同的系列模型，o1 该系列模型具有更强大的“思维链”。模型会在思考后回答客户的问题，导出高质量的内容，而不是快速无效的回答。另外，o1 该系列更擅长推理，大大提高了推理能力，特别是在奥数、编程等领域。

行业风向标的新动作，引起了国内大型厂商的追捧。十一月 16 日，月之暗面公布 k0 math；11 月 20 日，Deepseek 上线 DeepSeek-R1-Lite 大模型；11 月 27 日，昆仑万维推出“天工大模型” 4.0 " o1 版本...都强调大模型的逻辑思维能力。

不管是哪条路线的大模型进化，都让人类离开。 AGI 更进一步。

其中，在应用方面，今年还有一个趋势不容忽视。人与机器的互动模式正在发生范式变化，具有对话功能。 GPT 逐步进化可行为的行为 AI Agent(智能体)。

市场调研机构 Research and Market 在 11 月 11 日本公布的报告指出，未来五年 AI 智能体的市场规模将增加 420 十亿美元。麦肯锡还说，AI 智能体将是一种生成式 AI 下一个前沿。

具体到玩家的动作，“有手、有脑、有眼” AI Agent 成为玩家抢滩的对象。

10 作为最早的探索，月份 Agent 创业公司智谱，推出自主智能体 AutoGLM ；一个月后的 Agent OpenDay 上面，智谱展示 AI Agent 最新的结果，包括 AutoGLM、AutoGLM-Web、GLM-PC 三个版本，对应手机、浏览器、计算机的使用场景。

新升级的 AutoGLM 能理解较长的指令，执行较长的任务，在多步、循环的任务中，AutoGLM 速度表现超过人工操作。可以预见，当技术足够成熟时，一个 Agent 可以帮助人们控制一切。

此前，微软 Ignite 在会议上，微软宣布已经建立了世界上最大的企业级。 AI Agent 前面的生态系统 OpenAI 创办高级管理人员的创业公司 Anthropic 推出名叫 Claude 的 AI 智能体；OpenAI 被传出将在 2025 年 1 月度发布代号为 Operator 的智能体。

在中国，智能身体也是百花齐放。一方面，手机厂商开始拿出智能身体和智能帮助讲故事；另一方面，巨人结局是智能身体。比如字节跳动按钮、腾讯云腾讯元器、百度智能云千帆 AgentBuilder、阿里云大模型平台百炼，…

今年，大模型不缺惊艳时刻。大模型，大模型，大模型，大模型可以想象，大模型可以预测，站在大模型技术的最前沿，走向 AGI 在路上，更加明亮的产品迭代一直在发生。

AI 视频，

没有人愿意在新的竞争中落后。

回到今年的时间 2 月份，行业军备竞赛持续一年，OpenAI 再一次将大模型产业推向高潮。OpenAI 视频生成模型以世界模拟器的名义发布 Sora，使“一句话产生视频”成为可能。

这个行业的加速器来自 Sora。追逐 Sora、超越 Sora，几乎成了国内外大型玩家的共识。

国外，今年 5 月份，谷歌发布对比 Sora 文生视频模型 Veo；6 月，Luma 推出 Dream Machine 视频生成模型，AI 创业公司的视频生成 Runway 推出 Gen-3 Alpha 模型。

把视角放在国内，玩家为“中国版” Sora “争先恐后，催生二轮爆发期。

先是今年 5 月亮开始，生数技术 Vidu、快手可灵，字节即梦，智谱清影，商汤 Vimi 文生视频模型等相继发布。

今年 9 月份，国产视频生成大模型又迎来了新一轮的爆发。MiniMax 视频模型正式发布 video-01、在云栖大会上，阿里云发布了通义万相全新视频生成模式，美图宣布 MiracleVision 视频生成能力的大模型升级。

今年 11 月，腾讯混合元模型正式推出视频生成能力。目前形成的视频支持中英文双语输入、各种视频大小和各种视频清晰度。另一方面，月亮的阴暗面 Kimi 曝光正在内测 AI 视频生成功能" Kimi 创造空间，可以通过 12 为用户制作个性化的音乐视频，预设风格模板和自定义创作功能。

第二轮爆发期间，随着创业公司和巨头的进入，AI 视频跑道变得拥挤。更重要的是，上半年新产品密集发布阶段后，行业的竞争将从“是否升级为“是否好用”，以突出竞争中的重围。

为使用方便，升级更新是玩家的统一动作。国内最快的动作就是快手和抖音，有视频基因。

截至今年 9 月亮，快手可灵经历了十次迭代升级。现在，在可灵。 1.5 在模型的支持下，可灵 AI 能够直出 1080p 超清晰度视频，挑战大屏幕的清晰度和质感。就图片视频而言，可灵 1.5 模型可以响应更复杂的文本描述要求。另外，可灵 AI 同时还支持运动刷、对口型等功能。

可灵 AI 对口功能，图源可灵灵 AI 微信公众号

快手科技 2024 年度投资者日上，快手主站业务及社区科学线负责人盖坤介绍，已累计超过。 260 万人使用可灵 AI，并且累计生成超级 2700 万只视频、5300 万张照片。

字节也是视频赛道，与快手正面对抗。字节是今年第一季度。 AI R&D部门优先考虑视频生成模型。3 月底，即梦打开视频生成功内测；9 月份，字节发布了两个豆包模型家族的视频生成模型 Seaweed 和 Pixeldance，并通过即梦 AI、小范围的火山引擎邀测。

与以往的视频生成模式相比，大部分只能完成简单的指令。这两种字节模式可以让视频在大动态和镜子运输中随意切换，具备变焦、围绕、跟随目标等多种拍摄技巧的能力。，并能更好地服务于视频和电影领域的专业创作者。

11 月，Seaweed 正式向平台用户开放。根据字节介绍，豆包视频的开放生成模型 Seaweed 就是这个模型专业版，只要 60 时间可以在几秒钟内产生 5 秒的高品质 AI 在国内行业中处于领先地位 3 至 5 产生时间需要几分钟。

就底层技术而言，AI 视频跑道玩家的路线基本一致，即采用 Transformer 新的架构扩散模式 DiT，进行相关的传播、生成技术突破。换言之，玩家通过训练数据来丰富产品功能。

它还包括字节，快手 AI 为什么视频跑道跑得更快？" Sora 们"切入的 60s 视频是字节和Aautorapper的基本磁盘。在短视频生态下，两者都有丰富的视频土壤保湿。这种视频数据的练习是推动大模型“易用”的重要因素。

近一年来，国内文生视频大模型跑道进入 Sora 时刻。AI 在进入视频大模型生成能力新阶段的同时，我们也要看到行业的焦虑。

从实际的落地层面来看，如果是这样的话 B 终端商业生产，短剧、电影、广告对画面的连续性、一致性要求较高；如果是这样的话 C 终端用户娱乐，对 AI 真实性是产生的最大要求。

需要倒逼技术，要实现真正的好用，并不容易。

从技术角度来看，目前视频模型在理解和创作物理世界方面的表现仍然有限，图片的连贯性和稳定性、主体的一致性和真实性以及视频的持续时间都迫切需要迭代进化。

就成本而言，当前的视频技术难以下放到普通百姓家中，名声一时。 Sora 到目前为止，还处于研究阶段，只有少数专业人士进行内部测试，很大程度上是由于成本高。

再回到 AI 在这一问题上，视频是行业趋势，厂商们纷纷下注，一方面是因为行业需求催生了市场规模。

根据头豹研究所的数据，2021 年中国 AI 视频生成行业的市场规模是 800 万元，预估 2026 2008年，这个市场规模将达到 92.79 亿元。

另外一方面，大型商业落地的进展越来越迫切，与之相比， ChatGPT 这类聊天机工具，AI 视频生成是大型技术商业化更具潜力的赛道。

效率之争，落地对决

在过去的两年里，它给行业带来了技术革命，也使行业变得理性。

今年 7 月，2024 百度创始人李彦宏在世界人工智能大会上在演讲中提到，“ 2023 2008年国内出现了百模对决，实际上造成了巨大的社会资源浪费，尤其是计算能力的浪费。”

李彦宏激烈的话语背后，整个市场更加理性。市场预计可以在模型中生长和应用，为大型模型制造商赚钱，为各行各业提供效率。

抛开技术问题不谈，这注定是一场应用落地的效率对决，这也回到了商业化的问题上。

从去年的“百模对决”到今年的应用对决，无论哪个阶段，商业化都是大模型行业反复提到的话题。大模型的特殊性在于“烧钱”，真金白银的支持对于技术研发成本和应用成本的每一步都是不可或缺的，这也是大模型公司的“魔咒”。

与两年前相比，在中国，焦急地坐上牌桌，争当“中国” OpenAI “执念，这个群体 AI 明星企业把重点放在探索商业化落地应用上。

根据智能报道，它被称为“” AI 六小虎"的 6 家庭中国大型独角兽(智谱，零一万物，MiniMax、在百川智能、月亮暗面、阶跃星)中，两家公司逐渐放弃了预训练模型，减少了预训练算法团队的数量，业务重心转向 AI 应用。

这揭示了市场的两条曲线。一是一些初创企业被困在商业化焦虑中；二是行业商业化前线拉长，巨头战斗力更强。

比如去年只发布了语言模型的字节，今年视频和3D都是一口气补上的。、音乐和其他领域的大模型。在应用方面，字节相继推出了十几个 AI 应用程序，涵盖娱乐、对话、Agent 等待多个产品方向。

在 C 在终端表现方面，下半年巨头商业化的知名度更加突出。根据数据分析机构 QuestMobile，字节豆包 App 今年 9 每月的日活已经到来 760 万，成为中国最大的日常生活。 AI 商品。

在这种趋势下，大公司和创业公司的角色也发生了变化。尤其是今年下半年，当资本理性的时候，有些 AI 明星创业公司被巨头收回，大型创业公司高管加入大厂。

这样就证明了大厂坚决投资 AI 的重要性。AI 这是一种增量，不但能给大厂原有的业务带来新的想象，大厂原有的需求场景也能给大厂带来新的想象。 AI 提供商业闭环。

然而，尽管它是一家资源和场景更丰富的大厂商，但面对市场，它是高价值的。 AI 在质疑什么时候投入换取收益时，还是有些不知所措。

在迷茫的背后，还有一个更重要的问题：Scaling Law 还成立吗？

所谓 Scaling Law，这是一个重要的大型行业技术原理。具体而言，OpenAI 一篇论文在四年前就发表过，模型性能将随着模型参数、信息、计算资源的增加而提高。

只要 Scaling Law 此外，通过计算率、参数和数据的练习，可以实现如此大的模型能力。 AGI。

这个行业仍然很积极。特别是 OpenAI 推出 o1 之后，意味着大模型能力已经突破。 L2 阶段。大型模型开始具有真正的逻辑思维能力，在没有人力干预的情况下进行规划、验证和反思。

o1在一定程度上是打破预训练 Scaling Law 商业解锁新的可能性瓶颈。 OpenAI 以及智谱给出的“通向” AGI 在“五阶段”的定义中，两家公司都将多模式和语言能力归类为 L1 阶段，即最基本的能力配置。

这一行业，从 ChatGPT，到 Sora，再到 o1，OpenAI 仍然是一个时代性的企业。也许和过去一样，哪个大型厂商可以先赶上？ o1，市场将迎来新的高潮。

在追求技术的道路上，玩家不能忽视的是如何把钱花在刀刃上，这是一场技术、应用、场景的效率对决。

目前，行业淘汰赛已经开始，李彦宏曾预测，未来， AI 在浪潮中，市场 99% 只有伪创新才会被淘汰， 1% 企业能脱颖而出。这是谁？ 1%，谁能创造“新世界”，等待市场给出答案。

———— / E N D / ————

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

“腊味”十足！一年一度琳琅满目的咸货出现~

Win11 “开始”菜单的推荐功能不会移除。

六个世界冠军出现在合肥！

开通市区第一条航线！直到胶东机场15分钟“飞”

速领！合肥市民至少可以乘公共汽车一分钱

项目推荐

迪瓜租机

康老板 · 氧疗堂

大型混战今年： 进化大赛，效率大赛，落地对决

延伸阅读

项目推荐

大型混战今年：进化大赛，效率大赛，落地对决