Sora终于来了,但是多模态AI呼唤实用主义。
Sora 的现实问题
随着 ChatGPT 随着大语言模型的出现,人工智能进入了一个全新的时代。在这股浪潮中,多模态 AI 技术已成为行业竞相追求的目标,OpenAI 的 Sora 更加把这种热情推向高潮。
等待了 299 天后,多次跳票 Sora 终于来了,OpenAI 在北京时间 12 月 10 全新的视频生成模型于凌晨正式发布。 Sora Turbo。
但是,从实际测量效果来看,Sora 效果没有带来太多惊喜,无论是视频时长、生成效果一致性还是指令遵循,都没有明显优于市场上现有的视频模型。
实际上,Sam Altman 将 Sora 比成视频版 GPT-1 这一说法实际上暴露了这个项目的尴尬局面。因为 GPT-1 它更像是一种实验模型,不适合作为直接可用的生产设备,主要用于科研领域的参考。
投入大量资源和时间后,Sora 假如只呈现一种概念验证级别的商品,如果真的如此, GPT-1 实用水平一般需要多次迭代和技术突破,所以考虑到视频生成所需的巨大算率投入和数据需求,这种战略选择的成本效益比恐怕令人担忧。
在用夸张的宣传和新鲜感制造期待的同时,我们交出了一款没有太大突破的商品。尤其是在 2024 在年底的这个时候,当国内外竞争对手通过快速迭代达到类似的效果时,这种“落差”的表现略显尴尬。
不可否认,Sora 发布代表多模态 AI 技术的重要里程碑。它展示了一个“预测未来” AI 该系统的雏形使人们能够对通用人工智能 ( AGI ) 来临充满期待。不过,这一次, OpenAI 已不再将 Sora 它被称为“世界模拟器”。
关于 Sora 关于技术局限性的争论由来已久,例如,Sora 逻辑错误经常发生在视频生成中,如物体运动不符合物理规律、逻辑关系混乱等。 Sora Turbo 很明显,这个问题还没有解决。早在年初,Meta 首席科学家杨立昆直言不讳,Sora 由于依赖于大规模数据训练的概率模型,生成式技术路线“注定失败”,无法真正理解物理世界的逻辑关系。此外,Sora 形成过程更多的是对现有数据的拟合,而不是创造新的知识,这样在模拟现实世界方面还有很长的路要走。
除了技术成熟度之外,理想总是要回归现实,Sora 工业化方面还存在许多挑战:
首先,Sora 实践和应用费用极其昂贵。 Factorial Funds 估算,如果 Sora 要进行大规模的应用,还要约 72 万片英伟达 H100 GPU 支持,这意味着 216 一亿美元的硬件投资。如此天价的算率消耗, Sora 短期内很难实现商业闭环。
其次,Sora 尽管落地场景还不成熟。 Sora 已正式发布,但在效果上远远落后于真正的“世界模拟器”。在这个阶段,它更像是一个玩具,不能成为一个真正实用的创意工具。可以说,Sora 离真正的" iPhone 时间“还有很长的路要走。
如同上世纪 60 时代核聚变发电:表现出令人震惊的潜力,吸引了大量的投资和顶尖人才。然而,随着研究的深入,技术难度和资源投入呈指数级增长。虽然每隔几年就会有突破性的进展报告,但要实现真正可控稳定的商业应用,总是像隔阂一样。 30 年度“距离”。
所以,今天的 Sora 面对这样一个困境:完美演示视频背后是否存在不可逾越的技术瓶颈?这条追求完美视频生成的路径最终会被证明是一条昂贵的技术死路吗?将实验室演示转化为真正有价值的应用可能比我们想象的要困难得多。
对此,百度创始人李彦宏在最近的一次采访中表示:“如果在任何场景中都能生成视频,可能需要很长时间,而且成本更高。”可以看出,百度并非不重视。 Sora 所代表的技术方向。只是基于务实的判断,选择了另一条路线。
“应用驱动”成为第一原则。
和很多厂商一起致力于建设 Sora 这类通用文生视频模型不同,百度智能云的重点在于帮助客户实现多模态应用的落地。正如李彦宏所说,“我们更关心如何帮助用户运行应用程序”。事实上,在很多行业客户的实际场景中,他们真正需要的是在自己的应用中拥有可靠的多模态能力,而不仅仅是一个裸体的通用模型。百度智能云深知这一点。通过多年在多模式领域的丰富积累和大量的工程实践,以更简单、更方便、更低的门槛赋能客户,可以开启多模式应用。这个也是百度暂时不直接做的。 Sora,这是聚焦应用落地的重要原因。
不做 Sora,并不意味着百度在多模态中是多模态 AI 领域缺阵。恰恰相反,百度在多模态领域有着长期而深刻的积累,只是选择了一条应用驱动路线。
当前大模型性能增长遇到瓶颈,AI 进入“冷静期”。海外 AI 巨头从追求 AGI 转变为务实路线,OpenAI 谷歌、微软等试图转向盈利的商业化运营,聚焦商业变现和产业应用,大力发展。 To C 商业,企业服务,开发者生态。
就像历史上典型的技术周期一样:高期望→泡沫→冷静期→务实应用。行业需要通过实践中反馈的需求和问题,从“技术优先”的思路转变为“应用优先”的轨道,引导技术发展。
所以,什么叫“应用驱动”?简单地说,就是从实际应用领域出发,整理出来 AI 着陆的关键问题,并以资源为重点,最终使技术具有实际价值。这与“颠覆性创新”不同。、追求酷炫 Demo 做法。在李彦宏看来,“我更希望尽快接触场景和应用,看看在这个过程中遇到了什么问题,把这些问题带回来。让我们把它们整合起来,看看我们遇到的最常见的问题是我们优先解决的问题。”
这个想法类似于当年云计算与互联网的关系。回顾历史,得益于云计算平台在基础设施方面的支持,互联网公司可以更加关注业务创新,加快客户需求与技术能力的迭代结合,最终催生一个繁荣的应用生态。
如今,百度智能云只是希望在多模态中 AI 这个领域扮演着这样一个“推进器”的角色。通过支持计算率、平台、安全等维度,更多的企业和开发者可以专注于挖掘行业需求,打造可用的智能应用,而不是在复杂的模型培训、部署和应用开发中“涉水”,让多模式 AI 逐步从实验原型发展到日常工具。
站在这个思路上审视多模态 AI,了解百度智能云的战略选择并不难。在多模态 AI 落地过程中,有两个关键挑战亟待突破:一是实现更加自然的人机交互,二是提高模型的可控性,尽可能清除幻觉。虽然简单的视频生成模型看起来很帅,但是很难很好地解决这两个问题。相反,在一些垂直领域,使用更简单、更现实的多模态技术,可以使用 AI 先跑起来。
比如在工业质量检验领域,结合图像识别和文字描述的多模态系统可以准确发现产品缺陷,生成详细的检验报告;例如,在医学影像诊断中, X 光片、CT 等待图像与病历文本相结合的分析方案,已在多家医院实现大规模应用。这些看似日常的应用就是 AI 真正创造价值的开始。
这正是百度多年来多模态的原因。 AI 该领域的投资方向。李彦宏强调,“外界有一个误解,就是百度不做。 Sora,相当于百度不做多模式。我们非常非常看好很多模式,我们在很多模式上投入了很长时间。在真正有应用场景的地方,我们的多模式能力非常强。"
多模态 AI 的"地基"
多模态 AI 门槛高,难度大,是业内公认的痛点。各种模式数据的处理,模型培训的优化,推理服务的部署,每一个环节都需要大量的专业知识和工程经验。这无疑阻碍了多种模式 AI 广泛应用于更广泛的行业。如何支持多模态技术大规模落地百度智能云?
在模型训练方面,百度智能云的百度计算平台完成了主流多模式大模型的全覆盖,除了支持之外 MLLM、CogvIm2、Qwen2-VL 等待行业领先的多模态模型,也为多模态训练提供了一系列改进方案。其中,“多芯混合训练”可以适应英伟达、昆仑等多种芯片,充分发挥芯片的异构性能,在万卡规模下保持两种芯片混合训练的效率损失。 5% 其中;“长前后文训练”突破了序列长度的瓶颈,为多模式模型拓展了更广阔的应用空间;“大集群高效训练”的并行策略进一步提高了多模式训练的效率。在万卡任务中实现模型有效训练时间比例 99.5%、提高端到端的性能 30%。
在模型推理方面,百度智能云也展现了全栈式的优势。百度适应各种客户场景,不仅支持用户定制镜像布局,满足个性化需求;还可以在英伟达、昆仑等异构芯片上实现推理服务,兼顾成本和性能;还提供了一系列加快改进的方案,用于主流的文学图片、文学视频和多模式模型。通过架构分离,KV Cache、负荷分配等一系列加速工作,提高了长文本推理的效率。 1 倍多。
千帆平台作为一个全栈开发平台,提供了不同层次的开发路径。对于普通 AI 应用开发者新手,千帆 ModelBuilder 提供开箱即用的多模态能力,包括图像生成、理解、视频生成等热门领域。使用者只需调用 API 接口,可以实现多模态交互,不需要忽视模型结构和训练过程背后的复杂性。此外,千帆 AppBuilder 作为一个企业级的应用开发平台,它可以帮助客户和开发者不断降低应用开发的门槛,提供丰富的多模态能力,包括图片处理部件,如文字图片、图像内容理解、短语音识别、短文本在线生成等。,以及数字人的功能等。同时可以实现多渠道集成配送,满足更丰富的应用需求场景。
千帆为追求定制的企业客户提供灵活的定制服务。用户可以利用平台的数据处理、模型培训、推理优化等工具,构建多模态解决方案,以满足自己的需求场景,支持从数据处理到模型培训的全过程开发。平台还集成了主题模型库,涵盖智能客服、数字人、知识管理等热门领域,帮助用户快速构建专业的多模态应用。
具体而言,千帆平台提供了非常全面、灵活的多模态服务方案。若用户需直接使用多模态大模型,可在千帆上一键调用包含百度文心一格,Stable Difusion、Vidu 主流模型,涵盖了从文生图、文生视频到图像理解等多个应用领域。千帆平台还提供了强大的计算能力和工具支持,如果客户想要定制练习和微调专属多模式模型,建立个性化应用。
云服务在复杂的模型培训和大规模推理能力的实现中起着关键作用。百度智能云通过提供这些基础设施服务,帮助开发者和公司在不太关注底层技术细节的情况下,更加关注应用创新。
此外,百度智能云还在行业解决方案和产品中进一步沉淀了多模态能力。比如在工业领域,打造了一个“一见”的大视觉模型平台;在智能客服场景中,提供多模态对话能力;在数字人领域,文化生活已经完成 3D 视频。可以说,百度智能云的多模态服务已经渗透到各行各业的关键生产力阶段,帮助企业以更符合需求的方式提高质量和效率。
不做 Sora,这是为了更多 Sora
在百度智能云的支持下,越来越多的创新型企业和开发者聚集在这里,借用“他山之石”,建造自己的“高楼”。
生数技术就是其中的典型代表。这家致力于多模式大模式研发的明星企业,在百度百威平台的加持下,推出了国内首款纯自研视频大模式。 Vidu。生数科技将通过100平台强大的容错能力和训练加速能力, Vidu 训练材料渲染加速了效率的提高 3 倍数,数据获取效率更高 51 倍,可以说,百度是这个“国产” Sora “出现提供了坚实的算率保证。
类似的情况也有类似的情况。 ( VAST ) ,这家 3D-AIGC 百度智能云视也是该领域的佼佼者。 AI “压舱石”的创新。其面世的 3D 内容创作工具" Tripo “深受世界瞩目,被称为世界瞩目, 3D 领域的" GPT-4 "。而且这一切的背后,正是百万平台在计算率、成本、工程化等方面的全方位赋能,帮助百万平台 VAST 迅速建立强大的力量 AI 获得完善的基础设施 AI 工程化能力。
自然,多模态 AI 生态学的触角远不止于内容创作领域。以光魔科技为例,这家公司瞄准了 AIGC 平台的普遍性。在百度智能云视频解决方案和百度平台的加持下,光魔科技推出了“白日梦” AI “完成一键式文生视频能力,让每一位普通用户都能“编出”专属电影,已拥有一大批忠实粉丝。
百度智能云除了专注于前沿技术的创业公司外,还为百胜中国这样的“传统巨头”提供服务。这家餐饮巨头依托百度智能云的大模型能力和智能客服解决方案,打造了特色。 AI 客服系统。该系统可以关联前后文本,准确识别客户的真实意图,提供更好的售后服务支持,帮助人工客服快速总结需求,优化服务流程。它为百胜中国节省了大量的客户服务费用,同时也提高了客户满意度。
由此可见,百度智能云正以其“基础”般的算率支持和梯度开发平台为整个多模态。 AI 生态学提供源源不断的“能量”,在未来孵化出更多的“能量” Vidu "、" Tripo ",甚至更多" Sora "。
"解决问题 AI "
对比云计算对因特网产业的变化, AWS 举例来说,它不仅改变了公司 IT 更重要的是,基础设施催生了新的商业模式和创新的企业生态。进入 AI 时代,多模态 AI 这一突破不仅体现在技术维度的扩展上,也体现在应用范式的转变上,代表着人工智能从重点能力到综合理解的重要跃升。
AWS 的 AI 时代的实践也提供了一个很好的观察样本:过去 AI 在开发过程中,需要对具体问题进行精心的规划和训练。但是在生成式 AI 时代,AWS 认为成功的产品化之路不应该局限于单一模型的性能竞争,而应该着眼于更广阔的技术组合和应用领域,更加强调“降低成本”、"实用"的 AI。
技术永远只是一种方式,而不是目的本身。多模态 AI 传统的价值链正在重构。这个过程的关键在于如何将技术创新转化为可落地的解决方案,让不同规模、不同领域的公司找到自己的数字化转型路径。
尤其值得注意的是,与以往依靠单一技术平台的垂直整合不同,新一代 AI 基础设施更加强调开放合作。该模式使不同规模、不同领域的企业能够找到适合自己的数字化转型路径,从而使企业能够找到适合自己的数字化转型路径。 AI 成为真正能够解决问题的人 AI。从这个角度来看,百度智能云和 AWS 很明显,站在同一战线上:通过建立开放、灵活的战线。 AI 基础设施,降低技术使用门槛, AI 真诚地为工业创新服务。
结语
在全球 AI 在竞争日益激烈的背景下,不同的企业表现出不同的技术路线和发展战略。这是可以理解的。在这条仍处于探索阶段的跑道上,技术和商业路线的多样化不仅有利于促进整个领域的创新突破,还为不同的场景和需求提供了更丰富的解决方案。
市场调研与咨询公司 Omdia 根据最新发布的报告,将技术转化为可落地的解决方案同样重要。百度智能云在多模式下生成 AI 在技术和商业成功方面表现出领导力。Omdia 预计百度智能云将继续在中国推进多模式生成 AI 部署和实施应用。
百度“应用驱动”的思想可能会激励我们:AI 技术的发展不应该陷入简单的技术竞争,而应该着眼于更可持续的商业价值和社会价值。通过深入行业,了解需求,将创新成果转化为切实可行的解决方案,从而将技术和行业推向下一阶段。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




