马斯克发布免费可玩视频大模型叫板Sora 2，前英伟达何宜晖参与其中

2025-10-09

马斯克和阿尔特曼又杠上了！

智东西10月8日消息，今日凌晨，马斯克的大模型独角兽xAI推出了最新视频生成模型Imagine v0.9，并免费向所有用户开放。

一周前，OpenAI发布了旗舰视频和音频生成模型Sora 2，此次xAI的更新或许是马斯克对Sora 2的直接回应。

xAI并未发布完整的技术博客，仅提及Imagine v0.9相比初代版本，在视觉质量、动作、音频生成方面有所提升，还上传了几个生成视频案例。

马斯克在X上发文称，Imagine v0.9生成视频的时间不到20秒，而且用户能基于语音优先界面，只需说话就能创建视频、图像和文本。

总体而言，Imagine v0.9生成速度更快，在20秒以内，而Sora 2生成视频可能需要一两分钟；Imagine v0.9已免费向所有用户开放，Sora 2采用邀请制，仅允许部分用户使用；Imagine v0.9生成的视频时长约6秒，Sora 2支持15秒视频生成。

智东西对比了Imagine v0.9和Sora 2的生成效果，使用OpenAI官方示例的提示词时，Imagine v0.9会出现提示词理解错误、视频画面与音频不符、不提示深度伪造风险、无法说中文等问题。

值得注意的是，这也是马斯克今年7月挖走英伟达高级算法工程师何宜晖（Ethan He）后，何宜晖在xAI参与的首个项目。

何宜晖2018年本科毕业于西安交通大学计算机科学与技术专业，2019年在卡内基梅隆大学获得计算机视觉硕士学位，2023年加入英伟达担任高级深度学习算法工程师，曾参与英伟达世界基础模型Cosmos研发。

尽管Imagine v0.9可免费使用，但智东西尝试后发现，Web端目前无法正常工作，移动端虽可体验，但也会出现连接失败的情况。

秒生电影大片效果

还能添加自然对话

Imagine v0.9集成到了Grok中，它会先根据文字生成图片再创建视频，或者直接将用户上传的图片转化为视频。

xAI在博客中表示，Imagine v0.9突破了原生音频 + 视频生成的界限，无需编辑就能创建类似电影效果的视频。例如下面这段视频中还伴有实时的龙的怒吼。

Imagine v0.9的另一大升级是运动控制，如下面视频中的滑雪片段，人物飞起到落下的动作十分丝滑。

第三点是用户可为视频添加动态相机效果，如智能焦点转移，下面视频中根据镜头位置变化，会对应虚化街景突出人物。

第四点是Imagine v0.9支持添加自然对话，或者生成具有表现力的歌声等。

对比Sora 2文字理解错误频发

有深度伪造风险

智东西使用OpenAI演示Sora 2时的提示词，对比了Imagine v0.9和Sora 2的生成效果。

提示词：Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time（两名山地探险者穿着色彩鲜艳的专业冲锋衣，脸上结着冰霜，眼神急切地眯成一条缝，在雪地里轮流大喊）

OpenAI放出的Sora 2生成视频：

Imagine v0.9的生成视频：

可以看到，Imagine v0.9生成的视频中音频没有“喊叫”，只是画面中人物在张嘴。

提示词：a guy does a backflip（一个男人后空翻）

OpenAI放出的Sora 2生成视频：

Imagine v0.9的生成视频：

智东西选择Grok生成的第一张图创建视频，视频中主角完全无视重力开始在空中360度旋转。

最后，智东西还体验了Imagine v0.9的自定义语音能力，上传了马斯克的照片，让他说出“Sam’s a sharp guy, and our relationship’s always been good. OpenAI’s built some impressive stuff in the AI space, and I really hope to partner with them someday to advance AI development togethe（萨姆是个敏锐的人，我和他的关系一直都很好。OpenAI 在人工智能领域做出了不少亮眼的成果，我真心希望有一天能和他们合作，共同推动人工智能技术的发展）”这段话。

Imagine v0.9没有提示深度伪造风险，且生成的声音与马斯克本人略有差异。

目前该模型不支持中文，当智东西让马斯克说出“我和萨姆·阿尔特曼是好朋友”，其生成视频中只有“是好朋友”较为清晰。

结语：AI视频生成竞赛升级

自定义语音功能或引发深度伪造风险

一周内，OpenAI、xAI相继发布视频生成模型新进展，Sora 2不仅在模拟真实性、可控性及音效方面有所提升，还推出了全新Sora社交App，xAI则在功能升级的基础上，通过免费开放吸引了大量流量。

此次Imagine v0.9的一大升级是允许用户在视频中添加自定义语音。这项技术进一步成熟后，用户可以自行上传公众人物照片及说话内容生成逼真视频，这可能带来深度伪造风险。

因此，未来如何平衡技术发展与风险防控，或许是所有视频生成模型提供商都需面对的技术难题。

本文来自微信公众号 “智东西”（ID：zhidxcom），作者：程茜，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

中国大力发展理工科，普通人需警惕“下一个土木工程”

假期返程高峰已至，谨记六点保障安全出行

全新体验！快来开启你的同济同款生活

【央视聚焦内蒙古】从“沙进人退”到“绿进沙退”，内蒙古筑牢北疆生态防线

持续降雨！滨州天气最新情况