人人都能成导演？Sora 2的现实与幻想

2025-10-16

已‘开窍’，却未‘成精’

国庆假期，全球AI圈被一颗‘重磅炸弹’惊醒。

OpenAI推出新一代AI视频模型Sora 2及其配套应用Sora App。即便使用时需填写邀请码，也未能削减网友的热情，社交平台上满是寻求邀请码的信息。短短四天，这款App就登上美区App Store免费榜首位，超越ChatGPT、Google Gemini等一众头部AI产品，迅速成为海外创作者、内容营销人和TikTok卖家的新宠。

社交平台瞬间被AI生成的‘同人宇宙’淹没：动漫角色穿越现实街道，游戏角色在都市中穿梭，甚至OpenAI CEO山姆·奥尔特曼（Sam Altman）也被网友玩出花样——他出现在东北炕头吃饭、在阿里会议室讲‘闭环’‘赋能’，还化身外卖骑手在城市街头奔波。

奥尔特曼本人称Sora 2为‘创意领域的ChatGPT 3.5时刻’。从官方演示到网上用户实测，Sora 2在物理逻辑、画面连贯性、真实感和音画同步等方面有了质的提升，被多家媒体赞为‘将AI视频生成推向新高度’。

DoNews体验后觉得：Sora 2固然强大，但离‘现实不存在了’的预言还有一定距离。

01.创造力惊人，细节仍显‘AI感’

Sora App以Sora 2为技术支撑，Sora 2直接具备对话、音效和背景音乐的自动生成能力，能实现音频和视频同步生成，改变了以往AI视频生成工具无声的状况。

进入Sora App后，主页底部有功能栏，从左到右依次是「视频推荐」「灵感广场」「生成器」「消息」「个人主页」。很多人将其称作‘AI版抖音’，是因为界面及首页推荐逻辑与之相似——App主页是垂直视频流，用户可上下滑动浏览其他用户发布的内容。

其中，灵感广场用于展示热门作品。由于Sora App生成视频后，提示词会默认成为视频配文，所以热门视频的提示词可直接复制修改后使用。

生成器是用户制作视频的核心功能区，有两点需注意：一是不支持上传用户自制视频素材，只能通过AI生成视频；二是不支持单独撰写短视频文案——用户输入的文案会默认作为生成视频的提示词。

生成视频时，有两种特色方式：一是图片生成视频，二是Cameo出镜秀。Cameo是每个账号对应的虚拟数字形象，相当于用户的‘专属Sora身份标识’。创建Cameo需录制一段个人脸部视频，操作步骤类似支付宝、银行类App的视频认证，验证通过后即可用自己的虚拟形象生成并发布视频。

此外，也能使用他人的虚拟数字形象，通过文生视频或图生视频功能创作，但前提是对方将形象设为公开。具体操作是：撰写提示词时点击他人头像，其ID会自动填入提示词；因此，使用他人形象发布视频时，系统会自动@该用户——这意味着，形象设为公开即默认允许App内其他用户使用。

DoNews用奥尔特曼的虚拟数字形象和一张图片生成了一段视频，提示词为：‘@sama在图片场景里说集美们，耶斯莫拉。’

在生成的视频中，Sora结合图片背景为奥尔特曼丰富了台词，奥尔特曼指向后面的店铺说：‘集美们，今天带大家来看看老姐妹的店，耶斯莫拉。’台词的补充体现了AI的联想能力，与场景配合较为自然，发音时，人物的口型也基本能对上。

不过，并非每次生成都能一次成功。DoNews再次尝试生成奥尔特曼剥猕猴桃的视频时，剥猕猴桃的细节出现错误，有明显的AI痕迹。

DoNews又用奥尔特曼和另一用户的数字形象创建了一段多角色视频，提示词是：‘@sama@thomasdimson扮演《后宫甄嬛传》里面的华妃娘娘和皇后娘娘，穿着清朝的妃嫔服制，用中文吵架。’系统检测到版权问题无法生成，删除提示词中的《后宫甄嬛传》后，生成就不再被拒绝。

在这段双人互动视频中，提示词只提到‘用中文吵架’，而Sora再次为角色添加了台词，二人的吵架内容也符合清宫戏的背景。但细节仍有瑕疵，比如中间有一句台词的声音没有对口型，后面皇后的台词错误地对应到了华妃的嘴型。

这种台词错位的情况在多角色视频中发生的概率似乎较高，在DoNews之后生成的另一段多人对话视频中也出现了类似问题。

总体而言，Sora 2在物理世界理解方面表现不错，用户数字人的物理效果和唇型同步效果良好，基本的一致性做得较好。但涉及多元素的物体交互时，仍会出现多角色台词错位、物体交互bug的问题，有明显的‘AI感’。

‘AI配音’本身也有缺陷：语气生硬、情感适配度低，若提示词未明确语调，生成的对话会显得机械。同时，‘构思提示词’的门槛依然存在——普通用户可能因描述不细致（比如没说清场景氛围、人物动作），导致生成的视频偏离预期，而专业创作者则需花费时间优化提示词，才能弥补AI的细节不足。

02.创意ChatGPT时刻未到，娱乐版抖音还差火候

OpenAI在官方声明中，将Sora 2定位为‘最先进的视频和音频生成模型’，还明确对比：2024年2月发布的初代Sora是视频领域的‘GPT - 1时刻’，而Sora 2直接进入了‘GPT - 3.5时刻’。

从音画同步、人物ID一致性（如Cameo形象复用）到多镜头叙事的技术突破来看，Sora 2确实提升了AI视频生成的上限，但距离‘重塑创意领域’和‘成为新一代娱乐社交平台’，它显然还不够成熟。

小旭音乐创始人兼CEO、AIGC艺术家小旭评价：‘Sora 2生成的音频真实感、清晰度，把之前的AI音效工具甩开好几条街，甚至比谷歌Veo 3还略胜一筹。’这指出了Sora 2的核心优势——易用性。它把复杂的视频生成流程简化成‘输入提示词+选形象’，尤其是Cameo功能，用户录几秒脸部视频就能克隆专属虚拟形象和声音，门槛低到普通用户也能操作。

但优势之外，问题也很明显。‘目前生成的视频时长比较短，只有10秒钟，在正规创作中还是有点短。’此外，分辨率也不理想，App里没法调画质，默认只有480P或360P，横版还得用PC端才能生成。在小旭看来，Sora2是瞄准AI社交的，并非纯粹的AI工具。

Sora App目前采用的邀请制也能证实他的观点，当一个邀请码注册成功后，可以再生出4个邀请码，分享给其他用户后，这些用户激活账号又能获得4个新的邀请码，如此形成裂变循环。而且一旦使用他人的邀请码，系统会自动关注邀请方，逐步构建起好友社交网络。

用户车车体验后觉得，其娱乐性‘远不如抖音’：‘Sora上的内容更像‘自娱自乐’——每个人生成的视频都是围绕自己的虚拟形象或简单场景，没有抖音那样的话题挑战、达人生态，也缺乏能引发大众共鸣的内容，刷几条就会觉得单调。’

这种‘娱乐性短板’，与Sora 2严格的限制有关。为规避版权、肖像权风险，它会直接拒绝生成多数真实名人、影视角色（比如前文提及《后宫甄嬛传》触发版权拦截），甚至普通人物形象的创作也有诸多约束。用户能发挥的题材空间被压缩，自然难以产出多样化、有传播力的内容——反观抖音，从生活记录到创意短剧，内容边界宽泛，再加上评论互动、合拍、话题榜等功能，社交粘性远非Sora2可比。

综上所述，Sora 2无疑是一次技术飞跃，它显著降低了AI视频创作的门槛，将此前分散的视频、音频生成步骤整合，让普通用户也能轻松享受创作的乐趣。

然而，无论是其有限的画质与时长、纯AI生成内容导致的同质化倾向，还是技术上尚未克服的细节瑕疵，都表明它距离成为引发创意领域革命的‘ChatGPT时刻’以及媲美抖音的娱乐平台，还有差距。

对于普通用户，Sora 2是一款有趣、易上手的新玩具；但对于追求高质量、长序列和强一致性的专业创作者而言，它还不是一个成熟可靠的生产力工具。OpenAI的这颗‘新星’，优点与缺点同样突出，它的真正成熟，或许还需等待下一个版本的迭代。

本文来自微信公众号 “DoNews”（ID：ilovedonews），作者：程书书，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

“存量竞争”时代，北京写字楼打出优惠牌保“续租留客”

第17年“双11”：AI、出海、即时零售成亮点

短信电话激活百万老人，“不创新”科技黑马融资2.3亿的背后奥秘

京东官宣：将推出新车并官宣代言人

青海一家亲董事长贾建全：调改的真谛在于‘玩’出生命精彩

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂