生数、智谱、智源谈论Sora:模型在预期之内,商品才是亮点。

2024-12-11


Sora只是GPT-1。


Sora今天是OpenAI技术“马拉松”的第三天——鸽子近一年终于上线了!


场景火爆,Sora 一旦发布服务器,Turbo就被挤压了。



很多视频case都在网上传播。对Sora真正的“买家秀”效果,口碑评价是两极分化的。有些人认为Sora代表了视频生成的最强水平。但是,有些人认为Sora的表现并不像预期的那样好。


清华大学人工智能研究院副院长、学生数学科技首席科学家朱军、智谱CEO张鹏、北京智源人工智能研究院院长王仲远在今天举行的2024甲子引力年终盛典上首次对Sora进行了评价。


与今年2月的第一次发布相比,朱军认为Sora正式上线所带来的影响要弱得多。在今年,视频生成模式取得了长足的进步,并不是Sora2月刚刚发布的阶段。总的来说,Sora的发布有一些产品亮点,尤其是视频剪辑的能力。然而,基本模型能力的表现并没有太多的亮点。效果在预期之内。比如Sora的形成速度看起来挺长的,大概在几分钟左右,成本也不低,可能会影响后续用户的使用和商业化。


张鹏说:“Sora的效果和你的预期有点不一样。如果看技术指标,国内一些视频生成模式并不比Sora差。”比如智谱发布的视频生成模型产品的影子已经可以支持生成4K分辨率的视频了。


当然,视频模型的竞争绝对不是简单的比较参数,而是如何产生实际的应用和生产力。张鹏认为,Sora在这次发布中将大量精力投入到商品上,而不是模型上,比如视频编辑能力和工作流量,这是用户需求的转变。


王仲远认为Sora的推出基本符合预期,年初发布时没有惊人的效果。从产品上线时间来看,国内公司其实已经在OpenAI之前做了一个商品级的模型。今年智源发布的新模型Emu3也探索了下一代的技术路线,是包括文字、照片、视频在内的原始多模式的统一理解和生成模式。


总的来说,从官网的介绍到用户体验,「甲子光年」最大的感觉是OpenAI不仅仅是一家模型公司,而是一家进化成产品公司的公司。Sora Turbo的亮点更加注重视频剪辑的产品设计。


今年,OpenAI显然增加了商品层的投资。例如,今年6月,前Instagram产品副总裁Kevinin产品副总裁和Twitter产品副总裁 作为首席产品官,Weil加入了OpenAI。


人们常常问AI时代的Killer 什么是App?今日来看,“Sora ChatGPT“也许是最被忽视的killer app。


GPT-1.视频版


北京时间12月10日凌晨,OpenAI CEO 萨姆·奥尔特曼(Sam Altman)比尔·皮布尔斯,Sora团队负责人(Bill Peebles)、阿迪亚·拉梅什(Aditya Ramesh)关于Sora的讲解直播已经一起进行了20分钟。



在直播间,奥尔特曼称Sora为GPT-1的视频版本,Sora是DALL·基于E和GPT模型的建立。


使用扩散模型的Sora(Diffusion Model),基本视频是从最初的“噪音”中产生的,并逐渐去除噪音,从而产生高质量的画面。这个过程依靠Transformer结构,可以一次预测多个帧,保证画面中主体的连续性,即使主体暂时脱离视线,也能保持一致。


另外,Sora继承了DALL。·E 再一次字幕技术3(Re-captioning),对视觉训练数据生成详细的描述性字幕,提高了对客户文本指令的忠实呈现能力。


Sora的训练数据集来自多种来源,包括:


公开数据集(Public Datasets):来自工业标准机器学习数据和网络爬虫数据。


专有数据(Proprietary Data):与Shutterstockk一样,通过合作伙伴获得的非公开数据、合作Pond5。


人工生成数据(Human-Generated Data):反馈由AI培训师和红队成员提供。



奥尔特曼说Sora Turbo开启了AI模拟现实和互动的新篇章。作为Sora的全新升级版,它提供了包括横屏在内的各种视频比例选项(16):9)、正方形(1:1)和坚屏(9:16)适应不同的显示需求和创意表达。与此同时,Sora Turbo引入了各种高级编辑功能:


Remix(重混):在视频中,用户可以更换、删除或重构元素;


Re-cut(重新切割):使用者可在视频中找到最佳帧,并从此延伸或循环编辑;


混和:Sora Turbo可以无缝合并两个视频短片;


故事板剪辑:准确指定每一帧的输入,准确叙述控制,将照片转换成视频;


风格预置:使用者可选择预设风格创建视频,快速设置视频视觉风格。




Sora 显示Turbo的效果


Sora有三种视频生成方式:


文本到视频(Text-to-Video)方式:Sora的核心功能允许用户通过输入文本描述来生成完整的视频。Sora可以通过使用先进的自然语言理解技术和生成模型来理解文本的含义,并将其转化为具体的视觉内容。这种模式适用于制作从短片到情节丰富的叙事视频。


文本 图像到视频(Text Image-to-Video)方式:在这种模式下,客户不仅可以输入文本描述,还可以上传图像来提高视频生成的准确性。Sora可以通过将文本和图像结合起来,更准确地捕捉和实现创作者的创意地图,生成更符合视觉预期的视频。这个功能特别适合需要将特定图像元素整合到视频中的使用场景,比如广告制作和商品展示。


文本 视频到视频(Text Video-to-Video)方式:Sora还提供了视频编辑和转换功能,用户可以上传现有的视频模板,并根据文本描述进行修改或扩展。这种模式使用户能够在现有视频的基础上添加新的情节和细节,甚至创建新的版本或完全不同的内容。例如,用户可以重新编辑现有的广告视频,并添加新的对话、场景或动画效果。




Sora 显示Turbo的效果


“我们希望通过Sora项目建立一个真正了解世界和物理(原理)的AI系统。我们才刚刚起步。Sora的初始版本并不完美,偶尔也会出错,但现在真的可以增强人类的创造力了。”皮布尔斯说。


OpenAI研究科学家诺姆·布朗·布朗是o1模型的核心推动者之一。(Noam Brown)称赞Sora是scale力量最直观的展示。威尔·德普,OpenAI研究员。(Will DePue)还在社交平台上表示:“Sora是一种非常直接和有趣的商品,我们为实现这一目标付出了巨大的努力。”


ChatGPT PlusPro用户可以直接使用Sora。 生成视频的Turbo。ChatGPT Pro计划的用户每月可以生成500个视频,最长时间可以达到20秒,最大分辨率为1080p。;ChatGPT Plus客户每个月可生成50个视频,最大分辨率为720p,最长5秒。


推广Sora 在Turbo的同时,OpenAI也非常重视技术的安全性和伦理使用。他们在模型中建立了许多安全措施,例如添加C2PA元数据来确保视频的透明度,并验证视频的来源。与此同时,OpenAI还成立了红队测试,由信息误导、仇恨内容和偏见领域的专家进行。


“在过去的九个月里,我们观察了来自60多个国家/地区300多名用户的5万多个模型要求的用户反馈。这些信息有助于增强模型行为,提高模型对安全协议的遵守程度。”OpenAI在文章中写道。


2.Sora并不完美


马克斯·基思·布朗利·布朗利,Youtube科技评价网红(Marques Brownlee,网络名称MKBHD)还对Sora进行了深入评价。



来源于布朗利的评价视频:Youtube


布朗利发现Sora擅长粒子和液体模拟。“令人惊讶的是,Sora对流体力学的处理相当出色,即使烟雾效果可能不完美,水波动和火焰的效果也可以达到令人信服的水平。”但他也认为Sora对物理一无所知。


从官方视频中可以看出,Sora对“运动”的认知并不全面,有时甚至充满了错误。比如在一个猴子轮滑的视频中,你可以看到猴子的右腿“毫无准备”地变成了左腿。



以及提示词中的“rockefeller center is overrun by golden retrievers! everywhere you look, there are golden retrievers.录像中,金毛猎犬的总数模糊不清,每一个人的形态都不稳定,又若隐若现,例如有些脑袋突然变成了尾巴。



OpenAI表示:“Sora是一个强大的工具,可以跨越物理限制,在多个场景中同时发挥创造力,探索各种新概率。更重要的是,我们认为它极大地拓展了创作者背后的创作空间,赋予他们前所未有的实现创造力的能力。”


最后,Sora团队还“泼了一盆冷水”来调整顾客的期望:“假设你带着这样的期望来到这里 Sora,感觉只需点击一个按钮就可以生成一部故事片,那么你可能会有错误的期望。”


本文来自微信公众号“甲子光年”,作者:苏霍伊,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com