最后，OpenAI最新Sorai

2024-12-11

期待已久的新一代Sora终于来了！

OpenAI刚刚推出了Sora的最新版本！适合Pro和Plus用户！可以在sora上.使用com。

当前，欧盟、中国等地的使用受到限制。

就用户而言，各种生成视频的流出令人惊讶！

从480-1080可以选择新版本的Sora分辨率！制作1080P的视频最长可达20秒！

擅长抽象和流畅的动作！可以是宽屏，坚屏或方形！

除了可上传、可下载外，还提供混响方式！文件夹法！

可以优化或查看社区的最新动态，让用户在社区分享中找到更多的创作灵感！

“Sora还包含了一个”Storyboard”故事板面，可将多个提醒串联起来，生成视频！

代表顾客除了可以使用文字生成视频外，还可以输入图片和视频来帮助生成相应的视频。

科技博主-Marques Brownlee在XX，MKBHD已试用新sora一周)发布了一段10秒AI制作的新闻视频，与真人完全没有区别！

新型Sora功能突破不仅代表了视频生成技术的发展，也代表了OpenAI在多模态生成能力方面的技术突破。

尤其是细节渲染和逻辑一致性能力，产生的视频不仅视觉效果丰富，而且具有较高的连续性和安全性！

01 提供三种生成方法

新型Sora是OpenAI基于文本生成视频的下一代模型，与其前身相比，新型Sora在功能上有了显著提高。

新款Sora不仅支持基于文字生成视频，还可以结合客户上传的图片和视频生成更加定制和精细的视觉内容。

总体而言，Sora提供三种生成方法供您选择。

文本转视频 (Text-to-Video)方式

一个基本功能，用户可以通过输入文本描述来生成完整的视频内容。

使用自然语言理解和生成模型，sora能够准确地理解文本内容，并将其转化为视觉元素，从而生成符合描述的动态图像。

不管是短片还是故事性很强的内容，都可以帮助创作者轻松地生成符合想象的视频。

文本图像转视频 (Text Image-to-Video)方式

在这个功能中，你不仅可以输入文本描述，还可以上传图像来帮助视频生成。

Sora可以通过将文本和图像结合起来，更准确地捕捉和展示创作者的意图，产生更符合视觉要求的内容。

对希望将特定图像元素融入到视频中的创作者来说，将是非常有意义的，例如广告、商品展示等场景。

文本视频转视频 (Text Video-to-Video)方式

Sora还增加了视频编辑和转换功能，即用户可以上传现有视频，并根据文本描述进行修改或扩展。这使得用户可以根据当前的材料添加新的情节或细节，创建新的版本或完全不同的内容。例如，用户可以重新编辑现有的广告视频，并添加新的台词、场景或动画效果。

因为市场对新Sora的期望很高，相信也会再一次拉高订阅浪潮！

02 被狙击的国产“视频生成”雄心勃勃

在过去的一年里，尽管海外商品引起了人们的关注，但是国内的文生视频领域，实际上却充满了波澜。

国内互联网大厂商、创业公司纷纷布局视频生成技术，争先恐后地推出商品。

阿里云EasyAnimateV33： 阿里云团队开源视频生成模型，7月份迭代到V3版本。通过扩展DiT框架引入运动模块，可以通过视频继写功能增强捕捉时间动态的能力。EasyAnimate V3可随意创建视频，以满足长期视频内容的需要。

快手可灵AI（Kling AI）： 它展示了创造真实运动场景、准确模拟物理特征的能力和潜力。产品方向包括文化视频、图片视频、视频继写等功能。目前已有50万用户申请。，开放用户数量30万，产生700万视频。

字节跳动-豆包AI视频生成PixelDance和Seaweed：DiT基于PixelDance(Diffusion Models)结构模式，支持生成包含多主体间交互和复杂动作序列在内的连贯动作视频；Seaweed基于Transformer结构，通过时空压缩技术训练，支持多分辨率导出，生成真实流畅的视频，适用于各种商业应用领域。

Vidu1.55生数科技：四月份，视频模型Vidu与清华大学联合发布，最新的Vidu1.5版本于11月发布。文生视频、图生视频两大功能全面开放，Vidu 1.5全球首次推出多主体一致性功能，促使人物、物体、场景等的创作始终保持一致。上传1~3张参考图，Vidu 1.5可以100%精确控制单个主体，同时可以实现多个主体的交互控制、主体与场景的结合控制、人物、道具和场景的无缝集成。

PixVerserser爱诗科技 V2：2024年1月，爱诗科技PixVerse正式推出文生视频产品，7月份正式推出PixVerse。选择Diffusionion2 Transformer（DiT）系统结构，引入自研时空注意机制，单片段可达8秒，多片段可达40秒。

智谱AI清影（Ying）：七月份智谱AI推出了Ying(清影)的最新视频生成，可以在30秒内产生6秒的1440秒。×960超清视频，可以一次生成4个同一指令或图片的视频，引入CogSound模型，可以根据视频内容自动生成匹配的音效。

AIMinimax海螺（abab-video-1）： 九月份，Minimax的海螺AI发布了新产品，据报道，Sorax的整体性能甚至超过了当时的Sora。、利用深度学习和计算机视觉技术、视频超分辨率技术、视频修复技术等竞争对手，Runway将产生对抗网络（GANs），自回归模型，以及变分自编码器（VAEs）等待先进的技术原理。

尽管每个人都喜欢openAI的先进技术，但实际上在国内，国内企业在用户体验和商业化实施方面也取得了长足的进步。

从今年开始，有许多新的模型和升级版本全面向用户开放，有些已经投入到微短剧制作中。