谁研究过豆包这个东西,这个视频模型真的有点省劲。
有一句话,哥们真的不知道这个月发生了什么事。
这几家厂商就像聚在一起看着同样的黄历一样,都急于在这个月做事。
12 我就不多说了,上周又参加了一堆大会,看了各种大模式纷纷上新,给哥们逛累了。
结果到了今天,你猜怎么着,字节又正式宣布了他的新家。 AI ,也就是这一次,他家豆包的支持可以产生视频,而且效果极强。。
换言之,憋了这么久,本月底出现的字节开始上菜,一来就是硬菜。
空洞无凭,直接来给大家看看效果:
例如这次官方演示 " 世界上的陪伴活动潇洒潇洒。 " 场景,这段视频中多人、复杂表情的表现力可以说是相当自然的。虽然他是马丁老人的老粉丝,但我只能说这一段。权力游味是极其沉重的。
也就是说,只有这个东西 10 秒而慢的一匹,否则真的会把它当作影视片段来欺骗。
还有这一段,骑火箭的人奔向火箭。世界上最高的城礼堂造成大爆炸,这种分镜,前后镜头的画风一致性非常一致;中间那个人闭着眼睛紧张死去的画面也很灵魂,充满了代入感。。。
不过,你要光看官方视频,好像感觉不到它特别牛逼的区域,有时候这些东西 AI 宣传资料就像方便面外包装一样,看上去是一回事,拆开后又是另一回事。
而且视频生成这个顶部, p 图片微调的事情也不是没有发生过,还有一些视频大模型光放宣传片,到现在也不允许大家上手,就像扇贝一样玩成期货。
因此,虽然看了这些演示视频后,我们觉得豆包可能真的有两次,但是到底货对不对板,我们还是要上手试一试才知道。
没有,那里的新闻发布会一结束,世超就在第一时间薅来了。 PixelDance (像素跳动)模型内部测试,首先安排我们。 AI 对传统保留项目进行评估,邀请我们老员工火锅为大伙儿亮相。
给模型一张火锅的照片,然后输入提示词 " 狗站起来,捡起身边的娃娃离开画面 " 。
根据我们过去用火锅评价一些视频模型的经验,没有出来。 2 第二,锅哥的身体和脸部都会开始变形,以前甚至有把火锅变成拉布拉多的案例。
但是你猜怎么着?
这次 10s 的视频,画面抖动、掉帧、闪动变形几乎没有发生过多。
火锅起床的动作一气呵成。仔细看它拉兔子娃娃的那一刻,娃娃耳朵的晃动,脚踩下去垫子上的凹陷。每个人都应该品尝这些细节。火锅来了,大家都要喊:稳,兄弟!
假如后面几秒钟火锅的毛发线条没有露出漏洞,这个视频可以打一个 9 分吧。
然后,我们再次尝试使许多视频生成模型屡战屡败的光影效果。
提示词 " 在路上快速行驶的摩托车,街景迅速倒退。 "
街道风景变化顺畅,光线的明暗变化也没有什么违和感,特别是建筑物的灯光和地板上的倒影都一一对应。
如果非要挑毛病的话,就是从对面开过来的车,画面控制不好。
再次进行经典的吃播,这次的提示是 " 对着镜头的男人张嘴吃木筷子上的食物。 " 。描述比较准确,基本上就是让模型指哪打哪打。
而 PixelDance 模型真的没有让我们失望。我们非常熟练地拿筷子。食物真的吃在嘴里,我们的脸也不会因为咀嚼动作而变形。即使提示中没有 cue 到了后期的一群人,但是模型还是让大家动了起来。
便是吧,这种咀嚼动作是不是有点太刻意了?。
事实上,在这里,我们是对的。 PixelDance 模型水平已经有点低了。但是为了使测试更加全面,我们还是多尝试几次。
来看看这个世超顺手拍下的夕阳,提示词是 " 远处的天空,一条黑龙飞来,离镜头越来越近。 " ,稍微复杂一点就丢了。
后边的天空,一排房子,向镜头飞来的黑龙,基本上都是完整的元素,镜头也会慢慢仰拍跟随。
不过原来照片左下方应该是桥边的护栏,不知是不是因为太黑,导致模型没有识别出来,小小的变形。
还有这个编辑部的同事下班整点。小麦果汁最令世超震惊的视频,就是杯子里的视频, 8 1 的效果。
因为干杯引起的摇晃,以及手部动作使液体向右倾斜,好家伙,哥们似乎真的找到了一个理解物理规律的模型。
而且手臂的屈伸,关节的活动,似乎也是人体工学生的物理结构。
然而,也不是没有缺陷。比如手里的酒在喝,突然喂到隔壁同事嘴里,桌面上的杯垫不清楚是怎么回事,就变成了一张纸。
相信看到这一点,大家心里对豆包这个 PixelDance 对模型进行了基本的判断。
尽管还没有达到爆炸的水平,肯定是第一梯队,而且, PixelDance 在画面稳定性、一致性等方面,模型也确实可以称之为独步。
但是对于世超来说,实际上并不是很出乎意料。
事实上,不只是我们,许多人对豆包的视频能力都有影响。预期都挺高的。
虽然慢了一点,丢了一点,但是背靠视频行业出身的Tiktok,加上对基础大模型的投入,豆包想要依靠这些优势去追求,其实符合大家的理解。
也就是说,豆包做出这个本来就预料不到的东西,更别说别人拿出来的东西显然是第一档。
但是,这个时候字节拿出了豆包的视频模型,其实,相当及时,正好踩在视频大模型发展的节点上。
光是今年, 6 月份即梦 AI 就在 AIGC 短剧《 三星堆:未来启示录 》中亮相了, 7 月 13 日本快手也上线了 AIGC 短剧《 山海奇镜 》;
但是在影视圈, AI 制作的声量也越来越大,上面有声音。 AI 复原 27 岁成龙的《 传说 》,之后还有漫改电影的暑期档。《 异人之下 》,它还意味着视频生成大模型和影视产业从某种意义上说,双向奔赴。
东吴证券计算,国内 AI 可以实现视频隐藏的行业空间 5800 超过1亿元,而在全部, AI 与传统方式相比,模式中影视剧的制作成本可以降低超过传统方式的成本。 95% 。
但是这一趋势也会带来新的问题,比如模型训练所需的材料要更加精确,那么这些视频模板就会出现版权和隐私安全问题。
另外一方面,影视级视频生成模型也需要 AI 厂商本身具有影视相关经验。,例如这次的豆包,就是全面的。剪辑和调色软件等相关剪辑体验,做出更贴近影视的光影、色彩效果。
如果其它视频生成模型要在这方面继续进步,也可能需要与影视行业联系更紧密。
总而言之,豆包这波交出的试卷值得高分,但是对于视频模型来说,这还远非终点,期待着国产大模型的下一步表现。
顺带, Sora 为什么还不出来吱吱一声啊?不再用黄花菜就凉了。
发文:纳西 & 西西
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




