谁研究过豆包这个东西，这个视频模型真的有点省劲。

2024-09-26

有一句话，哥们真的不知道这个月发生了什么事。

这几家厂商就像聚在一起看着同样的黄历一样，都急于在这个月做事。

12 我就不多说了，上周又参加了一堆大会，看了各种大模式纷纷上新，给哥们逛累了。

结果到了今天，你猜怎么着，字节又正式宣布了他的新家。 AI ，也就是这一次，他家豆包的支持可以产生视频，而且效果极强。。

换言之，憋了这么久，本月底出现的字节开始上菜，一来就是硬菜。

空洞无凭，直接来给大家看看效果：

例如这次官方演示 " 世界上的陪伴活动潇洒潇洒。 " 场景，这段视频中多人、复杂表情的表现力可以说是相当自然的。虽然他是马丁老人的老粉丝，但我只能说这一段。权力游味是极其沉重的。

也就是说，只有这个东西 10 秒而慢的一匹，否则真的会把它当作影视片段来欺骗。

还有这一段，骑火箭的人奔向火箭。世界上最高的城礼堂造成大爆炸，这种分镜，前后镜头的画风一致性非常一致；中间那个人闭着眼睛紧张死去的画面也很灵魂，充满了代入感。。。

不过，你要光看官方视频，好像感觉不到它特别牛逼的区域，有时候这些东西 AI 宣传资料就像方便面外包装一样，看上去是一回事，拆开后又是另一回事。

而且视频生成这个顶部， p 图片微调的事情也不是没有发生过，还有一些视频大模型光放宣传片，到现在也不允许大家上手，就像扇贝一样玩成期货。

因此，虽然看了这些演示视频后，我们觉得豆包可能真的有两次，但是到底货对不对板，我们还是要上手试一试才知道。

没有，那里的新闻发布会一结束，世超就在第一时间薅来了。 PixelDance (像素跳动)模型内部测试，首先安排我们。 AI 对传统保留项目进行评估，邀请我们老员工火锅为大伙儿亮相。

给模型一张火锅的照片，然后输入提示词 " 狗站起来，捡起身边的娃娃离开画面 " 。

根据我们过去用火锅评价一些视频模型的经验，没有出来。 2 第二，锅哥的身体和脸部都会开始变形，以前甚至有把火锅变成拉布拉多的案例。

但是你猜怎么着？

这次 10s 的视频，画面抖动、掉帧、闪动变形几乎没有发生过多。

火锅起床的动作一气呵成。仔细看它拉兔子娃娃的那一刻，娃娃耳朵的晃动，脚踩下去垫子上的凹陷。每个人都应该品尝这些细节。火锅来了，大家都要喊:稳，兄弟！

假如后面几秒钟火锅的毛发线条没有露出漏洞，这个视频可以打一个 9 分吧。

然后，我们再次尝试使许多视频生成模型屡战屡败的光影效果。

提示词 " 在路上快速行驶的摩托车，街景迅速倒退。 "

街道风景变化顺畅，光线的明暗变化也没有什么违和感，特别是建筑物的灯光和地板上的倒影都一一对应。

如果非要挑毛病的话，就是从对面开过来的车，画面控制不好。

再次进行经典的吃播，这次的提示是 " 对着镜头的男人张嘴吃木筷子上的食物。 " 。描述比较准确，基本上就是让模型指哪打哪打。

而 PixelDance 模型真的没有让我们失望。我们非常熟练地拿筷子。食物真的吃在嘴里，我们的脸也不会因为咀嚼动作而变形。即使提示中没有 cue 到了后期的一群人，但是模型还是让大家动了起来。

便是吧，这种咀嚼动作是不是有点太刻意了？。

事实上，在这里，我们是对的。 PixelDance 模型水平已经有点低了。但是为了使测试更加全面，我们还是多尝试几次。

来看看这个世超顺手拍下的夕阳，提示词是 " 远处的天空，一条黑龙飞来，离镜头越来越近。 " ，稍微复杂一点就丢了。

后边的天空，一排房子，向镜头飞来的黑龙，基本上都是完整的元素，镜头也会慢慢仰拍跟随。

不过原来照片左下方应该是桥边的护栏，不知是不是因为太黑，导致模型没有识别出来，小小的变形。

还有这个编辑部的同事下班整点。小麦果汁最令世超震惊的视频，就是杯子里的视频， 8 1 的效果。

因为干杯引起的摇晃，以及手部动作使液体向右倾斜，好家伙，哥们似乎真的找到了一个理解物理规律的模型。

而且手臂的屈伸，关节的活动，似乎也是人体工学生的物理结构。

然而，也不是没有缺陷。比如手里的酒在喝，突然喂到隔壁同事嘴里，桌面上的杯垫不清楚是怎么回事，就变成了一张纸。

相信看到这一点，大家心里对豆包这个 PixelDance 对模型进行了基本的判断。

尽管还没有达到爆炸的水平，肯定是第一梯队，而且， PixelDance 在画面稳定性、一致性等方面，模型也确实可以称之为独步。

但是对于世超来说，实际上并不是很出乎意料。

事实上，不只是我们，许多人对豆包的视频能力都有影响。预期都挺高的。

虽然慢了一点，丢了一点，但是背靠视频行业出身的Tiktok，加上对基础大模型的投入，豆包想要依靠这些优势去追求，其实符合大家的理解。

也就是说，豆包做出这个本来就预料不到的东西，更别说别人拿出来的东西显然是第一档。

但是，这个时候字节拿出了豆包的视频模型，其实，相当及时，正好踩在视频大模型发展的节点上。

光是今年， 6 月份即梦 AI 就在 AIGC 短剧《三星堆：未来启示录》中亮相了， 7 月 13 日本快手也上线了 AIGC 短剧《山海奇镜》；

但是在影视圈， AI 制作的声量也越来越大，上面有声音。 AI 复原 27 岁成龙的《传说》，之后还有漫改电影的暑期档。《异人之下》，它还意味着视频生成大模型和影视产业从某种意义上说，双向奔赴。

东吴证券计算，国内 AI 可以实现视频隐藏的行业空间 5800 超过1亿元，而在全部， AI 与传统方式相比，模式中影视剧的制作成本可以降低超过传统方式的成本。 95% 。

但是这一趋势也会带来新的问题，比如模型训练所需的材料要更加精确，那么这些视频模板就会出现版权和隐私安全问题。

另外一方面，影视级视频生成模型也需要 AI 厂商本身具有影视相关经验。，例如这次的豆包，就是全面的。剪辑和调色软件等相关剪辑体验，做出更贴近影视的光影、色彩效果。

如果其它视频生成模型要在这方面继续进步，也可能需要与影视行业联系更紧密。

总而言之，豆包这波交出的试卷值得高分，但是对于视频模型来说，这还远非终点，期待着国产大模型的下一步表现。

顺带， Sora 为什么还不出来吱吱一声啊？不再用黄花菜就凉了。

发文：纳西 & 西西

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

Babycare不仅改变了行业潮汐方向，而且定义了“新生柔”

向律师询问了三只羊的瓜，他们不应该被惩罚，但是可能会发生什么事情。

主要阵容预测！利物浦在周中联赛杯上必然会发生很大的变化，中场将如何变化？

如何选择流感疫苗？一次解释14个问题

写在Core上 Ultra 新产品200V上市前：究竟有什么卖点？

项目推荐

康小虎百岁计划・健康大使招募计划

康老板 · 氧疗堂