火遍小红书 AI 视频神器，这次创造的新生活让我无法停止。

2024-12-19

AI 多主体的视频一致性，一直是个难题。让 AI 模特和衣服的凭空生成并不难，但是如果甲方要求的话，一定要让马斯克代言，穿上毛绒大衣，AI 也许做不到。

Pika 最近更新的 2.0 这个模型，提出了一个非常有趣的解决方案——我们上传多张图片，Pika 可以准确地参考图片中的元素，生成视频。

收集人物、商品、场景的图片，一个很基础的广告就发布了，而且这些材料在视频中看起来都和照片一样。

这个是否意味着，AI 视频的一致性问题已经解决，广告行业的朋友们又要焦虑了？实际上没有，经过实际测量，Pika 可玩性很高，但是在实用性方面，道行还不够。

马斯克和奥特曼看电影，名画吃薯条，同框从来没有这么简单。

Pika 上传多个参考图片的功能，称为「Scene Ingredients」(情景成分)。

使用非常简单：1. 点击「」上传照片，上限 6 张；2.在输入框中，写下简单的提示。

以下就是进入实际操作—— 使闹得水深火热的马斯克和奥特曼，化干戈为玉帛，一起看电影。

提示:两个人坐在黑暗的观众平台上。他们手里拿着一桶爆米花，嘴里嚼着，专心看着眼前的场景。他们睁大眼睛的表情传达了他们渴望或痴迷的期望，仿佛他们完全沉浸在正在展开的戏剧或场景中。周围的环境表明群体拥挤，但焦点仍然集中在他们的反应上。

上传两张图片就够了，观众台可以用提示词写出来。

对马斯克来说，AI 表现非常稳定。但是奥特曼看起来像是地主家的傻儿子，吃相恐怖就不说了，眼睛大得要掉出来。

Pika 有趣的一点是，材料可以「复用」。

因此，我们可以让马斯克和奥特曼沉迷于模特。只上传一张服装图片，然后让他们穿同样的绿色外套，通过提示拍一部时尚大片。

提示:两个人站在壮丽的冬日风景中自拍。两个人都穿着同样的绿色外套。全身拍照，全身呈现。他们摆出专业模特般的姿势，脸上带着自信的微笑。电影的灯光凸显了他们脸庞和外套的奢华质感。高端时尚摄影风格，专业相机质量，时尚周刊美学

他们俩都找到了现成的照片，绿色的外套和冰雪的背景是另外用的。 AI 产生的，衣服上的「AIGC」，算是考验 Pika 的附加题。

因此，情境与外套的一致性保持得很好，「AIGC」文字依稀可以识别，两个模特的动作也遵循了提示词。

但是最大的问题是，这两个人是谁？录像的人脸和照片，不能说是一模一样，算得上是无关紧要的。

不要相信，继续让步 Pika 玩改装。

这一次，我们请出扎克伯格，像往常一样先用。 AI 照片工具生成衣服，上面写着「I was human」(我曾经是人类)，呼应经典的机器人梗。

接着，再找一张扎克伯格的照片，和一张尤克里里的照片，让小扎演奏音乐。

提示：一个穿黑色衣服的人 T t恤的男人站在温暖的房间里，弹着尤克里里琴。镜头从远处看，呈现出他的全身，逐渐拉近，最后聚焦。 T t恤上的字迹

Pika 对于提示词的遵循和镜头的运动都很好，衣服也顺滑地换上了，但是左手，特别是拇指，还是不完美。

相较 Google Veo、OpenAI Sora 等，Pika 模型能力不算拔尖，解决了一个问题，还有更多。 bug 被发现。

尝试现实主义，然后尝试二次元画风。为了让坂田银时与漩涡鸣人同框，我特意选择了两张蓝天白云背景的图片。

提示:动画风格的场景，镜头聚焦在两个年轻人的脸上，背景是蓝天白云。聊天时，他们看着对方，保留了原有的动画艺术风格。

背景自然结合，两个积极的表情打得很好，吹头发和衣服的风恰到好处。然而，转身真的很可怕。银是死鱼眼，不是真的翻眼。嘿。

次要的墙壁都被打破了，当然也可以让名画跨时代互动——蒙娜丽莎和戴珍珠耳环的女孩在麦当劳餐馆吃薯条。

提示:戴珍珠耳环的蒙娜丽莎和女孩正在麦当劳餐馆吃饭。他们坐在对面，桌子上放着薯条。他们边聊边品尝薯条，相机从侧面捕捉。两个角色偶尔看着镜头，营造出一种随意友好的氛围。

效果一言难尽。当我看到蒙娜丽莎时，我不知道达芬奇是否想掀开棺材板。两个人就像一张地图，被放在视频里，头部运动得相当奇怪。

有时，回归简单，道法自然，结果却超出了预期。

提示：特写，池塘表面出现气泡，然后咖啡杯从水中浮出。

上传一张星巴克的照片，一张莫奈的睡莲，就能得到一张「清水出芙蓉」的咖啡杯。

PK 国产模型，控制 AI 录像门槛较低

在某种程度上，Pika 提高了视频的可控性。话不说满，因为从实践上看，Pika 场景、服装、物品的一致性保持得很好，人物的脸容易崩溃，无论是什么维度。

与此同时，模型的基本能力，Pika 还有待进步，吃东西、弹琴等物体运动，还是会有问题。这类问题，可以通过抽卡来缓解吗？

三个字：抽不起。

Pika 2.0 目前仅对 Pro 和 Fancy 顾客开放，如按月订阅，每月至少花费。 35 美元，甚至没有免费试用额度。

并且，Pro 顾客每个月只有 2000 积分，但是使用 Scene Ingredients 功能，一个视频就要花掉了。 100 积分。

vidu 界面

其实，国产 AI 视频模型 Vidu，比 Pika 早点完成「多图参照」功能。更加把握客户的是，它有免费试用的积分。

Pika 我也有几个案例 Vidu 跑了。蒙娜丽莎和戴着珍珠耳环的女孩吃薯条，两人就像刚出土一样，但是蒙娜丽莎的还原度比 Pika 高。

马斯克和奥特曼一起看电影，马斯克的脸看起来像七八成，奥特曼的脸仍然是灾难。

坂田银时与漩涡鸣人同框，Vidu 实际上可以根据正脸生成侧脸，但是画风与原图不同。

另外，在功能方面，Vidu 有一点不如 Pika——最多只有三张图片可以上传。所以，让 Vidu 为马斯克和奥特曼拍摄时尚大片，我没有上传背景，只上传了两张照片和绿色外套。

二人感到非常生疏。可见，人脸的稳定性，仍然是个难题。

和 Pika 相比，Vidu 效果如何，能见仁见智。Pika 用的是 Pro 版，Vidu 使用免费版本，客观上也会造成两者的差异。

但 Pika 和 Vidu 这个想法是相似的——只有几个图片素材，一个简单的提示，才能产生相对稳定的物体。

在 AI 在视频生成中，保持主体的一致性，目前比较可靠的是 LoRA 方案，用一定数量的、特定主体的材料对模型进行微调。通过适当的材料和训练，模型可以逐渐掌握这个角色的外观特征。

但为了让 AI 视频被更多的人使用，具有更广阔的商业价值，门槛会降低。至少，从 Vidu 和 Pika 身体上，我们看到了概率。

靠 AI 短片爆红，在整活的道路上一去不复返。

Pika 的 2.0 没过多久，海外网友就发疯了。

使用自己的照片，反复生成不同场景的视频，就可以实现「瞬息全宇宙」。

图片来自：X@EladRichardson

通过 AI 一键式试衣，模特和衣服如流水，场景无换，实拍的钱省下来了。

图片来自：X@martgent

玩着玩着，Pika 给我一种玩法「QQ 秀」以及模拟生活的感觉，如何在视频中扮演角色，我们来决定。

假如让马斯克「圆梦」，先用别的东西很容易 AI 这个工具，产生了一个「占领火星」的 T t恤，一个写着「MAGA」红帽子。

接着，把这些照片，火星的场景，马斯克的照片，以及他的擎天柱人形机器人，他特别喜欢的网红表情包 Doge 原型，全部上传至 Pika。

提示:一个男人站在火星表面，穿着黑色t恤，戴着红色帽子。一只狗坐在他的左边，一个机器人站在他的右边。镜头从广角镜头开始，捕捉到了男人、狗和机器人的全身。随着镜头的稳定拉近，男子欢快地向镜头挥手，表情充满了喜悦和冒险精神。

最终，一个阳光明媚的大男孩出现了，左牵黄，右擎苍，憨厚多了，只是不像马斯克。

这有点像一回事，只要思想开放，玩法无穷无尽。

基于我们自己和名人的照片，我们可以无痛偶像化。上传帽子、衣服和乐器，从头到脚都可以打扮自己。聚集场景、商品和模特，一个 5 毛特效的广告片就有了。...

照片 AI 照片 Pika 2.0 提示词可以生成很多有趣的图片。同时，这种生成方式也避免了一些视频模型的不足，比如写作，可以通过照片模型来解决。

不和 Google 硬性模型能力，不和 Runway 这类追梦好莱坞的对手比较，Pika 拥有自己的弯道超越游戏。

事实上，一直以来，Pika 他是整个生活和创造力方面的好手，之前的一系列。 AI 特效功能 Pikaffect 全网爆红，霸屏小红书和 TikTok，推动 Pika 客户突破 1100 万。

AI 捏捏. 图片来自：Pika

AI 切蛋糕. 图片来自：Pika

Pika 切入一群对整活短视频需求较高的用户，即使这些视频是模板化的，稍纵即逝，但只要有趣，人们就会接踵而至。

谁说赢家通吃才是胜利？AI 广阔的市场，模拟物理世界当然是一个远大的梦想，首先让它完成。 AI 短片有趣的小目标，未尝不是一种成功的方法。。

本文来自微信微信官方账号“APPSO”，作者：APPSO，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

蜜雪冰城调价：涨价1元，顾客还忠诚吗？

报道称，央行约谈了银行、券商基金等多家金融机构。

这个调整，微信有危险？

收购银泰股份74亿元，雅戈尔为何抄底阿里巴巴？

AI PC的「新」朋友们：新商业创新生态路演第二季北京站将启动