AI一键让图片动起来
“复活”似乎只见过仙侠剧和科幻电影,但自从有了AI,似乎无所不能。近日,有人用AI还原了孔子、李清照等历史名人,引发热议,不仅让人看到了书中古人的治愈微笑,也增加了与古人的距离。
过去,虽然一张照片或一张图片可以记录瞬间的美好,但往往缺乏“活力”,无法完全传达场景的活力和动感。每个人都希望一张模糊的照片清晰,一张静态的照片移动。
近日,即梦AI推出了“动作模仿”功能,上传了一张人物图片和一个参考视频,生成了一个动态视频,让照片中的人物模拟参考视频中的人物动作,甚至情绪也可以是1。:1复原。
这次,IT时报记者对即梦AI进行了测试。、海螺AI和Vidu三个应用程序,看看图片视频到底哪个更强。
海螺AI:做一个“创意大师”
海螺AI(原海螺提问)是由大型创业公司MiniMax推出的免费AI智能助手,具有互动对话、声音克隆、智能创作等常用功能。
它的视频注重运动感,进入AI视频生成页面后,“如何控制运镜”链接提供了一个方便的查询入口。"选择镜头模块后,将相关镜头词插入Prompt。“格式显示,《IT时报》记者上传了一张竹叶的静态图片,将镜头运送到左移上升的场景镜头中。提示是“竹叶缓缓飘动,让人感受到风的存在”。点击“生成”按钮后,页面显示自动优化提示,最终生成6秒的成品。
除了植物图,《IT时报》记者还上传了一张宠物狗盯着前方的照片。镜子是“向左移动,跟随”,提示是“小狗快乐地跑向它看的地方”,成品的时间也是6秒。
此外,《IT时报》记者还对人物进行了测试。图中人物主体微笑着站在景区外的红墙前,对着镜头成了“剪刀手”。设置的镜子是“推出、上升、下降”,提示是“女生放下拍照时使用的‘剪刀手’,来到镜头前”。
使用体验
根据竹叶飘动画面形成的视频,海螺AI的效果一般符合IT时报记者的预期,相当令人满意。小狗在阳光下跑步的场景也很自然,不僵硬。在人物体型方面,肢体语言和形状是自然的,但是当人物从墙面走向镜头时,他们的面貌发生了变化,海螺AI可以继续优化他们的面部。

Vidu:一个富有想象力的AI
Vidu是中国第一个长期、高一致性、高动态的视频模型,由学生数学技术和清华大学联合发布。它不仅可以模拟真实的物理世界,还具有丰富的想象力、多镜头生成和高时空一致性的优点。不久前,Vidu 2.0发布,其显著特点是生成速度的提高,Vidu非会员可生成4秒视频,会员可生成8秒无水印视频。
“调整句型和词序,防止主体过多或复杂;不要过于文学化。”Vidu也有详细的操作指南。有趣的是,它也有联想能力。比如设置“玻璃桌上的咖啡杯,杯子外面写着单词LOVE”的基本词,会帮助用户构图,然后提供详细的位置描述和环境描述。
《IT时报》记者上传的材料和提示与海螺AI相同,从而对比效果,检测顺序为竹叶图、小狗图、人像图。
使用体验
海螺AI和Vidu各有优势。前者有镜头感,后者细节处理好。先看竹叶图。Vidu的画面也是按照提示词进行的。没有联想,效果给人一种慢慢“移动”而不是运动的感觉。当《IT时报》记者没有添加任何提示时,Vidu开始联想,竹叶在明媚的阳光下轻轻摇晃。
小狗图片的感觉似乎有点“失败”。视频显示了“左移”的提醒,但几乎没有显示跟随这个动作,小狗也没有跑。在这方面,海螺AI生产的视频更加丰富真实。然而,Vidu在一些细节处理方面是一个亮点,例如小狗吐舌头、耳朵晃动等处理整体令人满意。

就人像图而言,Vidu的肢体语言也比较自然,人物的面貌更符合我,没有换脸。美中不足的是,人物的笑容最终变成了“假”,Vidu期待人物的表情和元素更加多样化。
即梦AI:间接来了一场“模仿秀”
即梦AI推出的“动作模仿”功能,让图片视频有了新的玩法。用户可以通过从“数字人”入口进入,上传一张人物图片和一个参考视频,生成一个动态视频。该功能支持不同的画面,包括肖像、身体和全身。目前,即梦AI正式提供了四个动作模板。
进入即梦AI电脑页面,IT时报记者按照流程感受到了。由于系统强调上传照片的人物感,内容必须是具体的人物图。首先是对口功能。记者上传了一张孩子在荡秋千的照片,输入了“妈妈,秋千真好玩”的台词,选择了页面上提供的“小男孩”音质和标准的形成效果,最后将照片转换成一个时长为2秒的短视频。
目前,短视频平台上掀起了一股模仿热潮,无论是檀健次、黄宗泽等影视演员,还是业余爱好者和网友,都有一股模仿热潮(韩国歌星李曦带火的舞步)。许多人参加了这场“模仿秀”。在即梦AI提供的动作模仿材料中,这个舞步也是模板之一,还有其他流行的表情和贺春材料。《IT时报》记者上传了两幅全身形象,间接感受到了这种舞蹈。
即梦AI生成的视频时间最长为30秒,即梦提醒用户,上传的视频资料需要合法授权,平台会对视频内容进行审核,并在导出视频中加入“AI生成”水印。

使用体验
在一定程度上,对口功能可以让人看到2岁以后孩子说话时的表情,但并没有得到太多的惊喜。第一,因为音质有点“玩”,选择性少;第二,动作略显夸张,音质模板可以延伸到更适用的年龄。
动作模仿功能可以给用户一点惊喜。当音乐响起时,照片中记者的身体也遵循节奏,具有很强的动态性和节奏性。但是仔细看,你会发现人物有些扭曲,不像我,脸上的表情有点僵硬机械,会有点跳舞,期待后续提升人物表情的逼真度。
本文来自微信微信官方账号“IT时报”(ID:vittimes),作者:孙永会,编辑:潘少颖 36氪被授权发布的孙妍。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




