唐家渝，科技CEO:视频生成还处于起步阶段，技术瓶颈还有待突破。

2024-09-13

"使用AI作为叙事类电影，废片的比例可能是50。:1，即生成50张图片，其中只有一张可以满足这种叙事创作。9月11日，一位影视创作者在分享北京生数科技有限公司(以下简称生数科技)举办的媒体开放日上做了上述表述。

随着大模型生成技术的发展，越来越多的影视创作者开始将AI技术应用到创作中，但目前看来，仍然存在许多问题。

“AI生成的视频是不可控的，一旦元素多了，就无法理解多个角色和空间场景。”来自AI影视创作者Vicky说。国内外多位AI影视创作者表示，在实际创作过程中，普遍存在的核心问题是缺乏可控性或一致性，尤其是在涉及复杂情况和交互场景的情况下。

虽然AI视频模型在遵循指令方面表现良好，但输出结果仍然不确定，可能需要多次尝试才能生成令人满意的场景。此外，AI生成模型在镜子运输、光影效果和细节处理方面仍有限制，难以完全精细地控制。

今年7月30日，学生数学技术正式推出AI生成视频模型。为了提高创作者的效率，企业近日对视频模型Vidu的功能进行了新的升级，并发布了“主体参考”功能。该功能是一致性问题的研发，可以实现随机主体的一致性，使视频生成更加稳定可控。

“主体参考”功能用户可以上传一张随机主体的图片，Vidu可以锁定主体的形象，通过描述词随意切换场景，导出主体一致的视频。

九月十一日，澎湃科技（www.thepaper.cn）记者登录生数科技官网Vidu平台试图生成视频。他们上传了一张美国电影明星莱昂纳多·迪卡普里奥的3D图片，输入“蓝天”、“酒杯”、“敬酒”等关键字；以及日本动画《跃动青春》女主角的二维截图，输入“跑步”、“晚到”、关键字，如“早晨”。实际测量发现，3D图片生成的视频中的人物主体性与原图有明显差异；二维动画风格的人物主体性和细致流畅性明显优于三维写实风格。

三维图片产生的AI视频。(00:03)

AI基于二维图片生成的视频。(00:03)

在接受采访时，生数科技联合创始人兼CEO唐家渝表示，Vidu目前，世界上首个具有一致性生成能力的技术是“主体参考”功能。生数技术的核心任务是构建多模态大模型，目前AI视频生成还处于起步阶段，未来还有更多的技术瓶颈需要突破。AI视频技术并不总是小众人群的工具，预计今年年底，AI视频技术可以在大众中普及，用户可以轻松使用。

学生数学技术成立于2023年3月。核心团队成员来自清华大学人工智能研究院。首席科学家朱军是清华大学的教授。联合创始人兼首席执行官唐家渝是清华大学自然语言理解实验室的硕士学位。他曾任瑞莱智慧副总裁、腾讯优图实验室高级产品经理。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

图集｜在世界技能大赛的第一个比赛日，中国选手非常“忙碌”

乘车后7天凌晨被免密支付21笔钱，哈啰：账户被盗，已报警。

涨知识｜为什么我不能每天跑步？也许我没有做到这10篇文章。

新闻改革创新大会2024年外滩新媒体年会将在上海举行。

数智中国2029｜史丹：工业组织网络化，平台企业作用重要。