苹果另辟蹊径:利用“归一化流”技术打造AI生图模型

06-25 07:45

IT 世家 6 月 24 日常消息,行业通常采用扩散模型或自回归模型来开发和开发 AI 生图模型,苹果公司最近发表的论文显示,该公司正在选择一个被“遗忘”的归一流。(Normalizing Flows)相应的技术路线研发模型。


据报道,这种“归一化流”技术是一种将真实世界的数据(如图像)转化为结构化噪声,然后将噪声还原成图像样本的生成模型。它最大的优点是可以准确计算生成图像的概率,这是扩散模型无法实现的。这一特点促使归一化流在对概率要求较高的任务中具有独特的吸引力。然而,这种模式并不常见。其原因在于其研发成本较高,同时初期选择相应的技术生成模型通常比较模糊,缺乏细节。


IT 家族参照苹果公司《Normalizing Flows are Capable Generative Models》它推出了一种叫做“论文”的论文。 TarFlow(Transformer AutoRegressive Flow)新型归一化流技术模型,该模型的关键思路是将一张待生成的大图片拆分为“小区块”,然后以相应的块为单位生成一系列像素值,每个像素值的生成都依赖于前面已经生成的部分,从而形成一个完整的图像,可以有效避免图像被压缩成固定词汇表时的质量损失和僵化问题。


当然,TarFlow 高分辨率图像的生成仍然存在局限性,这就引出了第二项研究。《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。


参考这篇论文,苹果正在 TarFlow 在此基础上,进一步提出了增强版:STARFlow(Scalable Transformer AutoRegressive Flow)


这个模型最大的改进是,不再直接从像素方面生成图像。,而在“潜在空间”中(latent space)在工作中,首先生成图像的压缩表示,然后通过解码器放大恢复。因此,模型不需要预测数百万个像素值,相反,首先处理图像的大致结构,并将细节留给解码器进行补充,从而提高生成效率,而不损失质量。


此外,STARFlow 也改进了文本提醒的处理方法。它不再建立专门的文本编码器,而是支持调用当前的语言模型(例如谷歌推出的小语言模型 Gemma,理论上可以直接在设备上运行)处理客户的语言指令。这样,模型图像的生成部分就可以致力于图像细节的生成和优化。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com