Nano Banana:AI图像领域的变革者

09-09 06:48

模型即能力。

我早已习惯用AI生成各类图片,却从未见过AI能如此精准地编辑和调整图片。

这是《窄播Weekly》的第66期,本期关注的商业动态是:Google最新的AI图像生成模型Nano Banana,或许会引发AI图像领域的应用大爆发。

去年此时,我想把照片中人物手里的玩具火车换成玩具飞机,需精细标记玩具火车,找干净的玩具飞机图片,还得告知AI替换。折腾一小时,飞机变形、人物手消失,效果差强人意。

这周,我让Nano Banana完成同样任务,仅说「把人物手中的玩具火车换成玩具飞机」,没准备飞机照片,20多秒就得到新照片。这张照片仅换了玩具火车,未对其他部分做多余修改,人物手指也未消失或增加。

这种体验让我想起首次用DeepSeek的感受——我知道能和AI随意聊天,但没想到AI如此聪明。同理,我习惯用AI生成图片,却没见过如此精准的编辑调整能力。

如同DeepSeek凭深度思考能力展现AI应用前景,Nano Banana更具确定性的图像创作能力,会让大众更广泛地用AI处理图像任务。

目前,社交媒体上有大量用Nano Banana制作的手办模型、OOTD、换装图片,还有用户用它配合视频生成大模型制作视频内容。这不是「吉卜力风格」滤镜的流行,而是更高效、通用的图像创作能力的普及。

这种模型能力可支撑更多产品创新。不仅在Gemini,未来很多产品可能会有Nano Banana或类似模型的身影。

但这也要求模型厂商像Nano Banana一样,从多模态视角,更综合地思考如何增强模型的图像创作能力。

AI时代的美图秀秀是一种能力

用Nano Banana调整图像,就像早期从PhotoShop切换到美图秀秀。用PhotoShop美化照片,要记操作步骤,没基础的用户每次修图都得百度教程。而用美图秀秀,点几下或拖一拖就行,没基础也能快速上手。

现在,Nano Banana让普通用户一句话就能精准调整修改图片,这是图像创作领域的又一次革命。不同的是,从PhotoShop到美图秀秀是产品思路变化,把固定操作变成点击或拖拽;而Nano Banana带来的是一种能力,让AI具备理解和编辑图像的能力。

Nano Banana团队介绍,这种能力的实现有两个关键点:

原生多模态架构。该架构使Nano Banana能同时理解和处理文本、图像等上下文,获取像素级信息,实现像素级精确编辑(Pixel Perfect Editing),保证对图片的调整能精确到具体元素。

交错生成(Interleaved Generation)。在像素级精确编辑基础上,Nano Banana可拆解复杂提示词,分步完成修改。团队认为这是范式变化,让模型用增量生成方式分步构建复杂图像,而非像传统方法挑战模型上限,一次性生成最终答案。

某种程度上,这是通过模型定义实现的更近似Agent的能力。DeepSeek推动AI广泛应用,本质是利用深度思考能力拆解提示语,分步执行得成果。Nano Banana同理,通过精确理解和细致任务拆分,实现高度一致的图像编辑。

在此基础上,Nano Banana成本低、速度快。Google介绍,Nano Banana定价30美元/百万token,每张图片生成约需1290个token,成本约0.039美元。

而且,Nano Banana生成一张图片只需十几秒到几十秒。快速生成和精确调整能力,支撑用户迭代创作,不断尝试调整,接近理想目标。

出色能力会催生更广泛的应用

我体验发现,Nano Banana能轻松给哪吒穿豆豆鞋,参考打斗镜头生成路飞和艾斯的打斗场面。不过,并非所有结果都满意,比如有次生成的路飞比艾斯小,调整之前的生成结果时,输出图像没变化。

但这不妨碍我认为,Nano Banana可成为构建AI图像应用的基础能力,或让已有体验进一步升级和广泛使用。

第一类应用是虚拟试衣,Nano Banana能让用户看到穿搭的真实上身效果,吸引更多人使用。

《福布斯》报道称,Nano Banana保持角色一致的能力,可提高创作者和工作室创作故事板、儿童读物和漫画的效率,降低商品宣传物料制作成本,室内设计师能根据房间照片随时调整装修效果,提供更及时、低成本的服务。

Nano Banana的发布提高了图生视频的上限。创作者可根据它精准调整首尾帧,让视频生成结果更接近预期,再剪辑拼接成完整视频。目前很多视频创作产品用其能力,让用户调整照片,生成效果更好的换脸视频。

这些应用探索,是将Nano Banana基础能力与特定领域隐性知识结合,降低特定图像需求的使用门槛。虽Google会将Nano Banana集成到Gemini,使其成为通用助手的基础能力,但通用助手并非万能,有时无法提供特定行业隐性知识。

需要更多应用帮助Nano Banana增加对行业隐性知识的理解。知名投行摩根士丹利分析「美图是否会受Nano Banana影响」时指出,美图真正价值在于提供基础AI模型无法企及的「最后一公里」解决方案。

当然,这种解决方案会随模型能力提升更细分,更倾向于针对具体任务提供极致服务。这可能激发大量创新,让图像相关的AI应用更专业、广泛。

就像美图未来可能成为不同类型图像工具集合,出售隐性知识,而非仅靠免费修图功能吸引用户高频使用。

做好Nano Banana是更综合的竞争

本质上,Nano Banana团队并非在做图像生成模型,而是将多模态能力应用于图像创作领域。

Nano Banana团队认为,Gemini和Google的图像生成模型Imagen有区别,Gemini致力于融合多种模态实现AGI,而Imagen专注图像生成。

若用户只想高效生成高质量美丽图像,Imagen是最佳选择;若想在图像生成基础上编辑、构思创意,Gemini更好。

@Travis Davids

展望未来,Nano Banana团队期望模型更具智能感(Smartness)和事实性 (Factuality)。

智能感指用户指令不清晰或对现实理解不准确时,Nano Banana能让结果符合真实世界,虽偏离指示,但效果更好,让用户觉得它聪明。

事实性指Nano Banana不仅能创作美照,还能生成准确的图标、信息图、示意图,甚至直接生成PPT页面。这要求它在图像元素、文字和数据上都精准。

这两个目标的实现,需依托Gemini的世界知识理解多模态上下文。比如,Nano Banana要理解添加的玩具飞机和精神小伙的穿搭风格。

对Google而言,Nano Banana的成功在于搭建起理解与生成的协同。Gemini的图像理解能力,助大模型从图像、视频中学习世界知识,辅助其更准确地理解和执行图像生成指令。

这意味着,融汇不同模型能力,在正确机制下,更可能提升大模型能力。一定程度上,这不仅是模型集群的胜利,更是企业组织、创新机制的胜利。

本文来自微信公众号“窄播”,作者:李威,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com