Nano Banana 2惊艳登场，能力全面升级

2025-11-12

Nano Banana 2代一经亮相便惊艳众人。它不仅能画公式解数学题，还能将监控画面伪造成毫无破绽的完整Windows界面，不少网友都误以为是截图。

下面这张图完全是AI生成的，不仅包含网页内容，甚至整个浏览器界面和桌面都是生成的，而且没有参考图像。

此次Nano Banana 2以预览版的形式出现在第三方网站Media.io上，随后被移除，只有少数手快的网友参与了测试。预览版所展现出的能力远超前代，在处理复杂提示方面表现突出，包括精确的文本渲染、超逼真的场景以及类似完整桌面界面的精细模拟。不过，谷歌DeepMind方面并未说明正式发布时间。

Nano Banana 2全面升级

根据测试页面说明，Nano Banana 2又名GemPix2，主要在真实性、生成速度和自然交互控制方面有所改进。从现有测试结果来看，它能够生成极其复杂的UI，文字渲染也毫无破绽，很多网友都以为是真实截图。

它对物理常识与遵循提示词的细节表现也很好，能够同时准确绘制出指向特定时间的时钟和一杯斟满的红酒。

甚至能伪造出逼真的监控录像画面，但推测正式版发布时会削弱这方面能力。

此外，Nano Banana 2还具备一定的世界知识与逻辑推理能力。在解决数学问题的对比测试中，1代解题思路大致方向正确，但最终渲染出的公式基本无法理解；而二代虽然有一些小错误，但结果令人印象深刻。

Nano Banana团队：图像生成的质量已接近上限

Nano Banana最初于2025年8月中旬匿名出现在AI模型测评平台LMArena，凭借出色的图像编辑能力迅速登顶排行榜，引发社区热议。8月底，谷歌正式揭晓其身份为Gemini 2.5 Flash Image，Nano Banana的代号源于谷歌内部测试生成“香蕉大小的纳米机器人”时效果良好。

上线不到10天，用户编辑了超过2亿张图片，为Gemini应用带来了1000万新用户，并一度帮助Gemini超越ChatGPT成为苹果免费应用榜首。

第一代Nano Banana的核心优势在于强大的图像编辑和理解能力，包括自然语言编辑与角色一致性，用户可用日常语言进行多轮、迭代式的图像编辑，同时解决了AI图像编辑中常见的“身份漂移”问题，保持角色特征在多次修改后高度一致。

与先前模型相比，它增加了多图像融合与风格迁移功能，支持将多张不同图片无缝融合成一张连贯的图像，或将一张图的风格应用到另一张图的物体上，为电商、广告等行业提高了创作效率。

而且它具有低成本、高速度的特点，基于谷歌TPU v5架构优化，Nano Banana平均响应时间仅为1.3秒，单张图片生成成本约0.039美元，仅为DALL-E 3的十分之一。

此前Nano Banana核心团队透露，图像生成的质量已接近上限，未来的关键在于提升模型理解用户“意图”（intention）的能力。谷歌自身也在加速将Nano Banana整合进其核心产品生态。除了在Gemini应用和AI Studio中提供服务外，谷歌已开始测试将其集成到Google Photos、搜索（Search）、智能镜头（Lens）和画圈搜索（Circle to Search）中，意图打造一个无缝的AI驱动视觉体验闭环。

参考链接：

[1]https://x.com/synthwavedd/status/1987259262322749784?s=20

[2]https://www.reddit.com/r/singularity/comments/1osolhn/nano_banana_2_vs_nano_banana_comparison_output

本文来自微信公众号“量子位”，作者：梦晨，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

让数据适配人工智能的方法

打卡影视取景地，探寻青春厦门之美

打卡影视取景地，解锁青春厦门新体验

“舞韵吉祥”舞蹈演出季启幕，南北舞者艺术交流理念碰撞

“舞韵吉祥”舞蹈演出季开启南北舞者交流碰撞艺术火花

项目推荐

AI云印侠

宾果智能

幸福绩效