被误导了两天，GPT-4o文生图模型太强太可怕了。

2025-04-03

前一天，我写了一篇关于ChatGPT文生图功能的文章。

发送到知乎之后，一个 2020年年度新知答主提出质疑，认为我使用的也许不是最新的模型，因为新旧版本差距很大。

他指出，最新版本的生图能力很强，而我展示的结果提示词理解不好，所产生的文字也有很多错误。

例如，他说，就像一个提示「二人互相推对方」这个简单的概念，真正的最新模型应该能够准确表达出来。他还建议我检查一下是否使用了新模型，并给了我一个链接，说这是最新的界面。

同时，他也分享了一种验证方法：

输入100 一个英语单词，如果文字完全混乱，就是其他模型(比如DALLL)·E），假如只有一两个字母是最新版本的话。ChatGPT。

他还根据我的提示展示了两次结果，所有的问题都不能用“随机性”来解释。他这样说的时候，我质疑我用错了模型。我之前用的ChatGPT客户端，和它产生的相比，效果确实不一样，所以我决定再试一次。

第一，我用了这位新知答主给我的提示，如下：

Alright, here’s a shorter version:12 flowers in a 4x3 grid on a wooden tray with glass bottom and animal fat layer. From top to bottom

ylang-ylang, osmanthus, yellow champaca; tuberose, gardenia, jasmine; carnation, peony, pink hyacinth; blue iris, violet, wisteria. Photo taken on a sunny afternoon

英语本意较长，翻译成中文缩减：

从上面俯拍 12 养花，四行三列。第一行有依兰、桂花和黄缅栀子；第二行有晚香玉、栀子和茉莉；

第三行包括康乃馨、牡丹和粉红色风信子；第四行包括蓝色鸢尾、紫罗兰和紫藤。所有的花都用在一个带玻璃底的木质托盘上，玻璃上有一层透明的动物脂肪。照片是在一个阳光明媚的下午拍摄的，拖盘被阳光完全照亮。

ChatGPT 很快就给出了答案。这一生成与以往不同的是，它补充了一句话：按照你的描述，这是由于 DALL·E 建立的。DALL·E 是 OpenAI 图像生成模型。

看起来，不仅我遇到了前天提到的模型混淆问题，估计海外朋友也遇到过类似的情况。

这里可以得出一个结论：ChatGPT 最新的非自回归模型，官方提到的免费试用。（Non-autoregressive models）看起来不支持，或做了一些限制。

所以，我直接把问题抛给问题。 ChatGPT：怎样使用最新的文生图模型？”它给出了三个答案：

首先是直接使用 ChatGPT 内置图像生成功能，直接输入详细描述，用最新模型生成图像。您可以优化提示词（Prompt），例如：

主体、背景、光照、风格等具体描述。
指定构图，如“俯视图”、“广角镜头”
选择“油画风”、“赛博朋克风”等艺术风格

二是使用 API，可以批量生成，也可以集中在作品中；第三种是纯介绍。它提到新的文学图形模型是多模式结合，生成具有故事性的连续图像，并使用 AI 先生制作草图，再细化成精美的插图等等。

不要想太多，我直接按照它的要求，把任务交给了我。 Kimi，让 Kimi 帮助我生成一个提示：

在黑暗的复古书房里，一盏台灯散发出柔和温暖的光线，照亮了一张古老的木制书桌。桌子上散落着几本黄色的书和一支羽毛笔，旁边是一杯热气腾腾的红茶。画面采用油画风格，营造出安静怀旧的氛围，仿佛时间在这里静止。

ChatGPT产生的照片如下，但它仍然总之，这是由于一句话。 DALL·E 生成图像，展现你所描述的复古书房气氛；很快，ChatGPT 推出新的图像生成模型，带来更好的细节和风格控制。

所以，结论是：ChatGPT模型不能使用最新的文生图模型。怎么办？为验证准确性，我已经很久没有给ChatGPT充值了，干脆又来了一个月。

完成后，转换为ChatGPT 4o对话界面，输入提示词：

在一个宁静的海边小镇，夕阳的余晖洒在古老的灯塔上，灯塔的身影拉得很长。在远处的海面上，几艘船在金色的波浪中缓缓航行，几朵粉色的云漂浮在天空中。画面采用水彩画风格，色彩柔和温馨，营造出宁静梦幻的氛围。

反应速度有点慢，但是，照片的确有意境：

所以，ChatGPT必须是 4o可以使用，GPT仍然是旧版本的DALL·E模型。接着，我又给它一个卡通人物的提示：

一只活泼可爱的卡通小猫，有着大大的蓝眼睛和柔软的粉色耳朵，穿着一条红色的小吊带裤，脚上穿着一双黄色的小靴子。

它站在一片神奇的森林里，周围是五颜六色的蘑菇和闪烁的萤火虫。画面采用卡通风格，色彩鲜艳，营造出梦幻幸福的氛围。图片比例为4:3。

我很好奇它能产生什么样的画面。您怎么看？

我真的不喜欢评论。我只能说这张图风格可爱，充满童趣，色彩温馨。如果用在儿童阅读材料、绘本、早期教育和学前教育的互动课件和手工材料上，肯定是足够的。

接着我把照片交给豆包，让他深入思考，说：您的评价效果如何？我使用ChatGPT。最新的4o文生图模型。

豆包说：

这张图挺好的。小猫的表情和衣服的细节相当生动，蘑菇和萤火虫也很有感觉。暖色小猫搭配冷色夜景，色彩搭配和谐，营造出梦幻可爱的氛围。

小猫在画面中间，构图看起来很舒服，主题也很突出。画面质量水平相当高，可以用在很多地方。这个模型有很好的效果。"

但是，问题来了，检测文生图也看不出它的强大之处，试试它两张图的融合能力如何？

我在百度上随机安装了两个杯子的图片。这两个杯子都在真实场景中，每个杯子都有一只手握着。我想看看它能不能摘下手，把两个杯子放在同一个平面上。

随后给到 Kimi，让 Kimi 帮助我写一个提示：

请清除两个杯子图片中的手，只保留杯子本身，确保杯子的细节清晰完整。为了设计电子商务海报，保持背景简单。杯子的光影和质感需要保留，以确保整个画面自然有吸引力。

第一次好像卡住了，对我说：对不起，我不能处理你的要求，要不你再试一次？

估计用的人太多了。这一次，我又开了一个窗口，很快就体现出来了。问题是，第一张照片处理得很干净，但是第二张照片被直接忽略了。

现在我可不做了，直接把要求说清楚，一共四点：

去掉双手，只留下杯子；保持杯子的细节、纹理和光影，自然看；背景要简单干净，突出杯子；两个杯子放在一起，比例要协调，画面要美观。还特别提醒它，尺寸应该是4。:3的。

结果大约需要40秒钟才能完成。看着结果，的确只能惊叹：这个也太厉害了，设计师要下岗了。

您怎么看？速度，效率远比人工抠图快。

再次尝试Chat GPT 4o新的知识地图功能被官方吹得高深莫测。据说有了这个功能，AI生成的图片可以利用现实世界中的知识，更好地理解客户的想法，制作出来的图片也更可靠，更合理。

简而言之：AI绘画会琢磨现实中的那些细节，比如地点在哪里，什么文化背景，以及物理规律。

这一次，让deepseek来，我说，你帮我写一个带有因果逻辑的文字图片的提示。一个细节是图片的比例仍然是4。:3。它随机地给出了这一点：

这是一个阳光明媚的下午，一个小男孩坐在公园的长椅上，手里拿着冰淇淋，脸上露出幸福的笑容。

因为他刚在操场上玩得很开心，现在正在享受美味的冰淇淋。画面色彩温暖，背景是一个绿树成荫的公园，远处有几个孩子在玩。图片比例为4:整体设计清新淡雅。

嗯，这看不出什么因果逻辑。怎么办？重新开始。干脆直接就行了「定律」添加到图片中间。这是deepseek给我的两个提示：

一是杠杆定律：生成一张图片，一个孩子在翘曲的木板上，通过杠杆原理抬起一个重物。孩子用力按压，重物被抬高，反映了杠杆原理。背景简单，比例4。:3。

如上图所示。这个看起来像吗？确实非常杠杆。在给豆包之后，它说：

这张图意味着一个孩子正在压翘板的一端，试图撬开另一端的重物。就像玩跷跷板一样，坐在一端可以把另一端的人抬起来。这种方法是一种省力的小技巧，不用费老大劲就能把重物抬起来。

确实有点强。但也许有点简单，更换：只需使用「时间膨胀效应相对论？」来检测。

提示词：

生成一张图片，展示两个人：Alice 在地球上，Bob 在高速飞行的太空飞船上。因为相对论的时间膨胀，Bob 看起来比 Alice 青春。在地球上 Alice 慢慢地变老，而飞船里的 Bob 几乎没有变化。背景简单，比例4:3。

你们能看到吗？

总而言之，我可以理解。然而，在第一次生成时，艾伦的名字被放在了他的脚下，这似乎有点奇怪。经过二次对话微调，名字成功放在了正确的位置。

感觉还是可以进化的，比如：指定人物的性别等等。

除文生图、照片与图片合成、生成理解物理世界规律的图片外，还有别的玩法吗？

尝试风格转换。比如把一张人物照片转换成动画风格，或者把一张图片的风格和另一张图片的内容结合起来，这种技术在艺术创作和设计中非常有用。

如何改变问题？如今，我有一张个人形象照片，把问题扔给DeepSeek，让它帮助我思考。

DeepSeek说：如果你想测试OpenAI的ChatGPT生图模型的能力，你可以问一个稍微复杂但具体清晰的问题，这不仅可以测试模型的理解能力，还可以测试它的生成能力。

比如我有一张个人形象照片，我想把它变成一种动画风格。希望你能帮我把我变成照片里的动漫人物，把头发变成深蓝色，整体设计有点像赛博朋克。图片比例为4:3就行。

不管怎样，一股脑子甩给ChatGPT 4o去处理。这个好像有点翻车了。但是，也许我要求太高了。

确实有点抽象，你怎么看？

不管怎么说，非自回归模型（Non-autoregressive models）进化速度确实很快，它改变了核心结构。

这个结构会先了解整个画面的结构和细节，有点像学生先听老师讲完题目，勾勒出整个画面的轮廓，然后一点一点添加细节。

国内许多商品也在使用这种能力，希望能够抓住时间赶上并超越它。身为个体，我们也要考虑一下：

如何快速掌握AI生成图片的能力，并将其运用到工作场景中。谈到这里，问题来了：你会用它做什么？快点试一试，记住，使用ChatGPT 只有4o模型才有。

本文来自微信微信官方账号 “王智远”（ID：作者：王智远，36氪经授权发布，Z201440)。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

蜂窝版MacBook终于来了！C1芯片是苹果态度转变的关键？

从采矿到GPU，英伟达1亿美元投资200亿美元AI公司，

Alexanderwang安徽首家亚历山老板安徽首家店在合肥银泰in77开业

小红书被指高频率获取用户定位，回应来了。

这样的套路，正疯狂地收获顾客的钱包