国产多模态AI新开源：GLM-4.6V实测截图转网页、搜图购物表现亮眼，价格减半仍存图文创作短板

2025-12-10

原生工具调用、128K上下文加持，智谱新模型开源引关注。

智东西12月9日消息，智谱昨晚正式开源GLM-4.6V系列多模态大模型，该系列包含面向云端与高性能集群场景的基础版GLM-4.6V（106B-A12B），以及适配本地部署与低延迟应用的轻量版GLM-4.6V-Flash（9B）。

同日上午，智谱还开源了AutoGLM智能体，这款曾在去年10月被业内称作“全球首个具备手机操作能力的AI Agent”的工具，此次开源进一步丰富了其AI生态。

据官方说明，GLM-4.6V可实现智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发，以及长上下文文档与视频理解等功能。智东西第一时间对该模型进行了体验测试。

实测发现，GLM-4.6V在图像搜索、全网比价、长文本及视频理解方面表现稳定，文字与网页生成速度快、内容准确。不过其图文混排能力存在不足，生成的图片始终无法显示；面对模糊指令时，理解也会出现些许偏差。

GLM-4.6V系列模型将训练时的上下文窗口提升至128k tokens，且首次在模型架构中把Function Call（工具调用）能力原生融入视觉模型。

性能层面，同等参数规模下，GLM-4.6V系列在多模态交互、逻辑推理和长上下文等关键能力上达到SOTA水平。

其中，9B参数的GLM-4.6V-Flash在覆盖通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别及空间定位能力的34项测试中，有22项分数超过Qwen3-VL-8B；106B参数12B激活的GLM-4.6V，表现则与参数量达其2倍的Qwen3-VL-235B相近。

价格方面，GLM-4.6V系列较GLM-4.5V降价50%，API调用价低至输入1元/百万tokens、输出3元/百万tokens，而GLM-4.6V-Flash则全面免费。

GLM-4.6V开源地址：

GitHub：https://github.com/zai-org/GLM-V

Hugging Face：https://huggingface.co/collections/zai-org/glm-46v

魔搭社区： https://modelscope.cn/collections/GLM-46V-37fabc27818446

GLM-4.6V体验地址： https://chat.z.ai/

01.智能图文混排：可生成推文大纲，图片显示功能缺失

在智能图文混排与内容创作能力上，GLM-4.6V具备原生多模态工具调用能力，能直接理解图像、截图、文档页面等多模态数据，无需先转换为文字描述再解析。

测试中上传GLM-4.5V技术报告，要求生成图文并茂的微信公众号文章。约1-2分钟后，GLM-4.6V完成文档阅读与理解，输出包含标题、导语、五个章节及结语的完整文章，但多次尝试后，生成的图片仍无法显示。

▲智能图文混排

02.识图购物与导购：自动比价流畅，模糊搜索理解待优化

为体验识图购物与导购功能，输入指令“帮我搜索现在iPhone 17 Pro Max在各平台的价格”。

GLM-4.6V自动调用工具全网搜索，形成包含商品名、平台、品牌、商品图、商品链接及店铺名的比价表格，点击链接可直接跳转至购买页面。

对比购买页面信息，搜索出的产品名和价格准确，但对比商品均来自京东平台，且商品名直接提取自电商页面，存在冗余信息未做进一步整理。

另外，要求搜索《疯狂动物城2》中尼克狐的同款眼镜，模型通过图像搜索功能找到同款眼镜实拍图，但未提供购买链接。

▲模糊搜索导购

03.网页复刻：截图生成代码丝滑，图标更换出现错误

上传X平台登录页面截图，要求生成HTML代码和网页预览。

▲截图生成网页代码

▲生成网页预览

收到指令后，GLM-4.6V立即逐行生成HTML代码并显示预览页面，生成的“仿X”登录网页与原网页几乎一致。

此外，GLM-4.6V支持多轮视觉交互，可通过自然语言指令修改网页色彩、调整按钮位置等。

例如，在上一轮输出基础上要求将网页主题色改为天蓝色、图标X改为Z并保持原风格。结果显示，主题色修改完善，但图标更换指令被误解，生成了“向上箭头”形状。

▲修改网页元素

04.长上下文文档理解：多语种论文同步处理，内容理解准确

GLM-4.6V将视觉编码器与语言模型的上下文对齐能力提升至128k，实际应用中，128k上下文约相当于150页文档、200页PPT或一小时视频。

为验证长上下文文档理解能力，向GLM-4.6V提交三篇网络平台治理领域论文（含两篇中文、一篇英文），要求阅读后生成学习笔记。

生成结果显示，图片依旧未显示，但文字部分内容完整、逻辑清晰，每篇文献的核心观点与结论均被清晰罗列，英文文献处理也无错漏。

05.视频理解：内容解析快速，文件大小有限制

GLM-4.6V还可理解长视频内容，用户可上传200M以内的MP4影片，要求分析拍摄手法、内容结构等。

例如，上传一段6分48秒的视频制作技巧分享视频，要求总结思路内容并给出摄影类自媒体建议。

▲视频内容理解

GLM-4.6V在几秒内给出包含视频思路、叙事技巧、镜头运用和设备选用的完整详解，还提供了四条循序渐进的摄影博主发展建议，回答准确清晰。

06.结语：GLM-4.6V降低视觉模型接入门槛

从实测体验看，GLM-4.6V在日常工作中已能提供不少帮助，但生成效果尚不稳定，如公众号文章图片无法显示、网页细节修改存在瑕疵。不过其价格降至上一版本的一半，轻量版免费，对想尝试多模态AI的个人或小团队而言，接入门槛显著降低。

当前AI领域各家能力逐渐趋同，谁能优化体验、降低成本，谁就更可能吸引开发者。

智谱团队在官方推文中表示本周为开源发布周，将有更多成果开源，值得期待。

本文来自微信公众号 “智东西”（ID：zhidxcom），作者：王涵，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

三方联手的“国民好车”为何争议不断？

星巴克中国联动哈利·波特推魔法主题系列，能否撬动消费者的“魔法”消费欲？

国货走心直播间：温暖经济的焕新之路

当愤怒蔓延：游戏与创作者身处的不确定时代

36氪2026 CES现场特别策划：深度专访与创业者投资人社交盛宴

项目推荐

康老板 · 氧疗堂