国产多模态AI新开源:GLM-4.6V实测截图转网页、搜图购物表现亮眼,价格减半仍存图文创作短板

2天前
原生工具调用、128K上下文加持,智谱新模型开源引关注。


智东西12月9日消息,智谱昨晚正式开源GLM-4.6V系列多模态大模型,该系列包含面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B),以及适配本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)


同日上午,智谱还开源了AutoGLM智能体,这款曾在去年10月被业内称作“全球首个具备手机操作能力的AI Agent”的工具,此次开源进一步丰富了其AI生态。




据官方说明,GLM-4.6V可实现智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发,以及长上下文文档与视频理解等功能。智东西第一时间对该模型进行了体验测试。


实测发现,GLM-4.6V在图像搜索、全网比价、长文本及视频理解方面表现稳定,文字与网页生成速度快、内容准确。不过其图文混排能力存在不足,生成的图片始终无法显示;面对模糊指令时,理解也会出现些许偏差。


GLM-4.6V系列模型将训练时的上下文窗口提升至128k tokens,且首次在模型架构中把Function Call(工具调用)能力原生融入视觉模型。


性能层面,同等参数规模下,GLM-4.6V系列在多模态交互、逻辑推理和长上下文等关键能力上达到SOTA水平。


其中,9B参数的GLM-4.6V-Flash在覆盖通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别及空间定位能力的34项测试中,有22项分数超过Qwen3-VL-8B;106B参数12B激活的GLM-4.6V,表现则与参数量达其2倍的Qwen3-VL-235B相近



价格方面,GLM-4.6V系列较GLM-4.5V降价50%,API调用价低至输入1元/百万tokens输出3元/百万tokens,而GLM-4.6V-Flash则全面免费



GLM-4.6V开源地址:


GitHub:https://github.com/zai-org/GLM-V


Hugging Face:https://huggingface.co/collections/zai-org/glm-46v


魔搭社区: https://modelscope.cn/collections/GLM-46V-37fabc27818446


GLM-4.6V体验地址: https://chat.z.ai/


01.智能图文混排:可生成推文大纲,图片显示功能缺失


在智能图文混排与内容创作能力上,GLM-4.6V具备原生多模态工具调用能力,能直接理解图像、截图、文档页面等多模态数据,无需先转换为文字描述再解析。


测试中上传GLM-4.5V技术报告,要求生成图文并茂的微信公众号文章。约1-2分钟后,GLM-4.6V完成文档阅读与理解,输出包含标题、导语、五个章节及结语的完整文章,但多次尝试后,生成的图片仍无法显示。



▲智能图文混排


02.识图购物与导购:自动比价流畅,模糊搜索理解待优化


为体验识图购物与导购功能,输入指令“帮我搜索现在iPhone 17 Pro Max在各平台的价格”。


GLM-4.6V自动调用工具全网搜索,形成包含商品名、平台、品牌、商品图、商品链接及店铺名的比价表格,点击链接可直接跳转至购买页面。


对比购买页面信息,搜索出的产品名和价格准确,但对比商品均来自京东平台,且商品名直接提取自电商页面,存在冗余信息未做进一步整理。


另外,要求搜索《疯狂动物城2》中尼克狐的同款眼镜,模型通过图像搜索功能找到同款眼镜实拍图,但未提供购买链接。



▲模糊搜索导购


03.网页复刻:截图生成代码丝滑,图标更换出现错误


上传X平台登录页面截图,要求生成HTML代码和网页预览。



▲截图生成网页代码



▲生成网页预览


收到指令后,GLM-4.6V立即逐行生成HTML代码并显示预览页面,生成的“仿X”登录网页与原网页几乎一致。


此外,GLM-4.6V支持多轮视觉交互,可通过自然语言指令修改网页色彩、调整按钮位置等。


例如,在上一轮输出基础上要求将网页主题色改为天蓝色、图标X改为Z并保持原风格。结果显示,主题色修改完善,但图标更换指令被误解,生成了“向上箭头”形状。



▲修改网页元素


04.长上下文文档理解:多语种论文同步处理,内容理解准确


GLM-4.6V将视觉编码器与语言模型的上下文对齐能力提升至128k,实际应用中,128k上下文约相当于150页文档、200页PPT或一小时视频。


为验证长上下文文档理解能力,向GLM-4.6V提交三篇网络平台治理领域论文(含两篇中文、一篇英文),要求阅读后生成学习笔记。


生成结果显示,图片依旧未显示,但文字部分内容完整、逻辑清晰,每篇文献的核心观点与结论均被清晰罗列,英文文献处理也无错漏。


05.视频理解:内容解析快速,文件大小有限制


GLM-4.6V还可理解长视频内容,用户可上传200M以内的MP4影片,要求分析拍摄手法、内容结构等。


例如,上传一段6分48秒的视频制作技巧分享视频,要求总结思路内容并给出摄影类自媒体建议。



▲视频内容理解


GLM-4.6V在几秒内给出包含视频思路、叙事技巧、镜头运用和设备选用的完整详解,还提供了四条循序渐进的摄影博主发展建议,回答准确清晰。


06.结语:GLM-4.6V降低视觉模型接入门槛


从实测体验看,GLM-4.6V在日常工作中已能提供不少帮助,但生成效果尚不稳定,如公众号文章图片无法显示、网页细节修改存在瑕疵。不过其价格降至上一版本的一半,轻量版免费,对想尝试多模态AI的个人或小团队而言,接入门槛显著降低。


当前AI领域各家能力逐渐趋同,谁能优化体验、降低成本,谁就更可能吸引开发者。


智谱团队在官方推文中表示本周为开源发布周,将有更多成果开源,值得期待。


本文来自微信公众号 “智东西”(ID:zhidxcom),作者:王涵,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com