智谱AI的“类GPT-4o”，让我看到了作业帮、小红书、厨房的身影。

2024-08-31

文｜周鑫雨

编辑｜苏建勋

第一个国产版GPT-4o卷出，是智谱AI。

2024年智谱AI的主题一定是在多模式跑道上奔跑。首先，2024年7月26日，智谱AI推出了Sora视频生成模型“智谱清影”。团队邀请大家充满诚意地使用和反馈——与半年多没有开放的Sora相比，“清影”是免费的。

一个月后的8月29日，全球数据挖掘与知识发现大会（KDD）上面，智谱AI带国产版，《Her》、类GPT-4o爆炸了一波又一波。——智谱AI在C端产品“智谱清言”中首次推出了“视频聊天”功能。

也就是说，当“懂王”AI有了眼睛，有了情感，人与AI的互动技术，离人更近了一步。

比如AI也跟上了潮流。最近霸屏游戏圈的《黑神话：悟空》，智谱清言看到后“秒懂”，还可以跟你聊几句。

与此同时，智谱AI还发布了最新版本的“多模态模型全家桶”，比如GLM-4V，可以了解视频和网页。-Plus，CogView-3iew支持图片编辑。-Plus。

GLM的语言底座模型，也迭代到GLM-4-Plus版本，更能玩长文本，更能做数学题。

GPT-4o智谱版玩法：辅导作业，口语教练，厨房管家。

曾经，GPT-4o的“三次爱情迭代”让大量客户大吃一惊。然而，智谱清言就像一个大直男。当它被要求“更有爱”时，它会理性地向你“泼冷水”。：身为人工智能，不能表达感情。

但是，智谱清言的视频通话功能，有更适合中国人“活到老学到老”的玩法。

举例来说，它可以是你的随身英语老师。打开摄像机后，还可以体验一下“去哪里，问哪里，学哪里”的高浓度英语学习。

&amp;amp;nbsp;

△询问西红柿的英语来源：智谱AI

当然也可以是“不知道拍哪里”的数学老师。智谱清言的讲解，质量甚至和真人老师的竞争，不仅教学认真，而且问答互动。父母再也不用担心辅导作业了！

&amp;amp;nbsp;

△回答混合运算选择题。来源：智谱AI

平常在家里，智谱清言也揽下了生活管家的工作。

比如一眼就能认出瑞幸的包装袋，马上给你一个瑞幸历史的科普。然而，智谱清言终于开了个小差，理解了咖啡应该如何储存的问题，包装袋应该如何储存...

&amp;amp;nbsp;

△识别瑞幸包装袋。来源：智谱AI

目前，视频聊天的过程无法保存在历史记录中。然而，有了“长眼睛”的智谱清言，似乎同时安装了作业帮、小红书和厨房。

新型视觉模型上线，可以看懂视频，也可以看透网页源代码。

对智谱AI而言，2024年无疑是多模态狂奔的一年。

在KDD上，智谱AI更新了“模型全家桶”，不仅发布了新一代的语言底座模型，还发布了升级后的多模态家族:图像/视频理解模型GLM-4V-Plus、文生图模型 CogView-3-Plus。

首先来看一下GLM-4语言底座模型-Plus。

有趣的是，GLM-4-Plus的练习使用了大量高质量的模型来生成数据。事实证明，AI生成数据可以有效应用于模型训练，降低获取训练数据的成本。

就结果而言，GLM-4-Plus的语言理解能力与GPT-4o和Llama3.1-405B相当。

但是在长文本能力的表现上，GLM-4-Plus和GPT-4o、Claude 3.5 Sonnet的两个顶级模型也齐头并进。长文本测试集InfiniteBench在清华大学刘知远团队进行，GLM-4-Plus甚至略优于2个海外天花板模型。

与此同时，通过采取近端战略优化(PPO，一种提高复杂任务管理能力的训练方法)，GLM-4-Plus的数据、代码算法等推理能力得到了显著提高，并能更好地体现人类的喜好。

目前，GLM-4-Plus百万Tokens的处理价格为50元，与百度最新的ERNIENIE模型相比， 4.0 Turbo几乎持平(百万Tokens输入30元，导出60元)。

△GLM-4-Plus定价。

更新多模态能力，是最精彩的部分。

与上一代GLM-4V相比，视觉大模型GLM-4V-Plus提高了对视频和网页的理解能力。

举例来说，只需输入智谱AI网站截图，GLM-4V-Plus可以立即转换成html代码，帮助您快速复制网站。

不像一般的视频理解模型，GLM-4V-Plus不仅可以理解复杂的视频，而且具有时间感知能力。这意味着你可以问第xx秒模型视频的内容，它也可以给出答案。然而，截至发布之前，智谱AI开放平台的模型体验馆还没有支持上传视频。

美中不足的是，与逆天的视觉多模态理解能力相比，GLM-多轮对话和4V-Plus的文字理解能力似乎有点“崩溃”。看起来，GLM-4V-Plus离GPT-4o还有很长的路要走。

智谱AI还在KDD上发布了新一代文生图模型CogView-3iew--Plus。相对于近期文生图界的“当红炸子鸡”FLUX，CogView-3-Plus 20s版本的各种能力基本可以打平。

输入提示:桌子上有一台笔记本电脑，电脑旁边有一个玻璃杯。这是一个圆柱形的水杯。半杯水还在冒热气，杯体反射了一点阳光。

同时，CogView-3-Plus还支持图片编辑功能，如改变图片中物体的颜色、更换物体等。

加上“2024年1月发布的几款模型”Plus“后缀，智谱AI花了7个多月——这也是自2023年以来智谱AI发布模型的最长时间。

可见的是，GPT-4o，是AI大型企业能力的分水岭。随着多模态能力的结合，语言逻辑的“黑箱”刚刚打开，很快就被GPT-4o关闭了。

大多数国内模型制造商的策略是：分而治之，先增强不同模态的单模态模型能力，再突破融合难题。

目前，智谱AI模型矩阵仍处于各自迭代能力的“分治”阶段，视频通话功能的推出让用户看到了初步的多模结合。

欢迎交流

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读