智谱AI的“类GPT-4o”,让我看到了作业帮、小红书、厨房的身影。
文|周鑫雨
编辑|苏建勋
第一个国产版GPT-4o卷出,是智谱AI。
2024年智谱AI的主题一定是在多模式跑道上奔跑。首先,2024年7月26日,智谱AI推出了Sora视频生成模型“智谱清影”。团队邀请大家充满诚意地使用和反馈——与半年多没有开放的Sora相比,“清影”是免费的。
一个月后的8月29日,全球数据挖掘与知识发现大会(KDD)上面,智谱AI带国产版,《Her》、类GPT-4o爆炸了一波又一波。——智谱AI在C端产品“智谱清言”中首次推出了“视频聊天”功能。
也就是说,当“懂王”AI有了眼睛,有了情感,人与AI的互动技术,离人更近了一步。
比如AI也跟上了潮流。最近霸屏游戏圈的《黑神话:悟空》,智谱清言看到后“秒懂”,还可以跟你聊几句。
与此同时,智谱AI还发布了最新版本的“多模态模型全家桶”,比如GLM-4V,可以了解视频和网页。-Plus,CogView-3iew支持图片编辑。-Plus。
GLM的语言底座模型,也迭代到GLM-4-Plus版本,更能玩长文本,更能做数学题。
GPT-4o智谱版玩法:辅导作业,口语教练,厨房管家。
曾经,GPT-4o的“三次爱情迭代”让大量客户大吃一惊。然而,智谱清言就像一个大直男。当它被要求“更有爱”时,它会理性地向你“泼冷水”。:身为人工智能,不能表达感情。
但是,智谱清言的视频通话功能,有更适合中国人“活到老学到老”的玩法。
举例来说,它可以是你的随身英语老师。打开摄像机后,还可以体验一下“去哪里,问哪里,学哪里”的高浓度英语学习。
 
△询问西红柿的英语来源:智谱AI
当然也可以是“不知道拍哪里”的数学老师。智谱清言的讲解,质量甚至和真人老师的竞争,不仅教学认真,而且问答互动。父母再也不用担心辅导作业了!
 
△回答混合运算选择题。来源:智谱AI
平常在家里,智谱清言也揽下了生活管家的工作。
比如一眼就能认出瑞幸的包装袋,马上给你一个瑞幸历史的科普。然而,智谱清言终于开了个小差,理解了咖啡应该如何储存的问题,包装袋应该如何储存...
 
△识别瑞幸包装袋。来源:智谱AI
目前,视频聊天的过程无法保存在历史记录中。然而,有了“长眼睛”的智谱清言,似乎同时安装了作业帮、小红书和厨房。
新型视觉模型上线,可以看懂视频,也可以看透网页源代码。
对智谱AI而言,2024年无疑是多模态狂奔的一年。
在KDD上,智谱AI更新了“模型全家桶”,不仅发布了新一代的语言底座模型,还发布了升级后的多模态家族:图像/视频理解模型GLM-4V-Plus、文生图模型 CogView-3-Plus。
首先来看一下GLM-4语言底座模型-Plus。
有趣的是,GLM-4-Plus的练习使用了大量高质量的模型来生成数据。事实证明,AI生成数据可以有效应用于模型训练,降低获取训练数据的成本。
就结果而言,GLM-4-Plus的语言理解能力与GPT-4o和Llama3.1-405B相当。
但是在长文本能力的表现上,GLM-4-Plus和GPT-4o、Claude 3.5 Sonnet的两个顶级模型也齐头并进。长文本测试集InfiniteBench在清华大学刘知远团队进行,GLM-4-Plus甚至略优于2个海外天花板模型。
与此同时,通过采取近端战略优化(PPO,一种提高复杂任务管理能力的训练方法),GLM-4-Plus的数据、代码算法等推理能力得到了显著提高,并能更好地体现人类的喜好。
目前,GLM-4-Plus百万Tokens的处理价格为50元,与百度最新的ERNIENIE模型相比, 4.0 Turbo几乎持平(百万Tokens输入30元,导出60元)。
△GLM-4-Plus定价。
更新多模态能力,是最精彩的部分。
与上一代GLM-4V相比,视觉大模型GLM-4V-Plus提高了对视频和网页的理解能力。

举例来说,只需输入智谱AI网站截图,GLM-4V-Plus可以立即转换成html代码,帮助您快速复制网站。
不像一般的视频理解模型,GLM-4V-Plus不仅可以理解复杂的视频,而且具有时间感知能力。这意味着你可以问第xx秒模型视频的内容,它也可以给出答案。然而,截至发布之前,智谱AI开放平台的模型体验馆还没有支持上传视频。
美中不足的是,与逆天的视觉多模态理解能力相比,GLM-多轮对话和4V-Plus的文字理解能力似乎有点“崩溃”。看起来,GLM-4V-Plus离GPT-4o还有很长的路要走。
智谱AI还在KDD上发布了新一代文生图模型CogView-3iew--Plus。相对于近期文生图界的“当红炸子鸡”FLUX,CogView-3-Plus 20s版本的各种能力基本可以打平。
输入提示:桌子上有一台笔记本电脑,电脑旁边有一个玻璃杯。这是一个圆柱形的水杯。半杯水还在冒热气,杯体反射了一点阳光。

同时,CogView-3-Plus还支持图片编辑功能,如改变图片中物体的颜色、更换物体等。

加上“2024年1月发布的几款模型”Plus“后缀,智谱AI花了7个多月——这也是自2023年以来智谱AI发布模型的最长时间。
可见的是,GPT-4o,是AI大型企业能力的分水岭。随着多模态能力的结合,语言逻辑的“黑箱”刚刚打开,很快就被GPT-4o关闭了。
大多数国内模型制造商的策略是:分而治之,先增强不同模态的单模态模型能力,再突破融合难题。
目前,智谱AI模型矩阵仍处于各自迭代能力的“分治”阶段,视频通话功能的推出让用户看到了初步的多模结合。
欢迎交流
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




