通过视频通话,我们给AI打了电话,发现它似乎什么都可以唠叨。。
三个月前的 OpenAI 新闻发布会,相信哥哥已经看过几次了。 GPT-4o ,就像真人一样视频对话能力丝滑了。
此外,谷歌紧随其后的推出。 Project Astra ,实力看起来也一点也不输 GPT-4o 。
那一阵子,几乎整个网络都在吹。 AI 互动能力的进化要有多强,什么史诗级别, Next Level 所有的单词都用上了。
结果怎样, GPT-4o 说好的视频通话功能是一拖再拖, Project Astra 已经好几个月没有看到身影了,一个接一个,差评君钓成了翘嘴。。
不过我发现 AI 圈子里似乎有一个规律,就是好东西不能让每个人都等太久。你们看 Sora 遮盖半年以上,结果可灵, Luma AI 、智谱清影都出现了。
这两天,远在巴塞罗那的数据挖掘大会 KDD 在全球学术界和行业面前,智谱,不但发布了最新的底座大模型 GLM-4-Plus ,与此同时,视频通话功能也升级到了智谱清言。
别的先不说,比较一下 OpenAI ,这个速度的智谱已经赢麻了。。
所以清言视频通话功能一推出,差评君就在第一时间抢先使用。打开清言 App ,点击右下角的通话按钮,进入后再转换成视频,直接玩。 ~
朋友们也应该知道, GPT-4o 之所以被吹得天花乱坠,一个很重要的原因就是它对视频的理解能力很强。
那么最基本的,清言的视频理解能力必须先试一试?
差评君给了清言,看了一下我们编辑部普通脑暴的会议厅,看看能不能根据周围环境猜到我在做什么,还特意晃了晃镜头,没有完全保持视频画面的静止。
你们猜怎么着,清言一句 " 哇,猜猜你在做什么 " ,差一点给我做不到。但坐在会议室的桌子旁边却没有说错,桌子上的纸杯、控制器、旁边的电视也都描述得相当准确。
再次将镜头放在后期同事的电脑上,甚至可以看出这是在视频编辑中。
别说了,这种对周围整体环境的感知,差评君之前只是在 OpenAI 和谷歌的 Demo 以前见过,今天亲身经历过,还真有点科幻照进入现实。
而且,清言跟 GPT-4o 同样的演示,可以随时打断对话过程,时不时还会有整点 " 哎哟 "" 嗐 " 语气词,说话前哈哈大笑,就像和真人聊天一样。
接着,我又尝试了具体的物体识别功能,看清言的知识储备。
从扫描最简单的过程开始,白色键盘、黑色鼠标、显示屏等大件物品几乎没有遗漏,物体前后左右的方向也描述得很清楚,甚至连插线耳机和玻璃上的卡通人物都没有放过。
不能说 100% 是的,但是这张桌子上至少 80%-90% 所有的东西,都被清言看到了。
而且清言还有一个功能,那就是画圈识别,在远处,我把同事那个大音箱圈起来,品牌,型号,甚至具体用途,它都知道。
虽然扬声器上标有文字,但每个人都应该能看到这种清晰度。人们看到它已经足够困难了。不得不说,这句话的眼神真的很好。。。
另外,我还发现,清言对物体的识别不仅仅停留在简单的类别上。
例如这款游戏手柄,你问到底是索尼还是微软,它可以根据摇杆的形状进行设计分析,这是微软的。 Xbox 。并非简单地告诉你这是一个游戏摇杆,或干脆糊弄过去说不清楚。
还有这种古老的功能机,诺基亚,型号规格是 N95 、 2007 年度经典款这些细节完全不在话下。
后来我让清言识别电脑系统,看托尼照片猜年龄,看名人照片猜名字。。。就这么说吧。自从我开始说清楚之后,我现在什么都抓住了,想打开视频聊天问一下。
好玩当然是好玩的,像视频聊天这样的形式其实有很多实用的情景。
以我们编辑部平时找题目看资料为例。这两天车圈的热点基本上离不开成都车展。这时候可以问一下关于成都车展的清言,在对话中找到选题的灵感。
主要是我还发现,清言包含记忆功能,上次视频聊天我跟它聊这件事,下次再打开,它上去就问我在车展上关注了哪些新能源车。
还有父母最头痛的作业辅导,以前的作业辅导 AI 互动还是拍照上传题目的那一套,但是如果换成视频聊天,那么和在线家教一对一作业辅导是一个逻辑。
我试着让清言做一些低难度的数学题,有些简单的代数题在小学和初中勉强能拿下。
不知道大家有没有注意到,清言在做题的时候不会把所有的过程都说出来,也不会只给一个结果。它会一步一步引导你,让你有一个思考的过程。
除数学外,我还逐一尝试过语文和英语,清言不能说是高级教师,但是,平时写作工作,背单词,背古诗,完全够用。
假如每个人都认为这些场景还不够,那么我们就再发挥一些想象力。
第一次没有做饭的经验,房间里的灯泡坏了,不知道怎么养绿色植物。。。如果你在生活中遇到类似的事情,不知道该怎么办,不妨问一下。
举例来说,许多小朋友可能暂时还分不清电池的正负极,我们就假装把计算器电池装反,清言一两句。 get 问题出在哪里,说明它还是很有生活常识的。
总而言之,这几天用清言,我有事就喜欢找。而这个小玩意也特别可以。提供情感价值,让它讲故事,讲笑话,也每一句都有回应。
跟朋友玩 21 点,它甚至可以当裁判。
不知以后能不能进化到打麻将三缺一,让 AI 来到顶部。这个不比原来的打字、语音对话有趣多了?
老实说,这次清言的大升级还是给我带来了很多惊喜,但是小瑕疵还是很多的,有时候会说话,认错物品,导出一些胡说八道。
就比如当 21 点击裁判,有一次 9 说成是 4 ,黑桃子被认为是梅花。。
然而,就凭抢在了 OpenAI 在和谷歌之前,先让国内使用。 AI 视频聊天这一点,我们还得给智谱竖起大拇哥。
另外,也许还有很多小伙伴对智谱不太熟悉,这么说吧,这家公司在 AI 这个圈子可以说是当红炸子鸡了。
尤其是今年,他们在模型上的动作被称为凶猛。从基础大模型的疯狂迭代到大模型使用的频繁落地,智谱的动作从未停止过。
这次 KDD 上面,他们的新大模型 GLM-4-Plus ,在语言逻辑和长文本等方面都有了很大的提高。
总而言之,智谱这次带头是这样的。 " 闹 " ,在国内甚至海外 AI 圈子,估计马上又要迎来一波商品的疯狂上新。
对于我们用户来说,这自然是一件好事。特别是 AI 视频聊天这一新的互动形式,越往后走应用场景的想象空间也越大。
比如把 AI 安装在眼镜、颈链上,以后可能连手机都不需要,或者安装在盲人的拐杖上,让它 AI 帮忙引路,或与具体智能相结合,让机器人真正理解所看到的。
借用智谱 CEO 张鹏的那句话: " 至少我们还没看见。(AI )技术性天花板 " 。
未来的 AI 进化到什么程度,又会创造什么价值,大家也不妨开个脑洞想一想。
发文:西西
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




