“拥有贾维斯”的愿望正在被“视频聊天”功能带入现实。
为什么头部大模型厂商坚持“视频聊天”功能,是否影响用户体验?“每个人都有一个贾维斯”的愿望能照进现实吗?
iPhone2011年 在4s新闻发布会上,Siri首次以智能语音助手的身份亮相,成为全场新闻发布会上最大的特色。
当时很多人都没有体验过Siri的服务,但是从媒体报道中建立了一个简单的愿望:就像《钢铁侠》中的贾维斯一样,每个人都会有自己的智能助手,可以实时沟通,帮助我们解决各种问题。
即使Siri之后“跌落神坛”,人们对“贾维斯”的期望也从未消失。AlphaGo、智能型音响,大型模型...每一次现象级创新的背后,总有人在讨论:《钢铁侠》中的贾维斯,离我们的生活还有多远?
愿望成真的一年很有可能在2024年实现。
7月底,OpenAI宣布 向部分付费用户开放GPT-4o视频聊天版,可立即与GPT进行视频交互问答, 通过摄像头识别图片,在线回答各种问题,如实时翻译、线性方程解决等。
八月二十九日,智谱AI官宣智谱清言APP推出“视频聊天”功能, 它是第一个可以通过文本、音频、图像和视频进行多模式互动和实时推理的AI助手。目前已向部分用户开放,外部申请权限已开放,规模将不断迭代,规模将逐步放开。
由此产生的一个话题是:为什么头部的大模型厂商坚持“视频聊天”功能,是否会影响用户体验,“每个人都有一个贾维斯”的愿望能否实现?
解锁AI新体验
大模型引发的新一轮技术热潮已经持续了近两年。市场上出现了各种AI助手,但人机交互被“束缚”在对话框中,停留在文本输入期。有些产品引入了语音对话功能,但高延迟导致感觉不好,无法理解语气起伏、笑声等表达的情感信息。,而只是用语音代替文本输入。
我们提前一天体验到了智谱清言APP的“视频聊天”功能,在内测组与其他人进行了简单的交流,发现了一些有趣的使用场景:
首先是作业辅导的场景。
与OpenAI发布会上演示的简单方程组答案不同,有群友直接将智谱清言用于儿童作业指导:
比如在小学数学的相互角度计算中,智谱清言很快理解了视频中试题的语义,拆解了问题,一步一步教孩子计算。当他们给出正确答案时,智谱清言在第一时间给予了“伟大”的鼓励。
然而,在英语教学的场景中,孩子们用笔在纸上标注了一个单词,智谱清言准确识别了圈住的单词,并给出了正确的发音。即使孩子的阅读错误,他们也会耐心地纠正发音,就像坐在孩子身边的“英语老师”一样。
另一个场景是产品介绍。
有时候买的商品都是英文包装,可能看不懂使用说明和注意事项,能不能用“视频聊天”功能来填补信息差异?
我们把摄像头对准星巴克买的咖啡豆。由于皱纹,一些英文字母变形了,但智谱清言仍然准确识别产品信息,包括产品名称、调味品、产地、风味、品牌等基本内容。
接下来,我问了制作和储存咖啡豆的建议。即使远远超过视频图片中的信息,智谱清言也给出了确切的答案:美式风格超级合适,味道恰到好处;咖啡豆应放置在阴凉干燥的地方,以防潮湿或晒太阳...
厨房助手是第三个场景。
因为每天中午都面临着“吃什么”的困扰,所以萌生了一个想法:让智谱清言识别菜肴,并给出食谱和制作方法的建议。
同时,我们把卷心菜、干辣椒、大蒜和生姜放在案板上,然后问我们需要什么食材,可以用来做什么菜。没想到,智谱的清言准确地说出了每种食材的类型,并给出了关于炒卷心菜的建议。
进一步询问该怎么做。智谱清言详细给出了一整套流程,如锅热给油、葱姜炒香、加辣椒、香后切好的卷心菜等。当我们进一步询问“做醋卷心菜需要什么食材”时,智谱清言的答案再次令人惊叹:“如果你做醋卷心菜,你应该点醋和糖”。
可以看出,以上几个“小儿戏”并不能难住智谱清言,比答案更重要的其实是整个问答过程:它不仅能准确识别摄像头拍摄的内容,还能理解语音命令并准确执行,即使它被打断,它也能迅速做出反应。与机械的问答相比,它在体验上越来越接近人与人之间的自然交流。
02.到底有什么困难?
总结智谱清言APP的“视频聊天”功能,主要解决三个问题:
1、新的信息输入方式,不再局限于文字语音,而是文字、图像、音频、视频等多种模式,AI可以自己“看世界”;
2、新的对话交流方式,过去的对话交流多为一问一答,合理但不符合实际习惯,如今已能做到“随时打断”。;
3、新的人机交互场景,比一切都简单,视频和语音带来了几乎零门槛的用户教育,这意味着人机交互可能会迎来革命性的更新。
上述场景不止一次出现在科幻电影中。除了上面提到的《钢铁侠》和《漂泊地球》。《Her》电影中也有类似的桥段,比如《银翼杀手2047》。因为更符合人类习惯的互动,从来都不是键盘,而是对话。
要实现“视频聊天”的功能,到底有什么困难?就大模型而言,必须满足两个方面的能力要求。
第一,多模态能力。
简单来说,模式就是文字、图像、语音、视频等信息输入输出的表现形式。为什么多模式能力重要?因为人类认知世界的方式是多模式,眼睛、耳朵、嘴巴、手脚等。承载着不同的信息感知。AI希望取代人类的工作,帮助人类学习、理解和理解世界,前提是多模式数据处理量。

第二,模型推理速度。
人类对话的一般间隔是250ms,间隔越长,交互越“不自然”,感觉越“不舒服”。目前大模型的问题是推理时间往往超过3秒,直接影响用户体验和业务效率。OpenAI公开了GPT-4o的语音延迟数据,平均为 320 ms,虽然智谱AI还没有公布详细的数字,但是实际体验与GPT-4o相当。
换言之,大模型的竞争就是一场开卷考试,努力的目标是一致的,而且路径逐渐清晰,实际上是技术硬实力的竞争。
以智谱清言为例,之所以成为国内首款面向C端开放“视频聊天”功能的产品,离不开两个核心优势:

一是时间上的先发优势。早在2021年3月,智谱AI团队就推出了GLM系列大模型,2021年5月推出了CogView,它将中文文字生成图像。2022年,在CogView2的基础上,开发了CogVideo视频生成模型...超过国内同行近两个时间优势,使得智谱AI在多模态能力上有了更深的沉淀。
另外一种是能力的领先优势。比如CogVLM-17B,智谱AI和清华KEG一起打磨,在SOTA或者SOTA或者SOTA中获得第二名;GLM-4V-Plus,MVBench、LVBench、OCRBench、GPT-4o和Gemininini在MMVET等多个基准测试中的表现超过了GPT-4o。 1.5Pro,达到国际先进水平。
03.盛大的活动才刚刚开始
或许在一些人眼里,“视频聊天”只是一种普通的功能创新,放在商业语境中,但却有着不可低估的效果。就像每次出现的时候一样,当大模型的概念刚刚流行起来的时候,企业家们蜂拥而至,试图在新一轮的创业浪潮中争取一个机会。但直到现在,市场上还没有真正的杀手级产品。
很多人把ChatGPT的流行看作是“AIiPhone时刻”,但是第一代iPhone的销量只有700万台,并没有改写诺基亚统治市场的格局;让很多开发者从中获利的App Store,可以追溯到2008年发布的iPhone。 3G。
第一代iPhone的“历史价值”,实际上是电容屏和多点触摸。
诺基亚和摩托罗拉也推出了很多“大屏幕”手机,但使用的是电阻屏幕,需要用触摸笔操作,导致使用门槛高,场景有限。相比之下,多点触摸电容屏幕的用户可以直接用手指操作、输入和互动,大大降低了用户的学习成本,给了开发者更多的想象空间,从而实现了移动互联网的繁荣。
按照这个逻辑,“对话框”就像一个电阻屏,“视频聊天”功能将大型人机交互演变成了电容屏时代。
区别不难解释。
作为一个具有深度使用大模型能力的普通用户,我们之前的需求主要集中在文本生成、图像生成和视频生成上,比如AI写简单的视频剧本,生成文章图片和视频模板,核心场景并没有脱离“工作”的范围。
在体验了智谱清言的“视频聊天”功能后,我们深刻感受到多模态能力和毫秒推理率在生活中有着无处不在的使用场景。比如出国旅游的时候,打开摄像头翻译餐厅的菜单中文,让AI面试官在工作面试前提前模拟面试,早上出门的时候播放视频询问今天的服装,吃零食前让AI识别计算卡路里...相应的生活场景数不胜数。
对于开发者来说,关于“滚动模型还是滚动应用”的争论有了明确的答案:在大模型打破能力的束缚后,开发者可以在更多的场景中开发有价值的应用。
举例来说,我们曾经走访过一家工业企业,为解决大型机械设备的维修问题,这家企业使用AR眼镜。 远程工程师的方式,即当地工作人员戴着AR眼镜采集实时动态,后端维修工程师进行远程指导,在一定程度上节省了工程师的出行和时间成本,但培养工程师的时间成本几乎没有解决办法。
现在无疑有了新的解决方案:这家企业可以利用工程师的经验和知识训练专有模型,然后通过“视频聊天”功能赋能现场员工,在AI的指导下一步一步解决问题。每个人都可以拥有资深工程师的能力。
如果你扩散思维,大多数场景可以利用“视频聊天”的能力再次进行,包括但不限于作业指导、英语导师、景区导游、数字客服等。,而不是同质化竞争等待开发者,而是深入一个场景,做到深入务实。
如果想象力不再受到限制,那就是价值加速变现的转折点,也是大型盛会开幕的积极信号。
04.写在最后
在年初的一次演讲中,智谱AI CEO张鹏曾经肯定:2024年一定是AGI元年,而多模式是AGI的起点。
2024年已经过去了三分之二。回顾张鹏的分析,正在一步步得到验证。同时,也意味着大模型产业的演变正走在可预见的道路上,不断结合听觉、视觉等模式的思维能力,在图文的基础上加快AGI时代的发展。
本文来自微信微信官方账号“Alter聊天技术”(ID:spnews),作家:张贺飞,编辑:沈菲菲,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




