告别“人工智障”?Alexaalexai将被亚马逊重塑
真正符合大众想象的人工智能助手应该是什么样的de? ?基于GPT-4o的新ChatGPT无疑给整个行业带来了一个模样。新ChatGPT可以进行实时语音对话,可以用文字和视觉进行交互,并且具有记忆功能,几乎可以与电影《她》相媲美。(Her)AI助理扮演中斯嘉丽·约翰逊。当OpenAI在5月14日凌晨的新闻发布会上似乎触手可及时,亚马逊作为竞争对手自然并不平静。
近日有消息称,亚马逊利用生成人工智能升级其智能语音助手Alexa,并计划向用户收取相应的订阅费。据知情人士透露,亚马逊将推出更具对话性的版本,以便与谷歌和OpenAI的竞争产品竞争。
这个消息也符合亚马逊最近发给股东的年度信中描述的事实。当时已经确认GenAI应用程序正在消费者业务中建立,包括更强大的Alexa。
从某种意义上说,在这一轮人工智能浪潮中,亚马逊现在已经回忆起Alexa,他之前已经被忽视了。自2021年Andyy 自从Jassy成为亚马逊的新首席执行官以来,由于多年来Alexa部门的业绩难以提高,这个项目在贝索斯时代被称为亚马逊开拓创新能力的代表,在亚马逊内部逐渐优先,甚至成为裁员的重灾区,也是大规模收紧支出计划的主要目标。
不过,Alexa确实是亚马逊消费者业务中最好的媒介,AIGC应用程序也是如此。
早在2014年,亚马逊就推出了Alexa。起初,客户只能使用Alexa语音助手来播放歌曲、设置计时器和闹钟。随着后续的不断迭代,Alexa逐渐可以用来控制智能家居、观看视频、看电视节目、购物,甚至给孩子看睡前故事。有了Echo智能音响,一个新的语音控制计算平台也准备出来了。为了真正实现语音控制,亚马逊甚至制造了Alexa。 Skills。就像苹果App一样 在Store中,大量的应用程序扩展了iPhone的更多应用场景,亚马逊也希望借助Alexa Skills允许Alexa语音助手执行更多样化的任务。
遗憾的是,在当时的技术标准下,语音操作终究是空中楼阁。仅仅因为Alexa不能理解复杂的指令,就让Alexa Skills仅限于许多与语音密切相关的场景。所以在2018年,亚马逊也试图改造Alexa。 Skills,在不需要先安装的情况下,Alexa可以直接执行任何技能。例如,在这种新模式下,客户不再需要告诉Alexa“打开美团,订购肯德基”,而只是说“我想点外卖”。Alexa会利用语境线索找出用户的真实意图,并利用客户的位置、订阅、服务和历史记录来决定需要使用的应用程序。
但遗憾的是,当时的自然语言理解(NLP)这项技术还不足以支撑亚马逊的这一愿景,它仍然只能简单、机械地从预设的数据库中提取和匹配信息。无论Alexaa,终端用户发现、或者Siri,或者Google助手,语音助手和智能真的没有太大关系,也不足以改变日常生活,以至于Alexa在客户口中变成了“美化收音机”。
现在ChatGPT的出现,给了亚马逊重振Alexa的理由。ChatGPT在模型相关技术的支持下,拥有Alexaa、上一代语音助手如Siri所没有的广度、灵活性和复杂性。从某种意义上说,ChatGPT是亚马逊想要塑造Alexa的理想方式。而且ChatGPT之所以能在2022年底重燃大众对AI的热情,无疑是因为它善于“说实话”,能让用户拥有真正的“人”。、而非“机器”交流的感觉。

到2024年初,GPTs Store的出现让ChatGPT更加强大,从而在目前的GPT-4o中,ChatGPT已经能够快速响应文本、音频和视频输入的即时对话,并以语调和措辞进行对话,传达强烈的情感和个性。通过自然语言了解客户的要求,并在一个或多个GPTs中执行这些要求,从而实现“听客户的话,帮助用户”。
很容易看出,目前的ChatGPT几乎就是亚马逊Alexa想要“活出的样子”。
由于OpenAI的珠玉在前面,亚马逊对Alexa进行了全面的技术改造,以全新的姿态回归战场显然并不生硬。Rohitit使用亚马逊Alexa新负责人 “Alexa不仅是推动广义智能最肥沃的实验场之一,而且还进化了超越语音交互的类人交互能力,”Prasad说。但愿Alexa将来能够实现更多类人的交流,不仅仅是语音,还有面部情绪、手势和肢体语言。
所以问题来了,亚马逊能不能用AI大模型来重塑Alexa?
目前,亚马逊已经在全球范围内销售了超过1亿台配备Alexa的设备,甚至三分之一的美国家庭也出现了Alexa,因此它拥有优秀的用户基础。如果Alexa上出现GPT-4o,后者可以算是“原地升级”。
遗憾的是,亚马逊在AI方面的优势,特别是面向C端的AI能力,从来没有得到证实。事实上,与苹果相比,亚马逊在AI大模型赛道上的探索进度并不多。即使没有与OpenAI深度绑定的微软,在Meta的LLaMA也是如此。、除了谷歌的Gemini,到目前为止,亚马逊的大模型“Titan“不但推出时间最晚,而且几乎没有引起公众的讨论。
如果“Titan“显然,没有人不可能讨论它,因为它在技术上有任何突破。事实上,将语音助手与大型模型连接起来并不难。在过去的一年里,智能音响行业一直试图这样做,但结果并不令人满意。
其实原因很简单。由于多模态技术的限制,大模型“附体”语音助手的过程并不顺利。为什么GPT-4o刚出来的时候,外界会给出“爆炸场”的评价?音频输入的平均反馈时间只有320毫秒,这无疑是最重要的。即使是与人类对话的响应时间,这个数字也相当接近。
当前,用户在面对ChatGPT时,有GPT-4o加成,觉得自己在与人交谈,但是在与其他语音助手交谈时,却需要面对漫长的等待。换言之,亚马逊想要重塑Alexa,关键在于它能否在模型多模态能力上取得突破。
本文来自微信微信官方账号“三易生活”(ID:IT-作者:三易菌,36氪经授权发布,3eLife)。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




