告别“人工智障”？Alexaalexai将被亚马逊重塑

2024-06-19

真正符合大众想象的人工智能助手应该是什么样的de？？基于GPT-4o的新ChatGPT无疑给整个行业带来了一个模样。新ChatGPT可以进行实时语音对话，可以用文字和视觉进行交互，并且具有记忆功能，几乎可以与电影《她》相媲美。（Her）AI助理扮演中斯嘉丽·约翰逊。当OpenAI在5月14日凌晨的新闻发布会上似乎触手可及时，亚马逊作为竞争对手自然并不平静。

近日有消息称，亚马逊利用生成人工智能升级其智能语音助手Alexa，并计划向用户收取相应的订阅费。据知情人士透露，亚马逊将推出更具对话性的版本，以便与谷歌和OpenAI的竞争产品竞争。

这个消息也符合亚马逊最近发给股东的年度信中描述的事实。当时已经确认GenAI应用程序正在消费者业务中建立，包括更强大的Alexa。

从某种意义上说，在这一轮人工智能浪潮中，亚马逊现在已经回忆起Alexa，他之前已经被忽视了。自2021年Andyy 自从Jassy成为亚马逊的新首席执行官以来，由于多年来Alexa部门的业绩难以提高，这个项目在贝索斯时代被称为亚马逊开拓创新能力的代表，在亚马逊内部逐渐优先，甚至成为裁员的重灾区，也是大规模收紧支出计划的主要目标。

不过，Alexa确实是亚马逊消费者业务中最好的媒介，AIGC应用程序也是如此。

早在2014年，亚马逊就推出了Alexa。起初，客户只能使用Alexa语音助手来播放歌曲、设置计时器和闹钟。随着后续的不断迭代，Alexa逐渐可以用来控制智能家居、观看视频、看电视节目、购物，甚至给孩子看睡前故事。有了Echo智能音响，一个新的语音控制计算平台也准备出来了。为了真正实现语音控制，亚马逊甚至制造了Alexa。 Skills。就像苹果App一样在Store中，大量的应用程序扩展了iPhone的更多应用场景，亚马逊也希望借助Alexa Skills允许Alexa语音助手执行更多样化的任务。

遗憾的是，在当时的技术标准下，语音操作终究是空中楼阁。仅仅因为Alexa不能理解复杂的指令，就让Alexa Skills仅限于许多与语音密切相关的场景。所以在2018年，亚马逊也试图改造Alexa。 Skills，在不需要先安装的情况下，Alexa可以直接执行任何技能。例如，在这种新模式下，客户不再需要告诉Alexa“打开美团，订购肯德基”，而只是说“我想点外卖”。Alexa会利用语境线索找出用户的真实意图，并利用客户的位置、订阅、服务和历史记录来决定需要使用的应用程序。

但遗憾的是，当时的自然语言理解（NLP）这项技术还不足以支撑亚马逊的这一愿景，它仍然只能简单、机械地从预设的数据库中提取和匹配信息。无论Alexaa，终端用户发现、或者Siri，或者Google助手，语音助手和智能真的没有太大关系，也不足以改变日常生活，以至于Alexa在客户口中变成了“美化收音机”。

现在ChatGPT的出现，给了亚马逊重振Alexa的理由。ChatGPT在模型相关技术的支持下，拥有Alexaa、上一代语音助手如Siri所没有的广度、灵活性和复杂性。从某种意义上说，ChatGPT是亚马逊想要塑造Alexa的理想方式。而且ChatGPT之所以能在2022年底重燃大众对AI的热情，无疑是因为它善于“说实话”，能让用户拥有真正的“人”。、而非“机器”交流的感觉。

到2024年初，GPTs Store的出现让ChatGPT更加强大，从而在目前的GPT-4o中，ChatGPT已经能够快速响应文本、音频和视频输入的即时对话，并以语调和措辞进行对话，传达强烈的情感和个性。通过自然语言了解客户的要求，并在一个或多个GPTs中执行这些要求，从而实现“听客户的话，帮助用户”。

很容易看出，目前的ChatGPT几乎就是亚马逊Alexa想要“活出的样子”。

由于OpenAI的珠玉在前面，亚马逊对Alexa进行了全面的技术改造，以全新的姿态回归战场显然并不生硬。Rohitit使用亚马逊Alexa新负责人 “Alexa不仅是推动广义智能最肥沃的实验场之一，而且还进化了超越语音交互的类人交互能力，”Prasad说。但愿Alexa将来能够实现更多类人的交流，不仅仅是语音，还有面部情绪、手势和肢体语言。

所以问题来了，亚马逊能不能用AI大模型来重塑Alexa？

目前，亚马逊已经在全球范围内销售了超过1亿台配备Alexa的设备，甚至三分之一的美国家庭也出现了Alexa，因此它拥有优秀的用户基础。如果Alexa上出现GPT-4o，后者可以算是“原地升级”。

遗憾的是，亚马逊在AI方面的优势，特别是面向C端的AI能力，从来没有得到证实。事实上，与苹果相比，亚马逊在AI大模型赛道上的探索进度并不多。即使没有与OpenAI深度绑定的微软，在Meta的LLaMA也是如此。、除了谷歌的Gemini，到目前为止，亚马逊的大模型“Titan“不但推出时间最晚，而且几乎没有引起公众的讨论。

如果“Titan“显然，没有人不可能讨论它，因为它在技术上有任何突破。事实上，将语音助手与大型模型连接起来并不难。在过去的一年里，智能音响行业一直试图这样做，但结果并不令人满意。

其实原因很简单。由于多模态技术的限制，大模型“附体”语音助手的过程并不顺利。为什么GPT-4o刚出来的时候，外界会给出“爆炸场”的评价？音频输入的平均反馈时间只有320毫秒，这无疑是最重要的。即使是与人类对话的响应时间，这个数字也相当接近。

当前，用户在面对ChatGPT时，有GPT-4o加成，觉得自己在与人交谈，但是在与其他语音助手交谈时，却需要面对漫长的等待。换言之，亚马逊想要重塑Alexa，关键在于它能否在模型多模态能力上取得突破。

本文来自微信微信官方账号“三易生活”（ID：IT-作者：三易菌，36氪经授权发布，3eLife)。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

CPU设计号称提高了100倍，真相到底是什么？

吴恩达的最新演讲：AI Agent推动下一个创新浪潮

为了Xbox，微软推OEM版Xbox 疯狂的Everywhere

传说宁德时代实行896工作制，外籍员工不强制，内部人士回应。

美女员工向60后副行长表白，背后的万亿大行罚单不断。