亚马逊推出了新一代基础模型 Nova,专注于性价比、预告图像和视频模型
作者 | 宛辰编辑| 郑玄
新的亚马逊模式已经到来。
当地时间星期二 re:invent 会议上,上午的会议 Keynote 前亚马逊云科技阶段(AWS)CEO、目前是亚马逊企业 CEO 安迪·贾西(Andy Jassy)限时返场。在大约 10 在几分钟的演讲中,贾西介绍了亚马逊的生成式。 AI 亚马逊的新一代基础模型在应用领域取得了进展。——Amazon Nova。
去年 4 月亮,亚马逊推出了第一代大模型 Titan,只有单一的语言模式。假如说 Titan 只是小试牛刀,那今天的牛刀。 Amazon Nova 这一系列模型,是亚马逊的真本事和大动作。到底是做文生文,文生图,还是图生视频…对于亚马逊来说,这种选择是不存在的。由于,Nova 系列主推 Any to Any,随机模态输入,随机模态导出。并且在 Benchmark 在评价方面,也都是 SOTA 大型模型,几乎可以击败所有相同数量级和市场定位的基本模型。
你们也许会问,刚刚添加了。 40 亿美金投资 Anthropic 及其 Claude,于是发了自研的王炸 Nova。亚马逊是怎么想的?尤其如何看待自己与模型生态伙伴的关系?

安迪·贾西(Andy Jassy)自问自答这个问题,他指出,在亚马逊内部建造的问题 AI 在应用中,使用模型的多样化 令人惊讶。开发者也是如此,希望有更低的延迟,更低的成本,更好的微调能力,更好的 通过固定数量协调不同的知识库 根据这些信息,我们还希望实现许多自动协调操作(即所谓的智能行为),或希望获得更好的图像和视频效果等。 为满足开发者多样性的需要, 亚马逊云科技 模型化策略,就是给开发者尽可能多的自主选择的权利。
「一直以来,我们都在吸取同一个 教训——永远不会出现一种工具能够在某种程度上统一世界的情况。就像数据库一样,10。 多年来,每个人都会使用各种关系数据库或非关系数据库。分析领域也是如此,曾经大家都以为 TensorFlow 将成为唯一的 AI 而且一直强调会有许多不同的框架,最后, PyTorch 成为最受欢迎的一个,在模型方面也是如此。」
在大模型时代,亚马逊的回答是,开发者可以根据自己期望的随机实验,组合使用模型。
01
Amazon Nova:
成本低,能力强
安迪·贾西在会上宣布。 Nova 该系列有六种主要模型,包括四种基本模型生成文本,以及两种视觉内容生成模型生成图像和视频。
第一,规模最轻 Micro 模型,其属于「仅文本模型」,只有输入文本后才能导出文本,这也是 Nova 在系列中,响应速度最快,性价比最高。贾西说, Amazon 在很多简单的任务中,内部开发者最喜欢使用它。
贾西说,是的 11 个 Benchmark 检测中,Nova Mirco 的表现与 Meta LLaMa 3.1 8B 相当甚至更好,在 12 个 Benchmark 检测中与 Google Gemini 1.5 Flash-8B 比起更好的表现。该模型的响应速度达到每秒 210 个 Tokens,尤其适用于需要快速响应的应用。
以下三种多模态模型支持多模态输入,并输出文本内容。
其中 Lite 模型也是一种低成本的多模态模型。,能迅速处理图像、视频和文本输入,并输出文本内容。
贾西说,是的 19 项 Benchmark 检测中,Nova Lite 有 17 项目表现优于或等于 OpenAI 的 GPT-4o Mini;在 21 项目标准中,有 17 项目优于或等于 Google 的 Gemini 1.5 Flash-8B;在 12 项标准中,有 10 项目优于或等于 Anthropic 的 Claude Haiku 3.5。这种模式在视频、图表和文档理解任务中会有很好的表现。
Pro 该模型是一种高性能、多模态的模型,能够为各种任务提供最佳的准确性、速度和成本组合。
在 20 项 Benchmark 检测中,Nova Pro 有 17 项目优于或等于 OpenAI 的 GPT-4o;在 21 项 Benchmark 检测中,有 16 项目优于或等于 Google 的 Gemini 1.5 Pro。
最终还是很强的,是的, Nova Premier,该模型可用于复杂的推理任务,也可作为最佳定制蒸馏模型。「老师」。
贾西没给出 Premier 跑分对比,但是从介绍中我们不难推断:这个模型的目标是: OpenAI 9 月发布的 Orion 系列模型。
根据贾西,Amazon Nova Micro、Lite 和 Pro 现已全面上市, Amazon Nova Premier 打算在 2025 一年一季度推出。
除性能外,贾西还表示,这些模型还有其它亮点,首先,它们的成本效率非常高,与之相比, Amazon Bedrock 其它优秀的模型商品,可以便宜大概 75%。另外,它们的速度非常快,在延迟方面表现出色,是可以看到的速度较快的模型。
已上市模式不仅集成在一起 Amazon Bedrock 中,还和 Amazon Bedrock 深度整合了里面所有的功能。也就是说,开发者可以对模型进行微调,或者使用模型 Bedrock 的知识库、RAG 等待模型增强,或使用 Bedrock 蒸馏功能可以使大模型智能化「转移至」较小的模型,从而提高效率,减少延迟。
除四种生成文本模型外,贾西还预测了两种生成视觉内容的新模型。
首先是 Amazon Nova Canvas,它是最先进的图像生成模型,可根据文本或图像提醒生成专业级图像。它还提供了一些方便的功能,例如使用文本输入编辑图像,以及调整配色和布局的控制选项。该模型还内置了支持安全和负责任的模型 AI 其功能包括水印功能(可追溯图像源)和内容审核功能(限制潜在有害内容的形成)等。
人类对比评估是第三方进行的,Amazon Nova Canvas 的表现优于 OpenAI DALL-E 3 和 Stable Diffusion。下面是由 Amazon Nova Canvas 一系列照片产生:

Amazon Nova Canvas 生成

Amazon Nova Canvas 生成
然后是 Amazon Nova Reel,它是最先进的视频生成模式,可以通过文字和图像轻松创建高质量的视频,尤其适合广告、营销或培训内容创作。使用者可以通过自然语言提醒来控制视觉风格和节奏,包括镜头运动、旋转和变焦。人类对比评估是第三方进行的,Amazon Nova Reel 生成的视频质量和一致性优于 Runway 的 Gen-3 Alpha。
由 Amazon Nova Reel 产生的视频|视频来源: 亚马逊云技术
与 Canvas 类似,Nova Reel 安全和责任也是内置的 AI 包括水印和内容审核在内的功能。现在支持生成 6 第二个视频,未来几个月将扩展到最长。 2 视频生成分钟。
同时贾西也分享了 Nova 下一个计划,首先是在明年开发第二代版本的上述模型。另外,语音到语音的模型也将在第一季度推出,并在明年年中推出一个随机的模型。(any)到随意(any)模型。也就是说,多模式输入多模式导出模式,意味着用户可以输入各种形式的内容,如文本、语音、图像或视频,并相应地导出文本、语音、图像或视频。
从 Titan 到 Nova,连续两个大模型 亚马逊云技术,难免会有人担心与众多大型开发商合作。 亚马逊云技术 它的模型战略正在改变。
贾西显然意识到,他在会上自问自答地讲述了这个故事。 亚马逊云技术 的立场:
「也许你会问,如何看待亚马逊云科技模型策略?毕竟我们和很多模型提供商有着深厚的合作关系,也开发了一些模型。我想说的是,我们可以这样看:我们的目标一直是为每个人提供选择,旨在呈现最广泛、最优质的功能,这必然意味着会有多样化的选择。」

02 世界上最大的电子商务平台,采用生成式 AI 做什么?
安迪·贾西除了发布新的大模型外,还在会上阐述了亚马逊内部的内部。 AI 应用案例。
作为世界上最大的电子商务平台,亚马逊云科技也是「第一客户」,在过去的一年里,亚马逊试图引进多项业务。 AI 提高效率,解决用户面临的问题。典型情况如下:
获得高质量的零售业务推荐和智能推荐;
规划履约中心拣货员的最佳路径,然后更快地将货物送到顾客手中;
把它应用到每个人的身上 Prime Air 在无人驾驶飞机上,希望在接下来的几年里,不到一个小时就能送上门;
Amazon Go 商店的 Just Walk Out 技术、为 Alexa 提供技术支持;
提供 25 亚马逊云科技种类以上 AI 服务,方便开发者建设 AI 应用程序。
这是亚马逊看到的 AI 用例来说,安迪认为,问题的解决方案 AI 应用(「实用 AI」)实用价值有两种:降低成本,或带来新的感觉。
「从全球范围来看,那些应用程序 AI 最成功的企业主要表现在成本规避和生产力提升上,很多企业在这两个方面都取得了进步。与此同时,你也开始看到一些全新的用户体验,完全重新构思和重塑。」
在这两类 AI APP方面,安迪在亚马逊内部的典型使用场景:
AI降低了成本
1)智能客服
以客户服务为例。亚马逊的零售业务有上亿的客户。过去,当他们需要联系客户服务时,他们可以联系聊天机器人。过去,这种聊天机器人采用的静态决策树的机器学习技术,客户必须输入大量文字才能得到答案。
但生成式 AI 在重构了这一系统之后,现在客户有了一个了解他/她的客户服务机器人。
比如你几天前订购了一个产品,进入了一个新的聊天机器人界面,它知道你是谁,几天前订购了什么,住在哪里,可以通过模型预测。如果几天后联系客服,咨询退货相关问题的概率很大。当你开始向它解释原因时,它可以很快告诉你最近的情况。 Whole Foods 或其它可以退货的实体店位置。此外,这个模型非常智能。当用户感到沮丧时,他们可以推断用户可能需要联系人工客服来解决问题。
这款聊天机器人的客户满意度在重新设计之前已经相当高了,但是自从加入了生成式之后, AI 这个「智慧大脑」之后,顾客满意度提高了 500 个基点。
2)填写商家工单
亚马逊在全球零售商店大约有一家。 200 万万商家,销售的商品中超过 60% 它是由这些卖家提供的,但过去,当他们把产品放在网站上时,他们需要填写一个包含许多字段的长表,这样终端客户就可以更方便地浏览和了解商家的产品信息,这对卖家来说确实是一个复杂的任务。
现在,亚马逊使用生成式 AI 创建一个全新的工具,商家只需输入几个字,或拍照,或提供一张照片。 URL,这款工具可以帮助填写很多产品属性信息,这对于卖家来说要容易得多,现在已经超过了。 50 万万卖家正在使用这种生成式 AI 工具。
3)库存管理
在亚马逊零售业务中,库存管理也是一个很大的场景,有超越 1000 一个不同的建筑或节点,从而合理地将合适的产品分配到最终客户最近的履行中心或建筑中,从而节省运输时间,以更快、更低的成本将商品交付给您。但这意味着我们应该知道一个执行中心的库存,比如每个产品的库存水平,哪些产品正在购买,订购速度如何,这个执行中心是否有更多的存储容量,是否有必要将库存转移到其他执行中心来平衡整个存储网络。
所以,亚马逊使用 Transformer 该模型可以解决这一问题并进行预测,目前,一种长期需求预测。 Transformer 该模型提高了预测的准确性 10%,区域预测的准确性也提高了超过10%。 20%,在亚马逊数百亿美元的零售业务规模下,两位数的效率提高代表了几十亿美元的成本节约。
4)机器人
亚马逊履行中心在机器人场景上已经部署了超过一个 75 万台机器人,一系列 AI 该技术可以帮助机器人场景提高场地容量和传输能力,缩短处理时间和服务客户的成本。
以 Sparrow 举例来说,它是一种用于重新分类的机器人手臂。在许多分散的地方,它不断地收集物体,并把它们聚集在容器里。有了生成式 AI 大脑,可以告诉 Sparrow 第一个箱子里装着什么东西,要它去取哪个物品,同时, Sparrow 要区分每个物体是什么,还要清楚如何根据物体的大小、材料和材料的柔韧性来抓取物体,知道物体可以放在接收箱的哪个位置。
目前,亚马逊已经在路易斯安那州什里夫波特的履约中心推出了大约五项全新的机器人发明,看到处理时间提高了。 未来,25%的服务成本估计也将降低 25%。
创新用户体验 AI
以上都是亚马逊内部避免成本和提高生产力的案例,亚马逊也看到了生成式。 AI 贾西还列举了几个典型的例子,以创造新的消费体验。
1)Rufus 购物智能体
首先应用是,Rufus 购物智能体。
如果顾客不确定自己想要什么,正在纠结选择,可以浏览产品分类,查看顾客的反馈等等,但是现在, Rufus 购物智能体带来了「真人导购」的感受。
就像走进实体店,当你不确定自己想要什么的时候,把自己的想法描述给销售人员,他们会推荐可能适合你的产品,继续问。「这怎么样,那个怎么样?」,它们也可以很快回复你。现在,Rufus 带来类似的感觉。
借助 Rufus,您可以访问任何产品的详细信息页面,提出任何问题,Rufus 所有的答案都会很快给出。它可以帮助你比较不同的产品和类别,并给出推荐。你可以提出广泛的问题来获得推荐,它还会进一步询问一些实际问题,以便更准确地掌握你的意图。例如,你对 Rufus 说:「嘿,我想要我以前一直买的那种高尔夫球杆,你能帮我找到吗?」Rufus 可以帮你找到。你如果说:「查看那些尚未发货的商品订单信息。」这也可以帮助你找到。
Rufus 与实体销售人员相比,有一个优势,那就是他们不会跳槽去其他零售商工作,也不会转行做其他事情。他们会一直陪着你,更好地了解你的意图、兴趣和需求。
2)Alexa
亚马逊 2014 年推出的 Alexa 同时也迎来了新的大脑。
Alexa 以打造世界上最好的个人助理为目标和使命,伴随着大型语言模型和生成模式。 AI 这个目标的出现,越来越近了。Alexa 在亚马逊销售的所有设备之间, 5 亿次活跃节点,大家用它来娱乐,购物,获取信息,控制智能家居。
现在亚马逊正在使用多种基本模型。 Alexa 重构,不但可以让步 Alexa 更好地回答你的问题,也可以做一些现在很少生成的事情。 AI 应用程序所能实现的,就是理解和预测你的需求,甚至可以为你付诸行动。在接下来的几个月里,贾西剧透可以看到相关的结果。
3)Amazon Lens
在亚马逊官网上也发布了一个新功能。 Amazon Lens,假定你在朋友家看到一个非常喜欢的花盆,想知道这个花盆是从哪里买的,问问朋友,朋友也不知道。
或许你可以在搜索引擎中输入图像「亚马逊,花盆,悬挂,编织」这种关键字,或许可以得到很好的答案,但也可以一无所获。
但是现在,你可以使用它 Amazon Lens,只需拍下这个物体的照片即可。Amazon Lens 会用计算机视觉和多模态模型,根据照片搜索查询,直接引导你在亚马逊上找到相应的正确搜索结果,方便你轻松购买。
4)尺寸推荐
同时,亚马逊还建立了一个大规模推荐的大语言模型,为网上购物带来新的感觉。
比如买衬衫的时候,不确定这个品牌的尺寸是大是小,也不知道是选号还是大。这时候尺寸推荐模型可以分析很多品牌之间的尺寸关系,比较哪些品牌尺寸相近,哪些稍微大一点或者稍微小一点,然后根据你之前购买过的产品情况自动给你推荐合适的尺寸。
5)防御警报
在视频领域,贾西也介绍了亚马逊和亚马逊的所作所为。 NFL 合作的 Next Gen Stats 每个赛季都会收集项目 5 基于这些信息构建的亿次数据点 AI 这个模型,创造了一个名字「防御警报」的功能。
它可以展示哪个防守球员可能会奔向四分卫,并在画面上圈出,大大改变了观众的观看体验;它也创造了「防御脆弱性」功能性,能够向观众指出进攻方应该重点进攻的防守薄弱地区,这些都给球迷带来了不同的观看体验。
为了降低成本,带来新的感觉,这些都是亚马逊内部正在使用的。 AI 解决实际问题的场景。安迪·贾西说,它已经在亚马逊内部建造或正在建造近距离。 1000 个生成式 AI 应用程序。
本文来自微信公众号“极客公园”,作者:宛辰,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




