作为一个应用程序已经成为一个共识，大模型公司提出了更多的弹药

2024-12-18

在过去的一周里，就像预演了一波来年AI应用领域的残酷竞争。

OpenAI持续了12个工作日的直播，完整版本的o1，长期跳票的Sora和GPT-4o的高级语音模式，最新的ChatGPTProjects功能相继上线，其中还夹杂着一些关于AGI的符号植入，仿佛在暗示这个新马拉松产品发布的重点戏剧将与AGI息息相关。

Google也选择在本周发布自己的最新大模型Geminini。 2.0不仅可以输入和输出多模式的内容，还可以支持使用谷歌搜索、代码执行等工具。智能体Project同时发布。 Mariner，Google已经完成了以前试图在浏览器中替代客户执行任务的功能。

另外，阶跃星辰发布了Step-1o 千亿参数端到端语音模型，支持语音、文本等混合输入输出，能实现语音理解与产生的融合。Midjourney推出了Patchwork，帮助用户构建更清晰的故事，并支持与他人合作。每个人也可以每月支付500美元，雇佣Devin完成从网站到应用程序的构建和部署。

与去年这个时候各大模型厂商重点竞争参数和基本性能相比，今年厂商们迫切希望客户使用大模型。

ChatGPT在iPhone上

本轮发布的三个重点方向是多模态能力、操作面板和代理执行。在这三个方向上，OpenAI和Google都在推销自己的技术能力，同时，国内豆包，智谱，Kimi、同时，通义等大型模型也在朝着这些方向努力。

大型模型转变为应用程序背后，技术路线也在调整。前OpenAI创始人Ilyaa 本周，Sutskever在神经数据分析系统大会上（NeurIPS）在此基础上，尽管股票数据仍然可以进一步促进人工智能的发展，但是网络上的数据和石油一样有限，行业正在放弃使用新数据进行大模型预训练，这将迫使人们改变今天大模型训练的方式。

Google在那里Gemini 2.0发布会上披露的信息显示，他们正在尝试两条腿走在模型技术的发展上:一方面，他们将继续扩大模型规模，提高基本性能；另一方面，加强后期培训优化和推理技术改进，特别注重多模态能力的提升，希望AI能更好地理解和处理各种信息。

如果一时难以大规模生成知识或事实数据，「推理—应用」闭环可以为基于应用数据的大模型能力进化提供一个稳定的训练环境，并继续提高技能。当然，这需要大模型能力渗透到更多的应用场景中，被更大的客户更频繁地使用。

OpenAI正在为AI应用的普及提供更多的弹药。

多模式带来更加拟人化的硬件。

多模态是OpenAI和Google发布内容的重要组成部分。即使没有从AGI的角度去理解，一种具有看、听、说等多种感知能力的大型模型，也可以被视为具有更贴近人类自然交互习惯的能力。，正如人形机器人被称为能最大限度地适应人类社会的工作环境一样。

在引入OpenAI多模式处理能力的同时，OpenAI终于发布了GPT-4o的高级语音模式。在这种模式下，更加流畅自然的人机交互已经成为现实。在高级语音模式下，四名OpenAI工作人员与AI进行了流畅的交谈。AI可以通过摄像头识别谁戴圣诞帽，同时，AI可以识别谁戴圣诞帽。「看」，同时指导其中一名员工制作手冲咖啡。

制作手冲咖啡的ChatGPT指导

Gemininiini发布的Google 它的智能体Project也增强了2.0 多模态交互能力的Astra。Google在今年5月举行的I/O大会上推出了Projectt。 Astra，能借助手机镜头观察了解现实环境，回答客户的相关问题。这次升级之后，Project Astra可以在多种语言之间进行自然对话，并且具有图形记忆和对话记忆的能力。

其中，图形记忆可以让它记住近10分钟内看到的图像，而对话记忆可以存储和调用60段历史对话。在一次演示中，一名谷歌员工要求Projectt Astra看到了一辆公共汽车，并问它是否可以把它带到唐人街周围。然而，也有展示Projectt。 Astra理解不同口音和生僻字的能力。

当我们看到这些能力演示时，我们一定会想到，如果智能眼镜上有这种能力，会不会带来更好的体验？

假设多模态大模型最终指向一个类人、无处不在的精明助手，那么AI硬件一定是其核心媒介。大型多模态能力的提高，有可能使具有看、听、说能力的智能眼镜站在更大的风口。

作为AI硬件的主要类别，我们已经看到了中国许多智能眼镜产品的诞生，包括百度推出的小型AI眼镜，Rokid和BOLON推出了Rokid。 glasses，Meta，李未可 Lens Chat，蜂窝技术界环AI音频眼镜，以及字节、小米、华为等大型厂商，他们认为可以做智能眼镜。

尽管对OpenAI的想法并不清楚，但是从Ray来看，-Ban 在Google的一些声明中，Meta已经配备了AI能力，可以看到大模型和AI硬件更深层次融合的时间点正在到来。Google的工作人员说，「一小部分人将采用原形眼镜检测 Project Astra，我认为这是一种感觉。 AI 一种最强大、最直观的方法。」

在中国，大模型和硬件的结合已经成为一门显学。上周，致力于终端AI发展的面壁智能完成了数亿元的新一轮融资，其首席执行官李大海在内部信中表示:「因为端侧智能发展的深刻影响，主流消费电子和新兴硬件正在转变为超级智能体，在不同的场景中执行特定的任务。，成为新一轮科技创业的大风口。」

提高催化智能体的执行技能

实施能力的提高是这波大型商品技能提升的另一个方向。大型模型向应用方向扩展，必须具备开放不同场景、终端和应用的执行能力。而且智能体是目前公认的理想媒介，可以实现这种开放。

在本周的大型产品发布中，我们可以清楚地感觉到OpenAI和Google正在为智能体生态创造更多的建设工具。

OpenAI在那里GPT-在4o的高级语音模式中，显示了一种屏幕共享能力。ChatGPT打开屏幕共享后，可以浏览客户短信，并给出回复建议。难以让人想起AutoGLM和computer，Anthropic推出的AutoGLM和computer use能力。观看和理解屏幕显示的内容，是大型模型学习App操作的基础。

浏览短信，ChatGPT

又是在上周，ChatGPT正式进入苹果系统。苹果用户已经可以在iPhone上使用特定的英文区域。、直接体验ChatGPT在iPad和MAC上的功能。当Siri认为客户提出的问题更适合ChatGPT来回答时，系统会要求用户同意浏览OpenAI服务。在未来，OpenAI不会和Apple一起工作。 Intelligence进行更深层次的组合。

Google直接将Gemininile 2.0被定义为面向智能体时代的AI模型。，它的多模态能力和调用工具的能力可以支持构建AI智能体。在谷歌展示的一些智能体中，有些可以根据屏幕上的图片实时分析游戏情况，并给用户提供操作建议，有些可以进行深入的研究和论文写作。

Project Mariner也是基于Geminini 实现2.0的能力。在此之前，大家都传播了AutoGLM和computer。类似use的产品。通过Google的介绍，该产品可以了解网页上的复杂信息，并调用Chrome浏览器的扩展程序，帮助用户完成复杂的任务。和AutoGLM和computer 就像use一样，这个产品也可以帮助顾客进行输入、点击等操作。

除了OpenAI和Google之外，亚马逊本周还宣布建立自己的Amazon。 AGI SF Lab。据报道，AI初创公司Adept创始人Davidid是这个实验室。领导Luan，其核心目标指的是在数字和物理世界中创造能力。「付诸行动」AI智能体，并且可以处理跨越计算机、网页浏览器和代码编译器的复杂工作流程。

显然，对于大型制造商来说，未来一年的大型产品将在标准多模式能力的基础上，拥有更多可以影响物理世界的执行力。一方面，这些执行力的推出将继续推广手机。PC、另一方面，汽车等传统硬件领域的AI化探索，同时也有可能让广大厂商和开发商找到新的思路，对原有商品的感受进行局部改造和优化探索。

AI原生操作面板正在诞生

本周大型产品发布的第三个变化是，AI的原始操作面板正在出现。特别是在OpenAI发布中，Sora和Canvas两天的发布给人印象最深的是对AI原始操作面板的探索。肯定会有人从中得到启发，去思考应该用什么样的操作面板来实现原来感觉的AI化。

这将是未来探索的方向。就像智能手机出现后，游戏厂商如何探索更适合触摸屏交互的操作面板一样，在模型越来越深入地介入应用领域后，需要围绕自然语言构建的操作面板。目前，我们可以看到，在生成视频时，选择参数值，而不是面向未来的操作面板。

对话窗口可能是一种形式，但不足以支持多种信息形式。因此，OpenAI将推出Canvas作为对话窗口的补充。事实上，Canvas提供了一个人与AI的交流。「桌面」，每个人在聊天的时候，都可以把手头的文字、视频、数据放在桌面上，一起观看和处理。

Canvas界面

11月OpenAI推出的ChatGPT桌面应用程序可以在MAC上与第三方应用程序合作，并将第三方应用程序中的内容引入到用户与ChatGPT的对话中。使用这一功能的科技博主可以使ChatGPT「看」在Terminal中打开字幕文件，并生成一个指令，可以将其转换为纯文本文档。

这种合作，形象地说，就是在桌面上放置Terminal等软件中的数据和信息，让AI也能看到。然后AI可以根据自己看到的200行信息，更准确地理解用户在对话中表达的意图。当然，Canvas的预览功能，更是对这一桌面能力的补充，相当于把一张木质桌面，变成了一个智能显示屏。

第七天OpenAI发布的Projects功能是一个为桌面设计的文件柜，可以集中同一项目的聊天记录、文件或定制指令，实现更加精细的数据管理。Projects使用户更容易在ChatGPT上建立自己的控制台。甚至，这款Projects将来可以整合更多的人和智能体，成为一个合作空间。

Storyboard

类似地，尽管大家对Sora的视频生成能力褒贬不一，但是对Sora展示的AI视频操作面板给予了较高的评价。Sora不仅提供了一些模板化的工具插件，比如Remix工具，可以更换视频元素，可以扩展最佳帧的Re-cut工具，可以生成重复视频的Loop工具；Storyboard，一个有时间线的视频编辑工具。

在接下来的一年里，我们应该能够看到更多类似AI原生操作面板的尝试。从AI生成能力到AI创作能力，这是一种必然的延伸。。从更多的角度来看，大模型已经到了让更多的场景、行业和人们感知和使用的阶段。只有这样，我们才能保持对大模型的信心，让大模型发挥应有的价值，抵消一些质疑的声音。

本文来自微信微信官方账号“窄播”，作者：李威，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

汤姆猫：AI 本月底之前，语音陪伴机器人将正式发售

CES将使用LG AI智能座舱2025发布：可以实时测量心率，翻译外语路牌

ChatGPT搜索与Her开放，搜索免费开放，甚至连剧透明日直播主题都没有。

国外媒体爆料：特朗普团队准备进行全面改革，取消对电动汽车的支持

曝光32岁内马尔明夏加盟迈阿密，与梅西牵手。沙特被戏弄：2年白送3亿

项目推荐

迪瓜租机

康老板 · 氧疗堂