如何敲响OpenAIAGI之门：12天12场直播，展示哪些新肌肉？

2024-12-25

人工智能巨头OpenAI在当地时间12月5日至20日完成了12个工作日的直播，从第一天的满血版o1模型重磅发布，到期待已久的Sora。 Turbo正式发布，最终以新一代推理模型o3收官，OpenAI 山姆·奥特曼CEO（Sam Altman）仍然在四场直播中出现在站台上，看起来我们离AGI很远（Artificial General Intelligence，通用人工智能)更接近一步。

根据CNBC的评论，这次直播持续12天的噱头是OpenAI将焦点转化为其技术，为其产品创造动力的一种方式。这是公司积极发展计划的一部分，因为它将与创业公司和科技巨头争夺更大份额的生成人工智能市场。然而，这项活动在许多方面受到了称赞，因为它强大的年终宣传，但有些人指责它的炒作成分超过了实质性的内容。

根据《纽约》杂志的评论，OpenAI目前正面临着内部领导的变化，与微软的资源紧张，以及关于AGI进展的争论。这项活动不仅展示了新产品和功能，而且表现出一定的防御性。

让我们一起回顾一下OpenAI敲响AGI之门的12天。

第一天(当地时间12月5日)：ChatGPT满血版o1模型 Pro

山姆·奥特曼首次直播。

正式版本o1提高了推理逻辑能力。83%的国际数学奥林匹克资格考试问题可以解决。（GPT-4o在这个测试中的分数只有13%)。

响应时间有所改善。在演示中，研究人员向o1提出了一个问题:列出公元2世纪罗马王国的执政人员，包括他们的执政时间和成就。o1花了将近18秒回答，远低于4o模型，比o1-preview的速度提高了60%左右。

解锁多模态图像识别功能。可转录字迹，测量相对大小，甚至解释如何将随机零件放入更多的机器中。

满血版o1的响应时间有所改善。

与此同时，ChatGPT也在同一天推出。 Pro订阅计划，每月200美元，对o1的使用提供无次限制。、模型权限，如高级语音模式。

大部分评论都在积极推出完整版o1，但也有客户抱怨o1仍然只是缺乏高级功能的“预览版”，部分用户对当天更新中没有免费产品表示不满。

对ChatGPT来说 Pro，一些分析人士指出，这进一步证明了大模型的“烧钱”速度，OpenAI迫切需要通过o1模型在日益激烈的AI竞争中证明自己。

第二天(当地时间12月6日)：加强学习微调（RFT，Reinforcement Fine-Tuning）

使用者可使用少量的训练数据，也可在特定领域快速构建专家级模型。

OpenAI的研究人员表示，加强微调不仅仅是教模型导出。它的运行模式是，当模型发现一个问题时，研究人员会给模型空间仔细思考这个问题，然后评估模型给出的最终答案。通过加强学习，研究人员可以加强产生正确答案的思维，抑制产生错误答案的思维。

加强o1微调-mini，top@1(目录第一位置正确答案的概率)、top@5(目录前5个位置正确答案的概率)和top@max(导出中包含正确答案的概率)在指标上，表现明显优于性能更强的o1。

o1-mini和o1性能对比加强微调。

MarkOpenAI高级副总裁Mark Chen表示，加强微调能力意味着小规模模型也可以“从高中水平跃升到专家水平”，为企业和科研机构提供了强大的工具。

第三天(当地时间12月9日)：Sora Turbo正式发布

SoraTurboopenAI发布

1080pp可以由SoraTurbo生成、视频最长20秒，支持横屏(16秒):9）、正方形（1:1）和坚屏（9:16)Remix(重混)可以制作各种常见比例的视频，：在视频中更换、删除或重构元素，Re-cut(重新切割)：在延伸、循环剪辑、混合之前找到最好的一帧：将两个视频无缝合并剪辑，故事板编辑：精确指定每一帧的输入，风格预设：预设视频风格等操作。

Re-cut功能演示Sora(000):15)

奥特曼说，最让他兴奋的是和别人一起创作的便利，感觉像是一个有趣的新事物。你可以把Sora作为GPT-1的视频版本。

视频(000)由Sora产生:10)

根据网友的实际反馈，如果对物理规律的理解不够好，还是会出现手不自然、文字乱码、动物跑着飞的情况。

还有外媒指出，Sora发布未能达到最初的预期，尽管OpenAI试图推出更快、更实惠的版本，但最终产品缺乏预期的高级功能。与ChatGPT的初始阶段相比，Sora目前更像是一个视频编辑软件，而不是一个突破性的AI。

美联社指出，Sora等文化视频AI工具在制作新的娱乐和营销视频时被称为降低成本的方式，但也引起了人们对其在政治和其他领域是否容易造假真人的担忧。OpenAI发布Sora限制了对人物的描述，避免了假冒和深度伪造等滥用。

第4天(当地时间12月10日)：升级Canvas

今年十月，Canvas是OpenAI推出的一个全新功能，OpenAI将其定义为OpenAI。 “使用 ChatGPT 全新的编写和编码工作模式。

Canvas打开了独立的窗口，用户与ChatGPT合作，不仅仅是通过对话，而是共同创造和优化自己的想法。

能合作编辑文档，修改标题，添加表情符号，调整文本长度等。

Canvas还支持Python代码的运行和调试，可以直接查看文本和图形导出，并且ChatGPT可以帮助调整和提供修改建议，用户可以快速迭代代码。

Canvas界面

外媒对Canvas给予了积极的评价，认为AI工具在人机交互领域的又一进步有效提升了用户与AI在写作和编码方面的合作体验。

第五天(当地时间12月11日)：在苹果系统中，ChatGPT正式集成

正式接入苹果系统的ChatGPT

用户可以通过Siri浏览ChatGPT功能，并支持语音控制设备，ChatGPT正式集成到苹果系统中。

当Siri判断ChatGPT能够更好地满足用户的需求时，它会自动将请求转发给OpenAI系统。为了保护隐私，用户需要在操作前启用该功能。

将ChatGPT能力引入苹果的智能写作工具。用户不仅可以提高、总结文档、提取重要信息，而且可以从零开始创建全新的文档，甚至结合DALL-E图像生成技术，将照片融入到写作过程中。

用户还可以触摸苹果的“相机控制”按钮，完成视觉智能相关任务，如快速识别眼前的物体，或者深入了解所看到的内容，进行翻译和总结。

美联社指出，此次发布正处于圣诞假期购物旺季，也是公司一年中销售利润最丰厚的阶段，可能会对苹果产品的销售产生影响。目前苹果智能功能推出缓慢，也引发了部分投资者对iPhone的关注。 16销售周期强度焦虑。

第6天(当地时间12月12日)：提高ChatGPT高级语音模式

GPT-进一步加强了4o多模态能力

GPT-提高多模态能力，推出实时监控理解功能，还推出限时圣诞老人语音模式。

用户可以直接输入音频、理解和导出音频，向ChatGPT展示手机图片或短信，这将帮助用户解读和分析这些内容，并回复信息和工作。

第7天(当地时间12月13日)：发布Projects功能

Project界面

Project(项目)支持用户将文件、聊天记录等信息集中到一个“Project与OpenAI竞争对手Anthropic此前推出的Claude新功能相似。

可以进行文件上传、个性化指令设置等操作，也支持在项目中添加过往聊天记录，定制ChatGPT对话。在创建新对话时，您还可以自动搜索项目中的其他信息，并给出更准确的答案。此外，它还支持Canvas界面，可以通过ChatGPT Search很容易访问因特网。

第八天(当地时间12月16日)：ChatGPT 开启Search

ChatGPT Search正式向所有用户开放，提高了搜索速度和准确性，增加了语音搜索功能和地图集成，并在全球范围内同步上线，从而提高了获取实时信息的感觉。

ChatGPT可以选择以更自然、更会话的方式回复问题。如果你深入提问，ChatGPT会考虑你所有的聊天前后，提供更好的答案。

ChatGPT 演示Search对话

VoxMedia总裁评论说，新媒体集团，ChatGPT Search有望在扩大提供专业新闻的出版商影响力的同时，更好地突出值得信赖的新闻来源的信息并进行归属。

第九天(当地时间12月17日)：o1 官方版本的API

OpenAI称o1 API是一种功能更强大的模型，一种新型定制工具，可以提高性能、灵活性和成本效率。

支持函数调用、结构化输出和视觉功能；Realtimeetime更新支持低延迟自然对话体验； API，可以进行相应的WebRTC集成，GPT-4o音频的定价下降了60%，GPT-4o 音频费率降至1/100。；支持微调偏好，可以根据用户和开发者的喜好更容易定制模型；与此同时，还推出了新的Go和Java 测试版SDK。

Realtime API界面

OpenAI将这一天的发布命名为“为开发者准备的节日礼物”。

第10天(当地时间12月18日)：推出ChatGPT热线

只需拨打免费号码即可免费使用ChatGPT15分钟。

发布1-800-CHAT-GPT服务，支持WhatsApp即时通讯，OpenAI将采用热线提供15分钟的免费ChatGPT使用时间，只需拨打免费号码即可。

官凯文·韦尔OpenAI首席产品官凯文（Kevin Weil）表示：“我们刚刚开始让大家更方便地使用它。 ChatGPT。”

一些外国媒体在尝试了这项服务后报道称，AI语音非常逼真，但是通话时间限制在每月15分钟，而且可能存在隐私安全问题。

第11天(当地时间12月19日)：新增跨应用浏览功能ChatGPT桌面版

支持跨应用浏览的ChatGPT桌面版

ChatGPT桌面版可以在其他应用程序中读取数据，实现实时合作。增加了对编程环境和生产力工具的支持，可以与之合作。 Apple 无缝对接，如Notes，并且支持在使用桌面应用程序时打开高级语音模式(这个功能需要用户手动打开每个应用程序)。

第12天(当地时间12月20日)：o3模型发布

12天12场OpenAI直播收官发布推理模型o3系列

发布最新推理模型o3和o3。-mini，大大提高了推理能力，支持多模式推理。

据报道，SWE在编码检测中-Bench 在Verified中，o3的性能比o1高22.8%；得分为2727分的Codeforces竞技编程，相当于排名第175位的人类选手，首席科学家(2655分)甚至超过了OpenAI；AIME进行数学竞赛 GPQA2024及专家级科学问题基准测试在Diamond中，成绩有了明显的提高；但是在FrontierMath中，o3解决了25.2%的问题，这使得许多AI和数学家束手无策，而其他模型都没有超过2%。

OpenAI还强调，正在使用一种新技术“谨慎对齐”（deliberative alignment），为了使o3等模型符合其安全原则。

对o3不同计算模式的测试结果，弗朗索瓦·肖莱

ARC-AGI(通用人工智能抽象和推理词库)发起者，Keras鼻祖弗朗索瓦·肖莱莱索瓦(用Python编写的高级神经网络API)（Francois Chollet）感觉，虽然o3给人留下了深刻的印象，是迈向AGI的重要里程碑，但是AGI并不方便，仍然有相当多特别简单的ARC。-AGI-第一个任务是o3无法解决的，而且有迹象表明ARC-AGI-对于o3来说，还是很有挑战性的。“这表明，在不涉及专业知识的情况下，建立不饱和有趣的标准对人类来说容易但对人工智能来说不可能仍然是合理的。在完全不可能建立这种测试的情况下，我们将拥有AGI。

根据美联社的评价，o3的发布表明，OpenAI和谷歌等竞争对手之间的竞争越来越激烈，双方都在努力创造一个更智能的模型来解决复杂的问题。12月初，谷歌发布了第二代人工智能模型Gemini，旨在在人工智能技术竞赛中夺回领先水平。

另外，在OpenAI发布o3之后，华尔街日报发表了一篇名为《OpenAI》的文章。 "人工智能下一次重大飞跃落后于时间表，而且价格昂贵得令人发指。文章指出，OpenAI的代号是OpenAI。 “猎户座 "新型人工智能项目遇到了许多问题，项目进展落后，而且耗资巨大。文章还指出了对“数据瓶颈”的焦虑:“目前还不清楚什么时候会成功，世界上可能没有足够的数据让它变得足够聪明”。

另一方面，奥特曼转发了这篇文章来表达不满。

第13天彩蛋(当地时间12月22日)：SoraPlus客户无限期使用(圣诞假期)

奥特曼宣布，12月下旬，随着圣诞假期的到来，OpenAI的计算率将不会紧张，因此它将为所有Plus客户提供无限的Sora访问限制。