全年ChatGPT更新大总结，重点关注“大模型方向标”进化之路

2025-01-16

2024年，OpenAIChatGPT在模型领域不断突破，推出了个性化聊天机器人店铺、增强记忆功能、多模态处理等多项创新功能。，并不断优化安全性、可靠性和高效性。让我们一起回顾一下！

2024年，大模型已深入我们的日常生活。

作为领导者，ChatGPT一直是大模型的指南针，无论是去年发布的大模型o1。-pro，Sora Turbo，或者各种小功能，比如视频模式、中断演讲等。，甚至每月高价定价200美元，OpenAI的每一次发布会都能给很多AI爱好者带来一些新的震撼和想法。

以下是OpenAI在2024年发布的关键更新，共同见证大模型的进化之路！

1月

GPT商店：用户可以发布个性化的聊天机器人。（GPTs），按类别搜索，如写作、生活方式、教育等。

守护工具(与选举有关)：ChatGPT严禁OpenAI更新政策。、DALL-E等工具的用户和创作者使用他们的工具来伪造候选人或当地政府，客户不能将其用于竞选活动或游说，也不能使用这些工具来阻止投票或扭曲投票过程。

内联标记（Inline tagging）：使用者可在聊天框中输入「@」触发GPT提及功能，系统将显示可用的GPT模型目录，用户可在一次对话中集成并与多个AI模型进行交互。

回复语音阅读(手机app)：增加语音阅读功能回复内容，提高用户获取信息的便利性。

GPT自助投诉流程：用户可自行提交GPT投诉使用中遇到的问题。

团队计划：ChatGPT插件测试版停止服务。

2月

记忆功能（sunshine）发布：可以增强模型对过去对话的记忆，使交互更加连接，从而更好地了解用户的前后文本和需求。

发布全新的外观（Hedgehog）

反馈功能：增加用户对GPT的评论和信息反馈，方便用户对不同GPTs进行评估和建议，促进改进。

作者验证：将社会验证功能引入GPT创建者的个人数据，提高创建者的身份可信度和内容权威性。

Sora发布:可以根据简单的文字描述快速生成近一分钟的高质量视频，更好地遵循客户的指令。生成的视频有很高的真实视觉效果，包括复杂的场景、多角色互动和特定类型的运动。

深色和浅色方法：优化界面视觉效果，适应不同的使用场景和用户偏好。

GPT版本历史：方便用户了解GPT的迭代状况，追溯功能变化。

3月

自定义指令（GPT-4）：在系统方面，用户可以为ChatGPT定制一些指令，包括个人背景信息和回复格式要求。

DALL·E 3 controls (style & aspect ratio), editor & inpainting：为用户提供丰富的预定义风格选择；用户可以微调指定区域的自然语言提示，如添加画面元素、删除画面元素、修改特征等。

阅读(网页端)：对正在阅读的文本语言进行自动检测，然后用相应的语言朗读；提供五种不同的声音。

收入计划：根据GPTs的用量，与开发者进行划分，为开发者提供一种新的盈利方式，以鼓励建立高质量的GPT服务。

4月

没有帐号浏览：ChatGPT感觉更快，但是只能使用GPT-3.5免费版本，使用Dalll。-E 3级高级功能仍然需要帐号。

数据控制v2：在不影响聊天历史的情况下，用户可以选择是否使用自己的数据进行模型训练；在手机上增加语音数据选项，默认关闭。

统一转移到chatgpt的域名.com，统一品牌和服务入口。

GPT-4 Turbo发布：形成速度比GPT-4快两倍，前后文窗口更大，达到128ktoken，价格仅为1/3。

5月

免费用户还可以选择默认对话模型，例如转换GPT-4o-mini和GPT-4o，根据自己的需要定制对话模型，提高效率和一致性。

Connected apps：只适用于ChatGPT plus、团队和企业客户，可直接使用Google Drive和Microsoft 文件直接上传到OneDrive中 ChatGPT，方便用户对云备份中的文件进行分析和处理。

桌面应用程序已经推出给macOS系统用户。

GPT-4o发布，具有多模式能力，可以同时处理各种模式的信息，如文本、音频和视觉，在语音对话中表现出色，自然流畅，能够实时表达情绪，理解语音背后的情绪，支持50种语言，API价格更便宜，性能提升两倍，速度限制提升五倍。

重新设计了ChatGPT页面，编号Fruit Juice

使用者可以使用不同的模型来重新生成同一个prompt的答案。

不再提供给用户「Sky」声音选项，主要原因尚未公开。

使用者可根据对话的进展和需要，在同一次对话中转换模型，提高对话的灵活性和效果。

免费用户可以使用互联网访问、图像上传和分析、建立图表、高级数据分析、启用记忆功能、浏览等一些以前只有付费用户使用的工具和GPTs。 GPT 店铺等。

6月

2024年全球开发者大会苹果（WWDC）事实上，宣布与OpenAI达成合作，将ChatGPT集成到Siri中；用户的IP地址将被模糊处理，用户可以选择是否连接到ChatGPT帐户，而不会被OpenAI存储。

将面向ChatGPT之前 Plus客户推出的macOS桌面应用程序Sidekick，转换为所有用户都可以使用，可以在应用程序中截图并与GPT-4o进行讨论，帮助理解代码片段或解读复杂图表等。

7月

GPT-4o mini (Chive)与GPT-4o相比，发布的参数更少，API支持128k、输入tokens16k长度，价格比GPT-3.5 Turbo便宜60%以上，也是OpenAI首次使用全新安全设置。「指令层结构」AI模型，即要求系统优先执行预设指令，可防止恶意客户诱导模型执行非法操作。

GPT-GPT-4o和4o 在mini发布之后，GPT-在多语言支持、响应速度和处理能力方面，3.5在7月19日正式退役。

ChatGPT的新界面（Fruit Juice）默认切换到所有用户。

OpenAI发布SearchGPT原型产品，能够准确理解用户的复杂查询，提供更加相关的搜索结果，克服传统搜索引擎在处理复杂和模糊搜索时的不足；不仅可以提供相关的搜索结果，而且可以利用强大的语言生成能力直接生成详细的答案；用户可以像与人交谈一样提出后续问题；引用并链接搜索结果中的信息来源，在回复中有明确的内联归因，客户也可以从侧栏快速访问更多的来源链接。

8月

基于GPT-4o的视频和音频能力，Advanced voice(gpt-4o-s2s)能够感知和回应顾客的情绪，提供更加自然、实时的对话感受，用户可随时中断。

每天免费客户可使用DALL。・E 生成两张照片。

模型记忆的最大tokens长度增加到8k，在处理长文本和复杂对话时可以更好地保留语境信息，避免因记忆限制而导致的答案不完整或忘记上述情况。

Starter Prompts v2: 提供更新和更丰富的启动提示，更好地引导用户提出高质量的问题和要求。

Google正在宣布ChatGPT Drive和Slack开发了一个新的同步连接器，用户可以无缝地浏览文档内容，提高团队效率。

9月

OpenAI更新了ChatGPT的高级语音模式，增加了视频和共享屏幕功能，可以理解各种口音和语气，准确地转换成文本，并支持实时翻译，方便国际客户交流。

o1OpenAI发布o1-preview，专为处理需要深度推理的高复杂性任务而设计的场景，如法律分析、学术研究和复杂的决策制定；可以处理图像、音频等各种数据类型；开发者可以根据实际项目需求高度定制模型，可以适应电商产品推荐、教育培训课程设计等。

与o1-preview相比，o1-mini更经济，成本降低了80%左右，适用于计算资源有限但需要结构化推理能力的环境，在数学和编程等基本推理任务上表现出色。

增加了两个快捷指令：「/picture」可以调用DALL-E模型生成图片；「/search」可将用户输入转化为搜索查询。

10月

将高级语音功能推出到macOS和Windows桌面端，用户可设置自定义指令，定制语音风格、语速等模型。

在GPT-4o基础上推出画板功能。（gpt-4o-canmore），用户可以制图、建立思维导图、流程图等。为开发者提供可视化的代码结构工具，用户可以在画布上绘制软件架构或函数结构；思维可以直观地整理，文档结构可以被拖动，注释可以被添加，文本可以被用户提升；用户可以通过头脑风暴、组织关键点来绘制ppt。

在聊天历史中，用户可以快速查询（Fanny Pack），例如特定的内容，问题，答案等。

11月

ChatGPT网页版的付费用户可以使用先进的语音功能，可以感知客户语音在语调和语速上的细微差别；定制模型的说话方式可以设置自定义指令，如以特定的节奏说话、发音清晰、说话慢、定期添加用户名称等。

桌面应用程序Windows版（Sidetron）支持语音输入，截取屏幕，上传本地文件等。

在macoS系统中，ChatGPT桌面端支持Xcode。、VSCode、IDE，如TextEdit，以及各种编辑器的调用 ChatGPT 获取代码解释和处理错误，以及与终端等应用程序的联动。

12月

视频和屏幕共享功能被添加到高级语音模式中。ChatGPT可以看到客户的操作和展示内容，并给出更准确的回应，适用于在线会议、远程合作、在线教学等场景。

Python代码可以在画板中直接执行，为数据科学家和分析师等提供了更加方便的数据分析和处理环境。

OpenAI发布o1官方版本，速度提高50%，重大错误概率降低50%；ChatGPT需要o1-pro Pro可以使用，每月花费200美元，可以更深入地思考，提供更高质量的答案。

OpenAI显示o3模型，在ARC-AGI基准测试中获得75.7%的高分，表现出强大的推理、编码和数学解题能力，接近人类专家，甚至在许多方面超越人类水平；o3-mini-preview的成本效率相对较高，正式版本的o3-mini计划于2025年1月底发布。

OpenAI采用多层安全测试方法，将内部评估与外部研究计划相结合，招募安全研究人员参与测试，以确保o3和o3-mini模型在发布前的安全性和可靠性，从而发现潜在的安全风险和漏洞，并及时修复。

Soraai发布OpenAI Turbo，对文字、图像和视频输入的支持，可以产生高达的分辨率 1080p、时间最长 20 第二个视频，格式可以是宽屏、坚屏或方形；支持五个创意工具，用户可以准确控制每一帧的内容，为视频添加多个分镜头，更换、删除或重构视频中的元素，使用循环编辑创建无缝重复视频。

参考资料：

https://x.com91/btibor91/status/1873391215980527840

本文来自微信微信官方账号“新智元”，作者：新智元，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

各有所求的抖音和高德，选择了抱团发展。

移动应用2024年：谁还在成长？谁还能赚钱？

字节跳动与科大讯飞：AB面大模型之战

这种新模式，真能拯救楼市。

小米车主不能拖着SU7的后腿。

项目推荐

AI云印侠

幸福绩效

企业数字化人才孵化系统