全年ChatGPT更新大总结,重点关注“大模型方向标”进化之路

2025-01-16

2024年,OpenAIChatGPT在模型领域不断突破,推出了个性化聊天机器人店铺、增强记忆功能、多模态处理等多项创新功能。,并不断优化安全性、可靠性和高效性。让我们一起回顾一下!


2024年,大模型已深入我们的日常生活。


作为领导者,ChatGPT一直是大模型的指南针,无论是去年发布的大模型o1。-pro,Sora Turbo,或者各种小功能,比如视频模式、中断演讲等。,甚至每月高价定价200美元,OpenAI的每一次发布会都能给很多AI爱好者带来一些新的震撼和想法。



以下是OpenAI在2024年发布的关键更新,共同见证大模型的进化之路!


1月


GPT商店:用户可以发布个性化的聊天机器人。(GPTs),按类别搜索,如写作、生活方式、教育等。


守护工具(与选举有关):ChatGPT严禁OpenAI更新政策。、DALL-E等工具的用户和创作者使用他们的工具来伪造候选人或当地政府,客户不能将其用于竞选活动或游说,也不能使用这些工具来阻止投票或扭曲投票过程。


内联标记(Inline tagging):使用者可在聊天框中输入「@」触发GPT提及功能,系统将显示可用的GPT模型目录,用户可在一次对话中集成并与多个AI模型进行交互。



回复语音阅读(手机app):增加语音阅读功能回复内容,提高用户获取信息的便利性。


GPT自助投诉流程:用户可自行提交GPT投诉使用中遇到的问题。


团队计划:ChatGPT插件测试版停止服务。


2月


记忆功能(sunshine)发布:可以增强模型对过去对话的记忆,使交互更加连接,从而更好地了解用户的前后文本和需求。


发布全新的外观(Hedgehog)


反馈功能:增加用户对GPT的评论和信息反馈,方便用户对不同GPTs进行评估和建议,促进改进。


作者验证:将社会验证功能引入GPT创建者的个人数据,提高创建者的身份可信度和内容权威性。



Sora发布:可以根据简单的文字描述快速生成近一分钟的高质量视频,更好地遵循客户的指令。生成的视频有很高的真实视觉效果,包括复杂的场景、多角色互动和特定类型的运动。


深色和浅色方法:优化界面视觉效果,适应不同的使用场景和用户偏好。


GPT版本历史:方便用户了解GPT的迭代状况,追溯功能变化。


3月


自定义指令(GPT-4):在系统方面,用户可以为ChatGPT定制一些指令,包括个人背景信息和回复格式要求。


DALL·E 3 controls (style & aspect ratio), editor & inpainting:为用户提供丰富的预定义风格选择;用户可以微调指定区域的自然语言提示,如添加画面元素、删除画面元素、修改特征等。



阅读(网页端):对正在阅读的文本语言进行自动检测,然后用相应的语言朗读;提供五种不同的声音。


收入计划:根据GPTs的用量,与开发者进行划分,为开发者提供一种新的盈利方式,以鼓励建立高质量的GPT服务。


4月


没有帐号浏览:ChatGPT感觉更快,但是只能使用GPT-3.5免费版本,使用Dalll。-E 3级高级功能仍然需要帐号。


数据控制v2:在不影响聊天历史的情况下,用户可以选择是否使用自己的数据进行模型训练;在手机上增加语音数据选项,默认关闭。



统一转移到chatgpt的域名.com,统一品牌和服务入口。


GPT-4 Turbo发布:形成速度比GPT-4快两倍,前后文窗口更大,达到128ktoken,价格仅为1/3。


5月


免费用户还可以选择默认对话模型,例如转换GPT-4o-mini和GPT-4o,根据自己的需要定制对话模型,提高效率和一致性。


Connected apps:只适用于ChatGPT plus、团队和企业客户,可直接使用Google Drive和Microsoft 文件直接上传到OneDrive中 ChatGPT,方便用户对云备份中的文件进行分析和处理。


桌面应用程序已经推出给macOS系统用户。



GPT-4o发布,具有多模式能力,可以同时处理各种模式的信息,如文本、音频和视觉,在语音对话中表现出色,自然流畅,能够实时表达情绪,理解语音背后的情绪,支持50种语言,API价格更便宜,性能提升两倍,速度限制提升五倍。


重新设计了ChatGPT页面,编号Fruit Juice


使用者可以使用不同的模型来重新生成同一个prompt的答案。


不再提供给用户「Sky」声音选项,主要原因尚未公开。


使用者可根据对话的进展和需要,在同一次对话中转换模型,提高对话的灵活性和效果。


免费用户可以使用互联网访问、图像上传和分析、建立图表、高级数据分析、启用记忆功能、浏览等一些以前只有付费用户使用的工具和GPTs。 GPT 店铺等。


6月


2024年全球开发者大会苹果(WWDC)事实上,宣布与OpenAI达成合作,将ChatGPT集成到Siri中;用户的IP地址将被模糊处理,用户可以选择是否连接到ChatGPT帐户,而不会被OpenAI存储。



将面向ChatGPT之前 Plus客户推出的macOS桌面应用程序Sidekick,转换为所有用户都可以使用,可以在应用程序中截图并与GPT-4o进行讨论,帮助理解代码片段或解读复杂图表等。


7月


GPT-4o mini (Chive)与GPT-4o相比,发布的参数更少,API支持128k、输入tokens16k长度,价格比GPT-3.5 Turbo便宜60%以上,也是OpenAI首次使用全新安全设置。「指令层结构」AI模型,即要求系统优先执行预设指令,可防止恶意客户诱导模型执行非法操作。



GPT-GPT-4o和4o 在mini发布之后,GPT-在多语言支持、响应速度和处理能力方面,3.5在7月19日正式退役。


ChatGPT的新界面(Fruit Juice)默认切换到所有用户。


OpenAI发布SearchGPT原型产品,能够准确理解用户的复杂查询,提供更加相关的搜索结果,克服传统搜索引擎在处理复杂和模糊搜索时的不足;不仅可以提供相关的搜索结果,而且可以利用强大的语言生成能力直接生成详细的答案;用户可以像与人交谈一样提出后续问题;引用并链接搜索结果中的信息来源,在回复中有明确的内联归因,客户也可以从侧栏快速访问更多的来源链接。


8月


基于GPT-4o的视频和音频能力,Advanced voice(gpt-4o-s2s)能够感知和回应顾客的情绪,提供更加自然、实时的对话感受,用户可随时中断。


每天免费客户可使用DALL。・E 生成两张照片。



模型记忆的最大tokens长度增加到8k,在处理长文本和复杂对话时可以更好地保留语境信息,避免因记忆限制而导致的答案不完整或忘记上述情况。


Starter Prompts v2: 提供更新和更丰富的启动提示,更好地引导用户提出高质量的问题和要求。


Google正在宣布ChatGPT Drive和Slack开发了一个新的同步连接器,用户可以无缝地浏览文档内容,提高团队效率。


9月


OpenAI更新了ChatGPT的高级语音模式,增加了视频和共享屏幕功能,可以理解各种口音和语气,准确地转换成文本,并支持实时翻译,方便国际客户交流。


o1OpenAI发布o1-preview,专为处理需要深度推理的高复杂性任务而设计的场景,如法律分析、学术研究和复杂的决策制定;可以处理图像、音频等各种数据类型;开发者可以根据实际项目需求高度定制模型,可以适应电商产品推荐、教育培训课程设计等。



与o1-preview相比,o1-mini更经济,成本降低了80%左右,适用于计算资源有限但需要结构化推理能力的环境,在数学和编程等基本推理任务上表现出色。


增加了两个快捷指令:「/picture」可以调用DALL-E模型生成图片;「/search」可将用户输入转化为搜索查询。


10月


将高级语音功能推出到macOS和Windows桌面端,用户可设置自定义指令,定制语音风格、语速等模型。


在GPT-4o基础上推出画板功能。(gpt-4o-canmore),用户可以制图、建立思维导图、流程图等。为开发者提供可视化的代码结构工具,用户可以在画布上绘制软件架构或函数结构;思维可以直观地整理,文档结构可以被拖动,注释可以被添加,文本可以被用户提升;用户可以通过头脑风暴、组织关键点来绘制ppt。


在聊天历史中,用户可以快速查询(Fanny Pack),例如特定的内容,问题,答案等。


11月


ChatGPT网页版的付费用户可以使用先进的语音功能,可以感知客户语音在语调和语速上的细微差别;定制模型的说话方式可以设置自定义指令,如以特定的节奏说话、发音清晰、说话慢、定期添加用户名称等。



桌面应用程序Windows版(Sidetron)支持语音输入,截取屏幕,上传本地文件等。


在macoS系统中,ChatGPT桌面端支持Xcode。、VSCode、IDE,如TextEdit,以及各种编辑器的调用 ChatGPT 获取代码解释和处理错误,以及与终端等应用程序的联动。


12月


视频和屏幕共享功能被添加到高级语音模式中。ChatGPT可以看到客户的操作和展示内容,并给出更准确的回应,适用于在线会议、远程合作、在线教学等场景。


Python代码可以在画板中直接执行,为数据科学家和分析师等提供了更加方便的数据分析和处理环境。


OpenAI发布o1官方版本,速度提高50%,重大错误概率降低50%;ChatGPT需要o1-pro Pro可以使用,每月花费200美元,可以更深入地思考,提供更高质量的答案。


OpenAI显示o3模型, 在ARC-AGI基准测试中获得75.7%的高分,表现出强大的推理、编码和数学解题能力,接近人类专家,甚至在许多方面超越人类水平;o3-mini-preview的成本效率相对较高,正式版本的o3-mini计划于2025年1月底发布。



OpenAI采用多层安全测试方法,将内部评估与外部研究计划相结合,招募安全研究人员参与测试,以确保o3和o3-mini模型在发布前的安全性和可靠性,从而发现潜在的安全风险和漏洞,并及时修复。


Soraai发布OpenAI Turbo,对文字、图像和视频输入的支持,可以产生高达的分辨率 1080p、时间最长 20 第二个视频,格式可以是宽屏、坚屏或方形;支持五个创意工具,用户可以准确控制每一帧的内容,为视频添加多个分镜头,更换、删除或重构视频中的元素,使用循环编辑创建无缝重复视频。


参考资料:


https://x.com91/btibor91/status/1873391215980527840


本文来自微信微信官方账号“新智元”,作者:新智元,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com