第一台计算机智能体体OpenAI发布。

2025-01-25

早上薅起来学论文,你能忍受吗?


在深夜,OpenAI展示了他们的第一个智能体:Operator,这不是普通的AI。它可以像人类一样操作计算机。更重要的是,它可以直接与网页互动,无论是打字、点击还是滚动,都可以一蹴而就。


01


什么是Operator,它的能力是什么?简而言之,这是OpenAI最新推出的创新AI模型,就像一个“数字助手”,可以自己操作计算机。


当我们通常使用计算机时,我们必须点击鼠标和键盘,盯着屏幕翻东西,但Operator不同。它可以自己处理这些事情,自己处理计算机界面。


OpenAI为什么要开发这样的东西?


动力有三个方面: 第一,从客户需求的角度来看,现代社会有许多重复、机械化的数字化运作任务。


以日常办公场景为例。表格填写、数据整理、信息检索等操作不仅费时费力,而且容易出错。Operator的R&D想通过AI自动化来解决这个痛点,提高工作效率。


第二,从技术发展的角度来看,目前大多数AI系统仍然局限于信息处理和问答交互的范围,缺乏实际执行能力。


Operator的创新在于突破了这一限制,实现了从认知到实施的完整闭环,这意味着AI技术向更深层次发展的重要一步。


第三,从长远发展的角度来看,Operator的研发反映了OpenAI对AI技术潜力的深入探索 ;赋予AI直接操作计算机的能力,为未来更复杂的智能应用奠定了基础,具有重要的战略意义; 所以,要做到这一点,我认为它就像一种RPA技术。



图示:


所以,它的核心能力是什么?


第一,它可以特别准确地理解你的指令。 如果你给它下命令,它可以完全理解它,并根据你的需要实现它的目标。比如你让它帮你买一双运动鞋,它可以在网上找到合适的店铺,帮你下单,挑出性价比最高的一双。


然后,我可以自己操作网页,不限于四个方面:网页浏览和信息提取、表格填写和数据输入、文档管理和文档处理、邮件收发和日程安排。


最为重要的是,它具有智能管理能力。


例如,在购买商品任务时,系统可以根据预设条件(如预算、品牌偏好等)进行智能选择和决策。).或者,如果你让它给你订机票,它可以搜索自己的航班,比较价格,最后帮你下单。你不必担心整个过程。


而且,这种智能化包括两个方面: 一是复杂的任务处理量,二是持续学习和优化能力。


以会议安排为例,Operator可以协调参与者的时间,预订会议厅,发送通知等。,从而实现整个过程的自动化处理。甚至,它可以在学习之前学习你操作和安排的任务。


02


它的使用场景是什么?报告中有七个有趣的例子。


第一,网上购物

想象一下,你正要买一双运动鞋。在此之前,你必须自己打开购物网站,搜索风格,比较价格,手动填写收件地址和支付信息。


现在,有了Operator,你只需要告诉它:“帮我买一双耐克运动鞋,预算500元左右。”它可以自动搜索和下单,甚至帮助你找到最划算的优惠券。这个过程根本不需要你去做。是不是很省心?


然后,自动填写表格、注册账户、申请贷款或填写各种复杂的在线表格。这些任务不仅繁琐,而且容易出错。但是Operator可以很容易地解决这些问题。



图示:


其次是:信息检索和整理

在工作和学习中,我们经常需要找到相关的材料。比如你在写一篇关于人工智能的论文,你需要找到最新的研究进展。在此之前,可能需要在多个网站之间来回切换,手动整理信息。


Operator可以直接帮你搜索相关内容,把关键信息整理成简单的总结,甚至帮你找到相关的学术论文链接。这样就不用把心思浪费在搜索上了。


还有日程安排

计划下周与客户召开会议,协调双方时间,预订会议厅,并发送会议通知。这些事情听起来很简单,但做起来很费时间。Operator会自动查看日程安排,找到双方都方便的时间,预订会议厅,甚至向所有参与者发送会议通知。


我认为最有用的两个是: 创意内容制作,文档管理


我想制作一个表情图,但是我不会使用复杂的图像编辑软件。只需通知Operatorator:帮助我做一个有趣的表情包,主题是“星期一的我”。


这样可以自动找到合适的图片,添加文字,甚至可以调整图片的风格,最后生成一个有趣的表情包。


在文件夹管理方面; 在此之前,您可能需要手动搜索,甚至需要逐个打开文件来查看内容。现在,Operator可以帮助快速找到所需的文档,并且可以整理文件夹并将类似的文档分类在一起。


那是它的能力,也是它的一部分。


03


在这种情况下,Operator是怎样训练出来的?


总共有四个步骤:首先让它“博学多才”,然后让它模仿(监督学习),然后让它思考(加强学习),最后通过人类反馈(事半功倍)。


第一,训练数据的来源尤为重要。


报告显示,OpenAI从两个主要渠道收集数据: 首先是公开数据集 ,这些信息为模型提供了广泛的任务场景,包括从简单的网页浏览到复杂的文档管理等操作,包括行业标准的机器学习数据和网络捕捉数据。


第二,人类培训师建立的数据集 ,这些数据显示了如何在计算机上解决各种任务,如点击按钮、填写表格、滚动页面等。通过这些信息,Operator学会了如何模拟人类的操作行为。


监督学习阶段, Operator学习基本的计算机操作能力,例如视觉感知和输入控制。


这个阶段的任务主要是让模型掌握基本的操作技能,例如点击网页上的链接,填写表格,或在文件管理器上打开文件夹。


加强学习阶段的目的是赋予模型更高级的能力,例如推理和纠正错误。 现阶段,Operator学会了根据任务需要制定执行策略,适应意外事件,并在执行任务时做出智能决策。


例如,当客户要求“帮我买一双运动鞋”时,模型会自动搜索和比较价格,选择最合适的产品。此外,Operator还学会了纠正错误;如果模型在填写表格时出现错误,它会再次尝试或提醒用户确认。


与此同时,Operator可以适应事故,例如:当网页加载缓慢或界面发生变化时,模型可以调整策略,继续完成任务。


值得注意的是,Operator的训练数据不同于GPT-4。



图示:


GPT-4的训练数据主要集中在文本理解和生成上,而Operator的训练数据更倾向于视觉和交互任务。这种差异促使Operator在处理图形界面和复杂操作时表现得更好,但纯文本任务不如GPT-4灵活。


最后,Operator可以通过人类反馈进一步优化其性能。 在实际应用中,人类训练员反馈帮助模型事半功倍,提高其在真实场景中的适应性和效率。


一般而言,思想是:先有数据,使之模仿,开始考虑,人类使用后进化。


04


除此之外,风险意识检测,伦理安全问题也是不可或缺的,报告显示,OpenAI在开发Operator的过程中,坚持把安全放在第一位。


说到底,让AI模型操作计算机,就像给它一双看不见的手, 所以OpenAI在设计和训练Operator时,采取了一系列多层次的保护措施。


我看了看,有三点:


首先,它会主动拒绝高风险的任务。 举例来说,当你要求它购买违禁品或者执行其它潜在的有害操作时,模型会直接说“不”。


根据OpenAI的内部评估,Operator对高风险任务的拒绝率高达97%,这一机制有效地防止了模型被滥用或操作不当。


第二,Operator会主动要求用户在实施高风险操作时确定。 举例来说,在发送重要邮件或者完成购买之前,它会先显示相关内容,然后询问用户是否确定继续,这种机制保证了用户对关键操作的控制,降低了模型错误带来的风险。


对于某些敏感网站(如邮箱、银行网站),它会自动进入“监控方式”;若长时间没有离开页面或操作,模型将暂停执行任务,直至客户返回并决定继续执行。


此外,他们还邀请了来自世界20个国家的红队成员,用多种语言测试Operator,以全面评估Operator的风险。



图析:


红队成员的任务,就是试图绕过模型的安全措施,例如:


虽然测试环境有限(如使用模拟网站和数据库),但红队检测仍然发现了关键漏洞,这有助于OpenAI进一步完善模型的安全性,通过提醒注入攻击或恶意指令误导模型。


这份报告还显示了Operator面临的一些挑战。


现在,它擅长处理短目标和重复操作,但是在制作幻灯片、管理日历等复杂任务方面表现不佳。


比如:


使其处理多步任务,模型可能会因界面变化或事故而失败。此外,Operator的光学字符识别在处理长DNA序列、随机字符串(如API密钥)或复杂代码时(OCR)该系统表现不佳。


由于任务超出了训练数据的范围,导致模型在识别和操作内容时容易出错。 ;而且,尽管OpenAI已经采取了多种措施来防止注射攻击和恶意指令,但是Operator在面对新的对抗攻击时仍然可能表现出脆弱。


总体而言,OpenAI对Operator的未来发展充满信心,它表示,需要在三个方面下功夫:


第一,具体真实场景;第二,更多的代码编辑和终端操作;第三,我们将继续优化安全防御性能,努力实现AGI。


目前,Operator AI Agent已经上线,但目前只针对Pro客户;需要200美元,戳心;看完这份报告,我只想说:RPA技术不是用在电脑上了吗?最近国内流行的手机订单和这个不一样吗?


但愿国内大型模型快速跟上,弯道超越它。


本文来自微信微信官方账号 “王智远”(ID:作者:王智远,36氪经授权发布,Z201440)。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com