导读
OpenAI最新发布了研究预览版的代理工具,命名为Operator,它能像人类一样自如地浏览网页并执行多种在线任务。这一工具的推出,标志着AI从被动的辅助工具转变为积极的参与者,预示着数字生活方式将变得更加智能、便捷。目前,Operator仍处于研究预览阶段,且仅对美国地区的Pro用户开放。

OpenAI官方介绍:
Operator是我们的首批智能体之一。这些AI能够独立为你完成工作——只需给它一个任务,它就会执行。
文字编辑| 宋雨涵
1
OpenAI让AI学会“用电脑”了?
Operator:AI界的“电脑高手”
在人工智能领域,OpenAI再次迈出了重要的一步。其最新推出的AI助手Operator,不仅标志着AI技术的一次重大飞跃,更被视为迈向通用人工智能(AGI)的重要里程碑。作为OpenAI首款真正模拟人类操作网页浏览器的AI助手,Operator的出现彻底改变了我们对AI能力的认知。
Operator的最大亮点在于其能够像人类一样自如地操作网页浏览器,执行各种复杂的在线任务。无论是预订旅行住宿、餐厅预约,还是在线购物,Operator都能轻松应对。用户只需在多个类别中选择所需的自动化任务,Operator便能自动完成整个流程,从搜索、比较到下单,一气呵成。这种能力不仅极大地提高了效率,更让AI在数字生活中扮演了更加主动和智能的角色。
应用场景广泛:覆盖多个生活领域
Operator的应用场景非常广泛,涵盖了购物、配送、餐饮和旅行等多个生活领域。用户可以根据自己的需求,选择相应的自动化任务,让Operator代为完成。例如,在旅行领域,Operator可以帮助用户搜索并预订酒店、机票,甚至规划整个行程;在购物领域,Operator则能够自动比较不同商品的价格和质量,帮助用户做出最优选择。
技术突破:从被动到主动
Operator的推出,是AI技术从被动工具向主动参与者转变的重要体现。传统上,AI往往作为辅助工具存在,需要人类提供明确的指令才能完成任务。而Operator则能够主动分析用户需求,模拟人类操作,实现真正的智能化服务。这种转变不仅提高了AI的实用性和便捷性,更为未来AGI的发展奠定了坚实的基础。
虽然Operator目前还只能执行特定的在线任务,但其背后的技术原理和实现方式却为AGI的发展提供了宝贵的经验。AGI作为人工智能的最终目标,旨在让机器具备像人类一样的智能和学习能力,能够处理各种复杂的问题和任务。而Operator的出现,则展示了AI在模拟人类行为和思维方面的巨大潜力,为AGI的实现提供了重要的参考和借鉴。
2
Operator的工作原理
计算机使用代理 (Computer-Using Agent, CUA)
Operator的底层使用了一个全新的模型Computer-Using-Agent(CUA)。
通过将GPT-4o的视觉能力和高级推理强化学习相结合,CUA可以进行GUI交互。Operator可以看到网页界面的内容,使用鼠标、键盘允许的所有操作。由此它可以自动操作,而无需自定义的API集成。
如果遇到问题或者出现错误,Operator可以利用推理能力自我纠错。并在它卡住需要帮助时,将控制权交还给用户。CUA在WebArena和WebVoyager两个基准测试中都取得了SOTA。
与以往需要定制API集成的AI工具不同,Operator直接利用用户每天使用的网页界面,无需复杂的后台对接,极大地扩展了AI的应用场景。它能够处理各种重复性的浏览器任务,例如填写表格、订购食品杂货,甚至制作表情包。
3
OpenAI的未来计划
一、通过API使用CUA:揭示驱动Operator的模型
OpenAI表示,很快就会通过API揭示驱动Operator的模型,即计算机使用代理(CUA)。这一举措将为开发者提供一个强大的工具,使他们能够利用Operator的功能来构建自己的computer use智能体。CUA结合了OpenAI的GPT-4o模型的视觉功能与更高级模型的推理能力,使其能够在无需使用面向开发人员的API的情况下,与网站的前端进行交互。这意味着开发者可以利用CUA来开发各种自动化任务,如在线购物、预订旅行等,从而极大地提高工作效率。
二、增强功能:提高处理更长、更复杂工作流程的能力
除了通过API揭示模型外,OpenAI还计划继续提高Operator处理更长、更复杂工作流程的能力。Operator的核心功能包括自动化任务执行和自我学习能力,这使得它能够理解用户指令,并根据实时数据反馈调整工作策略。随着技术的不断进步,Operator将能够处理更加复杂和多步骤的任务,如编写报告、编辑文档、编程等。这将为用户带来更加智能化、个性化的服务体验。
三、让更多人可用:扩展到Plus、Team和Enterprise用户
OpenAI还计划将Operator扩展到Plus、Team和Enterprise用户。目前,Operator已通过ChatGPT的200美元Pro订阅计划向美国用户推出。未来,随着技术的不断成熟和市场的不断扩大,OpenAI将逐步将Operator推广给更多层级的用户。这将使得更多企业和个人能够享受到Operator带来的便捷和高效。
四、集成到ChatGPT中:实现无缝的实时和异步任务执行
OpenAI还表示,一旦在安全性与大规模可用性方面建立信心后,就会将Operator的功能直接集成到ChatGPT中。这一举措将实现无缝的实时和异步任务执行,使得用户能够在与ChatGPT进行对话的同时,直接通过Operator完成各种任务。这将极大地提升用户体验和工作效率,使得ChatGPT成为一个更加全面、智能的助手。
结语
OpenAI推出的Operator,不仅是一款功能强大的AI助手,更是AI技术发展的一个重要里程碑。它的出现不仅提高了我们的数字生活体验,更为未来AGI的发展开辟了新的道路。我们有理由相信,在不久的将来,AI将像人类一样聪明、灵活,成为我们生活中不可或缺的一部分。