AI Agent(智能体)专题报告:从技术概念到场景落地指南
科技项目从概念到落地,时间缩短,效率提升 #生活知识# #生活感悟# #科技生活变迁# #科技创业#
来源/报告出品方:海通证券
1. 原理解析:思维链铸就智能体,多体交互拓展应用早在上世纪 50 年代,阿兰图灵把“高度智能有机体”扩展到了人工智能。如今随 着大模型的快速发展,这个概念又被重新拾起。大模型成为了智能体目前最完美的载体, 有望完成从概念到实际应用的蜕变。 用户在 Agent(智能体)模式中给 AI 设臵目标和身份,并提供 Prompt(提示词)。 AI 自主拆分任务、使用工具、完成工作,用户仅负责设立目标、提供工具资源和监督结 果。OpenAI 定义的智能体具有长期和短期记忆、自主规划、工具使用和自动执行任务 的能力,能提高工作效率和用户体验。另外,智能体也分为单智能体和多智能体。单智 能体通过试错学习在单一环境中行动,追求最大奖励,多用于简易任务。多智能体在博 弈环境中行动,追求长期累积奖励,多用于复杂测试。
1.1Agent 模式架构解析
Agent 有效减少人类工作总量,人与 AI 协作才是最终形态。人类与 AI 交互可大致 分为三种模式。Embedding 模式中大模型可以填补一些信息缺失,完成少量子任务,例 如总结信息等等。用户最终会整合挑选 AI 提供的信息,并自主完成任务。Copilot 模式 则更加智能化,AI 可根据用户设定的流程去执行任务。例如让 AI 根据写一段稿件或者 根据需求编程,但其对 Prompt 的要求也更高。在 AI 完成流程后,用户需要对内容结果 进行调整并自主结束工作。Agent 智能体模式的 AI 参与度更高,但也不是完全由 AI 代 理。用户需要给 AI 设计一个目标和身份,以及需要使用的工具。配上更为复杂的 Prompt, AI 能自主进行任务拆分,使用工具并结束任务。用户只负责设立目标、提供资源、监督 结果。
以 LLM 为核心,四模块铸造AI Agent。从 OpenAI 的定义来看,智能体以大语言模 型为核心,其拥有长期和短期记忆、自主规划能力、能自动化执行复杂任务、能够使用 工具等四个特点。1)记忆模块:智能体像人类一样,能留存学到的知识以及交互习惯 等,这样的机制能让智能体在处理重复工作时调用以前的经验,从而避免用户进行大量 重复交互。短期记忆适用于所有上下文的学习,类似平常我们与ChatGPT 沟通的模式; 长期记忆则保留知识和交互回忆,例如智能体在特定行业积累的大量数据和经验,则能 提供更专业、更具深度和个性化的回答,提升用户体验。2)规划模块:将复杂任务分 解成子目标并逐一解决,完成任务后进行反思总结。例如反思自己大量输出重复内容或 在单一子目标耗时过长等问题,将经验存入长期记忆以规避类似错误。3)工具模块: 智能体可利用工具来弥补自身短板,通过调用外部 API 来实现功能拓展。例如调用连接 互联网的 API 去搜索实时信息。4)行动模块:智能体会形成完整的计划流程。例如先 读取以前工作的经验和记忆,之后规划子目标并使用相应工具去处理问题,最后输出给 用户并完成反思。
1.2 单智能体 vs 多智能体
单智能体与多智能体各具优势,适配于不同垂直领域。单智能体的强化学习原理是 基于马尔可夫决策来完成的,简单来说可以分为状态集 S、行动集 A、奖励 R,下一时 刻的状态和奖励只与上一时刻的行动有关,与更早之前的状态无关。其模型原理就是让 智能体用试错的方式来学习,若某个策略能得到奖赏,则智能体产生该行为的策略就会 加强。其目的就是在单一环境中行动,尽可能得到最大的奖励。应用领域目前也较为广 泛,例如赛车游戏中连续动作的训练:控制方向盘、油门、刹车等动作,可由 DDPG、 A3C、PPO 算法来决策。一些离散动作的训练例如围棋智能体 AlphaGo,可通过 Q-Learning 等算法决策。 多智能体的决策不仅与自身行动相关,还与系统内其他智能体的行动所关联。一个 多智能体系统中会有两个以上的智能体,他们一般存在着合作或竞争关系。这样模型称 为马尔科夫博弈,其状态转换符合马尔可夫决策,关系符合博弈。在多智能体模型中, 每个智能体的目标是找到最优策略来使它在任意状态下获得最大的长期累积奖励。由于 其模型更为复杂,干扰因素较多等原因,目前多智能体模型商业化产品较少。
CrewAI 是世界领先的多智能体框架之一,在多智能体领域用于协调角色扮演型自主 AI 智能体。通过促进协作智能,CrewAI 使智能体能够无缝协作并处理复杂任务。在编 写程序时,用户需要赋予每一位 Agent 角色、任务、以及背景故事。
1.3 Prompt 提示词的艺术
Prompt 是一种基于自然语言处理的交互方式,它通过机器对自然语言的解析,实现 用户与机器之间的沟通。可以理解为是一段给定的文本或语句,用于启动和引导机器学 习模型生成类型、主题或格式的输出。在自然语言处理领域中,Prompt 通常由一个问 题或任务描述组成,例如“帮我写一篇有关人工智能的文章”,“帮我编写一段可以整理 数据的程序”等等。 一个优秀的 Prompt 应该包含 1)明确目标:能够定义任务,以及想要达到的效果; 2)具体指导:给予模型明确的指导和约束,举一些例子或明确回复边界;3)简洁明了: 使用简练、清晰的语言表达 Prompt;4)迭代优化:一次 Prompt 输出可能达不到想要 的结果,用户需要根据智能体的回答来改变提示词,持续调整优化。
2.应用场景:赋能两类实体领域,成本与效益的博弈AI Agent 目前的应用大多都在概念层面,但随着大模型竞争加快、政策鼓励研发投 入、更多企业参与 AI 研究等因素,应用层面的 AI Agent 推进速度加快。智能体大致可 以分为六类,根据他们被设计出的特点,可以作用在不同的应用领域上。不同类别的智 能体给予应用层面上更多研发方向,像目前关注度较高的自动驾驶技术、智能电网控制、 能源管理等都能被垂类智能体覆盖。结合多模态大模型,自动化和情感需求类智能体已 落地。但商业化智能体仍需考虑成本问题,由于智能体之间的交互过程可能出现错误循 环且输出结果不一定符合需求,tokens 成本远高于普通 LLMs。
2.1 自动化类:微软智能体 AutoGen
微软研发的 AutoGen 是一种多智能体沟通的模型,这些智能体通过对话完成任务。 实验发现这种多智能体沟通模式可以有效提高 AI 解决问题的准确性以及成果的完整性。 使用 AutoGen,开发者可以灵活定义智能体交互行为。微软的研究证明了该框架在包括 解决数学、编码、问题解答、运筹学、在线决策、娱乐等问题上的有效性。 AutoGen 需要两个以上的智能体形成交流模式,其中智能体可以由大语言模型 LLMs、人类、工具来扮演。当一个需求被提出,智能体会开始灵活交流,他可以是多个 智能体向需求人汇报的模式(Hierarchical Chat)或者是像研讨会一样随意讨论(Joint Chat)。在官方给出的示例中,智能体之间的沟通确实减少了人工交互,其有能力自己 修复出现的问题并给出满意的答案。
在 AutoGen 智能体程序中,人类充当需求发起者,智能体通过不断使用工具并在相 互交流中解决陆续出现的问题从而得到最终答案。在智能体交流过程中,人类可随时介 入其中,若用户对最终结果不满意,可以重新提出需求,智能体就会继续优化答案。
AutoGen 在四项实战应用的表现测试中均胜过单一大语言模型,实验发现智能体能 增加 AI 完成任务的成功率以及模型的稳定性。1)数学计算:分别测试了 AI 在完成整个 数学题库和随机 120 道题目的表现,AutoGen 的成功率远超各类语言模型。2)数据库 检索问答:先建立一个 RAG 数据库,然后对智能体进行问答测试,看其能否追踪到正 确的答案。其 F1-score 越高&#
网址:AI Agent(智能体)专题报告:从技术概念到场景落地指南 https://www.yuejiaxmz.com/news/view/455718
相关内容
AI Agent商用落地:提升设备智能,助力生活与工作数字员工、超级个体、具身智能,AI Agent未来发展十大研究方向
AI Agent在11个领域100个应用场景
AI应用概念再次爆发!市场空间剑指6600亿美元,这些公司有望受益
写在智能体大爆发前夜:全民 Agent时代即将来临
人工智能(AI):从概念到现实的技术变革
AiBot:AI Agent在11个行业100个常见应用场景汇总 人工智能代理(AI Agent)的发展正在以前所未有的速度改变我们的生活和工作方式。从日常生活的小事到企业级的复杂决策,...
钛媒体「年度AIGC技术先驱」、「年度AI产业场景」、「年度AI应用」揭榜|2024 EDGE AWARDS
智能家居技术入门:从小白到专家
人工智能技术不断从概念走向应用 智能生活场景特征实现革命性升级