从个体到社会:基于大语言模型的Agent驱动的社会模拟研究综述

发布时间:2025-02-18 16:39

社会心理学研究个体在社会互动中的心理过程和行为模式 #生活知识# #社会生活# #社会心理学#

在这里插入图片描述

原文地址

摘要

传统的社会学研究往往依赖于人的参与,虽然有效,但昂贵,规模具有挑战性,并且存在伦理问题。大型语言模型(LLM)的最新进展突出了它们模拟人类行为的潜力,使个体响应的复制成为可能,并促进了许多跨学科研究的研究。在本文中,我们对这一领域进行了全面的调查,说明了LLM授权代理驱动的模拟的最新进展。我们将模拟分为三种类型:(1)个人模拟,模仿特定的个人或人口统计群体;(2)场景模拟,多个代理在特定的背景下合作实现目标;(3)社会模拟,模拟代理社会中的互动,以反映现实世界动态的复杂性和多样性。这些模拟遵循一个过程,从详细的个人建模到大规模的社会现象。我们提供了每个模拟类型的详细讨论,包括模拟的架构或关键组件,目标或场景的分类和评估方法。然后,我们总结了常用的数据集和基准测试。最后,我们讨论了这三种类型的模拟的趋势。相关源代码的存储库位于https://github.com/FudanDISC/SocialAgent。

文章目录 摘要1 Introduction2 Background2.1基于大型语言模型的Agent2.2多智能体系统 3 Individual Simulation3.1 Architecture3.1.1 Profile3.1.2 Memory3.1.3 Planning3.1.4 Action 3.2 Construction3.2.1 Nonparametric Prompting3.2.2 Parametric Training 3.3 Simulation Objectives3.3.1 Demographics3.3.2 Characters 3.4 Evaluation3.4.1 Static Evaluation3.4.2 Interactive Evaluation 4 Scenario Simulation4.1 System4.1.1 Environment4.1.2 Role4.1.3 Organization4.1.4 Communication 4.2 Scenario4.2.1 Dialog-Driven Scenario4.2.2 Task-Driven Scenario 4.3 Evaluation 5 Society Simulation5.1 Social Construction Elements5.1.1 Composition5.1.2 Network5.1.3 Social Influence5.1.4 Outcomes 5.2 Scenario5.2.1 General Economics5.2.2 社会学和政治学5.2.3 Online Platform 5.3 Evaluation 6 Datasets and Benchmarks6.1 Individual Simulation6.2 Scenario Simulation6.3 Social Simulation 7.1 Trend of Individual Simulation7.1 Trend of Individual Simulation7.1.1 表面特征的粗模拟7.1.2 对特定角色进行更细致的模拟7.1.3 情境模拟 7.2 Trend of Scenario Simulation7.2.1 Simple Scenario7.2.2 Multi-Stage Scenario7.2.3 Collaborative Scenario 7.3 Trend of Society Simulation7.3.1 搭建初步环境7.3.2 探索特定场景的一致性7.3.3 扩大规模并向多模式发展 8 Conclusion

1 Introduction

社会科学研究人类行为和社会结构,以了解社会如何运作。传统的社会学研究严重依赖人类参与进行实验和收集数据。心理测验[1,2]和心理学实验[3,4]通常用于测试理论假设,理解社会现象,并预测集体结果。虽然这些方法可以提供高度真实的数据,但它们昂贵,难以扩展,并且涉及某些道德风险。测试理论假设,理解社会现象,预测集体结果。虽然这些方法可以提供高度真实的数据,但它们昂贵,难以扩展,并且涉及某些道德风险。最近,大型语言模型(LLM)在人类水平的推理和规划方面表现出令人印象深刻的能力[5-9]。它们可以感知环境,做出决策,并采取相应的行动,展示了它们作为自主智能体的潜力,可以作为人类的替代品。在适当的设置中,LLM驱动的代理可以通过利用他们的角色扮演能力[10,11]准确地模拟相应个体的响应,这是一种称为算法保真度的属性[12,13]。这一特性使得LLM驱动的代理在模拟人类行为方面非常有价值。通过在特定场景中再现个体反应模式,LLM驱动的代理帮助研究人员更好地理解,验证和预测人类反应。

正如个体在社会中并不是独立存在的,除了单独的个体代理之外,多个代理之间的交互也被广泛研究,以解决特定问题或模拟真实的世界中的复杂动态[14,15]。一方面,LLM可以专业化为具有详细知识和技能的代理,利用集体智慧解决复杂问题,例如软件开发[16,17],自动诊断[18,19]和司法决策[20]。在这种情况下,多个自主代理在规划,讨论和决策方面进行合作,反映了人类群体在解决问题时的合作性质。另一方面,多个主体之间的简单互动可以导致复杂的集体行为或模式的出现[21-23],从而复制真实的世界中复杂的社会动态,例如意见动态[24-26]和宏观经济现象[27]。这种模拟为理解、分析和预测在真实的生活中难以直接观察或不切实际的复杂现象提供了有价值的工具,为政策制定和社会管理等领域的决策提供了强有力的支持。

这一研究领域正在迅速扩大,论文集中在各个方面。考虑到模拟的目的以及个体建模中对多样性、规模和准确性的不同需求,我们将现有工作分为三种类型,如图1所示:

单个模拟:利用基于LLM的代理来模仿共享共同人口统计特征的特定个人或人群[10,11,28]。这类研究的重点是复制一个人的特征,例如,个性,并没有涉及多代理人的互动。场景模拟:在集中的场景中组织一组代理,由特定的目标或任务驱动,例如软件开发[16,17],问题回答[29]和论文审查[30]。这种模拟通常集中在特定场景中的小规模代理,强调具有专业知识的代理的集体智慧。社会模拟:模拟代理社会中更复杂和多样化的行为,以探索现实世界应用中的社会动态。这种模拟可以在小范围内测试社会科学理论[31],或者用大规模的现实社会现象填充虚拟空间和社区[32,33]。在这种模拟中,个人的组成更加复杂和多样化。

在这里插入图片描述

图1:由LLM驱动的代理授权的模拟演示。我们将模拟分为个人模拟、情景模拟和社会模拟。从左到右,个体建模的多样性和规模普遍增加。相反,从右到左,单个建模的粒度变得更加精细。

这三种类型的模拟表现出渐进的关系。个体模拟是对特定的人或一类人进行建模,是情景模拟和社会模拟的基础。从理论上讲,社会模拟可以包括一个由无数子场景组成的混乱世界,尽管目前的工作集中在特定的场景上。

虽然这一领域已经看到了快速增长,一些调查总结代理架构[7,9,15]或单代理能力或多代理系统[11,14,34]的某些方面,有一个缺乏系统的审查,以总结从个人到社会的工作,为这一领域提供一个全面的蓝图。这促使我们提出这项调查,旨在为基于LLM的代理驱动的模拟的研究和开发以及更广泛的跨学科研究做出贡献。为了全面描述我们的景观,我们组织我们的调查如下。在简要介绍了§ 2的背景后,我们开始§ 3,通过讨论(1)单个智能体的体系结构、(2)个体模拟的构建方法、(3)目标的分类、(4)个体模拟的评估,详细介绍如何进行个体模拟。接下来,在§ 4中,我们总结了情景模拟,包括(1)构成情景模拟系统的要素,(2)情景的分类,以及(3)情景模拟的评估,探索多个代理如何合作以实现单个情景中的目标。在此之后,在§ 5中,我们介绍了社会模拟,研究多智能体系统如何通过(1)社会模拟的社会构建元素,(2)社会模拟场景的分类,以及(3)社会模拟的评估来构建复杂的社会动态。在第6节中,我们总结了现有的数据集和基准。在前几节的基础上,我们在第7节中分析了这三个方面的趋势,并在第8节中提出了结论。

2 Background

2.1基于大型语言模型的Agent

受益于大规模参数和对大量数据的预训练,最近出现的大型语言模型在实现类人智能方面显示出巨大的潜力[6,35,36]。这引发了对LLM授权代理的研究的兴起,其中的关键思想是为LLM配备人类能力,如记忆[37,38],规划[39,40]和工具使用[41,42]。存储器模块使代理能够存储和操作历史信息以促进未来的动作。不同结构[32,43]和格式[44,45]的内存已集成到基于LLM的代理中。规划模块帮助代理将复杂的任务分解为子任务,其中采用了各种规划策略[5,39]。工具使用模块允许代理使用外部工具或资源来解决任务。总的来说,这些模块帮助代理在复杂和多样化的环境中更有效地运作。

2.2多智能体系统

要实现复杂的场景,单个代理是远远不够的。其中涉及多个代理之间的交互的系统被称为多代理系统(MAS)。这些代理人可能有一个共同的目标,例如一起完成一项任务[16,17]或解决一个问题[29],或者他们可能只是有自利的目标,这会导致他们竞争有限的资源[47]。在多代理系统中,每个代理可以被分配不同的角色和技能,以及不同的任务。这些代理可以以各种方式组织,例如分层或集中式结构[48-50],并且可以通过不同的方法进行通信[51-53]。这些因素对多智能体交互的有效性和效率有着重要的影响。

3 Individual Simulation

个体仿真的重点是设计一个模块化的体系结构,集成个性化的数据构建代理和模拟特定的目标与高保真度。在本节中,我们首先概述了个体模拟中智能体的基本架构,其中包含§3.1中的四个关键组件。然后,在§3.2中讨论了两种构造方法,以实现§3.3中介绍的个性化数据到目标的集成。第3.4节从不同角度对评价方法进行了审查。总体框架如图2所示,代表性工作总结见表1。
在这里插入图片描述

图 2:单个模拟蓝图的图示。 个体代理通常由一个架构组成,该架构的模块涉及配置文件、记忆、规划和通过构造方法、提示或训练采取的行动,以模拟特定目标,如角色或人口统计数据。 可以通过观察不同维度来静态和交互地评估单独的模拟。

在这里插入图片描述

3.1 Architecture

为了有效地完成个体模拟,必须构建一个能够准确复制个体特征的代理架构。 这需要理论抽象和实际实现之间的平衡,以捕捉人类行为的复杂性。 通常,该架构被模块化为四个核心组件:配置文件、内存、计划和操作。

3.1.1 Profile

档案区分了模拟个体的独特特征,包括属性、行为和约束。 这些型材的构造方式和形式有所不同。

Profile Construction
个人资料构建是指收集个人相关信息的过程,可分为手动修改和LLM生成。 手动修改利用公开可用的数据,通过人工指导的过程创建高质量的配置文件。 根据收集的资料,手工修改也可以分为三类:手工制作、网络社区和历史作品。 手工制作手动组织一些粗略的强度信息,例如知名人物 [101] 和特定人物 [77, 79],而在线社区则构建基于维基百科 [10] 和社交媒体 [60] 等网络数据的个人资料,其中 个人资料隐含地存在于对话和材料中。 此外,文学作品作为附加描述,反映了作者的思想[56]和故事情节中的人物[54, 59]。 LLM 生成通过提示 LLM 提供基本的个人详细信息,自动生成预期的基于角色的信息配置文件 [28,61,83]。 这种方法可以轻松地探索不同的配置文件,但质量需要人工谨慎监督。

Profile Form
个人资料形式定义了个人信息的格式,可分为描述和对话。 描述直接描述基本的个人信息或身份,包括姓名、年龄和性别等详细信息[101, 102]。 虽然描述可以直观地反映个体的基本属性,但更深层的上下文信息也可能被忽略。 相反,对话通过对话含蓄地反映了人物形象。 大量对话数据来自电影、文学作品和剧本等来源[54,70,103,104]。 考虑到LLM在预训练阶段学到的广泛常识知识,最近的作品利用LLM生成个人对话[59, 98],通过六个基本要素定义艺术流派,生成详细的戏剧剧本[105]并模仿说话风格 通过情境学习 [28, 65]。

3.1.2 Memory

记忆旨在存储感知或生成的信息,帮助代理保持行为的一致性和连续性,并克服LLM的有限上下文窗口。 考虑到存储器的复杂性,研究人员努力设计更高效的存储器类型和操作。

Memory Type
根据存储内容的时间跨度,记忆通常可以分为两种类型,即短期记忆和长期记忆。 短期记忆记录了智能体感知到的即时局部信息,可进一步分为模拟内容和模拟补充。 模拟内容包括基本的交互数据,如用户指令 [56, 77]、对话历史记录 [106, 107] 和用户/环境响应 [76]。 模拟补充提供了额外的环境信息,包括场景描述 [58, 76] 和场景相关的体验 [10, 66],它们通过模拟引导代理正确执行任务。 长期记忆存储持久的全局信息,防止偏离预期目标,稳定地保存大量的个人特定信息,包括过去的经验和行为、当前的知识和技能[66, 86]。 随着使用向量数据库作为长期记忆枢纽的提出,记忆的管理、检索和组织更加有效[108]。

Memory Operation
内存操作代表代理对内存的持续更新和利用。 常见的内存操作包括三种类型,即内存写入、内存检索和内存反射。

记忆书写的目的是将相关历史内容融入记忆中。 这个过程反映了人类记忆的形成,保留有用的信息以供将来检索。 要写入的记忆从用户特定的对话历史[103]、新技能[109]到选定的论文和其他形式[110]各不相同。

记忆检索用于根据定制需求从记忆中提取有价值的内容。 单个模拟的整体性能高度依赖于记忆检索的有效性,因为模拟对上下文很敏感。 传统的检索技术依赖于关键词匹配[111]和嵌入向量[108]等相似性,而最近的工作引入了检索模型来选择最相关的信息[112, 113]。

记忆反思反映了人类重新考虑过去行为和观点的能力。 具体来说,它可以帮助智能体组织、提炼记忆并将其提升为更抽象和更有洞察力的概念。 Generative Agents [57] 通过树形结构的反射过程来维护代理经验的全面记录,以优化内存使用。 ProAgent [114] 将记忆反射与验证和信念修正相结合,以改进智能体的规划和决策。 Voyager [109] 允许代理反思他们的行为并通过自我验证更新他们的技能库。 尽管内存反射的应用场景仍然有限,但它在增强性能和增加模拟深度方面显示出很大的改进,特别是在复杂环境中。

3.1.3 Planning

规划是决定旨在实现特定目标的一系列行动的过程。 传统的规划任务通常专注于解决特定问题,例如数学推理 [115] 或具体任务 [116, 117]。 然而,在个人模拟层面,智能体的功能不仅仅限于解决问题。 他们还应该能够在与特定个体互动时模拟个性化思维和情绪反应。 这将规划扩展到另外两个类别:同理心规划和主观规划。

Empathetic planning
同理心计划是指代理人在采取行动之前推断和感知他人行为和情绪的能力。 它涉及使用 Chainof-Thought (CoT) 推理来理解他人的情况并做出适应性决策或判断 [71,76,89]。 这使得代理可以根据情感和行为背景调整其行动,指导获取个性化反馈。

Subjective planning
主观规划是指智能体根据自己的想法和感受,根据其预先定义的角色或身份所采取的行动。 这可能涉及利用模拟角色的内心独白来微调LLM [10, 68] 或使用 CoT 指导LLM根据自己的信念表达自己 [92]。 这种形式的规划是由主体的内部状态驱动的,而不是由外部刺激或他人的需求驱动。

3.1.4 Action

行动是指LLM与其环境之间的直接互动。 行动包含两个关键方面:行动情境(描述行动发生的上下文)和行动域(定义行动空间的要求)。 动作作为模拟人类行为的界面,允许LLM执行模仿现实世界动作和响应的任务。 这种交互可以更深入地理解各种场景下的类人决策和执行。

Action Situation
随着个体模拟关注的情境越来越多样化和复杂化,各种动作情境也相应涌现,从对话[118]、游戏[119]、真实世界[106]等。通常,动作情境可以分为简单的对话 和精心设计的情况。

简单对话是没有限制环境的少回合对话,例如在两个角色之间构建对话[54]。 最近的研究利用简单的对话来诱导模型中的潜在属性,包括个性 [72, 73]、特质 [81] 和毒性 [77]。 其他作品通过访谈[61]或问卷调查[120]和简单的对话来进行人物角色评估,以促进他们的实验。

精心设计的场景是精心设计的环境,包括详细的规则和周围的描述。 像游戏这样的常见场景是由简单的对话修改而成的。 他们利用游戏规则为用户和代理提供一个固定的虚拟主题,特别是在棋盘角色扮演游戏中[119, 119] [121]。 此外,研究人员还开发了一种更微妙的环境,称为沙箱[111],它不仅包含规则,而且建立了一个客观的环境。 为了进一步丰富个人模拟情况,一些作者添加了脚本中存在的一些元素,如面部表情、微小动作 [58, 105] 和环境图像中的细微信息 [69]。

Action Domain
根据动作空间的限制,动作域通常可分为封闭域和开放域。

当可用的操作空间有限时,就会发生闭域模拟。 在简单的情况下,例如完成问卷测试[72]、从一组选项中做出决策[75]或使用预定义标准进行评级[61],LLM的行动空间由研究人员在模拟之前确定,以使响应可预测。 在实际场景中,LLM需要选择工具[112, 122]或选择特定的功能来完成具体的任务,如推荐、浏览和编译。 在闭域任务中使用代理进行个体模拟可以提高人类的工作效率,超越娱乐目的。

开放域模拟对操作几乎没有限制,允许LLM自由生成响应。 这种方法更接近现实世界的条件,但也对个体模拟提出了更高的标准。 在各种开放域任务中,通过对话采取行动是模拟个人行为的一种流行方法[54,59,62,65],其中不同的设置激发了LLM的个人模拟潜力,并允许研究人员监督不同领域的模拟。 细致入微的维度。 开放域模拟的另一种不断发展的方法是基于场景的交互,其中LLM被分配角色,并需要在沙箱 [108, 109] 或已建立的游戏设置 [119, 121] 等封闭环境中进行交互。

3.2 Construction

构建是指将个人数据整合到已建立的LLM模型中的过程,使设计模型与个人保持一致,从而创建模拟LLM。 一般来说,构造方法分为两种类型,即非参数提示和参数训练。

3.2.1 Nonparametric Prompting

非参数提示,即提示工程,是一种通过设计和优化输入提示与LLM进行交互的方法。 在一些单独的模拟中,基于描述的配置文件是通过系统提示来实现的。 研究人员经常创建以“你是……”开头的系统提示来为模型分配特定的人口统计特征和角色 [77]。 此外,在一些作品中,通过提供具体示例来注入详细信息并提高响应质量,通过少量提示来增强LLM输出。 此外,将特定于问题的细节直接合并到提示结构中可以显着提高模拟的有效性。 短期记忆通常是通过非参数提示来实现的。 对于基于情境的个体模拟,环境描述和行为规则通常通过即时工程来传达[121]。 由于情境信息通常是客观的并且必须遵循,因此在输入中直接强调该信息是构建模拟的相当有效的方法。 然而,由于LLM的上下文窗口限制,配置文件提示的质量极大地限制了基于提示的个人模拟。 此外,作为LLM内的“助手”的预设模板配置对个人模拟中的快速工程提出了重大挑战[83]。

3.2.2 Parametric Training

参数训练通过使用给定数据直接更新 LLM 参数来修改模型。 训练方法一般可分为预训练、微调和强化学习。

Pre-training
个体模拟中的预训练方法侧重于将原始LLM与个体相关的基本数据进行匹配,并为LLM建立个体的基础知识。 最近的研究中训练数据集的目标各不相同,包括个人描述[113]、文献摘要[54]和哲学著作或话语[56]。

Finetuning
微调方法旨在使LLM适应特定任务和情况下的单独模拟。 研究人员收集和修改针对特定情况定制的监督指令数据集,并对模型进行微调,使其具备相应的能力。 使用角色增强数据集是调节个体模拟中模型行为的有效方法,它是通过添加模拟个体行为的指令调整样本来构建的[68, 98]。 LoRA 微调方法可以将多个角色集成到单个模型中 [65, 123]。 在多模态微调场景中,视觉和文本信息都被认为可以显着增强LLM在多模态环境中的模拟行为[69, 113]。 与即时工程相比,微调更有效地利用大型数据集,并减少LLM预训练阶段所施加的限制。

Reinforcement Learning
强化学习方法用于在动态环境中完善模型,以最大化累积奖励为目标。 在涉及对话和对话的模拟中,LLM 响应的质量直接影响其收到的奖励 [87,124,125],这鼓励模型学习在对话中响应的适当方式。 通过修改奖励函数,研究人员可以影响模型的偏好,从而设法模仿模拟个体的角色[88]。 随着个体模拟变得更加多样化和复杂,强化学习在改善模拟LLM的动态行为方面发挥着至关重要的作用。

3.3 Simulation Objectives

各种目的的个体模拟的模拟目标可以分为两类:(1)人口统计:具有相同特征的一群人,例如心理特征(例如INTJ)或身份相关特征(例如农民)。 (2)人物:被群体广泛认可的特定个体,无论是真实的还是虚拟的。

3.3.1 Demographics

人口统计个体是指具有相同特征的一群人。 从抽象的意义上来说,人口统计可以理解为代表共同观点和信念的嵌入空间的质心,本质上是出于分类目的对个体嵌入进行聚类[91]。 人口统计模拟涉及为LLM分配身份(例如“学生”)并指导模拟器执行特定任务。 早期的人口统计模拟侧重于研究预训练模型中的内部人口统计属性 [74, 126],为进一步的模拟奠定基础。 此外,这些模拟还用于反映民意调查 [93] 或评估特定群体的偏好和偏见 [99, 127]。 由于能够扩展涉及特定角色的综合对话[63,98,128],人口统计模拟也可以为社会模拟研究做出贡献[111]。 在大多数情况下,人口模拟是通过非参数提示来实现的。 该领域的许多研究人员专注于设计任务,例如问卷或社会实验[75],以充分挖掘LLM的模拟潜力。

3.3.2 Characters

角色是彼此不同的独特个体。 他们可能是普通的平台用户,也可能是知名公众人物,也可能是小说中的虚构人物。 研究人员青睐这些角色,因为它们增强了LLM在特定领域的专业知识,并挑战了这些模型的学习能力。 从春日和李云龙[59]到贝多芬[66],个体模拟从现实和虚拟世界中选择主角。

Real Characters
真实人物(通常是著名人物)与维基百科和社交媒体等平台的高质量数据相关联,从而更容易建立客观的档案和评估模拟。 许多LLM关注历史人物、不同时期和背景的名人[10, 129]、在线百科全书中的人物[64]以及抖音上的热门直播主[60]。 由于LLM通常对这些人有先验知识,因此创建他们的个人资料相对简单。 真实和模拟的角色也用于测试LLM模拟能力,例如哲学家模拟[56]。

Virtual Characters
虚拟角色是小说、电影和视频游戏中创建的虚构角色。 虚拟角色模拟的进步可以使游戏行业和主题公园等娱乐行业受益匪浅。 许多研究人员从著名的虚构人物中汲取灵感,例如哈利·波特[55]、孙悟空[62]和童香玉[130]。 此外,一些实验设计具有特定属性或目标的虚拟角色[119]。 然而,尽管虚拟角色模拟引起了人们的关注,但开发虚拟个人LLM仍面临挑战,特别是在确保其数据集的质量和可靠性方面。 大多数虚拟角色的模拟都是为交互式对话而设计的,可增强各种娱乐场景中的用户体验。

3.4 Evaluation

为了衡量单个模拟的性能,深入了解其可行性并指导模拟架构的改进,研究人员开发了多种评估标准和方法,从简单到复杂的方法。 这些方法可以分为静态评估和交互式评估。

3.4.1 Static Evaluation

静态评估是指通过直接诱导LLM的产生并衡量其质量,对LLM进行基于对话的评估。 它可以分为主观评估,包括LLM和人类评估员的评估,以及客观评估,利用数学工具进行分析。

Subjective Evaluation
主观评价是指由人类或LLM根据主观标准进行的评估。 它通常涉及利用不同形式和上下文的对话。 访谈技术被广泛采用[28, 61],因为它们可以有效地促使LLM产生预期的回答。 其他方法,例如言语模仿[77],也在一些研究中受到青睐。 一旦生成对话,一些研究就会利用高级LLM来评估给定范围内的输出[61,65,130],并考虑绩效维度。 这些维度的范围从基于心理学的指标(例如大五人格特质(BFI)和迈尔斯-布里格斯类型指标(MBTI))到基于语言的因素(例如语法和语气)。 人类注释者经常参与实验以提供人类参考点 [57,84,131]。

Objective Evaluation
客观评价是指根据客观指标,运用数学和统计工具进行评价。 它利用数学工具对模拟LLM的生成进行评分。 考试通常涉及选项选择(或问卷)[72]、排名[60]和问题回答[102]。 准确率 [91, 106]、F1 分数、召回率 [132, 133] 用于选项选择和排名。 在生成(问答)检查中,文本序列相关工具如perplexity[58,118,134]、ROUGE-L[55,74,106]和BLUE[60,74,132,134]被广泛使用 评估,特别是那些带有参考版本的评估[55]。 客观考试是评估LLM个人模拟表现的更可靠的方法。 然而,它受到很大的限制,有时必须开发特定的客观工具来促进给定维度上的模拟评估。

3.4.2 Interactive Evaluation

交互评估是指基于情境的评估,创建详细的交互环境,衡量个体在复杂场景下的模拟能力。 它通常应用于游戏性能 [119, 121]、任务完成 [112, 135, 136] 和细致入微的角色扮演 [88, 104] 等领域。 互动评估的三大特点是精心设计的环境、实时互动的外部反应和多阶段评估。 有关精心设计的环境的信息已在第 3.1.4 节中介绍。 实时交互式外部响应是指外部环境对模拟LLM输出的反馈。 主体-环境交互构建了LLM与环境之间的多重对话。 这些互动有助于揭示LLM在复杂环境中的能力,从而实现更动态的模拟。 单方面的测量不足以进行交互式评估,因此许多研究采用的评估目标范围从特定动作到混合动作[110],或者从单轮交互到多轮对话[10]。 其他研究评估生成质量,重点关注相对于真实情况的准确性、音调模仿等细致入微的模拟 [28, 107] 以及自我报告的一致性 [137] 等方面。 在交互式评估中,研究人员不仅优先考虑准确性,还优先考虑模拟与现实场景的相似程度。

4 Scenario Simulation

在现实世界中,个体并不是孤立运作的。 他们经常进行协作以完成特定场景中的任务。 这就提出了一个关键问题:基于LLM的智能体能否像人类一样合作,甚至在实现集体智慧方面超越人类的表现? 为了回答这个问题,研究人员模拟了从日常对话到复杂专业任务的各种场景中多个人的交互和协作[16,17,147],以增强集体智慧和解决问题的能力。 场景模拟通常从设计多智能体系统开始,包括构建场景环境、建模智能体角色以及建立组织结构和通信协议来管理智能体之间的交互。 在本节中,我们开始讨论场景模拟的系统组成,其中包括第 4.1 节中的四个关键方面。 接下来,我们在第 4.2 节中总结了最近引起研究人员注意的几种场景。 最后,我们回顾了第 4.3 节中评估场景模拟常用的方法和指标。 总体框架如图 3 所示,代表性工作总结于表 2 中。
在这里插入图片描述

图 3:场景模拟说明。 给定特定场景,构建多智能体系统涉及对环境、角色、组织和通信进行建模,并根据所支持的目标场景调整详细模块或机制。 模拟场景后,将获得所需的输出,通常是任务或问题的结果,并使用不同的级别和策略进行评估。

在这里插入图片描述
在这里插入图片描述

4.1 System

场景的多样性给提出适用于场景的统一系统带来了挑战。 当前的大多数系统可以概括为“通过有限的通信组织起来在专用环境中发挥作用的代理”。 基于这个一般描述,我们确定了场景模拟中的四个关键概念:环境、角色、组织和沟通。

4.1.1 Environment

场景模拟中的环境定义了代理彼此操作和交互的特定上下文。 正如人类从周围环境收集信息一样,智能体也依赖环境来接收来自各种来源的输入。 这些信号指导系统内代理的行为和策略。 因此,对环境的全面了解为智能体的决策和任务连续性铺平了道路。 我们通过关注四个关键方面来分析现有工作的环境:配置、状态、历史和工具。

Configuration
环境配置提供基本信息,特别是场景中的任务和目标所需的基本元素。 系统将相应地初始化代理,以便它们以明确的目标进行交互。 更具体地,环境配置可以包括环境中的事件和代理的简档。

事件被表示为需要解决的主要焦点,例如提交法院的具体案件[20,181,185,186],以及作为多主体辩论基础的主题。 [29, 144–149]。

个人资料是指与特定场景的座席相关的个性化信息。 与个体模拟中描述的基本属性不同,该模块涵盖了代理身份的各个方面,包括他们的兴趣、目标和角色[17,142,172]。 代理还可以配置为访问外部资源,例如相关研究论文[171]、预定义策略[142]或疾病信息[18]。

State
环境状态包含场景执行期间环境提供的信息(配置在开始时固定)。 它们直接影响代理人的决策和行为。 根据主体如何接收状态,状态可以进一步分为观察状态和反馈状态。

观察涉及环境的变化和周围实体的当前状态。 例如,其他智能体的属性和空间位置[164,189,194,197]被提供给智能体以通知实时决策。 此外,不断更新智能体的物理状态用于与环境和邻近智能体建立实时空间关系[161,194,197,198]。

反馈包括代理执行操作后收到的响应,指导未来的策略调整。 一些研究[162,164,190]描述了智能体的认知状态和策略如何根据每次交互后的反馈进行修改,从而使它们能够模拟类似人类的适应性。 同时,提供对市场事件或他人决策的反馈[162, 182]以及外部工具的执行结果[17, 147, 177],以方便策略调整并指导未来的行动。

History
随着场景的运行,过去的状态和交互会累积成一系列历史记录。 代理可以利用它们来适应新情况并完善策略,确保在动态环境中更加连贯和有效地执行任务。 我们总结了四种广泛使用的处理和利用历史的方法,包括直接整合、细化、总结和记忆机制。

直接集成将历史记录附加到当前输入而不进行修改。 智能体可以通过将过去的对话直接合并到当前会话中来保持任务连续性[29,145,147,166]。 过多的内容被截断以适应代币限制,同时保留关键历史信息 [194, 196]。

细化根据历史迭代更新和增强响应。 马等人。 [149]使用子图聚焦机制来完善答案,允许代理在每个推理步骤之后优化结果。 同样,Weiss 等人。 [183]​​ 和达西等人。 [30]迭代地改进初始答案以收敛到更准确的结果。

总结从历史中提炼出重要的见解。 这可以通过综合多个计划的核心行动来为不同的场景建立参考[161],总结多个代理的报告以巩固研究结果[168],以及共享关键解决方案子任务[177]以避免冗长的对话历史来实现。

记忆机制通过代理的记忆模块处理历史。 这种动态方法使代理能够在会话内和会话间保留相关信息[26、48、173、180、182、195、199、200]。 此外,洪等人。 [17]提出共享消息池以进一步提高通信效率,其中代理直接交换结构化消息并以个性化方式检索信息。

Tools
外部工具提供与场景模拟任务相关的专门功能,从而实现更准确和精确的结果。 场景模拟中使用的工具范围很广,从 Python 和 SQL 等编程语言到促进外部交互的 API。 一般来说,Python主要用于执行和验证程序[17,147,177]。 SQL [174] 和知识图查询工具 [149, 171] 已被用来检索外部结构化数据。 在某些场景下,还利用计算器、预定义工具和 API [195, 196] 等任务相关工具来提供中间结果,简化代理的处理工作流程。

4.1.2 Role

在场景模拟中,我们根据代理的任务和功能为他们分配不同的角色。 如图 3 所示,典型设置中有两组角色:参与者执行场景中的任务,主管管理任务执行流程,同时提供必要的帮助。 每个角色都有自己的职责,强调系统操作的不同方面。 他们合作实现系统的总体目标。

Participants
参与者是积极参与任务执行和讨论的关键成员。 他们的组织和沟通是场景模拟中完成任务的核心。 根据任务,参与者可以进一步分为沟通者和工作者。

沟通者主要侧重于沟通,例如信息交换、反馈和任务指导。 具体来说,这种代理可以处理某些学科和研究应用的信息[175, 181],并倡导不同的观点[49, 144]、主张[145]和潜在需求[50, 139]。

工人直接参与任务执行和操作,展示专业技能和效率。 这通常包括每个场景中存在的常见专业角色,例如软件开发中的编码员和测试员 [176]、谈判中的买方和卖方 [143]、医疗保健领域的医生和医疗专业代理 [18, 166] 以及接待员, 法律背景下的律师和秘书[186]。

Directors
当参与者执行大部分任务时,主管可以在规划程序、协调沟通和整合结果等关键方面提供必要的支持。 我们分别将他们称为规划者、协调者和集成者。

规划者在任务定义和战略制定中发挥着至关重要的作用,通过定义目标、分析用户需求和优化执行计划等任务促进有效的代理间协作。 特定任务代理[188]、中央规划者[193]、分析师[176]和分解者[161]负责分解需求并将总体目标划分为特定的子目标。 产品经理[17]通过创建详细的产品需求文档来做出贡献。 其他规划者还可以根据任务要求[194]细化执行计划,通过最大化优势函数[164]来优化流程,并根据用户查询制定计划[174]。

协调员负责管理和协调代理之间的协作,以确保有效的任务执行、监控进度并促进合作。 软件开发中的项目经理 [17, 167] 监督任务分配和项目进度,确保团队成员在整个开发周期中高效协作。 法官助理代理人 [20] 帮助在法庭诉讼期间组织信息,主要联络代理人 [50] 管理跨文化对话。 此外,秘书特工[170]管理文明特工之间的互动。 同时,协调员还提供反馈以指导更好的互动。 批评代理[143]评估谈判策略并通过迭代学习过程指导代理。 法官代理人[144,145,201]充当权威评估者,评估辩论期间的论点和表现。

集成器包含对引导系统轨迹至关重要的各种决策和汇总功能。 决策者[175]自主评估研究人员的贡献,以便对对话结果做出明智的判断。 摘要代理[146]通过在每次迭代后提供简洁的讨论摘要来提高沟通清晰度,有效地将关键点整合到正在进行的对话中。 在医疗场景中,医疗报告助理[168]将分析结果编译成一个有凝聚力的文件,支持专家协作讨论,而医疗决策者则确保最终决策反映相关专家的集体专业知识。 此外,主任医师[19]根据准确性和有效性评估诊断性能,增强系统的整体可靠性。 在法律背景下,法官 [20] 监督司法程序,根据法律论证做出关键决定并评估所提供的证据。

4.1.3 Organization

有效的任务执行需要仔细协调和安排各个代理之间的交互。 组织结构确定了每个代理如何与其他代理协作以实现目标。 通常,我们可以通过组织模式和结构来描述组织模式。

Mode
组织结构决定了代理之间的关系在整个模拟过程中是保持稳定还是动态发展。 在如何组织Agent方面,现有研究主要有两种模式,即静态模式和动态模式。

静态模式是指根据任务性质预先定义的组织结构。 代理根据这些静态结构有序地进行通信和工作。 静态模式可进一步分为单级和多级设置。 在单阶段设置中,智能体在多轮沟通中遵循固定的结构,例如结构化辩论[143,146,175,188]、技能训练[140,141]和整合思想[49,181]。 在多阶段设置中,任务被分为不同的阶段,并且组织可能会随着阶段的变化而变化。 这可以在遵循瀑布模型或标准化操作流程[17, 177]的软件开发场景中的设计、编码和测试阶段,以及司法场景[20, 185]和问题解决过程中的多阶段过程中找到。 [149、161、191]。

动态模式探索更加开放和适应性强的组织结构,通常依赖于动态和启发式沟通。 这还包括单级和多级设置。 单阶段设置强调单个阶段中代理的协作和适应性。 这些代理可以灵活地创建和招募[149,193,195,196,202],通过联络代理进行协调[50,170],以及自组织[164]。 多阶段设置主要特点是代理之间的动态讨论。 代理可以跨多个阶段参与,但它们可以根据当前状态自主通信[167,168,176,186,187]。

Structure
同时,组织结构反映了代理之间如何联系。 通常,组织可以是分层的、集中式的或分散式的。 分层结构采用分层框架,将代理分配到不同的级别。 交互主要局限于同一级别内的代理或发生在相邻层之间,从而促进受控和有组织的信息流[49,177,181]。 集中式结构通常涉及作为组织核心的高级角色(例如协调员),负责监督沟通并充当其他代理之间互动的中心枢纽[19,50,170]。 相比之下,去中心化结构更加扁平化,代理可以根据需要进行点对点交互[145,146,149]。

4.1.4 Communication

代理之间的通信控制信息的传输。 为了更好地理解沟通的内部机制,我们从沟通的格式和风格上进行剖析。

Format
从信息格式的角度来看,存在两种常见的通信协议:非结构化自然语言和结构化语言。

非结构化自然语言最常用于多主体通信,通过反映人类对话的自由形式的会话语言实现灵活和即时的交流[29,140,​​141,143,144,167,175,188]。 基于自然语言的通信是多样且灵活的,但也可能存在歧义和冗余等问题。

结构化语言(例如代码和 JSON 文档)是另一种可以缓解自然语言问题的协议。 在软件开发中,代理通过代码在阶段之间传输信息 [17, 177]。 在医学领域,利用报告的结构化摘要来获得关键见解[168]。 除了预定义的格式外,代理还可以在交互过程中自主选择合适的格式以提高效率[51, 203]。 最近,设计了使用多种语言的更复杂的通信协议来改善通信[53]。

Style
从本质上讲,沟通的风格可以是合作型的,也可以是竞争型的。 在合作沟通中,代理有一个共同的目标,旨在优化集体成果,例如软件开发[17, 176, 177]、医疗诊断[19, 168]和案件处理[181, 186]。 相比之下,竞争性沟通中的代理人通常持有不同的观点和立场,每个人都努力实现各自的目标。 这种场景常见于游戏[150,151,159]和辩论[143-145]等环境中,在这些环境中,代理人保持对立的立场并试图战胜对方。

4.2 Scenario

利用具有专业知识的代理的集体能力,场景模拟已应用于各个领域。 在这里,我们将不同的场景分为两组:涵盖社交互动和问答的对话驱动的场景,以及专注于专门任务的任务驱动的场景。

4.2.1 Dialog-Driven Scenario

对话驱动的场景包括人们日常生活中以对话本身为中心的场景,例如社交或娱乐目的的场景。 这些场景的共同重点是解决与任何特定任务或领域无关的一般目标。 我们确定了对话驱动场景的三种主要类型:社交交互、问答和游戏场景。

Social Interaction
有些作品专注于简单社交互动场景中的任务完成,通常涉及两个或几个代理之间的社交任务,例如说服或安慰伴侣。 周等人。 [138]讨论了社交场景中主体的社交智能,揭示了不同维度模型之间的显着性能差异。 社会智能的探索进一步延伸到客观的行动层面评估[204]以及多样化的场景和他人的信息推理[205]。 此外,一些作品提出了交互式学习方法[140,206,207]来帮助学习社交技能。

Question Answering
另一个主流场景是问答,强调协作流程、策略推理和集成以增强模型性能。 一方面,一些研究侧重于通过辩论来提高推理能力。 FORD [144] 促进了三阶段的常识推理辩论,证明LLM即使在不一致的情况下也可以达成共识。 MAD [29],涉及代理人在法官的监督下进行辩论,解决思想退化问题。 此外,还提出了一种“思想社会”方法[29]来指导多轮辩论,提高数学推理和事实准确性,同时减少幻觉。 另一方面,一些作品侧重于战略推理和谈判中的优化策略。 OG-Narrator [148]被建议改进谈判策略,提高买方的交易成功率。 马等人。 [149]利用子图聚焦机制和多角色辩论团队来提高推理的准确性和可靠性,优于现有方法。

Game
游戏为探索场景模拟提供了一个独特的平台,从基本的游戏再现发展到复杂的社会动态。 早期的研究,例如 [150, 151],引入 Werewolf 和 A​​valon 来检查 LLM 在沟通游戏中的表现,特别调查 LLM 如何处理信任和领导力等方面。 基于这些复杂的交互,[155, 158]中的强化学习框架允许代理调整其策略,实现接近人类水平的决策。 为了探索更深层次的社会现象,[158, 160]通过结合增强记忆、推理和适应性的工具来扩展游戏动态。 此外,[159]研究了舆论领导的作用,而[1​​56,157,208]解决了临时团队合作问题,其中代理在没有预定义协议的情况下进行适应和协作,揭示了LLM代理在基于团队的协作中的挑战和潜力。

4.2.2 Task-Driven Scenario

在任务驱动的场景中,代理角色扮演具有特定任务或任务集特定功能的角色。 这些场景中的大多数属于与任务相关的一个或多个特定领域。 在这里,代理越来越多地通过自动化任务和改进决策过程来解决复杂的、特定领域的问题。

基础与应用科学
医学、数学、数据科学和内容分析等科学领域一直是场景模拟的热门实验领域。 在医学领域,医学推理和自动化诊断过程通过思想链提示和多智能体协作等创新方法得到了完善[18,166,168,209]。 郑等人[167] 将 ChatGPT 与贝叶斯优化技术相集成,以增强化学实验室的研究工作流程,从而显着提高效率和生产力。 哈桑等人[165] 引入一个对话框架,可以与机器学习模型无缝交互,特别是针对数据可视化和预测分析等任务。 这些研究证明了基于LLM的代理人改变传统研究模式的潜力。

软件开发
最近的研究越来越关注利用代理来解决软件开发和生命周期管理中的复杂挑战。 早期的工作重点是设计协作代码生成框架。 董等人。 [176]提出了一个自我协作框架,其中LLM代理充当不同的“专家”,每个专家管理特定的子任务以促进自主协作代码生成。 在此基础上,ChatDev[177] 是一个聊天驱动的框架,它利用代理之间基于统一语言的通信来有效地解决设计、编码和测试阶段的问题。 与此同时,洪等人。 [17] 通过将标准化操作程序编码到提示中来增强LLM合作,使代理能够验证结果并通过装配线方法产生一致的解决方案。 之后,一些工作侧重于使代理能够从过去的经验中学习并随着时间的推移完善其流程 [178, 180]。 进一步的努力集中在自主问题解决和程序理解上[179]。 这些研究显示了软件工程中多智能体协作的潜力,为自动开发和管理提供了强大的工具。

其他行业
在广泛的社会科学领域,一些研究利用多主体系统来增强不同领域的决策过程,例如新闻[210]、司法、经济学和教育。 在司法领域,通过LawLuo[186]模拟协作讨论,完善了法律咨询。 汉密尔顿等人。 [181]和He等人。 [20]设计多代理系统,通过辩论、资源检索和决策细化等详细步骤来模拟美国最高法院的判决和法庭审判,并辅以增强法律文章生成的额外基准。 在经济领域,李等人。 [182]提出了一种具有分层内存的多代理框架,以提高股票交易中的 LLM 性能。 此外,Weiss 等人。 [183]​​通过模拟智能代理使用LLM来引导信息访问和偏见的市场,探索定价和预算对结果的影响,解决了信息市场中买方的检查悖论。 在教育领域,模拟人工智能增强课堂的系统MAIC[187]为开发综合性人工智能驱动的在线教育平台做出了贡献。 岳等人。 [184]提出了MATHVC,这是一个由LLM驱动的虚拟教室,旨在模拟学生之间的互动,从而促进数学技能的发展。

4.3 Evaluation

对于场景模拟,评估的重点是场景任务的解决情况。 根据评估范围,可以分为任务评估、子任务评估和系统评估,每种评估都采用各种自动、基于LLM和人工的评估方法来评估绩效。

Task Evaluation
任务评估衡量分配给场景的任务的整体绩效。 评估可以自动方式进行,也可以由LLM或人工进行。 在自动评估方面,使用预定义的指标和数学工具来客观评估任务结果,例如编码任务的准确性[144, 181]、pass@k [188]、成功率和探索的覆盖率[161], 以及谈判的交易价格[143]。 这些方法高效且可扩展,但可能会忽略复杂的行为。 因此,LLM [49] 和人类专家 [145, 188] 已被应用于为定性任务提供更细致的评估,并根据特定标准比较解决方案。

Sub-Task Evaluation
子任务评估评估场景模拟中子任务的完成情况及其对整体任务绩效的影响。 它用作执行复杂任务的过程评估。 自动评估使用传输速率、平均步数、任务成功率、重新计划尝试和效率改进等指标来评估子任务绩效和策略效率[191, 192]。 完整性、可执行性和一致性指标通常应用于软件生成任务 [177, 178]。 基于LLM的评估侧重于成对比较或胜率判断,捕捉子任务绩效的定性方面[177]。 同时,人工评估依赖于参与者对可执行性、修订成本或评论质量等指标提供主观评估,为子任务绩效提供实用的见解[17, 30]。

System Evaluation
系统评估旨在捕获整个场景模拟中系统的有效性和效率。 自动评估依赖于代币消耗、任务成功率和人类相似度评分等指标来衡量代理的效率和真实性[197]。 准确性、精确度、召回率和 F1 分数等其他指标用于评估诊断或预测任务中的系统准确性和一致性[19]。 基于 LLM 的评估通常涉及 GPT-4 来评估定性方面,例如人类相似性或诊断报告质量 [18, 197]。 人类评估通常涉及主观评估,例如按照李克特量表 [187] 对教学内容的语气、清晰度和支持性进行评级,通常用于补充自动方法并捕获人类对系统输出的观点。

5 Society Simulation

虽然场景在相对集中和小规模的环境中讨论多智能体交互并提供特定领域内的解决方案,但社会比简单的场景更复杂。 它的复杂性体现在很多方面,例如其组成部分的多样性、结构的多样性以及非线性效应等[259]。 考虑到这一点,一系列的研究集中在社会模拟上。 从研究主题来看,社会模拟一般希望考察社会宏观层面的结果。 从研究目的来看,社会模拟并不旨在解决任务或问题,而是侧重于揭示和解释众多主体之间的突发行为和相互作用的结果。 社会模拟一直是理论验证和预测社会动态的重要工具。 在本节中,我们总结了社会建构的组成部分,以捕捉第 5.1 节中社会模拟所反映的关键特征。 然后,我们在第 5.2 节中介绍了社会模拟中的不同类别的场景。 之后,我们在§5.3中介绍了社会模拟的评估。 总体框架如图 4 所示,代表性工作总结于表 3 中。

在这里插入图片描述

图 4:社会模拟图示。 构建社会模拟,需要精心设计相应的社会构建要素,即社会构成、网络、社会影响和结果。 在此基础上,可以模拟各种场景。 评估个人的绩效和系统的整体绩效。

在这里插入图片描述
在这里插入图片描述

5.1 Social Construction Elements

考虑到社会的复杂性,社会模拟的一个主要挑战是弥合个人和社会尺度之间的差距。 一些核心元素是社会系统建模的基础。 我们概述了支撑社会结构和动态的四个关键维度:构成、网络、社会影响力和结果。

5.1.1 Composition

社会是由大量不同的个体组成的。 这种多样性在社会科学中也称为异质性[259],涵盖了广泛的信仰、偏好、行为、规范价值观和社会结构中的立场。 对这种多样性进行建模对于捕捉社会系统内个体差异所产生的各种行为模式和复杂的社会动态至关重要。

Individual Composition
为了模拟一个多元化的社会,需要确定社会中个人的构成。 确定模拟社会缩影的系统中个体的组成有三种主要方法。 一些作品依赖于虚拟个体合成,通常不注重与现实世界的一致性,旨在确保系统包含具有各种属性的用户,通常是通过在LLM或人类的帮助下生成虚拟个体[31, 260]。 其他作品利用现有数据集(例如 MovieLens-1M [256, 257])来定义模拟推荐平台中的用户组成。 代理根据这些数据集中的用户信息进行初始化,反映了该上下文中用户的分布。 最近,越来越多的研究关注现实世界的分布复制,例如社交平台上的用户构成[33]或调查中选民的分布[227]。 对于小规模的个体数据集,个体数据通常是手动收集的 [229, 233]。 在需要大规模群体或难以获取真实数据的情况下,可以根据现实世界的宏观分布对个体进行采样,或者由LLM生成以匹配所需的属性分布[12,226,227]。

仿真精度和规模之间的权衡
在社会模拟中模拟个体时,许多研究采用详细的角色建模来增强代理行为的真实性。 除了常见的人口统计属性之外,这可能还包括个人过去的陈述和互动历史等因素[32,214,219,256,257]。 然而,随着个体数量的增加,这种细粒度的建模变得昂贵。 因此,个体建模的精度和模拟规模之间经常会出现权衡。 在大规模模拟中,为了降低计算成本,通常通过仅保留最重要和最常见的特征[224, 225]或将辅助对话信息压缩到共享内存中[236]来简化每个代理的细节。

异常值的特殊建模
如前所述,社会中个体的构成是多样化的。 然而,并非所有个人都发挥着同样重要的作用。 一些属性或行为显着偏离大多数人的个体被称为异常值[259]。 与普通人相比,异常值常常给社会带来可变性和不可预测性。 例子包括名人和意见领袖[251, 252],他们经常在社会结构中担任重要职务并扩大其影响力。 在资源有限的情况下,一些研究[25]优先考虑对这些核心内容生产者进行详细建模,同时简化大多数内容的建模。 同时,基于模拟结果的干预策略往往集中在网络中的这些关键节点[261],旨在通过阻止或干扰它们来影响整个系统的行为。

5.1.2 Network

社交互动通常通过社交网络进行,可以使用图结构来描述,其中节点代表个体,边代表他们的关系。 网络决定了信息和影响传播的方向。 在社会科学中,人们发现个体的同质性可以增加沟通的可能性。 与差异较大的人相比,高度相似的人更有可能建立联系[262, 263]。 这一原则也为社会模拟中的网络构建提供了信息。 不同场景下构建社交网络的方法有所不同。 在这里,我们将其分为线下网络和线上网络。

Offline Network
离线网络代表通过面对面的互动形成的联系,例如面对面的交流或物理环境中观点和疾病的传播。 一方面,一些研究旨在模拟虚拟世界中的交互,从而以随机或预定义的方式确定代理之间的连接[32,232,236]。 另一方面,当一些研究旨在模拟现实世界中疾病或事件信息的传播时,考虑到获取真实数据的难度,他们经常使用外部算法或代理本身来估计社会关系[224, 228]。 然而,在大规模主体的研究中,个体之间的网络关系有时被忽略,个体被视为独立的[227]。 或者,一些研究提供了粗略的信息,例如社区统计数据,来代替有关代理邻居的具体细节[225]。

Online Network
在线网络是一种数字结构,个人或实体通过在线社交平台和推荐平台等平台进行交互,基于活动、关系或共同兴趣形成连接。 一开始,一些研究随机初始化用户现有数据集[256]或合成用户[26]的社交关系,而其他研究则侧重于从微博[248]和Twitter[25]等社交媒体平台爬取真实的社交关系。 然而,随着个体规模的增加,获取他们所有的真实关系可能会变得困难。 因此,一些研究利用一小部分真实关系数据结合大量的合成关系数据构建网络[33],或者基于同质性假设连接相似的用户[242]。

5.1.3 Social Influence

社会影响力是指主体在交往过程中对他人的影响力以及从他人那里受到的影响力。 这也被称为社会科学中的嵌入性[259],这表明个人的行为和决策受到其环境的影响。 在进行社会模拟时,需要考虑这种社会影响力的建模。

Influence Received by the Influencee
同样的信息,不同性格的人接收到后,可能会产生不同的效果。 目前,大多数研究都模拟了接收者所受到的影响如何根据他们的个人资料而变化[26,33,248]。 通过将个人的个人资料、记忆和从他人那里收到的信息整合到同一上下文中,可以轻松实现这一点。 在此基础上,一些工作进一步引入了额外的机制,例如认知偏差[24]和对规范的反思[232],以增强代理对收到的消息的理解和感知。

Influence Exerted by the Influencer
不同的人传达的相同信息可能会产生不同的社会影响。 帕累托分布和马太效应 [25, 256] 表明信息、影响力或注意力往往集中在已经在社区中占主导地位的一小群人身上。 因此,在模拟社交互动时,信息发送者的身份、地位和声誉也至关重要。 一些研究从现实世界的数据开始,对意见领袖进行详细的建模[251, 252]。 其他研究并不关注影响者的角色,而是通过结合社会印象记忆[236]和分享党派关系[31]等关系信息来模拟影响者所施加的影响力。 研究发现,除了个人施加的影响之外,随着群体规模的扩大,单个影响者的影响可能会减弱。 然而,群体对个体的影响往往促使个体的行为与群体保持一致,导致羊群效应的出现[33]。

5.1.4 Outcomes

社会涌现表明,个体互动产生的集体行为或现象并不是个体行为的线性总和,而是互动中出现的复杂模式[21, 259]。 这些互动结果可能是可衡量的宏观结果,例如投票结果和舆论水平,也可能是定性的社会现象和规范。 接下来,我们将分别讨论这两类结果。

Macro Statistical Results
宏观统计结果通常是现有研究的重点,因为它们与市场研究、选举预测和舆情预测等预先确定的研究目标密切相关。 这些研究通常旨在计算系统中所有代理的选择或意见的总和或平均值。 为了获得静态的意见分布,一些研究忽略了社会互动,而是直接总结个人选择以获得宏观结果[96, 227],简化了社会动态的复杂性。 另一条研究重点是通过对一段时间内代理之间的多轮交互进行建模,然后对结果进行统计分析来关注指标的变化[27,215,218,248,249]。

社会现象和社会规范的形成
除了可量化的宏观结果外,一些社会现象和社会规范也是社会互动的重要结果。 一方面,一些研究已经确定了推荐系统中的泡沫效应[257]、社交媒体中的回声室[25,33,245]、竞争性代理交互中的马太效应[219]以及竞争性代理的自发合作[218] ] 通过计算附加指标或观察主要指标的趋势。 另一方面,一些研究将社会规范视为社会互动的重要副产品。 这包括模拟和测试社区规则是否可以塑造所需的社会规范[247],构建规范架构以观察社会规范的出现[232],研究社交媒体语言在存在监管约束的情况下如何演变[243],以及观察变化 现实世界场景中的社会规范,例如自动驾驶[264]。

5.2 Scenario

社会模拟已广泛应用于与人类社会相关的各种场景。 这些场景涵盖了人类日常生活的不同方面,现有的研究可以分为三个主要领域:普通经济学、社会学和政治学以及在线平台。

5.2.1 General Economics

普通经济学中的模拟分析与资源配置和竞争相关的决策和行为。 这些研究主要研究主体如何在经济激励、市场规则和资源限制的影响下做出决策,同时也研究群体之间的相互作用如何塑造更广泛的经济趋势。

博弈论和战略互动
一些研究主要集中在博弈论和策略互动方面。 这些场景通常涉及小群代理,主要关注代理之间的复杂交互。 一些作品利用经典的博弈论博弈,如囚徒困境,来探索博弈论场景中的代理行为,包括信任行为[211]、逻辑推理和决策[212]、理性和策略推理能力[213]、 合作倾向[214]以及情绪状态如何扰乱理性决策[217]。 其他研究侧重于游戏以外的现实场景,例如竞争环境中的自发合作[218]、企业竞争中的复杂市场行为[215]以及餐厅和顾客代理之间的竞争[219]。 总体而言,前一种场景简化了环境,使对代理行为进行受控研究变得更容易,而后者为现实世界的应用程序提供了更多见解。

Economic Contexts
除了对博弈论和战略互动的密切研究之外,一些研究还关注主体的使用及其在经济环境中的互动。 Horton [220] 在各种实验中研究了LLM驱动的经济主体,以复制经济场景中的人类行为。 EconAgent [27]引入了宏观经济模拟的代理,强调宏观经济趋势的影响。 SRAP-Agent [221]提出了一个模拟和优化经济学中稀缺资源配置的框架,特别是在公共住房分配场景中。 此外,一些研究涉及更广泛的宏观经济领域,利用代理来模拟和预测疾病的传播和失业率的变化[224, 225]。

5.2.2 社会学和政治学

社会模拟已广泛应用于社会学和政治科学研究。 这些研究范围从验证理论和假设的小规模实验室实验到旨在了解公共选择的大规模社会调查。 目标是利用代理作为人类的替代品来研究社会学和政治背景下的人类行为。

Public Opinion Survey
社会模拟的一个主流应用是民意调查,旨在通过模拟预测特定群体对某一特定主题的看法,并汇总他们的意见,以支持选举预测、公共管理等高级需求。 阿盖尔等人。 [12]通过在美国进行的几次大规模调查,首次提出LLM可以作为人类的硅样本。 在此基础上,一些研究将重点扩展到民意调查场景[13,226,240],例如选举民意调查[227]和公共行政危机应对[228],更深入地研究人口复杂性和算法偏差等问题 。 最近,代理人已经证明了在个人访谈中复制参与者反应的潜力[229]。 这些研究为研究个人和集体行为的新工具奠定了基础。

个人和组织行为观察
其他研究侧重于观察共同或特定环境中的个人或组织行为。 有些作品没有指定特定的场景,而是在沙盒环境中观察智能体的社交互动和日常生活中的潜在现象[32,231,232,237]。 其他研究旨在验证特定场景下的理论或假设,例如党派群体的智慧[31]、信息管理[233]、组织行为管理[238]和人格特质的演变[239]。

5.2.3 Online Platform

在线平台是社会模拟的重要组成部分,为研究数字环境中复杂的社会现象提供了实用的手段。 这些平台,从社交媒体到在线社区,允许代理模拟现实世界的互动并研究意见形成、信息传播和集体行为等动态。

社交平台
在线社交平台长期以来一直是研究信息传播和观点演变的重要试验场。 这些研究通常会重建类似于流行社交平台(例如 Twitter、Reddit 和微博)的环境,其中包含分享、评论和点赞等行为的操作空间。 通过模拟这些场景,研究人员可以对信息传播进行建模并跟踪事件发生后用户态度的变化,涵盖一般新闻、谣言和意见领袖的角色等广泛主题[26,243,244,248,250 ,251]。 在这种场景中,代理的角色和关系在确保真实模拟方面发挥着关键作用。 最初,许多研究依赖于从平台上抓取的真实数据来保持一致性 [25, 248]。 然而,随着这些模拟规模的扩大和数据采集变得更具挑战性,研究人员开始探索合成数据的使用[33]。 此外,为了满足模拟大量智能体日益增长的需求,一些研究开发了大规模社会模拟平台[265, 266],采用并行处理和其他策略来提高模拟效率。

Recommendation Environments
另一个广泛研究的场景是推荐环境,这些工作使用代理来模拟用户响应,以验证和改进推荐算法[254, 255]。 这些研究的一个关键特征是使用代理来模拟个性化行为,例如项目选择、偏好和情绪反应,通常会整合用户记忆和情境因素[256-258]。 此外,一些方法结合了外部知识或自我反思机制,允许代理随着时间的推移适应和从他们的交互中学习[267]。 这些研究共同展示了LLM如何弥合传统推荐系统与更具交互性、类人行为模拟之间的差距,提供提高推荐准确性和更好地了解用户动态的新方法。

5.3 Evaluation

对于社会模拟,评估主要侧重于模拟结果与现实数据的比较,评估围绕微观层面、宏观层面和系统层面进行。

Micro-level Evaluation
个体模拟的准确性是社会模拟的关键。 因此,社会模拟的微观评价受到了广泛的关注。 最初,非现实世界模拟中的评估利用图灵测试,通常由人类或LLM主观地评估代理行为与人类行为的相似性[32,236,268]。 对于特定场景,提出了党派偏见和人类相似度指数等指标[31]。 当模拟针对具有可用经验数据的现实世界场景时,可以通过将模拟内容与现实世界数据进行比较来设计情感、态度、行为一致性和用户品味一致性等自动化指标,以进行更客观的评估[25,248,257]。

Macro-level Evaluation
社会互动往往会产生集体结果,因此评估宏观层面的结果是否表现出与现实世界一致的模式和趋势非常重要。 对于社会学和网络平台,通常关注集体观点和特征的传播规模、分布和趋势是否与现实世界相符。 除了主观评价等定性方法[248, 257]之外,一些研究还提出了定量指标,例如拟合参数、相关系数和群落内容毒性变化等来客观地衡量这种差异[25,26,33,249] 。 同样,在经济模拟中,对模拟经济系统的评价取决于能否再现最具代表性的宏观经济规律[27]。

System-level Evaluation
系统级评估涉及评估模拟系统的整体性能,而与模拟的具体内容无关。 随着模拟中代理数量的不断增加,当代研究的重点已转向系统效率和相关成本。 效率是通过各种指标来评估的,例如运行模拟所需的时间、过程中使用的资源以及模拟随着代理数量的增加而扩展的程度[33,256,266]。 这些指标对于了解系统处理复杂性和大型模拟需求的能力至关重要。 在成本方面,评估通常集中在模拟过程中消耗的代币数量或产生的财务支出[236]。

6 Datasets and Benchmarks

6.1 Individual Simulation

我们在表4中总结了场景模拟常用的数据集。个体模拟的数据集可以分为两类:描述数据集和对话数据集。 描述数据集包括个人特定信息,例如生活经历、人际关系以及职业、年龄和性别等基本人口统计详细信息,通常来自文献摘要或百度和维基百科等搜索引擎。 对话数据集由特定场景中的单轮或多轮对话组成,通过提取目标角色的相关情节或从社交媒体收集话语来创建。 一些数据集是专门为评估而设计的,将基本的个人信息与定制的问题或任务相结合以评估模拟性能。
在这里插入图片描述

6.2 Scenario Simulation

我们在表 5 中总结了场景模拟的常用数据集,包括对话驱动和任务驱动的场景。 数据集涵盖多种格式,包括 QA、多项选择、评级、代码和游戏。 我们观察到,质量保证和多项选择格式在数据类型中占主导地位,而司法、游戏和媒体等特定领域的数据集更喜欢保留特定领域的数据类型。 根据任务复杂程度,数据集分为三个级别:简单、中等和困难。 此外,根据收集方法,数据集被分类为人工注释的、真实世界的或合成的。

在这里插入图片描述
在这里插入图片描述

6.3 Social Simulation

我们在表 6 中总结了社交模拟常用的数据集或基准。在社交模拟中,数据集通常由两部分组成:用于代理初始化的数据集和用于评估的数据集。 用于代理初始化的数据通常包含代理之间的配置文件和潜在关系,以帮助初始化模拟设置。 相比之下,用于评估的数据集提供了现实世界个体行为的参考数据。 这些数据集的来源有多种,例如公共调查、MovieLens 和 Amazon-Book 等现有数据集,以及从 Twitter 等在线平台抓取。
在这里插入图片描述

在这里插入图片描述

7.1 Trend of Individual Simulation

7.1 Trend of Individual Simulation

由LLM支持的个人模拟从社会科学发展而来,经历了三个不同的阶段,即粗略模拟、更细致的模拟和面向情境的模拟,如图5所示。自2022年6月以来,研究人员开始关注粗略模拟, 特别是对于表面特征,例如测试LLM的性格和模拟知名人物 [81, 137]。 2023 年 8 月之后,趋势转向对特定个体进行更精细的模拟,研究评估模拟模型的认知方面 [61, 67] 并提高其模拟能力 [65, 84]。 到 2024 年 5 月,研究人员开始在特定场景中进行单独模拟 [70, 111],进一步扩大这些模拟的复杂性和真实性。

在这里插入图片描述

图 5:个体模拟趋势图解,包括粗略模拟、更细致的模拟和面向情境的模拟。

7.1.1 表面特征的粗模拟

自 2022 年 6 月以来诞生了许多个人模拟作品,其中大多数最初专注于模拟人类行为中隐含的表面特征。 很大一部分工作致力于收集和标准化角色相关信息,以构建基于角色的数据集 [55, 56]。 此外,在早期阶段,找出流行的LLM的潜在人口特征构成了挑战[81, 120]。 对粗略个体模拟的早期试验揭示了LLM在模拟过程中的属性,包括幻觉、固有偏见和刻板印象,这些属性被证明对未来的模拟至关重要。

7.1.2 对特定角色进行更细致的模拟

随着各个模拟方法的进步,模拟的精度显着提高。 个人模拟的更细微的方面受到越来越多的关注。 一些工作实现了新的功能并完善了模型的架构,例如合并记忆和规划模块[66, 84],而另一些工作则专注于设计用于训练和评估的特定任务,例如多维访谈[61]和具有丰富信息的模拟 来自场景描述和经验记忆[28]。

7.1.3 情境模拟

面向情境的个人模拟从游戏环境中开始[119],其中LLM需要根据预定义的规则做出适当的决策。 在更复杂的环境中,模拟个体应该与周围环境动态交互,响应实时环境反馈 [100, 111]。 除了对话等传统模拟之外,面向情境的模拟还扩展到戏剧表演 [105]、数字游戏探索 [109] 和 3D 任务执行 [107] 等领域。 随着这些模拟的复杂性不断增加,对底层架构的要求也随之增加。

7.2 Trend of Scenario Simulation

情景模拟的发展经历了几个不同的阶段。 从2023年1月开始,不同的研究主要关注涉及单一目标的简单场景,并促进基本的情境交互[144,175,181,188]。 到 2023 年 6 月,重点转向多阶段场景,纳入多步骤任务,使代理能够在不同的环境中进行顺序决策和自适应响应,以实现更复杂的目标 [165,182,190,192]。 到 2024 年 2 月,研究越来越关注多智能体协作场景,强调智能体在复杂、高阶模拟中合作和适应的能力 [149,164,184,236]。
在这里插入图片描述

图6:场景模拟趋势图解,经历了简单场景、多阶段场景和协作场景。

7.2.1 Simple Scenario

在场景模拟的初始阶段,研究人员专注于构建支持基本代理交互的简单场景。 这项工作大部分集中在对话驱动的决策框架上,该框架促进了结构化信息交换和代理协调[49,175,188]。 此外,研究通过多主体辩论框架探索了主体的协作潜力,利用辩论和批判性反馈来评估LLM的合作推理和绩效提升[29,143,144]。 同时,其他研究在特定领域(例如法律、软件开发、科学分析和推荐系统)应用场景模拟,证明了基于任务的模拟在实现特定领域目标方面的多功能性[161,176,181]。

7.2.2 Multi-Stage Scenario

与简单的面向任务的场景不同,多阶段场景不再局限于单纯的代理交互。 相反,他们强调场景的细粒度构建。 此阶段引入了多个角色和任务分解作为中心元素,使代理不仅能够在单个任务上进行协作,而且还可以通过需要协调努力的增量任务分解进行协作[191, 192]。 在软件开发中,[17, 177]将开发过程分解为设计、编码和测试等多个阶段,以增强实现复杂目标和提高软件质量的能力。 此外,还引入了交流游戏来研究复杂对话场景中的人类行为,增加了交互分析的深度[150-153]。

7.2.3 Collaborative Scenario

随着对场景模拟的兴趣日益浓厚,研究转向协作场景,强调智能体交互中的先进社会动力学和合作策略。 [197, 198] 引入强化学习,使LLM与具体环境保持一致。 为了构建高效的场景模拟,[236] 专注于通过建模社会关系来降低 LLM 推理成本,而 [164] 在 Minecraft 等环境中利用动态“代理树”,实现异步任务执行以实现高效的资源收集。 此外,[19, 141] 模拟了现实世界中的协作环境,反映了复杂的社会互动,例如医疗过程和社交技能的发展,以及代理处理不断变化的多步骤任务。

7.3 Trend of Society Simulation

自从 Park 等人首次提出社会模拟的概念以来。 [247],出现了许多值得注意的研究。 概括地说,该领域的发展可以分为三个阶段。 2023年6月之前,研究人员集中于构建初步环境[32,199,224]。 到 2024 年 2 月,重点转向探索特定场景内的一致性,例如角色建模和目标环境,标志着出版物的首次大幅激增 [27,248,272]。 最近,趋势已转向扩大规模并纳入多模式方法。 在此阶段,大规模精确建模已获得认可,视觉和语音等其他模态也被集成到模拟中[25,158,232,273]。 主要特点可概括为:

在这里插入图片描述

图7:社会模拟趋势图解,经历了三个阶段:构建初步环境、探索特定场景的匹配以及向多模态扩展的过程中。

7.3.1 搭建初步环境

社会模拟的复杂性,在一定程度上源于所涉及环境的复杂性。 社会模拟通常涉及多个相互作用的个体(如人、组织、群体等),这些个体在特定的环境(如城市、市场、网络空间等)中行动。 因此,先锋工作的重点是如何设计一个特定的环境来支持社会模拟。 [32]通过扩展 LLM 来存储代理经验的完整记录并动态合成内存来规划行为,构建了一个交互式沙箱环境。 [224]构建了流行病传播模拟环境,在个体层面模拟人类行为,以在模拟环境中重现流行病的传播。 [199]创建了一个易于使用的基础设施,允许研究人员通过添加代理和建筑物来构建评估任务,为测试LLM提供可视化和基于程序的平台。

7.3.2 探索特定场景的一致性

随着仿真环境技术的发展,社会仿真已基本实现可操作性。 此时,为了检验模拟的可信度,评估智能体在特定任务上与真实情况的对齐表现逐渐成为一个重要的研究方向。 [248]使用真实的社交网络数据通过评估模拟社交网络环境中个体和群体层面的行为和决策来衡量模拟的准确性。 [27]通过模拟宏观经济活动,并将LLM智能体与传统的基于规则的智能体或语言智能体在产生通货膨胀和失业等经典宏观经济现象方面的表现进行比较,来评估LLM智能体的决策合理性。

7.3.3 扩大规模并向多模式发展

扩大规模
在基于 LLM 的代理被广泛应用于社会模拟之前,研究人员主要依赖于基于代理的建模 (ABM) 方法,其中代理通常被编程为根据预定义的算法做出反应。 随着LLM的出现,提供了类人智能的一瞥[274],基于LLM的代理进入了聚光灯下。 鉴于基于LLM的智能体在一系列特定场景中的良好表现,研究人员开始扩大模拟规模。 [25, 232]涉及大规模社会模拟的核心要素,研究主体之间的相互作用和行为规范的生成。 [158]提出了一个在大规模社会模拟环境中评估LLM智能体高级推理能力的试验场。

Multi-Modal
随着语言模型的发展,利用语言代理进行社会模拟已成为研究热点。 它将生活中的视觉等其他模态信息元素通过文本描述融入到模拟中。 然而,随着视觉语言模型(VLM)领域的一系列进展[36,275,276],研究人员开始将基于VLM的智能体纳入社会模拟研究中。 [273]提供大规模场景下丰富的多模态交互信息和详细注释。 [237]专注于模拟现实世界的感知限制和物理需求,以促进更现实的社会互动。

8 Conclusion

在本文中,我们将LLM驱动的社会模拟分为三种类型:个人、场景和社会模拟,强调它们从建模个人行为到复制复杂的社会动态的进展。 通过系统地回顾这些类别的架构、方法和评估,我们为推进该领域的研究提供了一个结构化框架。 这项工作旨在指导基于LLM的模拟的发展,并促进跨学科研究,以应对现实世界的挑战并支持决策。

以上内容全部使用机器翻译,如果存在错误,请在评论区留言。欢迎一起学习交流!

如有侵权,请联系我删除。xingyezn@163.com

网址:从个体到社会:基于大语言模型的Agent驱动的社会模拟研究综述 https://www.yuejiaxmz.com/news/view/781033

相关内容

数字员工、超级个体、具身智能,AI Agent未来发展十大研究方向
创新3D虚拟人交互方案受认可,Soul App多模驱动研究论文入选ICCGV 2025
写给小白的大模型应用指南:AI Agent 智能体篇
微软亚洲研究院2025六大预测:AI Agents 将颠覆传统工作模式
大语言模型会推理吗?丨AI那厮
探索大规模语言模型(LLM)在心理健康护理领域中的应用与潜力
从经济金融化到社会金融化——社会学金融化研究的兴起与展望
智能语音SoC模拟前端研究进展
基于PKPM模拟的绿色住宅自然采光优化研究
基于大语言模型+RAG实现的日程管理

随便看看