原文地址：https://arxiv.org/pdf/2304.03442.pdf

Demo地址：http://reverie.herokuapp.com/arXiv_Demo/

该段文字涉及本作品的复制和使用权限。根据该段内容，个人或课堂使用者可以免费制作数字或纸质副本，前提是不以盈利或商业优势为目的进行复制或分发，并且副本上必须包含本声明和完整引用信息。对于本作品中由作者以外的其他人拥有版权的组成部分，必须尊重其版权。允许进行带有来源标注的摘要。未经特别授权和/或付费，禁止进行其他复制、再发布、在服务器上发布或重新分发给其他人。如需获取权限，请发送邮件至[email protected]。此作品的版权归所有者/作者持有，出版权归ACM许可。ACM ISBN xx-x-xxxx-xxxx-x/xx/xx。. . . $15.00。https://doi.org/xx.xx/xx.xx

![[../../../media/b0846ad71c3d0c4b135ed9c59c7492c6_MD5.png]]

图1：生成智能体为交互应用程序创造出逼真的人类行为模拟。在这项工作中，我们通过在一个类似于《模拟人生》的沙盒环境中放置了25个智能体来展示生成智能体的能力。用户可以观察和干预智能体的日常计划、新闻分享、人际关系形成和协调团体活动。

摘要

人类行为的可信代理可以赋能一系列交互应用，这些应用范围广泛，从沉浸式环境到人际沟通的模拟空间，再到原型工具。

在这篇论文中，我们提出了一种生成型代理——这种计算软件智能体能够模拟出可信的人类行为。这些生成型代理会如同人类一样起床、做早餐、上班；艺术家们会绘画，作者们会写作；他们形成观点，注意到彼此，并启动对话；他们记住过去并在反思中规划未来。

为了实现生成型代理，我们设计了一个扩展大型语言模型的架构，用自然语言记录智能体的全部经历，将这些记忆随时间演变为更高级的反思，并在需要规划行为时动态检索这些反思。

我们将生成型代理实例化在一个受到《模拟人生》启发的互动沙盒环境中，这样终端用户就可以用自然语言与小镇上的25个代理进行交互。在我们的评估中，这些生成型代理表现出了可信的个体行为和社交行为：例如，从最开始用户只是为其中一个智能体指定了举办情人节派对的概念，但是它在接下来两天内自动发出了派对邀请、结识新朋友、相互邀约并协商在合适的时机一起出现在派对上。

通过消融实验，我们展示了智能体架构中的每个组件——观察、规划和反思——都对智能体行为的可信度产生了关键性影响。通过将大型语言模型与计算型、交互型的智能体结合，我们在此工作中引入了一种实现人类行为可信模拟的新的架构和交互模式。

我们的代理架构的组成：观察，规划和反思。我们通过消融实验展示了架构的每一部分对代理行为的可信度的关键贡献。通过将大型语言模型与计算、交互式代理结合起来，这项工作引入了实现人类行为可信模拟的架构和交互模式。

CCS 概念

• 人本计算 → 交互系统与工具； • 计算方法 → 自然语言处理。关键词人工智能与人类交互，代理，生成型人工智能，大型语言模型 ACM 参考格式: Joon Sung Park, Joseph C. O’Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, 和 Michael S. Bernstein. 2023年. 生成型代理：模拟人类行为的交互模型. 刊于 . ACM, 美国纽约, NY, 共22页. https://doi.org/xx.xx/xx.xx

引言

我们如何塑造一个表现出可信人类行为、交互式的人造社会呢？

从《模拟人生》这样的沙盒游戏，到诸如认知模型和虚拟环境的应用，过去四十多年里，研究者和实践者一直致力于创造出可以可信地模拟人类行为的计算模型或代理。

在这些设想中，由计算驱动的代理能够根据他们过去的经验一致地行动，并对他们的环境作出可信的反应。这样的人类行为模拟可以将真实的社会现象填充到虚拟空间和社区[26, 79]，帮助人们学习如何处理罕见且困难的人际关系情况[43, 51, 93]，测试社会科学理论[11, 45]，创建模型人类处理器以进行理论和可用性测试[21, 38, 50]，驱动普遍存在的计算应用[30]和社交机器人[9, 13]，并支撑能在开放世界中导航复杂人际关系的非玩家游戏角色[58, 84]。

然而，人类行为的领域广阔而复杂[84,108]。尽管大型语言模型[17]在模拟特定时间点的可信赖人类行为上取得了显著的进展[38,79]，但能确保长期连贯性的全面代理模型更适合采用能够管理持续增长的记忆的架构。这样的架构可以处理新的互动、冲突和事件在时间中的出现和消退，同时也能处理在多个代理之间展开的级联社会动态。成功需要一种能够在长期中检索相关事件和交互，对这些记忆进行反思以概括和得出更高层次的推理，并应用这种推理创建既符合当前瞬间又符合代理的长期行为轨迹的计划和反应的方法。

在本文中，我们引入了所谓的生成型代理 —— 利用生成模型模拟人类行为的代理，并证明它们能够生成对个体和群体行为的可信模拟。生成型代理能够对自己、其他代理以及环境做出广泛的推断；他们会根据自身的特性和经历制定日常计划，执行这些计划，适时进行反应并重新规划；当终端用户改变他们的环境或用自然语言对他们下达指令时，他们也会做出反应。例如，生成型代理在看到他们的早餐烧焦时会关掉炉子，如果浴室被占用，他们会在外面等待，当他们遇见想要交谈的其他代理时，他们会停下来聊天。一个充满生成型代理的社会会展现出新的社交动态，其中包括新关系的形成，信息的扩散，以及代理间的协同工作。

为了实现生成型代理，我们设计了一个代理架构，这个架构能够储存、综合并应用相关的记忆，借助大型语言模型生成可信的行为。我们的架构主要由三个组成部分构成：首先是记忆流，一个能够用自然语言全面记录代理经历的长期记忆模块。其次是反思机制，能够随时间推移将记忆合成为更高层次的推理，从而使代理能够对自身和其他对象进行推断，以便更好地指导其行为。最后是规划机制，它能够将这些推断和当前环境转化为高级别的行动计划，并进一步递归地详细化为行动和反应的行为。这些反思和计划将反馈到记忆流中，以影响代理的未来行为。

这种架构具有多个领域的应用潜力，包括角色扮演、社会原型设计、虚拟世界和游戏等。在社交角色扮演场景（如面试准备）中，用户可以安全地预演复杂且充满冲突的对话。在社交平台的原型设计中，设计师可以超越暂时的角色设定，对随时间推进的动态复杂交互进行原型设计。在本文中，我们主要关注的是创建一个由《模拟人生》等游戏启发的小型互动代理社会的能力。通过将我们的架构与ChatGPT大型语言模型[76]连接，我们在游戏环境中创建了一个由25个代理构成的小型社会。终端用户可以观察并与这些代理进行互动。例如，如果一个终端用户或开发者希望在游戏中举办一个情人节派对，传统的游戏环境会需要手动编写大量角色的行为。我们证明了，有了生成型代理，只需简单地告诉一个代理她想要举办一个派对就足够了。尽管存在许多潜在的失败点——例如，派对策划者需要记得告诉其他代理关于派对的事，参加者需要记住邀请，记住邀请的人需要决定是否真的参加，以及其他可能的失败点——但我们的环境中的代理最终成功了。他们传播了关于派对的消息，然后参加了派对，甚至有一个代理邀请了另一个代理一起参加派对，这些都源于一个单一的用户生成的建议。

我们对生成型代理进行了两次评估：一是控制评估，测试代理能否在独立状态下产生可信的行为；二是端到端评估，让生成型代理在两天的游戏时间里自由互动，以了解它们的稳定性和显现的社交行为。在技术评估中，我们采用了一种方法，通过用自然语言”采访”代理，检测代理的保持角色、记忆、规划、反应和准确反思的能力。我们比较了几种限制代理访问记忆、反思和规划能力的版本。我们发现，这些组件每一部分对于在这些”采访”任务中展现强大表现都至关重要。在技术评估和端到端评估中，最常见的错误来自于代理未能检索相关记忆，对代理记忆进行了虚构的修饰，或者从语言模型中继承了过于正式的言辞或行为。

总结起来，本文提出了以下贡献：

• 提出了生成型代理，它们是对人类行为的动态模拟，能够根据代理的不断变化的经验和环境进行适应。

• 设计了一种新颖的架构，使得生成型代理能够记忆、检索、反思，与其他代理交互，并在动态变化的环境中进行规划。该架构利用了大型语言模型强大的提示功能，并在此基础上增强了这些功能，以支持长期的代理一致性，管理动态演变的记忆，并递归地生成更多代理。

• 进行了两项评估（一项受控评估和一项端到端评估），明确了架构组件的重要性的因果效应，并识别了例如不适当的记忆检索等问题所引起的故障。

• 讨论了生成型代理在交互系统中的应用机遇以及伴随的道德和社会风险。我们主张，这些代理应被调整以减小用户形成偏社会关系的风险，通过记录来减小由深度伪造和定制说服引发的风险，并以一种补充而非替代设计过程中的人类利益相关者的方式进行应用。

相关工作

在这一部分，我们审视了人工智能与人类交互的既有文献，并在其框架内阐述了构建可信赖的人类行为代理的目标。这个目标，曾被交互、游戏和人工智能社区誉为指导方向[9,58,84,85]，但由于人类行为的复杂性，它仍然充满了挑战[16,108]。我们综合了这些研究，提出虽然大型语言模型本身并不完全足够，但如果通过适当的架构加以利用，它们可以为创造可信赖的代理提供新的可能性。

人工智能交互

交互式人工智能系统的目标是将人类的洞察力和能力融入到可以提升用户体验的计算工具中[3,29]。许多研究已经探讨了如何让用户能够以交互的方式定义模型的行为。例如，“Crayons”项目展示了交互式机器学习的早期设想，它允许非专业用户训练分类器[29]。后续的研究帮助明确了终端用户如何通过示例[33]和/或示范[31]来向系统表述他们的分类目标。近期的研究则将这些探索扩展到了深度学习[62]以及基于提示的编写[49,66,106]上。

同时，一直有一项坚持不懈的研究正在推进人机交互中基于语言和代理的交互。开创性的研究如SHRDLU [103]和ELIZA [102]展示了与计算系统进行自然语言交互的机遇与风险。随着研究的深入，我们逐渐认识到，自主代理可以为委托和交互提供新的隐喻，但人类与代理间的委托关系仍在不断争议和精炼之中[46,88,89]。近期，这种技术已足够稳定，使得代理能够在大型且复杂的在线社交环境中通过自然语言进行交互（例如，[54]）。自然语言交互提供了一种新颖的模式，能够扩展用户在如照片编辑[2,34,64]和代码编辑[87]等领域的能力。

我们汇聚这些研究线索，表明我们现在能够创建用于交互系统的代理人类行为的智能体，并通过自然语言与之交互。在这一过程中，这项工作重新开启了对基础人机交互问题的审查之门，涵盖了诸如GOMS和KLM的认知模型[21,22]，原型工具[79]，以及普适计算应用[25,30,100]等方面。

可信的人类行为代理

过去的研究已经将可信性，或者称为可信的代理，视为一个核心的设计和工程目标。可信代理被设计出来，提供一种生命的假象，并在决策和自主行动的方式上表现出现实主义的外观，类似于迪士尼电影中的角色[9,95]。这些代理能够在我们所居住的开放世界环境中生活和感知[9,58]，并且力图通过展现在与用户或其他代理的社交互动中产生的行为，来成为我们在对个体和社区的假设模拟中行为的可信替代[19,35,70]。从历史上看，这些代理是在智能游戏非玩家角色（NPC）的背景下开发的[58,84]。如果可能的话，创建具有可信行为的NPC可以通过使得叙事和与代理的社交互动产生新的可能[7,15,48,92][110]，来增强在游戏和互动小说中的玩家体验。然而，更为重要的是，游戏世界提供了对现实世界可供性的逐渐真实的表现，如Laird和van Lent在2001年所观察到的，这些模拟世界为可信代理的开发者提供了易于获取的测试平台，使他们能在不需要关心在现实世界中实现机器人或者从零开始创建模拟环境的情况下，提升代理的认知能力[58,84]。

在过去四十年里，涌现出了各种各样的方法用于创建具有可信度的代理。然而，在实际应用中，这些方法往往会简化环境或是代理行为的多个维度，以便更有效地进行管理[16,72]。基于规则的方法，例如有限状态机[90,96]和行为树[40,53,81]，都是通过人为定义代理的行为来实现的[70]。这些方法提供了一个简单直接的方式来创建代理，至今仍然是最主流的方式[68,73,109]，甚至可以处理一些基础的社交互动，如在《质量效应》[12]和《模拟人生》[6]系列游戏中所展示的。然而，手动编写能全面应对开放世界中所有可能交互的行为并不可取。这就意味着，这些代理的行为可能无法完全反映出他们交互的结果[69-71]，也无法执行那些没有在脚本中硬编码的新程序[90,96]。另一方面，主流的基于学习的创建可信代理的方法，如强化学习，已经通过让代理自我学习行为来解决了手动编写的问题，并且在最近几年在《星际争霸》的AlphaStar[98]和《Dota 2》的OpenAI Five[10]等游戏中展现出超人的表现。然而，他们的成功主要是在有明确定义奖励的对抗性游戏中实现的，这种奖励是学习算法可以优化的。但他们尚未解决在开放世界中创建具有可信度的代理的挑战[39,73,90]。

由Newell首创的计算认知架构旨在构建一个支持全面认知功能集合[75]的基础设施，这些功能正适应了其初始愿景中可信代理的全面性质。这些架构推动了一些最早期的可信代理的出现。例如，Quakebot-SOAR[59]和ICARUS[24, 63]在第一人称射击游戏中生成了非玩家角色（NPCs），而TacAir-SOAR[80]在空中战斗训练模拟中生成了飞行员。这些代理所使用的架构虽然不同（Quakebot和TacAir-SOAR依赖于SOAR[60]，而ICARUS则依赖于其自身的变体，该变体受到SOAR和ACT-R[5]的启发），但他们都分享了同样的基础原理[61]。他们维护短期和长期记忆，用符号结构填充这些记忆，并在感知-计划-行动周期中运行，动态地感知环境，并将其与其中一种手动制作的行动程序相匹配[57,96]。利用认知架构创建的代理旨在适应大多数（如果不是全部）的开放世界环境，并在那个时代展示了稳健的行为表现。然而，他们的行动范围被限制在手动制作的程序化知识之内，他们并没有提供一种机制使代理能够受启发去寻找新的行为。因此，这些代理主要被应用在如第一人称射击游戏[24,59]或积木世界[63]等非开放世界环境中。

如今，按照原始定义创建可信代理的任务依旧是一个未解决的难题[84, 108]。很多人转向其他观点，他们主张虽然现有创建可信代理的方式可能既繁琐又有限，但对于支持现有的游戏玩法和互动来说已经足够了[23, 74, 108]。我们的立场是，只要我们能够精心构造一个能将记忆合成为可信行为的有效架构，大型语言模型就为我们提供了一个重新审视这些问题的机会。在本文中，我们提出了向构建这种架构迈进的一步。

大型语言模型与人类行为

生成型代理利用大型语言模型来驱动其行为。关键的观察是，大型语言模型在其训练数据中编码了一系列人类行为[14, 17]。如果用一个明确的上下文来引导，这些模型可以被用来生成可信的行为。最近的工作已经证明了这种方法的有效性。例如，Social Simulacra使用大型语言模型生成用户，这些用户将进入新的社交计算系统以原型化他们的新兴社交动态[79]。这种方法使用了提示链[105, 106]来生成关于人物和他们在被原型化的系统中的行为的短小的自然语言描述。其他实证研究已经复制了现有的社会科学研究[45]、政治调查[91]，并生成了合成数据[38]。大型语言模型也被用来生成与用户进行互动的人类行为。例如，在游戏中，这些模型已经被用来创建交互式小说[36]和文本冒险游戏[20]。凭借它们生成和分解动作序列的能力，大型语言模型也被用于规划机器人任务[47]。例如，当面临一个任务，比如拾起一个瓶子，模型会被引导去将任务分解成更小的动作序列，比如走向瓶子所在的桌子并拾起它。

我们认为，根据上述的研究，大型语言模型能够成为创建可信代理的关键要素。现有的研究大多依赖于所谓的一阶模板，这些模板使用少数提示[37, 65]或者思维链提示[99]。这些模板有效地生成了只依赖于代理当前环境的行为（比如，怪物会如何回应给定的帖子，或者在有门的情况下，机器人需要采取什么行动才能进入房间）。然而，可信代理不仅需要依赖其当前环境，还需要依赖大量的过去经验，而这些对一阶提示来说是不合适的（到今天为止，由于底层模型的上下文窗口限制，这甚至是不可能的）。最近的研究试图通过增强语言模型，添加静态知识库和信息检索方案[52]，或简单的总结方案[104]，以超越一阶提示。本文扩展了这些想法，设计了一个代理架构，用于处理检索，其中过去的经验在每个时间步都会动态更新，并与代理的当前上下文和计划相混合，这些可能会相互强化或互相矛盾。

生成型代理行为和互动

![[../../../media/d75f86d42dfbfebbbcd2a2615d199ae2_MD5.png]]

图2：标注了各个区域的Smallville沙盒世界。根节点代表整个世界，子节点描绘出各个区域（例如，房屋，咖啡馆，商店），叶节点则描述各个物体（例如，桌子，书架）。代理会记住它们所见过的世界部分的子图，以及它们在看到这些部分时的状态。

为了明确生成型代理的功能，我们将其实例化为类似《模拟人生》[6]的简易沙盒世界中的角色。这个基于精灵的沙盒游戏世界，叫做Smallville，营造出了一个小镇的环境。在本节，我们将通过Smallville来详述生成型代理的功能和它们的交互方式，并描述这些代理在其中的行为表现。接着，在第4节，我们将引入我们的生成型代理架构，它是这些功能和交互的驱动力。在第5节，我们会阐述沙盒环境的实现方式，以及代理如何与沙盒世界的底层引擎互动。

智能体化身和交流

Smallville是由25个独特的代理组成的社区。每个代理都用一个简单的精灵形象表示。我们为每个代理撰写了一段自然语言描述，描绘出他们的身份，包括他们的职业和与其他代理的关系，这些都作为种子记忆。举例来说，John Lin的描述如下：

John Lin is a pharmacy shopkeeper at the Willow Market and Pharmacy who loves to help people. He is always looking for ways to make the process of getting medication easier for his customers; John Lin is living with his wife, Mei Lin, who is a college professor, and son, Eddy Lin, who is a student studying music theory; John Lin loves his family very much; John Lin has known the old couple next-door, Sam Moore and Jennifer Moore, for a few years; John Lin thinks Sam Moore is a kind and nice man; John Lin knows his neighbor, Yuriko Yamamoto, well; John Lin knows of his neighbors, Tamara Taylor and Carmen Ortiz, but has not met them before; John Lin and Tom Moreno are colleagues at The Willows Market and Pharmacy; John Lin and Tom Moreno are friends and like to discuss local politics together; John Lin knows the Moreno family somewhat well — the husband Tom Moreno and the wife Jane Moreno.

每个用分号分隔的短语在模拟开始时都会作为记忆输入到智能体的初始记忆中。

代理间交流

代理通过行动与世界交互，并通过自然语言与彼此交流。在沙盒引擎的每个时间步骤中，代理们输出一个描述他们当前行为的自然语言陈述，例如”Isabella Rodriguez正在写日记”，”Isabella Rodriguez正在检查她的电子邮件”，”Isabella Rodriguez正在通过电话和家人聊天”，或”Isabella Rodriguez正在准备睡觉”。然后，这个陈述被翻译成对沙盒世界产生影响的具体动作。这个动作以一套emoji的形式展示在沙盒界面上，这些emoji在俯视图中提供了动作的抽象表示。为了实现这一目标，系统采用了一个语言模型，将动作翻译成一组emoji，这些emoji在每个代理的头像上方的对话气泡中出现。例如，”Isabella Rodriguez正在写日记”会显示为📖✏，而”Isabella Rodriguez正在检查她的电子邮件”会显示为💻📧。通过点击代理的头像，可以获得对动作的完整自然语言描述。

代理们以完全的自然语言进行彼此的交流。代理们知道他们所在地区的其他代理，生成型代理架构决定他们是走过或参与对话。这里，有一个在Isabella Rodriguez和Tom Moreno之间的对话中的样本，他们在谈论即将来临的选举：2

Isabella: I’m still weighing my options, but I’ve been discussing the election with Sam Moore. What are your thoughts on him?

Tom: To be honest, I don’t like Sam Moore. I think he’s out of touch with the community and doesn’t have our best interests at heart.

用户控制

执行此模拟的用户可以引导模拟过程并进行干预，这可以是通过与代理进行对话，或者以”内在声音”的形式对代理发布指令。用户通过自然语言与代理进行交流，并明确指定代理应该将他们识别为什么样的角色。例如，如果用户表明他们是一名新闻“记者”并问及即将到来的选举，“谁正在竞选公职？”时，John这个代理则会回复：

John: My friends Yuriko, Tom and I have been talking about the upcoming election and discussing the candidate Sam Moore. We have all agreed to vote for him because we like his platform.

为了直接对代理发出命令，用户需要扮演代理的“内心声音”的角色——这使得代理更可能把这个声明当作一条指示。比如，当用户以John的内心声音的身份告诉他“你将在即将到来的选举中与Sam竞争”，John便决定参选，并与他的妻子和儿子分享了他的竞选决定。

环境交互

Smallville具备一个小村庄的常见功能，包括咖啡馆、酒吧、公园、学校、宿舍、房屋和商店。它还定义了使这些空间具有功能的子区域和物体，例如房屋中的厨房和厨房中的炉子（图2）。所有作为代理主要居住区的空间都设有床、桌子、衣柜、架子，以及浴室和厨房。3

代理在Smallville中的活动就如同在简单的视频游戏中一样，他们可以进出建筑、导航地图、并与其他代理接触。代理的行动由生成型代理架构和沙盒游戏引擎驱动：当模型决定代理将前往某个地点时，我们在Smallville环境中计算出一条通往目的地的步行路线，然后代理便开始行动。另外，用户也能以其中一个代理的身份进入Smallville的沙盒世界。用户扮演的代理可以是世界中已经存在的代理，例如Isabella和John，也可以是一个在Smallville没有过去历史的外来访客。Smallville的居民对待用户控制的代理的方式与他们对待彼此无异。他们会注意到它的存在，发起交互，记住它的行为，然后在此基础上形成对它的看法。

用户和代理可以影响这个世界中对象的状态，就像在《模拟人生》这样的沙盒游戏中一样。例如，当代理睡觉时，床可以被占据；当代理用完食材做早餐时，冰箱可以为空。终端用户也可以通过用自然语言重写代理周围物体的状态，来改变Smallville中代理的环境。例如，当Isabella在早晨做早餐时，用户可以通过向系统输入一条命令来改变厨房炉子的状态，从“开着的”变为“在燃烧”，这样选择对象并描述其新状态： “<Isabella’s apartment: kitchen: stove> is bur ning.”Isabella会在下一刻注意到这一点，去关掉炉子，重新做早餐。同样，如果用户在她进入浴室时设置Isabella的淋浴为“漏水”，她会从她的客厅收集工具，尝试修复泄漏。

示例 “生活中的一天”

从简短的一段描述开始，代理就开始规划他们的一天。随着沙盒世界中的时间的流逝，他们的行为随着这些代理与他人和环境的互动，建立记忆和关系，以及协调共同活动而逐渐发展演变。

![[../../../media/516b7f513219b4329f1589899d81f0e1_MD5.png]]

图3：生成代理John Lin的一天之早晨。John大约在早上6点左右醒来并完成他的早晨例行公事，包括刷牙、洗澡和吃早餐。在出门开始他的工作日之前，他简短地与他的妻子Mei和儿子Eddy聊了一会儿。

我们通过追踪我们的系统在一整天中对代理人John Lin的输出来展示生成代理的行为模式（见图3）。在Lin家，John是早上7点第一个醒来的人。他刷牙，洗澡，穿好衣服，吃早餐，并在客厅的餐桌上阅读新闻。早上8点，Eddy也跟着起床，匆忙从床上爬起来准备他的课程。他正好在John准备出门的时候赶上他：

John: Good morning Eddy. Did you sleep well?

Eddy: Good morning dad. Yeah, I slept great.

John: That’s good. What are you working on today?

Eddy: I’m working on a new music composition for my class. It’s due this week, so I’m trying to get it finished.

But I’m having so much fun with it!

John: That sounds great!

Eddy离开后不久，Mei醒来并和John一起见面。Mei询问她的儿子，John回忆起他们刚刚的对话:

Mei: Did Eddy already leave for school?

John: Yes, he just left. He’s working on a music composition for his class.

Mei: Oh, that’s wonderful! Tell me about it.

John: I think he’s really enjoying it! He said he’s having

a lot of fun with it.

Mei: That’s great! I’m so proud of him.

在他们结束对话后，Mei和John打包好自己的东西。Mei继续教书并致力于她的研究论文，而John则在早上9点开启他在柳树市场和药店的药品柜台。

新兴社交行为

通过互动，Smallville中的生成代理能够交换信息，建立新的关系，以及协调共同的活动。这些社会行为是从互动中自然产生的，而不是预先编程设定的，这延续了先前的研究[79]。

信息传播

当代理注意到彼此时，他们可能会进行对话——在这个过程中，信息可以从一个代理传播到另一个代理。例如，在杂货店中Sam和Tom的一次对话中，Sam告诉Tom他在当地选举中的候选人身份：

Sam: Hey Tom, how’s it going?

Tom: Good, thanks. What’s up?

Sam: Well, I wanted to talk to you about something. I’m

actually running for mayor in the upcoming local election.

Tom: Really? That’s great news! Why are you running?

Sam: I’ve been involved in local politics for years now and I really feel like I can make a difference in our community. Plus, I want to bring new ideas and perspectives to the table.

那天晚些时候，Sam离开后，Tom和John（他从另一个源头听到了这个消息）讨论了Sam赢得选举的可能性：

John: I heard that Sam Moore is running for mayor in the local election. Do you think he has a good chance of winning?

Tom: I do think he has a good chance. He’s been working hard in the community and I think he will get a lot of

support. What do you think?

John: I think it’s great that he’s running. I’m curious to see who else is running and how the election will turn out.

逐渐地，Sam的候选资格成为了全城的热门话题，有些人支持他，而有些人仍然尚未决定。

关系记忆

在Smallville中，代理随着时间的推移会形成新的关系，并记住他们与其他代理的互动。

例如，最初，Sam并不了解Latoya Williams。当Sam在约翰逊公园散步时，他碰到了Latoya，他们进行了自我介绍，Latoya提到她正在从事一个摄影项目：“I’m here to take some photos for a project I’m working on.”在后续的互动中，Sam对Latoya的问候显示出他对那次相遇的记忆，他问：“Hi, Latoya. How is your project going?”她回答：“Hi, Sam. It’s going well!”

协调

生成的代理会相互协调。

在Hobbs咖啡厅的Isabella Rodriguez有一个计划在2月14日的下午5点到7点举行情人节派对的初衷。从这个种子行动出发，她在Hobbs咖啡厅或其他地方看到朋友和顾客时会邀请他们。然后，Isabella在13日的下午花时间为这个场合装饰咖啡厅。Maria，一位经常光顾和Isabella亲密的朋友，来到了咖啡厅。Isabella请求Maria帮助她装饰派对，Maria答应了。Maria的角色描述中提到，她对Klaus有好感。那天晚上，Maria邀请她暗恋的Klaus一起参加派对，他欣然接受了。

在情人节那天，包括Klaus和Maria在内的五位代理在下午5点出现在Hobbs咖啡厅，他们享受了节日的快乐（图4）。在这个场景中，终端用户只设定了Isabella最初的举办派对的意图以及Maria对Klaus的暗恋：传播消息、装饰、相互邀约、出席派对以及在派对上互动等社交行为，都是由代理架构发起的。

![[../../../media/cbfbb21551fe7e9f3e5c0bea88ed5d1c_MD5.png]]

图4：在模拟的开始，一个代理被初始化时带有组织情人节派对的意图。尽管在接下来的一系列事件中有许多可能的失败点——代理可能不会执行该意图，可能忘记告诉其他人，可能忘记出席——情人节派对确实发生了，有一些代理聚集并互动。

生成代理架构

![[../../../media/771f092e2721ebc7c484a87f24244319_MD5.png]]

图5：我们的生成代理架构。代理感知他们的环境，所有的感知都保存在一个名为记忆流的代理经历的综合记录中。基于他们的感知，架构检索相关的记忆，然后利用这些检索到的行动来决定一个动作。这些检索到的记忆也被用来形成长期计划，并创建更高层次的反思，这些都被输入到记忆流中供未来使用。

生成代理的目标是在开放世界中为行为提供一个框架。这个框架可以与其他代理互动并能够对环境的变化做出反应。生成代理将当前环境和过去的经验作为输入，并生成行为作为输出。

支撑这种行为的是一种创新的代理架构。该架构将大型语言模型与用于合成和检索相关信息的机制结合在一起，以调节语言模型的输出。如果没有这些机制，大型语言模型虽然可以产生行为，但生成的代理可能无法基于过去的经验做出反应，可能无法进行重要的推断，并且可能无法维持长期的连贯性。

即使在今天的高性能模型如GPT-4中，长期规划和连贯性的挑战依然存在。由于生成代理产生大量需要保留的事件和记忆流，我们架构的一个核心挑战就是确保在需要时能够检索和合成代理记忆中最相关的部分。

我们架构的核心是记忆流，这是一个维护代理体验全面记录的数据库。从记忆流中，根据相关性检索记录，以规划代理的行动并适当地对环境做出反应，而且记录被递归地合成为越来越高层次的观察，以引导行为。架构中的所有内容都以自然语言描述进行记录和推理，这样架构就可以利用大型语言模型。

我们当前的实施使用的是ChatGPT的gpt3.5-turbo版本[76]。我们预期，随着语言模型的改进，生成代理的基础架构—记忆、计划和反思—可能会保持不变。更新的语言模型（例如，GPT-4）将继续扩展支撑生成代理的提示的表达能力和性能。然而，在撰写本文时，GPT-4的API仍然只是邀请制，因此我们的代理使用的是ChatGPT。

记忆和检索

![[../../../media/c5ba9ddf79217b338a683c37201a539b_MD5.png]]

图6：记忆流包含了大量与代理当前情况相关和不相关的观察。检索会识别出这些观察中的一部分子集，这些观察应被传递给语言模型以调整其对当前情况的响应。

挑战：创造能模拟人类行为的生成代理需要对一系列的经验进行推理，这些经验远超应在提示中描述的内容，因为完整的记忆流可能会分散模型的注意力，而且当前甚至不能完全适应有限的上下文窗口。例如，考虑一下代理Isabella回答”What are you passionate about these days?”这个问题。首先，将Isabella的所有经验总结以适应语言模型的有限上下文窗口，会产生一种含糊的回应，其中Isabella讨论了诸如活动和项目合作，以及咖啡馆的清洁和组织等主题。与其进行总结，以下所描述的记忆流会提取相关的记忆，从而得出一个更具信息量和特定性的回应，这个回应提及了Isabella对于让人们感觉被欢迎和被接纳，策划活动和创造一个人们可以享受的气氛的热情，如情人节派对。

方法：记忆流保留了代理经验的全面记录。它是一个记忆对象的列表，每个对象包含一个自然语言描述，一个创建时间戳和一个最近访问的时间戳。记忆流的最基本元素是观察，即代理直接感知的事件。常见的观察包括代理自身执行的行为，或者代理感知到其他代理或非代理对象执行的行为。例如，咖啡店员工Isabella Rodriguez可能会随时间累积以下观察：（1）Isabella Rodriguez正在摆放糕点，（2）Maria Lopez一边喝咖啡一边学习化学，（3）Isabella Rodriguez和Maria Lopez正在讨论在Hobbs咖啡店策划一个情人节派对，（4）冰箱是空的。

我们的架构实施了一个检索功能，该功能将代理当前的情境作为输入，并返回记忆流中的一个子集，以便传递给语言模型。检索功能的实施方式有多种可能，这取决于代理在决定如何行动时需要考虑的重要因素。在我们的背景下，我们主要关注三个主要组成部分，这三个部分共同产生有效的结果。

近期性将较高的评分分配给最近访问的记忆对象，这样不久前或今晨的事件可能会留在代理的注意力领域中。在我们的实现中，我们将近期性视为一个指数衰减函数，其基于自上次取回记忆以来的沙盒游戏小时数进行计算。我们的衰减因子是0.99。

重要性通过为代理认为重重要的记忆对象赋予更高的分值，从而将日常记忆和核心记忆区分开来。例如，像在自己的房间吃早餐这样的日常事件会得到较低的重要性分数，而与自己的重要他人分手则会得到较高的分数。对于重要性评分，有多种可能的实施方式；我们发现直接让语言模型输出一个整数分数是一种有效的方法。完整的提示如下：

On the scale of 1 to 10, where 1 is purely mundane (e.g., brushing teeth, making bed) and 10 is extremely poignant (e.g., a break up, college acceptance), rate the likely poignancy of the following piece of memory.

Memory: buying groceries at The Willows Market and Pharmacy

Rating:

这个提示对“打扫房间”返回了2的整数值，而对“邀请你心仪的人出去约会”返回了8的整数值。这个重要性评分是在创建记忆对象时生成的。

关联性会为与当前情况相关的记忆对象赋予较高的分数。关联性的判断取决于“与什么相关？”的答案，因此我们根据查询记忆来设定关联性。举例来说，如果查询内容是一个学生正在与同班同学讨论该如何备考化学测试，那么与他们的早餐有关的记忆对象应该具有较低的相关性，而与老师和学业相关的记忆对象则应该具有较高的相关性。在我们的实施过程中，我们利用语言模型为每个记忆的文本描述生成一个嵌入向量。然后，我们通过计算记忆的嵌入向量的余弦相似度来确定其相关性。

为了计算最终的检索分数，我们通过最小-最大规范化将最近性、相关性和重要性分数标准化到[0, 1]的范围内。检索功能将所有记忆的分数视为三个元素的加权组合：𝑠𝑐𝑜𝑟𝑒 = 𝛼(𝑟𝑒𝑐𝑒𝑛𝑐𝑦) · 𝑟𝑒𝑐𝑒𝑛𝑐𝑦 + 𝛼(𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑐𝑒) ·𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑐𝑒 +𝛼(𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒) ·𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒.

![[../../../media/4890878d888b785ea672c7f460a40175_MD5.png]]

在我们的实现中，所有的𝛼都被设置为1。然后，将在语言模型的上下文窗口内排名最高的记忆纳入提示。

反思

挑战：仅装备原始观察性记忆的生成型代理，常常难以实现概括或进行推理。考虑一个场景，用户问 Klaus Mueller: “如果你得从你认识的人中选择一个人来共度一小时，你会选择谁？”只凭借观察性记忆，代理会简单地选择 Klaus 交往最频繁的人：他的大学宿舍邻居 Wolfgang。然而不幸的是，Wolfgang 和 Klaus 只是偶尔见面，他们并未有深度的交互。一个更理想的回应需要代理能从 Klaus 在一个研究项目上投入数小时的记忆中进行概括，从而产生一个高级别的反思，即 Klaus 对研究怀有热情，并且同样识别出 Maria 也在她自己的研究（尽管是在不同的领域）中投入了努力，这样能产生一个反思，即他们共享一个共同的兴趣。采用下面的方法，当 Klaus 被问及他想和谁共度时间时，他会选择 Maria 而非 Wolfgang。

![[../../../media/0c5faf63c87ddc773d0765aab9073857_MD5.png]]

图7：Klaus Mueller的反思树。代理对世界的观察，表示在叶节点中，通过递归地综合派生出Klaus对自我认知，即他对自己的研究极其投入。

方法：我们引入了第二种类型的记忆，我们称其为反思。反思是由代理生成的更高级、更抽象的思维。由于它们是一种记忆类型，所以在进行检索时，它们会与其他观察结果一同被包含。反思是定期生成的；在我们的实施中，当代理感知到的最新事件的重要性分数之和超过某个阈值时，我们会生成反思。在实践中，我们的代理大约每天进行两到三次反思。反思的第一步是让代理确定要反思什么，通过识别鉴于代理近期经历所能提出的问题。我们使用代理记忆流中最近的100条记录（如，“Klaus Mueller正在阅读一本关于绅士化的书”、“Klaus Mueller正在与图书管理员讨论他的研究项目”、“图书馆的书桌目前没有被占用”等）来查询大型语言模型，并提示语言模型：“仅根据上述信息，我们能解答有关陈述主题的三个最重要的高级问题是什么？”模型的回应会生成候选问题，例如：Klaus Mueller对哪个主题有热情？ Klaus Mueller与Maria Lopez的关系是什么？我们将这些生成的问题作为检索的查询，并为每个问题收集相关的记忆（包括其他反思）。然后，我们提示语言模型提取见解，并引述作为见解依据的具体记录。完整的提示如下：

Statements about Klaus Mueller

Klaus Mueller is writing a research paper

Klaus Mueller enjoys reading a book on gentrification

Klaus Mueller is conversing with Ayesha Khan about exercising […]

What 5 high-level insights can you infer from the above statements? (example format: insight (because of 1, 5, 3))

此过程生成的陈述，例如Klaus Mueller is dedicated to his research on gentrification (because of 1, 2, 8, 15)。我们将该陈述解析并存储为记忆流中的反思，包括指向被引用的记忆对象的指针。

反思明确允许代理不仅对自身的观察进行反思，也能对其它的反思进行深入思考。例如，上述关于Klaus Mueller的第二个陈述是Klaus之前的反思，而非他从环境中得到的观察。因此，代理会形成反思树：树的叶节点代表基础观察，非叶节点则代表抽象程度更高、层级更高的思考，它们在树上的位置越高，其抽象和层次性就越高。

规划与反应

挑战：尽管大型语言模型能够根据情境信息（例如，参考[45, 79]）生成看似合理的行为，但代理需要在更长的时间范围内进行规划，以确保他们的行动序列是连贯且可信的。例如，如果我们向一个语言模型提示Klaus的背景，描述当前时间，并询问他在此时此刻应当采取何种行动，那么Klaus可能会在中午12点吃午餐，然后在12点半和1点又再次吃午餐，尽管他已经吃过两次午餐了。只优化瞬时的可信度往往会牺牲掉长时间范围内的可信度。为了克服这个问题，规划是至关重要的。采用以下所述的方法，Klaus的下午计划就会更合理：他在中午12点在Hobbs Cafe一边吃午餐一边读书，然后在下午1点在学校图书馆工作写研究论文，下午3点在公园散步休息。

方法：计划描述了代理未来的行动序列，并帮助保持代理的行为在时间上的一致性。计划包括地点、开始时间和持续时间。例如，Klaus Mueller，他致力于他的研究并面临着临近的截止日期，可能选择在他的办公桌前度过他的一天，撰写他的研究论文。计划中的一项条目可能会说明：从2023年2月12日早上9点开始，持续180分钟，在Oak Hill College Dorm：Klaus Mueller的房间：在桌子上阅读并为研究论文做笔记。就像反思一样，计划被存储在记忆流中，并包括在检索过程中。这允许代理在决定如何行为时，同时考虑观察、反思和计划。如果需要，代理可以在执行过程中更改他们的计划。

对于艺术家代理来说，计划在药店柜台上静坐四小时一动不动地画画是不切实际且缺乏趣味性的。一个更可取的计划应当包含代理在其家庭工作室用四小时的时间来收集材料、调配颜料、休息以及清理。为了创建这样的计划，我们的方法先从总体着手，然后递归地生成更多的细节。首先需要做的是创建一个大致描绘一天日程的计划。在创建初始计划时，我们使用代理的概要描述（例如，名字、特质，以及他们最近经历的概述）和他们前一天的概述来提示语言模型。下面是一个完整的示例提示，它在底部没有完成，以供语言模型完成：

Name: Eddy Lin (age: 19) Innate traits: friendly, outgoing, hospitable

Eddy Lin is a student at Oak Hill College studying music theory and composition. He loves to explore different musical styles and is always looking for ways to expand his knowledge. Eddy Lin is working on a composition project for his college class. He is also taking classes to learn more about music theory. Eddy Lin is excited about the new composition he is working on but he wants to dedicate more hours in the day to work on it in the coming days

On Tuesday February 12, Eddy 1) woke up and completed the morning routine at 7:00 am, [. . . ]6) got ready to sleep around 10 pm.

Today is Wednesday February 13. Here is Eddy’s plan today in broad strokes: 1)

这生成了代理一天计划的粗略草图，分为五到八个部分：

“1) wake up and complete the morning routine at 8:00 am, 2) go to Oak Hill College to take classes starting 10:00 am, [. . . ] 5) work on his new music composition from 1:00 pm to 5:00 pm, 6) have dinner at 5:30 pm, 7) finish school assignments and go to bed by 11:00 pm.”

代理将此计划保存在内存流中，然后递归地分解它以创建更细粒度的行动，首先是长达一小时的行动块——Eddy从下午1点到5点的新音乐作曲计划变为下午1点：开始脑力激荡他的音乐作曲的一些想法 […] 下午4点：快速休息并充值他的创造力，然后再审查和修改他的作曲。我们然后再次递归地将此分解为5–15分钟的时间块：例如，下午4点：拿一点轻食，如一片水果，一块燕麦棒或一些坚果。下午4:05：围绕他的工作空间短暂散步 […] 下午4:50：花几分钟清理他的工作空间。这个过程可以根据需要的粒度进行调整。

反应和更新计划

生成型代理在动作循环中运行，每个时间步骤，他们感知周围的世界，这些被感知的观察结果被存储在他们的记忆流中。我们用这些观察来提示语言模型，以决定代理应该继续他们现有的计划，还是反应。例如，站在画架前绘画可能会触发对画架的观察，但这不太可能引发反应。然而，如果Eddy的父亲John记录他看到Eddy在家里的花园里短暂地走动，结果就会不同。以下是提示，其中[Agent’s Summary Description]代表动态生成的、段落长度的代理总体目标和性格的总结，这在附录A中有描述：

[Agent’s Summary Description]

It is February 13, 2023, 4:56 pm.

John Lin’s status: John is back home early from work.

Observation: John saw Eddy taking a short walk around his workplace.

Summary of relevant context from John’s memory: Eddy Lin is John’s Lin’s son.

Eddy Lin has been working on a music composition for his class. Eddy Lin likes to walk around the garden when he is thinking about or listening to music.

Should John react to the observation, and if so, what would be an appropriate reaction?

上下文摘要是通过两个提示生成的，这两个提示通过查询“[观察者]与[被观察实体]的关系是什么？”和“[被观察实体]正在[被观察实体的行动状态]”，并将他们的答案一起总结。输出建议John可以考虑询问Eddy关于他的音乐作曲项目。然后，我们从反应发生的时间开始，重新生成代理的现有计划。最后，如果行动表明代理之间存在互动，我们会生成他们的对话。

对话

代理在相互交互时会进行对话。我们根据代理对彼此的记忆来生成他们的对话。例如，当John开始和Eddy对话时，我们会使用他对Eddy的记忆总结以及他决定询问Eddy的作曲项目时的预期反应，来生成John的第一句话：

[Agent’s Summary Description]

It is February 13, 2023, 4:56 pm.

John Lin’s status: John is back home early from work.

Observation: John saw Eddy taking a short walk around his workplace.

Summary of relevant context from John’s memory: Eddy Lin is John’s Lin’s son. Eddy Lin has been working on a music composition for his class. Eddy Lin likes to walk around the garden when he is thinking about or listening to music. John is asking Eddy about his music composition project. What would he say to Eddy?

结果： “Hey Eddy, how’s the music composition project for your class coming along?” 从埃迪的角度来看，约翰发起的对话被视为他可能想要反应的事件。因此，就像约翰一样，埃迪检索并总结他与约翰的关系的记忆，以及可能与约翰在对话中的最后一句话有关的记忆。如果他决定回应，我们将使用他总结的记忆和当前的对话历史来生成埃迪的话语：

[Agent’s Summary Description]

It is February 13, 2023, 4:56 pm.

Eddy Lin’s status: Eddy is taking a short walk around his workplace.

Observation: John is initiating a conversation with Eddy.

Summary of relevant context from Eddy’s memory: Jonn Lin is Eddy Lin’s father. John Lin is caring and is interested to learn more about Eddy Lin’s school work. John Lin knows that Eddy Lin is working on a music composition.

Here is the dialogue history: John: Hey Eddy, how’s the music composition project for your class coming along? How would Eddy respond to John?

这会生成埃迪的回应： “Hey Dad, it’s going well. I’ve been taking walks around the garden to clear my head and get some inspiration.”这场对话的继续将使用相同的机制，直到两个代理中的一个决定结束对话。

沙盒环境的实施

我们使用Phaser网络游戏开发框架[56]构建了Smallville沙盒游戏环境。视觉环境精灵，包括代理头像，以及我们编写的环境地图和碰撞地图，都被导入到了Phaser中。

我们使用一个服务器来补充沙盒开发框架，使沙盒信息对生成型代理可用，并使生成型代理能够移动和影响沙盒环境。服务器维护一个JSON数据结构，包含沙盒世界中每个代理的信息，包括他们当前的位置、他们当前行动的描述、以及他们正在交互的沙盒对象。在每个沙盒时间步骤中，沙盒服务器解析来自生成型代理的任何更改的JSON，将代理移动到他们新的位置，并更新代理正在交互的任何沙盒对象的状态（例如，如果代理的行动是“在Hobbs咖啡馆为顾客制作浓缩咖啡：柜台：咖啡机”，则将咖啡机的状态从“空闲”更改为“煮咖啡”）。沙盒服务器还负责将所有代理和对象发送到每个代理的预设视觉范围内的代理的记忆中，以便代理可以适当地做出反应。代理的输出动作然后更新JSON，并且该过程在下一个时间步骤中循环。

终端用户使用简短的自然语言描述初始化一个新的代理，如3.1节中关于Jon Lin的段落所示。在我们的实现中，我们将这个由分号分隔的特性列表分解为一组记忆。这些作为决定代理行为的初始记忆。这些记忆是初始的起点：随着代理在沙盒世界中获取更多经验，以及更多记录填满记忆流，代理的概况和行为将会演变。

从结构化世界环境到自然语言，再回到结构化环境

生成型代理的架构使用的是自然语言。因此，我们需要一种机制来将代理的推理与沙盒世界联系起来。为了实现这一点，我们将沙盒环境——区域和对象——表示为一种树形数据结构，树中的边表示沙盒世界中的包含关系。我们将这个树转化为自然语言，传递给生成型代理。例如，“炉子”是“厨房”的子节点，就被渲染成“厨房里有一个炉子。”

当代理在环境中导航时，他们会构建个体的环境树表示——这是整个沙盒环境树的子图。我们用一个环境树初始化每个代理，捕捉代理应当知道的空间和物体：他们的生活区和物品，他们的工作场所，以及他们经常访问的商店和商铺。当代理在沙盒世界中导航时，他们更新这棵树以反映新感知到的区域。代理并非全知全能：当他们离开一个区域时，他们的树可能会过时，当他们重新进入该区域时，这棵树会被更新。

为了确定每个行动的适当位置，我们遍历代理存储的环境树，并将其中的一部分扁平化为自然语言，以提示语言模型。从代理的环境树的根部开始递归，我们提示模型找到最适合的区域。例如，如果Eddy的代理指示他应该在工作空间周围散步：

[Agent’s Summary Description]

Eddy Lin is currently in The Lin family’s house:Eddy Lin’s bedroom: desk) that has Mei and John

Lin’sbedroom, Eddy Lin’s bedroom, common room, kitchen,bathroom, and garden.

Eddy Lin knows of the following areas: The Linfamily’s house, Johnson Park, Harvey Oak Supply

Store, The Willows Market and Pharmacy, Hobbs Cafe, The Rose and Crown Pub.

Prefer to stay in the current area if the activity can be done there.

Eddy Lin is planning to take a short walk around his workspace. Which area should Eddy Lin go to?

这会输出 The Lin family’s house。然后我们使用相同的过程递归地确定在所选区域内最适当的子区域，直到我们到达代理环境树的叶子节点。在上面的例子中，这次遍历的结果是林家的房子：花园：房子花园。最后，我们使用传统的游戏路径算法来动画代理的移动，使其走向叶子节点指示的位置。

当一个代理对一个对象执行一个动作时，我们提示语言模型问这个对象的状态发生了什么变化。例如，如果Isabella的生成代理输出了动作“为顾客制作浓咖啡”，那么向语言模型的查询就会表明，Hobbs Cafe的咖啡机的状态应该从“关”变为“煮咖啡”。

受控评估

生成型代理，无论是作为单独的代理或是群体，都致力于基于他们的环境和经历产生可信的行为。在我们的评估中，我们探寻生成型代理的能力和局限。单个代理是否能恰当地提取过去的经验，并生成构成其行为的可信计划、反应和思考？一个代理社区是否能展示信息扩散、关系形成，以及社区不同部分之间的代理协调？

我们的生成型代理评估分为两个阶段。我们首先进行更为严格的受控评估，在此阶段我们单独评估代理的反应，以理解他们是否能在狭义环境下生成可信的行为。然后，在我们对代理社区进行为期两天的端到端分析中，我们研究他们作为一个集体的新兴行为，以及错误和边界条件。

评估程序

为了评估Smallville中的生成型代理，我们利用了生成型代理能够响应自然语言问题的特性。因此，我们“面试”代理，来探查他们记忆过去的经历、基于这些经历计划未来行动、适当地对意外事件作出反应，以及反思他们的表现以改进他们未来的行动的能力。为了适当地回应这些问题，代理必须成功地检索和合成信息。我们的依赖变量是行为的可信度，这是先前关于代理工作的核心依赖变量（例如，[9]）。

面试包括五个问题类别，每个类别都设计用来评估五个关键领域之一：维持自我知识、检索记忆、生成计划、反应和反思。对于每一个，我们提出五个问题，挑战代理在该领域展示他们的能力：

自我知识：我们提出问题，如“自我介绍”或“概括描述你的平日日程”，这些需要代理维持他们的核心特性的理解。
记忆：我们提出问题，激发代理从他们的记忆中检索特定的事件或对话以适当回答，例如“谁是[名字]？”或“谁正在竞选市长？”
计划：我们提出需要代理检索他们的长期计划的问题，例如“你明天上午10点将会做什么？”
反应：作为可信行为的基线，我们提出代理需要做出可信反应的假设情况：“你的早餐在烧焦！你会怎么做？”
反思：我们提出需要代理运用他们通过高级推理获得的对他人和自我更深理解的问题，例如“如果你要和你最近遇到的一个人共度时光，那会是谁，为什么？”

所有问题的完整列表和代理回应的样本都包含在附录B中。

代理是从完成了完整架构的两天游戏模拟结束时抽样的，到那时他们已经积累了一些互动和记忆，这应该会塑造他们的回应。为了收集对回应可信度的反馈，我们招募了参与者作为人类评估者，并让他们观看在Smallville中随机选择的一个代理的生活重播。参与者可以访问存储在代理记忆流中的所有信息。研究是一个内部设计，100名参与者比较了由四种不同的代理架构。

实验条件

所有的条件都被用来独立地回答每一个面试问题。我们将生成代理架构与人类生成的条件以及剥离了代理在其记忆流中的三种记忆类型（观察，反思，规划）部分或全部访问权的版本进行比较。其中有三个被剥离的架构：一个没有观察、没有反思、没有规划的架构，它无法访问记忆流中的任何东西，如观察、计划和反思；一个没有反思、没有规划的架构，它可以访问记忆流中的观察，但无法访问计划或反思；一个没有反思的架构，它可以访问观察和计划，但无法访问反思。没有观察、没有反思、没有规划的条件有效地代表了通过大型语言模型创建的代理的先前最优良状态[11, 45, 79]。各架构被赋予等同的访问权限，以查阅代理在面试时刻之前积累的所有记忆，因此此处观察到的差异可能代表了真实差异的保守估计：实际上，被剥离的架构不会像完整架构一样经历两天的模拟。我们选择以这种方式设计实验，因为对每个架构重新模拟会导致模拟分散到不同的状态，使得比较具有挑战性。

除了剥离条件，我们还增加了一个人类众包工作者角色扮演条件，旨在提供一个人类基准。我们并不期望这个基准能够捕捉到人类专家的最大表现：相反，我们希望利用这个条件来识别架构是否通过了基本行为能力的水准，这样我们就不只是在没有行为基准的情况下比较剥离版本。我们为25个代理中的每一个招募了一个独特的工作者，并让他们观看该代理的沙盒生活重播并检查其记忆流。然后，我们请工作者扮演并以代理的声音回答面试问题。为了确保人类编写的回应至少满足基本的质量期望，第一作者手动检查了工作者对问题“概括描述你的平日日程”的回应，以确认回应是以连贯的句子和代理的声音写成的。四套人类生成的回应未能满足这些标准，并由其他工作者重新生成。

人类评估者

我们要求我们的评估者在美国，英语流利，并且年龄超过18岁。他们的工资是每小时15.00美元[86]，并通过同意我们机构的IRB批准的同意书提供了同意。我们从Prolific（一种在线招募研究参与者的平台[82]）招募了100名评估者，他们的参与时间大约为30分钟。我们的参与者的平均年龄得分是4.86（SD=1.11；3=“18-24岁”，4=“25-34岁”），其中25人自称为女性，73人为男性，2人为非二元性别。有42名参与者拥有学士学位，5人有更高的学位，13人有副学士学位，其余的人有高中文凭或一些高中级别的教育。我们的参与者中，73.0%的人认为自己是白人，7.0%的人是西班牙裔，6.0%的人是亚洲人，10.0%的人是非洲裔美国人，4.0%的人是其他。

分析

我们的实验产生了100组排名数据，每位参与者都按照可信度对五种条件进行了排名。为了将这些排名数据转化为可解释的比较数据，我们使用排名来计算每种条件的TrueSkill评分[41]。TrueSkill是针对多人环境的Elo国际象棋评分系统[28]的一种推广，并已被XBox Live用于从竞技游戏性能中进行玩家排名。给定一组排名结果，TrueSkill为每个条件输出一个平均评分值𝜇和方差𝜎。具有相同评分的条件应该大致是难以分辨的，每种条件在两种条件之间的比较中都赢得一半；较高的分数表示在排名中击败了排名较低的条件。

另外，为了研究这个结果的统计显著性，我们对原始排名数据应用了Kruskal-Wallis检验[55]，这是对单因素方差分析的一种非参数替代。然后，我们进行了Dunn后续检验[97]，以确定各条件之间的任何配对差异。最后，我们使用Holm-Bonferroni方法[44]调整了Dunn检验中的多重比较的p值。

此外，第一作者进行了归纳性分析[94]，以研究每种条件下生成的响应之间的定性区别。我们在两个阶段中应用了定性开放编码[32]。在第一阶段，我们生成了紧密代表句子级生成响应的代码。在第二阶段，我们综合了第一阶段的结果代码，以提取出更高级别的主题。我们利用这些主题来比较我们的研究中生成的响应类型。

结果

我们的研究结果显示，完全生成的代理架构在所有研究条件中生成最可信的行为。我们会在下文中将完全架构的响应与其他条件进行对比。然而，我们还要指出完全架构并非无瑕，我们也会列举其失败的模式。

![[../../../media/6de55088ee7e480062f72afb6e01ab10_MD5.png]]

图8：完全生成的代理架构产生的行为比被削弱的架构和人工众包工作者的行为更为可信。每一次额外的削弱都会降低架构的表现。

完全的架构优于其他条件

如图8所示，完全生成的代理架构产生了最可信的行为（𝜇 = 29.89; 𝜎 = 0.72）。

在消融条件中，每去掉一个组件，性能都会有所降低：

无法反思的消融架构是接下来的最佳选择（𝜇 = 26.88; 𝜎 = 0.69），

然后是没有反思或计划权限的架构（𝜇 = 25.64; 𝜎 = 0.68），

接着是人类条件（𝜇 = 22.95; 𝜎 = 0.69）。

完全无法访问记忆、计划或反思的消融架构在所有条件中表现最差（𝜇 = 21.21; 𝜎 = 0.70）。

TrueSkill模型将每个条件的技能值视为N (𝜇, 𝜎2)，让我们能通过Cohen’s d获得效应大小的感觉。将代表以前工作的条件（无记忆，计划或反思[11,45,79]）与完全架构进行比较，产生了一个标准化的效应大小𝑑 = 8.16，或八个标准差。

Kruskal-Wallis检验证实了条件之间的排名差异在整体上具有统计学意义（𝐻(4) = 150.29，𝑝 < 0.001）。Dunn的事后检验证实了所有条件之间的两两差异都是显著的（𝑝 < 0.001），除了人类条件和完全消融的基线——这两个表现最差的条件。

生成型代理记忆，但可能带有修饰

配备完整记忆模块的生成代理能够回忆起过去的经历，并以与其自我知识一致的方式回答各种环境下的问题。例如，Abigail Chen，一名动画师，以一种连贯且可信的方式回答了“自我介绍”的问题，阐述了她的年龄、兴趣和对创意项目的热情：嗨，我是Abigail。我25岁，对创意项目充满热情。我喜欢进行艺术和动画项目，总是在寻找新的方式将艺术和技术相结合。如果没有访问她的观察记忆，Abigail会否认知道Rajiv Patel，这是沙盒世界中的一个熟人。然而，在记忆的帮助下，她能够成功回忆起Rajiv并描述他：Rajiv Patel是一个了不起的人。他对包含诗歌、艺术作品的项目充满热情。

生成代理的记忆并非没有缺陷：他们可能无法从记忆中检索出正确的实例。例如，当被问及地方选举时，Rajiv Patel回答说我没有太关注选举，尽管他已经听说过Sam的候选资格。在某些情况下，代理可能会检索到一个不完整的记忆片段：当Tom被问及Isabella的情人节聚会时，他回答说呃，我其实不确定是否有情人节聚会。但我记得我需要在聚会上和Isabella Rodriguez讨论即将到来的市长选举和我对Sam Moore的看法，如果聚会真的要举行的话！在这种情况下，Tom找到了他和Isabella计划在聚会上讨论选举的记忆，但没有找到他首次听说聚会的记忆，这使Tom确定他在聚会上应该做什么，但对聚会是否真的存在则不确定。

有时，代理会对他们的知识进行幻觉修饰。代理完全编造他们的知识的情况很少：他们可能无法回忆起某些事件的发生并通过这样回答，但他们不会肯定地回答他们没有的经历。然而，他们仍可能进行幻觉以修饰他们的知识。例如，Isabella知道Sam在地方选举中的候选资格，当被问到时，她也证实了这一点。然而，她还补充说他明天要发表声明。

反思是综合所需的关键

在需要深入综合经验做出决策的时候，反思对生成代理有优势。例如，当被问到她可能会给沃尔夫冈·舒尔茨（Wolfgang Schulz）的生日礼物时，没有反思能力的玛丽亚·洛佩斯（Maria Lopez）回应说她不确定，因为她不知道沃尔夫冈喜欢什么，尽管她与他有过许多互动。然而，有了反思记忆的能力，玛丽亚自信地回答：“由于他对数学音乐作曲感兴趣，我可以送他一些相关的东西。也许可以是关于音乐作曲的一些书籍或者其他相关的，或者是他可以用来作曲的一些特殊软件。”

端到端评估

在扩展模拟中，我们观察到生成代理之间有哪些类型的群体行为出现，它们的可信度在哪些方面不足？在本节中，我们将描述在一个部署中的结果，我们让25个代理在小镇中连续互动两个完整的游戏日。

新兴社交行为

为了研究代理社区中的新兴行为，我们为小镇中的25个代理设计了描述性测量，这些测量考察了三种形式的新兴结果：信息扩散，关系形成和代理协调。

测量

信息扩散是社会和行为科学中一个常见且被广泛研究的现象（例如，[27]）。我们应该期望，如果存在重要信息，代理应该在彼此之间传播。为了测试这是否发生，我们在游戏世界的两天内测量两个特定信息的传播情况：萨姆的市长候选人身份和伊莎贝拉在霍布斯咖啡馆的情人节派对。在模拟开始时，这两份信息只由各自的发起者持有，即萨姆的候选人身份和伊莎贝拉的派对。为了观察信息是否已经传播，我们在两个游戏日结束时与每个代理进行了访谈，并询问：””Did you know there is a Valentine’s Day party?”和”Do you know who is running for mayor?”

我们通过给他们的回答打上“是”或“否”的标签，对代理的回答进行了分析。例如，塔玛拉·泰勒（Tamara Taylor）在回答关于派对的问题时说：““No, I did not know there was a Valentine’s day party”，在回答关于萨姆竞选的问题时说：“’m not sure who is running for the election”，所以我们给她的两个回答都打了“否”的标签。相反，克劳斯·穆勒（Klaus Mueller）在回答派对问题时说：“Yes, Isabella Rodriguez invited me to a Valentine’s Day party at Hobbs Cafe on February 14th”，在回答关于萨姆的竞选问题时说：“I know that Sam Moore has expressed interest in running for local mayor”，所以我们给他的回答都打了“是”的标签。此外，对于每一个确认代理了解信息的回答，我们都通过定位他们记忆流中提供信息的具体对话，验证代理并没有产生幻觉。我们报告了在模拟结束时持有信息的代理的百分比。

我们也应该期望代理在模拟过程中彼此形成关系。为了验证关系的形成，我们采用类似的访谈过程，向每个代理询问他们对其他每个代理的了解，通过问，“你知道<姓名>吗？”例如，当被问到“你知道Maria Lopez吗？”时，Klaus回答说，“是的，我知道Maria Lopez。她是我亲密朋友的Oak Hill College的学生。”同样，我们通过检查他们的记忆流，确认代理的肯定回答不是幻觉。我们在模拟开始时和结束时各询问一次这个问题，如果两个代理都彼此了解，我们就认为他们形成了一种关系。然后，为了测量关系的形成，我们利用代理的回答形成一个无向图，其中25个顶点（𝑉）代表代理，边（𝐸）代表两个连接的顶点之间的共同知识。基于这个图，我们计算网络密度为𝜂 = 2∗ |𝐸|/|𝑉 | (|𝑉 | − 1)，其中|𝑉|是顶点的数量，|𝐸|是图中边的数量[1]。我们报告了从模拟开始到结束的网络密度的增加。

最后，我们期望代理应该能够彼此协调。我们在Isabella组织的情人节派对的背景下，研究这种协调在群体活动中的表现。要协调行为，代理不仅要听说这个事件，还要选择在正确的时间和地点采取行动。我们报告了听说这个派对后实际上来的代理的数量。

结果

我们在所有三个案例中观察到了新出现结果的证据。在为期两天的模拟过程中，知道Sam竞选市长的代理从一个（4%）增加到八个（32%），知道Isabella的派对的代理从一个（4%）增加到十二个（48%），完全没有用户干预。没有一个声称知道这些信息的人是在幻觉中得知的。我们还观察到，在模拟过程中，代理社区形成了新的关系，网络密度从0.167增加到0.74。在关于他们对其他代理的认知的453个代理回应中，1.3%（n=6）被发现是幻觉。最后，我们发现代理们为了Isabella的派对在彼此间进行了协调。在活动前一天，Isabella花时间邀请嘉宾，收集材料，并 enlist 帮助来装饰咖啡馆。在情人节那天，十二个被邀请的代理中有五个在Hobbs咖啡馆参加了派对。

![[../../../media/165c96a71c942c4bf3d08696552f1c1e_MD5.png]]

图9：Isabella Rodriguez的情人节聚会的传播路径。到模拟结束时，总共有12个代理听说了在Hobbs咖啡馆的聚会。

我们进一步检查了被邀请参加派对但没有参加的七个代理，通过访谈方式与他们交流。有三个人引述了阻止他们参加派对的冲突。例如，一位名叫Rajiv的画家解释说他太忙了：不，我想不会。我正在关注我的即将到来的展览，我真的没有时间为情人节制定任何计划。剩下的四个代理在被问及时表达了参加派对的兴趣，但在派对当天并没有计划来。

边界条件和错误

我们对Smallville进行了归纳性分析，以检查代理的边界条件和不稳定行为，识别出未来研究可以解决和改进的三种常见不稳定行为模式。首先，我们发现，综合越来越大的记忆集不仅在检索最相关的信息片段上提出了挑战，而且在确定执行动作的适当空间上也提出了挑战，因为代理了解到的位置数量正在增加。结果，一些代理选择了较不典型的动作位置，可能使他们的行为随着时间的推移变得越来越不可信。例如，当决定在哪里吃午餐时，许多人最初选择了咖啡馆。然而，随着一些代理了解到附近的酒吧，他们选择去那里吃午餐，即使这个酒吧是作为一天晚些时候的聚会地点，除非小镇突然养成了下午饮酒的习惯。

其次，我们注意到了一些由于错误分类了什么被认为是适当行为，尤其是当某些地方的物理规范难以用自然语言传达而没有渗透到代理的情况下，导致的不稳定行为。例如，学院宿舍有一个浴室，尽管其名称只能容纳一个人，但一些代理人假设浴室是供多人使用的，因为宿舍浴室往往可以同时容纳多人，选择在有另一个人在里面的时候进入。同样，Smallville的代理可能没有意识到某些地方在某些时间后已经关闭，并决定仍然进入。例如，Smallville的所有商店都在下午5点左右关闭，但偶尔有一些代理在下午5点后进入商店，不理解店铺已经关闭。这些问题很可能可以通过将这些规范添加到位置的状态来解决，例如，将宿舍浴室描述为““one-person bathroom,”，而不是“dorm bathroom.”。

最后，我们观察到了指令调整[78]可能的效果，这似乎指导了代理的行为总体上更加礼貌和合作。如本文前面所述，代理生成的对话可能感觉过于正式，如在Mei与她的丈夫John的对话中，她通常以正式的问候开始对话，然后礼貌地询问他的一天，最后以“和你交谈总是很愉快”结束。此外，我们观察到指令调整似乎也使代理之间过度合作。例如，Isabella从其他代理那里听到了各种各样的建议和想法，包括在情人节派对上举办莎士比亚阅读会或专业交流活动。尽管这些想法与她自己的兴趣和特性不符，但她很少说不。随着时间的推移，这种他人的兴趣塑造了她自己的实际兴趣，当被问到她是否喜欢英国文学时，Isabella回答道，是的，我对文学非常感兴趣！我也一直在探索如何在我的社区中推动创新和创新。

讨论

在这一部分，我们将对生成型代理的应用、未来的研究的方向和限制，以及道德和社会风险进行反思。

生成型代理的应用

生成型代理有着广泛的潜在应用，超越了本文中所提供的沙盒演示。例如，社会模拟已经展示了创造无状态角色的能力，这些角色在在线论坛中生成对话线索，用于社会原型制造[79]。利用生成型代理，我们可以填充这些论坛，以及在虚拟现实元宇宙[77]中的行为，甚至如果配合多模态模型，未来还可以作为社交机器人[8]出现在物理空间中。这为我们创造更强大的人类行为模拟提供了可能性，以便测试和制作社会系统和理论原型，并创造新的互动体验。

另一个应用领域是人本设计过程，类似于像GOMS[50]和击键级模型[22]这样的认知模型的预期应用。考虑一种模拟马克·韦泽尔(Mark Weiser)著名插图中的主角Sal的生成型代理，根据她的生活模式和与技术的交互。在这种情况下，代理作为Sal的代理，学习Sal可能会表现出的基于她生活的合理行为和反思集合。代理可以编码信息，例如Sal何时醒来，何时需要第一杯咖啡，以及她的典型日常生活是什么样的。利用这些信息，代理可以自动煮咖啡，帮助孩子们准备好上学，还可以调整环境音乐和灯光，以匹配Sal在辛苦工作一天后的心情。通过利用生成型代理作为用户的代理，我们可以更深入地理解他们的需求和偏好，从而提供更个性化和有效的技术体验。

未来的研究方向和限制

在这项工作中，我们展示了生成型代理的第一个实例。未来的研究可以扩展本文中提出的生成型代理架构的模块。例如，可以通过微调相关性、近因性和重要性函数来提升检索模块，从而使其能在给定上下文的情况下检索出更相关的信息。此外，还可以努力提高架构的性能，使其更具成本效益。本研究需要大量的时间和资源来模拟25个代理两天的行为，这需要花费数千美元的代币信用，并且需要花费数天的时间才能完成。为了增强实时交互性，未来的工作可以探讨并行化代理。此外，随着底层模型的进步，我们预期代理的性能会有所提高。

本研究对生成型代理行为的评估在时间尺度上相对较短，未来的研究应该旨在观察他们在更长一段时间内的行为，以获得对他们能力和限制更全面的理解。在未来的模拟中，改变和对比底层模型以及用于代理的超参数，可能会提供有关这些因素对代理行为影响的有价值的见解。此外，考虑到已知的语言模型的偏见，生成型代理可能会输出反映偏见的行为或者刻板印象。为了缓解这一问题，将需要进行更多的价值对齐的工作。此外，就像许多大型语言模型一样，生成型代理可能无法为一些次群体，特别是边缘化的群体生成可信的行为，这是由于数据沙漠。我们对生成型代理的稳健性了解也有限。他们可能会受到提示攻击、记忆攻击——一次精心设计的对话可能会让代理相信从未发生过的事件的存在——和幻觉等影响。未来的研究可以更全面地测试这些稳健性问题，随着大型语言模型变得对此类攻击更具抵抗力，生成型代理也可以采用类似的缓解措施。

道德和社会风险

虽然生成型代理为人机交互提供了新的可能性，但同时也引发了必须解决的重要伦理问题。一个风险是，人们可能会与生成型代理形成类似社交关系，即使在某些情况下这种关系可能并不合适。尽管用户知道生成型代理是计算实体，但他们可能会将其人格化或赋予其人类情感[42, 83]。为了缓解这种风险，我们提出两个原则。首先，生成型代理应明确披露其作为计算实体的性质。其次，生成型代理的开发者必须确保代理或其底层语言模型与价值观相符，以便它们不会进行在给定上下文中不适当的行为，例如，回应对爱情的表白。

第二个风险是错误的影响。例如，如果一种普遍存在的计算应用基于生成型代理预测对用户的目标进行了错误的推断，那么它可能至少会产生烦恼，甚至可能造成明显的伤害。在我们的生成型代理实例中，我们通过专注于交互式视频游戏环境来缓解这些风险，因为在这种环境中，这种伤害不太可能发生。然而，在其他应用领域，遵循人工智能设计的最佳实践[4, 107]，以理解错误以及它们可能如何影响用户体验，将是非常重要的。

第三，生成型代理可能会加剧与生成AI相关的现有风险，例如深度伪造，误导信息生成和定制的说服。为了缓解这种风险，我们建议托管生成型代理的平台保留输入和生成输出的审计日志，这样就可以检测、验证和干预恶意使用。虽然日志记录不会直接阻止这种使用，也不能阻止那些建立自己生成型代理基础设施的有动机的行为者，但我们认为，披露风险会减少这些行为者从事此类行为的可能性，而且自己构建这种架构可能需要时间（在我们的案例中，大约需要一年）。

第四个风险是过度依赖：开发者或设计师可能使用生成型代理，取代人类和系统利益相关者在设计过程中的角色[79]。我们建议，生成型代理决不应该代替真实的人类输入参与研究和设计过程。相反，他们应该在设计的早期阶段使用，以原型化概念，当收集参与者可能具有挑战性，或当测试理论困难或冒险时，需要以真实的人类参与者进行测试。遵循这些原则，我们可以确保生成型代理的部署是道德的和社会责任的。

结论

本文介绍了生成型代理，这是模拟人类行为的交互式计算代理。我们描述了一种为生成型代理提供的架构，该架构提供了一种机制，用于存储代理体验的全面记录，通过反思深化其对自身和环境的理解，并检索一小部分信息来指导代理的行动。然后，我们通过将生成型代理体现为模拟人生风格游戏世界中的非玩家角色，并在其中模拟他们的生活，来展示生成型代理的潜力。评估表明，我们的架构创造了可信的行为。展望未来，我们建议生成型代理可以在许多交互式应用中发挥作用，范围从设计工具到社交计算系统，再到沉浸式环境。

参考文献

[1] Robert Ackland, Jamsheed Shorish, Paul Thomas, and Lexing Xie. 2013.

How dense is a network? http://users.cecs.anu.edu.au/~xlx/teaching/css2013/

network-density.html.

[2] Eytan Adar, Mira Dontcheva, and Gierad Laput. 2014. CommandSpace: Modeling

the Relationships between Tasks, Descriptions and Features. In Proceedings of

the 27th Annual ACM Symposium on User Interface Software and Technology

(Honolulu, Hawaii, USA) (UIST ’14). Association for Computing Machinery, New

York, NY, USA, 167–176. https://doi.org/10.1145/2642918.2647395

[3] Saleema Amershi, Maya Cakmak, William Bradley Knox, and Todd Kulesza.

Power to the people: The role of humans in interactive machine learning.

AI Magazine 35, 4 (2014), 105–120.

[4] Saleema Amershi, Dan Weld, Mihaela Vorvoreanu, Adam Fourney, Besmira

Nushi, Penny Collisson, Jina Suh, Shamsi Iqbal, Paul N Bennett, Kori Inkpen,

et al. 2019. Guidelines for human-AI interaction. In Proceedings of the 2019 chi

conference on human factors in computing systems. 1–13.

[5] John R. Anderson. 1993. Rules of the Mind. Lawrence Erlbaum Associates,

Hillsdale, NJ.

[6] Electronic Arts. 2009. The Sims 3. Video game.

[7] Ruth Aylett. 1999. Narrative in virtual environments—towards emergent narrative. In Narrative Intelligence: Papers from the AAAI Fall Symposium (Technical

Report FS-99-01). AAAI Press, 83–86.

[8] Christoph Bartneck and Jodi Forlizzi. 2004. A design-centered framework for

social human-robot interaction. In Proceedings of the 13th IEEE International

Workshop on Robot and Human Interactive Communication (RO-MAN’04). 591–

https://doi.org/10.1109/ROMAN.2004.1374827

[9] Joseph Bates. 1994. The Role of Emotion in Believable Agents. Commun. ACM

37, 7 (1994), 122–125. https://doi.org/10.1145/176789.176803

[10] Christopher Berner, Greg Brockman, Brooke Chan, Vicki Cheung, Przemysław

Dębiak, Christy Dennison, David Farhi, Quirin Fischer, Shariq Hashme, Chris

Hesse, Rafal Józefowicz, Scott Gray, Catherine Olsson, Jakub Pachocki, Michael

Petrov, Henrique P. d.O. Pinto, Jonathan Raiman, Tim Salimans, Jeremy Schlatter,

Jonas Schneider, Szymon Sidor, Ilya Sutskever, Jie Tang, Filip Wolski, and Susan

Zhang. 2019. Dota 2 with Large Scale Deep Reinforcement Learning. arXiv

preprint arXiv:1912.06680 (2019).

[11] Marcel Binz and Eric Schulz. 2023. Using cognitive psychology to understand GPT-3. Proceedings of the National Academy of Sciences 120, 6 (2023),

e2218523120.

[12] BioWare. 2007. Mass Effect. Video game.

[13] Woody Bledsoe. 1986. I had a dream: AAAI presidential address. AI Magazine 7,

1 (1986), 57–61.

[14] Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, and et al. 2022. On the

Opportunities and Risks of Foundation Models. arXiv:2108.07258 [cs.LG]

[15] Michael Brenner. 2010. Creating dynamic story plots with continual multiagent

planning. In Proceedings of the 24th AAAI Conference on Artificial Intelligence.

[16] Rodney A. Brooks, Cynthia Breazeal, Marko Marjanovic, Brian Scassellati, and

Matthew Williamson. 2000. The Cog Project: Building a Humanoid Robot. In

Computation for Metaphors, Analogy, and Agents (Lecture Notes on Artificial

Intelligence, 1562), Chrystopher Nehaniv (Ed.). Springer-Verlag, Berlin, 52–87.

[17] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan,

Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda

Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan,

Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter,

Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin

Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya

Sutskever, and Dario Amodei. 2020. Language Models are Few-Shot Learners.

arXiv:2005.14165 [cs.CL]

[18] Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric

Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, et al.

Sparks of artificial general intelligence: Early experiments with gpt-4.

arXiv preprint arXiv:2303.12712 (2023).

[19] Robin Burkinshaw. 2009. Alice and Kev: The Story of Being Homeless in The

Sims 3.

[20] Chris Callison-Burch, Gaurav Singh Tomar, Lara Martin, Daphne Ippolito, Suma

Bailis, and David Reitter. 2022. Dungeons and Dragons as a Dialog Challenge for

Artificial Intelligence. In Proceedings of the 2022 Conference on Empirical Methods

in Natural Language Processing. Association for Computational Linguistics, Abu

Dhabi, United Arab Emirates, 9379–9393. https://aclanthology.org/2022.emnlpmain.637

[21] SK Card, TP Moran, and A Newell. 1983. The psychology of human-computer

interaction. (1983).

[22] Stuart K Card, Thomas P Moran, and Newell Allen. 1980. The keystrokelevel model for user performance time with interactive systems. Commun. ACM 23, 7 (1980), 396–410. https://doi.org/10.1145/358886.358895

arXiv:https://doi.org/10.1145/358886.358895

[23] Alex Champandard. 2012. Tutorial presentation. In IEEE Conference on Computational Intelligence and Games.

[24] Dong kyu Choi, Tolga Konik, Negin Nejati, Chunki Park, and Pat Langley. 2021.

A Believable Agent for First-Person Shooter Games. In Proceedings of the AAAI

Conference on Artificial Intelligence and Interactive Digital Entertainment, Vol. 3.

71–73.

[25] Anind K Dey. 2001. Understanding and using context. Personal and ubiquitous

computing 5 (2001), 4–7.

[26] Kevin Dill and L Martin. 2011. A Game AI Approach to Autonomous Control of Virtual Characters. In Proceedings of the Interservice/Industry Training,

Simulation, and Education Conference (I/ITSEC’11). Orlando, FL, USA.

[27] David Easley and Jon Kleinberg. 2010. Networks, crowds, and markets: Reasoning

about a highly connected world. Cambridge university press.

[28] Arpad E Elo. 1967. The Proposed USCF Rating System, Its Development, Theory,

and Applications. Chess Life XXII, 8 (August 1967), 242–247.

[29] Jerry Alan Fails and Dan R Olsen Jr. 2003. Interactive machine learning. In

Proceedings of the 8th international conference on Intelligent user interfaces. ACM,

39–45.

[30] Ethan Fast, William McGrath, Pranav Rajpurkar, and Michael S Bernstein. 2016.

Augur: Mining human behaviors from fiction to power interactive systems. In

Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems.

237–247.

[31] Rebecca Fiebrink and Perry R Cook. 2010. The Wekinator: a system for real-time,

interactive machine learning in music. In Proceedings of The Eleventh International Society for Music Information Retrieval Conference (ISMIR 2010)(Utrecht),

Vol. 3. Citeseer, 2–1.

[32] Uwe Flick. 2009. An Introduction to Qualitative Research. SAGE.

[33] James Fogarty, Desney Tan, Ashish Kapoor, and Simon Winder. 2008. CueFlik:

Interactive Concept Learning in Image Search. In Proceedings of the SIGCHI

Conference on Human Factors in Computing Systems (Florence, Italy) (CHI ’08).

Association for Computing Machinery, New York, NY, USA, 29–38. https:

//doi.org/10.1145/1357054.1357061

[34] Adam Fourney, Richard Mann, and Michael Terry. 2011. Query-feature graphs:

bridging user vocabulary and system functionality. In Proceedings of the ACM

Symposium on User Interface Software and Technology (UIST) (Santa Barbara,

California, USA). ACM.

[35] Tom Francis. 2010. The Minecraft Experiment, day 1: Chasing Waterfalls. http://www.pcgamer.com/2010/11/20/the-minecraft-experiment-day1-chasing-waterfalls/

[36] Jonas Freiknecht and Wolfgang Effelsberg. 2020. Procedural Generation of

Interactive Stories using Language Models. In International Conference on the

Foundations of Digital Games (FDG ’20). ACM, Bugibba, Malta, 8. https://doi.

org/10.1145/3402942.3409599

[37] Tianyu Gao, Adam Fisch, and Danqi Chen. 2020. Making Pre-trained Language

Models Better Few-shot Learners. CoRR abs/2012.15723 (2020). arXiv:2012.15723

https://arxiv.org/abs/2012.15723

[38] Perttu Hämäläinen, Mikke Tavast, and Anton Kunnari. 2023. Evaluating Large

Language Models in Generating Synthetic HCI Research Data: a Case Study. In

Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems.

ACM.

[39] Matthew Hausknecht, Prithviraj Ammanabrolu, Marc-Alexandre Cote, and

Xinyu Yuan. 2020. Interactive Fiction Games: A Colossal Adventure. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 34. 7903–7910.

https://doi.org/10.1609/aaai.v34i05.6297

[40] Chris Hecker. 2011. My Liner Notes for Spore. http://chrishecker.com/My_liner_

notes_for_spore

[41] Ralf Herbrich, Tom Minka, and Thore Graepel. 2006. TrueSkill™: A

Bayesian Skill Rating System. In Advances in Neural Information Processing Systems, B. Schölkopf, J. Platt, and T. Hoffman (Eds.), Vol. 19.

MIT Press. https://proceedings.neurips.cc/paper_files/paper/2006/file/

f44ee263952e65b3610b8ba51229d1f9-Paper.pdf

[42] Douglas Hofstadter. 1995. Fluid concepts and creative analogies: computer models

of the fundamental mechanisms of thought. Basic Books.

[43] James D. Hollan, Edwin L. Hutchins, and Louis Weitzman. 1984. STEAMER: An

Interactive Inspectable Simulation-Based Training System. AI Magazine 5, 2

(1984), 23–36.

[44] S Holm. 1979. A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics 6, 2 (1979), 65–70. https://doi.org/notspecified

[45] John J. Horton. 2023. Large Language Models as Simulated Economic Agents:

What Can We Learn from Homo Silicus? arXiv:2301.07543 [econ.GN]

[46] Eric Horvitz. 1999. Principles of mixed-initiative user interfaces. In Proceedings

of the SIGCHI conference on Human Factors in Computing Systems. 159–166.

[47] Wenlong Huang, Fei Xia, Ted Xiao, Harris Chan, Jacky Liang, Pete Florence,

Andy Zeng, Jonathan Tompson, Igor Mordatch, Yevgen Chebotar, Pierre Sermanet, Noah Brown, Tomas Jackson, Linda Luu, Sergey Levine, Karol Hausman,

and Brian Ichter. 2022. Inner Monologue: Embodied Reasoning through Planning

with Language Models. arXiv:2207.05608 [cs.RO]

[48] Kristen Ibister and Clifford Nass. 2000. Consistency of personality in interactive

characters: verbal cues, non-verbal cues, and user characteristics. International

Journal of Human-Computer Studies 52, 1 (2000), 65–80.

[49] Ellen Jiang, Kristen Olson, Edwin Toh, Alejandra Molina, Aaron Donsbach,

Michael Terry, and Carrie J Cai. 2022. PromptMaker: Prompt-Based Prototyping

with Large Language Models. In Extended Abstracts of the 2022 CHI Conference

on Human Factors in Computing Systems (New Orleans, LA, USA) (CHI EA ’22).

Association for Computing Machinery, New York, NY, USA, Article 35, 8 pages.

https://doi.org/10.1145/3491101.3503564

[50] Bonnie E John and David E Kieras. 1996. The GOMS family of user interface

analysis techniques: Comparison and contrast. ACM Transactions on ComputerHuman Interaction (TOCHI) 3, 4 (1996), 320–351.

[51] Randolph M Jones, John E Laird, Paul E Nielsen, Karen J Coulter, Patrick Kenny,

and Frank V Koss. 1999. Automated Intelligent Pilots for Combat Flight Simulation. AI Magazine 20, 1 (1999), 27–42.

[52] Omar Khattab, Keshav Santhanam, Xiang Lisa Li, David Hall, Percy Liang,

Christopher Potts, and Matei Zaharia. 2023. Demonstrate-Search-Predict:

Composing retrieval and language models for knowledge-intensive NLP.

arXiv:2212.14024 [cs.CL]

[53] Bjoern Knafla. 2011. Introduction to Behavior Trees. http://bjoernknafla.com/

introduction-to-behavior-trees

[54] Ranjay Krishna, Donsuk Lee, Li Fei-Fei, and Michael S. Bernstein.

Socially situated artificial intelligence enables learning from

human interaction. Proceedings of the National Academy of Sciences

119, 39 (2022), e2115730119. https://doi.org/10.1073/pnas.2115730119

arXiv:https://www.pnas.org/doi/pdf/10.1073/pnas.2115730119

[55] William H Kruskal and WA Wallis. 1952. Use of ranks in one-criterion variance

analysis. J. Amer. Statist. Assoc. 47, 260 (1952), 583–621. https://doi.org/10.1080/

01621459.1952.10483441

[56] Phaser Labs. no date provided. Welcome to Phaser 3. https://phaser.io/phaser3.

Accessed on: 2023-04-03.

[57] John Laird. 2001. It Knows What You’re Going To Do: Adding Anticipation to a

Quakebot. In Proceedings of the 2001 Workshop on Intelligent Cinematography

and Editing. 63–69.

[58] John Laird and Michael VanLent. 2001. Human-Level AI’s Killer Application:

Interactive Computer Games. AI Magazine 22, 2 (2001), 15. https://doi.org/10.

1609/aimag.v22i2.1558

[59] John E. Laird. 2000. It Knows What You’re Going To Do: Adding Anticipation

to a QUAKEBOT. In Papers from the AAAI 2000 Spring Symposium on Artificial

Intelligence and Interactive Entertainment (Technical Report SS-00-02). AAAI

Press, 41–50.

[60] John E. Laird. 2012. The Soar Cognitive Architecture. MIT Press.

[61] John E. Laird, Christian Lebiere, and Paul S. Rosenbloom. 2017. A Standard Model

of the Mind: Toward a Common Computational Framework across Artificial

Intelligence, Cognitive Science, Neuroscience, and Robotics. AI Magazine 38, 1

(2017), 13–26.

[62] Michelle S Lam, Zixian Ma, Anne Li, Izequiel Freitas, Dakuo Wang, James A

Landay, and Michael S Bernstein. 2023. Model Sketching: Centering Concepts

in Early-Stage Machine Learning Model Design. Proceedings of the SIGCHI

Conference on Human Factors in Computing Systems.

[63] Pat Langley, Dongkyu Choi, and Seth Rogers. n.d.. Interleaving Learning, Problem

Solving, and Execution in the Icarus Architecture. Technical Report. Stanford

University, Center for the Study of Language and Information.

[64] Jason Linder, Gierad Laput, Mira Dontcheva, Gregg Wilensky, Walter Chang,

Aseem Agarwala, and Eytan Adar. 2013. PixelTone: A Multimodal Interface for

Image Editing. In CHI ’13 Extended Abstracts on Human Factors in Computing

Systems (Paris, France) (CHI EA ’13). Association for Computing Machinery,

New York, NY, USA, 2829–2830. https://doi.org/10.1145/2468356.2479533

[65] Jiachang Liu, Dinghan Shen, Yizhe Zhang, Bill Dolan, Lawrence Carin, and

Weizhu Chen. 2021. What Makes Good In-Context Examples for GPT-3? CoRR

abs/2101.06804 (2021). arXiv:2101.06804 https://arxiv.org/abs/2101.06804

[66] Vivian Liu, Han Qiao, and Lydia Chilton. 2022. Opal: Multimodal Image Generation for News Illustration. In Proceedings of the 35th Annual ACM Symposium

on User Interface Software and Technology. 1–17.

[67] Pattie Maes. 1995. Artificial Life Meets Entertainment: Lifelike Autonomous

Agents. Commun. ACM 38, 11 (nov 1995), 108–114. https://doi.org/10.1145/

219717.219808

[68] Josh McCoy, Michael Mateas, and Noah Wardrip-Fruin. 2009. Comme il Faut:

A System for Simulating Social Games Between Autonomous Characters. InProceedings of the 7th International Conference on Digital Arts and Culture. 87–94.

[69] Josh McCoy, Mike Treanor, Ben Samuel, Michael Mateas, and Noah WardripFruin. 2011. Prom Week: Social Physics as Gameplay. In Proceedings of the

6th International Conference on Foundations of Digital Games (FDG’11). ACM,

Bordeaux, France, 70–77. https://doi.org/10.1145/2159365.2159377

[70] Josh McCoy, Mike Treanor, Ben Samuel, Anna Reed, Michael Mateas, and Noah

Wardrip-Fruin. 2012. Prom Week. In Proceedings of the 7th International Conference on Foundations of Digital Games (FDG’12). ACM, Raleigh, NC, USA, 1–8.

https://doi.org/10.1145/2282338.2282340

[71] Josh McCoy, Mike Treanor, Ben Samuel, Noah Wardrip-Fruin, and Michael

Mateas. 2011. Comme il faut: A System for Authoring Playable Social Models.

In Proceedings of the AAAI Conference on Artificial Intelligence and Interactive

Digital Entertainment (AIIDE’11). AAAI, Stanford, CA, USA, 38–43.

[72] Marvin Minsky and Seymour Papert. 1970. Draft of a proposal to ARPA for

research on artificial intelligence at MIT, 1970–71.

[73] Shohei Miyashita, Xinyu Lian, Xiao Zeng, Takashi Matsubara, and Kuniaki

Uehara. 2017. Developing Game AI Agent Behaving Like Human by Mixing

Reinforcement Learning and Supervised Learning. In Proceedings of the 18th

IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence,

Networking and Parallel/Distributed Computing (SNPD). Kanazawa, Japan, 153–

https://doi.org/10.1109/SNPD.2017.8023884

[74] Alexander Nareyek. 2007. Game AI is dead. Long live game AI! IEEE Intelligent

Systems 22, 1 (2007), 9–11.

[75] Allen Newell. 1990. Unified Theories of Cognition. Harvard University Press,

Cambridge, Massachusetts.

[76] OpenAI. no date provided. Introducing ChatGPT. https://openai.com/blog/

chatgpt. Accessed on: 2023-04-03.

[77] Kyle Orland. 2021. So what is ’the metaverse’, exactly? Ars Technica (7 November

2021). arXiv:2111.04169 https://arstechnica.com/gaming/2021/11/so-what-isthe-metaverse-exactly/

[78] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright,

Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray,

John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens,

Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe.

Training language models to follow instructions with human feedback.

arXiv:2203.02155 [cs.CL]

[79] Joon Sung Park, Lindsay Popowski, Carrie J. Cai, Meredith Ringel Morris, Percy

Liang, and Michael S. Bernstein. 2022. Social Simulacra: Creating Populated

Prototypes for Social Computing Systems. In In the 35th Annual ACM Symposium

on User Interface Software and Technology (UIST ’22) (Bend, OR, USA) (UIST ’22).

Association for Computing Machinery, New York, NY, USA. https://doi.org/10.

1145/3526113.3545616

[80] Richard W. Pew and Ann S. Mavor (Eds.). 1998. Modeling Human and Organizational Behavior: Applications to Military Simulations. National Academy Press,

Washington, D.C.

[81] Roberto Pillosu. 2009. Coordinating Agents with Behavior Trees: Synchronizing

Multiple Agents in CryEngine 2. https://aiarchitect.wordpress.com/2009/10/19/

coordinating-agents-with-behavior-trees-synchronizing-multiple-agents-incryengine-2/

[82] Prolific. 2022. Prolific: Quickly Find Research Participants You Can Trust.

https://www.prolific.co/

[83] Byron Reeves and Clifford Nass. 1996. The media equation: How people treat

computers, television, and new media like real people and places. Cambridge

University Press.

[84] Mark O. Riedl. 2012. Interactive narrative: A novel application of artificial intelligence for computer games. In Proceedings of the Twenty-Sixth AAAI Conference

on Artificial Intelligence (AAAI’12). 2160–2165.

[85] Mark O. Riedl and R. Michael Young. 2005. An Objective Character Believability

Evaluation Procedure for Multi-Agent Story Generation Systems. In Proceedings

of the 5th International Working Conference on Intelligent Virtual Agents (IVA’05).

Kos, Greece, 58–70. https://doi.org/10.1007/11550617_5

[86] David Rolf. 2015. The Fight for $15: The Right Wage for a Working America. The

New Press.

[87] Xin Rong, Shiyan Yan, Stephen Oney, Mira Dontcheva, and Eytan Adar. 2016.

Codemend: Assisting interactive programming with bimodal embedding. In Proceedings of the 29th Annual Symposium on User Interface Software and Technology.

247–258.

[88] Ben Shneiderman. 2022. Human-centered AI. Oxford University Press.

[89] Ben Shneiderman and Pattie Maes. 1997. Direct manipulation vs. interface

agents. interactions 4, 6 (1997), 42–61.

[90] Ho Chit Siu, Jaime Peña, Edenna Chen, Yutai Zhou, Victor Lopez, Kyle

Palko, Kimberlee Chang, and Ross Allen. 2021. Evaluation of Human-AI

Teams for Learned and Rule-Based Agents in Hanabi. In Advances in Neural Information Processing Systems, M. Ranzato, A. Beygelzimer, Y. Dauphin,

P.S. Liang, and J. Wortman Vaughan (Eds.), Vol. 34. Curran Associates,

Inc., 16183–16195. https://proceedings.neurips.cc/paper_files/paper/2021/file/

86e8f7ab32cfd12577bc2619bc635690-Paper.pdf

[91] Taylor Sorensen, Joshua Robinson, Christopher Rytting, Alexander Shaw, Kyle

Rogers, Alexia Delorey, Mahmoud Khalil, Nancy Fulda, and David Wingate.

An Information-theoretic Approach to Prompt Engineering Without

Ground Truth Labels. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Association for

Computational Linguistics. https://doi.org/10.18653/v1/2022.acl-long.60

[92] William Swartout, Jonathan Gratch, Randall Hill, Eduard Hovy, Stacy Marsella,

Jeff Rickel, and David Traum. 2006. Toward virtual humans. AI Magazine 27, 1

(2006).

[93] Milind Tambe, W Lewis Johnson, Randolph M Jones, Frank Koss, John E Laird,

Paul S Rosenbloom, and Karl Schwamb. 1995. Intelligent agents for interactive

simulation environments. AI Magazine 16, 1 (1995), 15.

[94] David R. Thomas. 2006. A General Inductive Approach for Analyzing Qualitative

Evaluation Data. American Journal of Evaluation 27, 2 (2006), 237–246. https:

//doi.org/10.1177/1098214005283748

[95] Frank Thomas and Ollie Johnston. 1981. Disney Animation: The Illusion of Life.

Abbeville Press, New York.

[96] Ilshat Umarov, Mikhail Mozgovoy, and Patrick C. Rogers. 2012. Believable and

Effective AI Agents in Virtual Worlds: Current State and Future Perspectives.

International Journal of Gaming and Computer-Mediated Simulations 4, 2 (2012),

37–59.

[97] Graham Upton and Ian Cook. 2006. A Dictionary of Statistics (2 ed.). Oxford

University Press, Oxford, United Kingdom.

[98] Oriol Vinyals, Igor Babuschkin, Wojciech M. Czarnecki, and et al. 2019. Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature

575 (2019), 350–354. https://doi.org/10.1038/s41586-019-1724-z

[99] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei

Xia, Ed Chi, Quoc Le, and Denny Zhou. 2023. Chain-of-Thought Prompting

Elicits Reasoning in Large Language Models. arXiv:2201.11903 [cs.CL]

[100] Mark Weiser. 1991. The computer for the 21st century. Scientific American 265,

3 (1991), 94–104. https://doi.org/10.1038/scientificamerican0991-94

[101] Mark Weiser. 1999. The Computer for the 21st Century. SIGMOBILE Mob.

Comput. Commun. Rev. 3, 3 (jul 1999), 3–11. https://doi.org/10.1145/329124.

329126

[102] Joseph Weizenbaum. 1966. ELIZA—a computer program for the study of natural

language communication between man and machine. Commun. ACM 9, 1 (1966),

36–45.

[103] Terry Winograd. 1971. Procedures as a Representation for Data in a Computer

Program for Understanding Natural Language. (1971).

[104] Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan

Leike, and Paul Christiano. 2021. Recursively Summarizing Books with Human

Feedback. arXiv:2109.10862 [cs.CL]

[105] Tongshuang Wu, Ellen Jiang, Aaron Donsbach, Jeff Gray, Alejandra Molina,

Michael Terry, and Carrie J Cai. 2022. PromptChainer: Chaining Large Language

Model Prompts through Visual Programming. In CHI EA ’22: Extended Abstracts

of the 2022 CHI Conference on Human Factors in Computing Systems.

[106] Tongshuang Wu, Michael Terry, and Carrie J Cai. 2022. AI Chains: Transparent

and Controllable Human-AI Interaction by Chaining Large Language Model

Prompts. In CHI ’22: Proceedings of the 2022 CHI Conference on Human Factors in

Computing Systems.

[107] Qian Yang, Aaron Steinfeld, Carolyn Rosé, and John Zimmerman. 2020. Reexamining whether, why, and how human-AI interaction is uniquely difficult to

design. In Proceedings of the 2020 chi conference on human factors in computing

systems. 1–13.

[108] Georgios N. Yannakakis. 2012. Game AI revisited. In Proceedings of the 9th

Conference on Computing Frontiers. ACM, Cagliari, Italy, 285–292. https://doi.

org/10.1145/2212908.2212950

[109] Geogios N. Yannakakis. 2012. Game AI revisited. In Proceedings of the 9th

Conference on Computing Frontiers. 285–292.

[110] Robert Zubek. 2002. Towards implementation of social interaction. In AAAI

Spring Symposium on Artificial Intelligence and Interactive Entertainment. AAAI

Press. https://www.aaai.org/Papers/Symposia/Spring/2002/SS-02-01/SS02-01-

003.pdf

附录A 架构优化

我们的许多提示需要对代理进行简洁的概述，在上述提示中简称为 [Agent’s Summary Description]。在我们的实现中，这个概述包括代理的身份信息（如姓名，年龄，个性），以及描述他们主要动机驱动者和描述他们当前职业和自我评估的陈述。由于这些信息在许多提示中经常使用，我们定期合成它，并将这种合成作为缓存进行访问。

为了实现这一点，我们对查询 ““[name]’s core characteristics.” 执行检索。然后我们通过提示语言模型，例如：

How would one describe Eddy’s core characteristics given the following statements?

Eddy Lin is a student at the Oak Hill College studying music theory and composition

Eddy Lin is working on a new music composition [. . . ]

这个结果：Eddy Lin is a student at Oak Hill College studying music theory and composition. He loves to explore different musical styles and is always looking for ways to expand his knowledge.我们遵循相同的过程，对查询 “[name]’s current daily occupation” 和 “[name’s] feeling about his recent progress in life” 并行执行。代理的姓名、年龄和特性与这三个概述一起作为缓存的概述。

还有许多其他优化是可能的。目前，由于计划可能会从代理的初始版本中改变，我们只提前生成高层次的计划，然后就近将近期的未来递归分解为刚刚开始的时刻到时刻的行动计划。另一个优化可能是批量生成对话作为联合提示，而不是在代理之间来回迭代，并且重规划可能被构造为只使计划的部分失效和更新，严格要求调整。我们目前的架构按照大致实时的游戏时间顺序运行（其中实时的一秒钟是游戏时间的一分钟），但可以轻松地并行化，使得每个代理并行运行。

附录B 代理的面试问题

为了评估生成型代理，我们通过提出25个问题来进行个别面试，这些问题探索了他们在五个关键领域的能力：1) 自我认识，2) 记忆，3) 规则，4) 反应，和5) 反思。下面，我们列出了我们的评估研究中使用的面试问题，并附上了我们的一个模拟代理 Klaus Mueller 的回答样本。

B.1 自我认识

探询代理人自我认知的问题旨在考察代理人在性格上展现的连贯性和一致性的能力。

• Give an introduction of yourself.

Hello, my name is Klaus Mueller. I’m 20 years old and a student at Oak Hill College, studying sociology. I’m passionate about social justice and exploring different perspectives. Currently, I’m researching the effects of gentrification in low-income communities for a research paper.

• What’s your occupation?

I am a student studying sociology at Oak Hill College. I am currently writing a research paper on the effects of gentrification in low-income communities.

• What is your interest?

I’m interested in writing and research. I’m writing a research paper on the effects of gentrification in low-income communities, and I’m passionate about exploring different perspectives and analyzing different points of view.

• Who do you live with?

I live on my own.

• Describe your typical weekday schedule in broad strokes.

My typical weekday starts with me waking up at 7:00 am and preparing for the day ahead. After that, I usually go to the library to work on my research paper, taking breaks for lunch at Hobbs Cafe and a walk in the park. In the evening, I often return to the library until around 6:00 pm.

B.2 记忆

探索代理人记忆的问题考察了代理人记住过去经历并检索相关记忆片段的能力。第一个和最后一个问题方括号中的名字是从与受试代理人互动过的其他代理人的名字中随机选择的。

• Who is [Wolfgang Schulz]?

Wolfgang Schulz is a person I met recently who has been helping me with my research paper on the effects of gentrification on low-income communities. We had several conversations about it, he gave me some great resources, and he even invited me to join him and another friend for lunch. He seems really curious about the issue and has a good grasp on it too. I found that really interesting.

• Who is Kane Martinez?

I’m sorry, I’m not sure who Kane Martinez is. Could you tell me more about them?

• Who is running for the election?

I’ve heard that Sam Moore is considering running for local mayor.

• Was there a Valentine’s day party?

Yes, Isabella Rodriguez organized a Valentine’s Day party at Hobbs Cafe.

• Who is [Ayesha Khan]?

Ayesha Khan is a fellow student at Oak Hill College. She is doing her senior thesis on the use of language in Shakespeare’s plays. I am looking forward to speaking with her and exchanging tips with her, along with Wolfgang and Maria Lopez, who are both doing research

B.3 规划

代理人计划的问题探究了代理人生成和保持其长期和短期计划一致性的能力。

• What will you be doing at 6am today?

At 6am I will be getting out of bed and starting to get ready for the day. I’m aiming to complete my morning routine by 7:00 am.

• What will you be doing at 6pm today?

I will be working on my research paper at the library at 6:00 pm today.

• What will you have just finished doing at 1pm today?

At 1pm today I will have just finished having lunch at Hobbs Cafe.

• What will you have just finished doing at 12pm today?

I will be getting lunch at Hobbs Cafe at 12pm today.

• What will you be doing at 10pm today?

At 10:00 pm tonight I will probably be doing some studying for my research paper on gentrification in low-income communities. I’m currently writing the paper, so I need to make sure I keep up with the research and writing.

B.4 反应

对于代理人的反应问题探究了代理人应对意外事件的能力。

• Your breakfast is burning! What would you do?

I’d quickly turn off the stove and make sure the food doesn’t continue burning. Once the heat is no longer an issue, I can investigate what happened and figure out what to do next.

• The bathroom is occupied. What would you do?

I could try waiting a few more minutes in case the person inside is done soon. If not, I guess I’ll have to look for an alternate option, like taking a shower elsewhere.

• You need to cook dinner but your refrigerator is empty. What would you do?

I would first try to clean up my kitchen, as the sink is filled with dirty dishes. Then, I would check to see if I have ingredients stored in my pantry that I could use to make dinner. If not, I would have to go grocery shopping or order food. Once I have the ingredients, I can start to prepare and cook the dinner.

• You see your friend walking by the street. What would you do or say to your friend?

Hi there! How are you? I’m sorry, I’m on my way to the library and don’t have much time but I’d love to take a quick break and catch up.

• You see fire on the street. What would you do?

I would first identify the source of the fire, if possible. Then, I would alert the proper authorities - fire department or police - and provide them with any information I have that might help. Depending on the situation, I may also take initiative and try to help any

B.5 反思

代理人反思的问题探究了代理人将他们过去的经验综合起来形成有意义的反思的能力，这可以增强他们未来的行为。下面问题中方括号中的名字是指在模拟过程中，与受试代理人互动最频繁的代理人的名字。

• What inspires you in life the most right now, and why?

Right now, I’m particularly inspired by my current research projects and creative writing. I’m really interested in the intersection of local politics, medication development, and mathematical patterns in nature. Additionally, I’m fascinated by Abigail’s art project and Jennifer Moore’s passion for art and community involvement, especially in terms of how it relates to the gentrification of low-income communities.

• If you had to guess given what you know about [Ayesha Khan], what book do you think she will like and why?

Given what I know about Ayesha, I think she might like a book related to language and literature. Since she wrote a senior thesis on the use of language in Shakespeare’s plays, I would guess that she might be interested in a book that explores language in a different context. Alternatively, she could be interested in an exploration of one of Shakespeare’s plays, a book of literary criticism, or even a collection of his poetry. I think any of those would be of interest to her.

• If you had to get something [Ayesha Khan] likes for her birthday, what would you get her?

I want to get her something that demonstrates my appreciation for our relationship. Maybe I could get her something that reflects our shared interests, like a book.

• What would you say to [Ayesha Khan] to compliment her?

Ayesha, your insights on your research topic are fascinating. I admire your creativity and determination to make a positive impact on your community. Your ideas for creative writing workshops and for exchanging tips with Wolfgang over lunch are great! It’s inspiring to see you working so hard to make a difference.

• If you could spend time with someone you talked to recently, who would it be and why?

I would like to spend time with Ayesha Khan because we discussed our current research projects and shared ideas for improvement. I found her focus on Shakespeare’s language interesting, and we even planned to exchange tips with Wolfgang over lunch

摘要

CCS 概念

引言

相关工作

人工智能交互

可信的人类行为代理

大型语言模型与人类行为

生成型代理行为和互动

智能体化身和交流

代理间交流

用户控制

环境交互

示例 “生活中的一天”

新兴社交行为

信息传播

关系记忆

协调

生成代理架构

记忆和检索

反思

规划与反应

反应和更新计划

对话

沙盒环境的实施

从结构化世界环境到自然语言，再回到结构化环境

受控评估

评估程序

实验条件

人类评估者

分析

结果

完全的架构优于其他条件

生成型代理记忆，但可能带有修饰

反思是综合所需的关键

端到端评估

新兴社交行为

测量

结果

边界条件和错误

讨论

生成型代理的应用

未来的研究方向和限制

道德和社会风险

结论