当前位置: 首页 >> 快讯

复旦团队设计交互式群聊模拟器,探究语言在塑造行为中的涌现作用

作者:韩子文 来源:DeepTech深科技 时间:2024-05-07 15:40

“让人惊喜的是,我们在‘Agent Group Chat‘这项尤为强调语言交互的研究中,发现了非常多的涌现行为。

身份各异的角色之间能够产生有趣且令人意想不到的场景,包括小老板为推翻 CEO 而偷偷地与公司外的人结盟,哲学家们普遍认同最强大的智能是懂得何时约束自己的观点等。”复旦大学博士研究生顾洲洪表示。

近期,他和所在团队提出了一款名为“Agent Group Chat”的模拟器,能够通过交互式的辩论场景,深入研究语言在塑造人类集体行为中的复杂作用。

图|顾洲洪(来源:顾洲洪)

该模拟器的核心是参与动态对话交互的角色,评估的重点是使智能体(Agent)行为能够与人类的期望保持一致,以及集体行为会在模拟器中出现。

结果表明,如上所说的涌现行为,是很多因素综合作用之后发生的,涵盖有利于广泛信息交流的环境、具有不同特征的人物、高度的理解能力和战略适应性。

据顾洲洪介绍,该成果不但可以促进角色扮演智能体(Role-Play Agent)领域和组织行为学的发展,而且具备较强的应用前景。

首先,该课题组正在计划为 Agent Group Chat 配备一个在线平台,让广大用户可以设置自己的故事、插入自己或他人设定的角色,并观察将不同的角色放在一起,会发生怎样的故事。

其次,在该研究中使用的一些评估方法,也能够为组织行为学或系统学的研究人员提供一个新的研究框架,帮助他们更加深入地理解不同智能体之间的互动如何影响集体行为,以及语言将会给群体行为带来哪些影响,从而进一步探索这些知识该如何在现实世界的组织和系统中获得应用。

图丨Agent Group Chat 交互的图示,描绘了各种场景,包括继承纠纷、法庭辩论、哲学话语和电影选角之争(来源:arXiv)

近日,相关论文以《Agent Group Chat:一个交互式群聊模拟器,可以更好地引发紧急行为》(AgentGroupChat: An Interactive Group Chat Simulacra For Better Eliciting Emergent Behavior)为题在预印本平台 arXiv 上发表[1]。

顾洲洪是第一作者,复旦大学肖仰华教授和冯红伟老师担任通讯作者。

图丨相关论文(来源:arXiv)

设计交互式群聊模拟器,让角色之间产生涌现行为

当前,基于大语言模型的角色扮演智能体(LLM-Based Role-Play Agent),是一个崭新的研究领域。因此,它在获得许多学者的关注的同时,也激发了顾洲洪和所在团队的研究兴趣。

起初,该课题组想设计一个能体现智能体之间唇枪舌战的模拟器和智能体结构(Agent Structure)。

“当时我们将目光放在《继承之战》这部电视剧上。剧中有一位总裁,掌控着一家巨型企业。

虽然他的几个儿子都觊觎着这家集团的继承权,但总裁却并不打算放权,也因此展开了一系列明里暗里的合作与竞争行为。我们觉得这些行为很有意思,并幻想如何才能让智能体也自发地做到这样的行为。”顾洲洪说。

基于此,他们最早把研究方向定为,构造一个能够体现智能体之间开放竞争与合作的题目。

然后,他们花费三个月时间,完成整个模拟器和智能体的代码,并把 GPT4 作为智能体核心(Agent Core)运行起来,使它能够发现一定的交互情况。

即便如此,研究人员仍然无法满足于现状。

“我们团队都想做出一些既让自己满意,又能得到同行认可,甚至能被外行喜欢的研究。当时我们觉得《继承之战模拟》这个题目只能算一般有趣,而且也一直在扪心自问这个问题,即‘别人为什么要用我们的研究’?” 顾洲洪说。

在该课题组看来,这一时期的研究存在几个问题。

其一,代码不可复用。这主要是因为这套模拟器和智能体执行的任务过于局限。

其二,结论不可复用。他们虽然发现了许多智能体在自由合作和竞争状态下的规律,但这些结论却不具备普适性。

只要稍微改进一下智能体结构或者换一个大语言模型,结论便很可能不复存在。

考虑到上述问题,研究人员暂停了该研究的发布计划,并做出了两点改进。

首先,将特定的任务替换为通用的群聊,以解决代码难以复用的问题。

其次,提出模拟器评估的范式,让评估结果不会因为某个组件的微小改动,而发生巨大的变化。

最终,他们在原来的代码框架的基础上,进行了大量改进,并写了许多新的故事,譬如法官辩论、哲学家辩论、电影选角等,然后在 Agent Group Chat 中发现了诸多涌现行为。

除了上面已经提到的小老板和哲学家的叙事场景,还包括一位律师用尽一切手段赢得诉讼,以及演员为了能够参演自己选的电影,愿意放弃主角和薪酬进行参演。

另外,在将该成果撰写为论文的过程中,他们也花费了大量精力。

其中,为了量化整个模拟中发生的行为的合理性,他们做了三类评估,分别是针对大语言模型是否可以作为智能体核心的评估;针对单个智能体(Single-Agent)的行为是否正常的评估;和针对多个智能体(Multi-Agent)的集体行为是否具备多样性与混乱性的评估。

具体来说,首先,研究人员要求大语言模型还原自己接收到的信息,以观察它是否能够理解环境,比如询问大语言模型接收到多少个角色描述,或接收到多少条记忆信息。

其次,设置特殊的环境,来观察智能体的行为是否符合人类的预期,比如当一个角色和另一个角色发生争吵后,他们之间的好感度是否会下降。

最后,通过香农熵评估群体行为的混乱程度,并发现熵值降低往往会伴随着更有意义的群体涌现行为出现。

计划开发完整应用,为更多用户提供丰富有趣的体验

谈及整个研究中最为难忘的过程,顾洲洪表示是推翻并重做早期提出的研究方向的那段时光。

当时,他们已经准备好了整个研究的代码、实验和论文草稿,但却不满意于所得出的研究成果。

“我们认为,这项通过构建模拟器和智能体来模拟电视剧《继承之战》,以探究语言博弈的过程的研究,和之前收录于国际表征学习大会上的那些关于智能体狼人杀、智能体阿瓦隆的成果并无区别。”顾洲洪说。

基于此,他们决定勇敢地迈出一大步,用三个月时间推翻并重做了许多内容,不仅打造了一个关于智能体群聊的通用框架,还在《继承之战》之外又设计了好几个故事,并对其中的涌现行为进行了深入分析。

也正是这段经历,帮助他们的 Agent Group Chat 变得既有趣又有意义。

而在接下来,该课题组也打算为该研究开发一套完整的前后端系统,以实现一个完整的应用。

“我们的目的是希望更多人能够参与这款应用,深入体验将不同角色放在一起之后会发生的故事。”顾洲洪说。

另外,他们也期待与更多同行开展合作,通过集结多种多样的技术和创意,来提升该项目的质量,从而为用户提供更加丰富和有趣的体验。


分享到
免责声明:本文系转载,版权归原作者所有;文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担;旨在传递信息,不代表钛狐网观点和立场。