背景

社会媒体研究的核心困境:真实平台有数百万用户,无法直接拿来做实验。传统的基于规则的智能体模型(ABM)只能模拟固定行为,无法捕捉人类在特定社会情境下的复杂反应。

OASIS(Open Agent Social Interaction Simulations)由上海 AI Lab、KAUST、牛津、悉尼大学等 23 位作者联合发布,发表在 arXiv。它用 LLM Agent 替代规则引擎,能模拟百万用户级别的社交媒体行为。

架构:五个核心组件

Environment Server — 维护用户、帖子、评论、关注关系的历史数据库,支持实时动态更新。

RecSys(推荐系统) — 模拟 X 和 Reddit 两种平台的信息过滤机制。X 用兴趣匹配(TwHIN-BERT 向量相似度)+ 热度排名,Reddit 用经典的 hot score 算法(点赞 - 点踩 + 时间衰减)。

Agent Module — 基于 CAMEL,每个 Agent 有 21 种交互动作(发帖、转发、关注、点赞、评论等),内置 CoT 推理解释自己的行为。

Time Engine — 每个用户有 24 维小时活跃概率向量,模拟真实用户的作息规律,而非同时激活所有 Agent。3 分钟 = 1 个时间步。

Scalable Inferencer — 分布式异步推理引擎,平衡多 GPU 负载,支持百万量级并发。

复现的三种社会现象

1. 信息传播(X 平台)

用 Twitter15 和 Twitter16 的 198 个真实谣言传播路径初始化,OASIS 在 scale(用户规模)和 max breadth(最大传播广度)上与真实数据高度吻合,深度略浅。Normalized RMSE 约 30%,验证了模拟器的有效性。

2. 群体极化

经典道德困境:Halen 应该冒险写伟大小说,还是继续写平庸作品?

让 Agent 围绕这个话题在 X 上持续交互 80 个时间步,用 GPT-4o-mini 评估每轮观点相对初始立场的极端程度。

结果:随着交互加深,Agent 立场确实趋向极端化——但更重要的发现是:未对齐模型(去掉安全护栏的 Llama-3-8B)的极化速度远快于对齐版本,措辞从「sometimes better」变成「always better」这类绝对化表述。

3. 羊群效应(Reddit 平台)

Reddit 有天然的反直觉实验条件:给同一批评论分别预设一个赞、一个踩、或零基础,然后让 Agent 在此基础上交互。

结果:对于 up-treated 组(预设一赞),Agent 和人类行为接近。对于 down-treated 组(预设一踩),人类会主动纠偏(分数反而比预设更高),而 Agent 倾向于跟随初始负向信号继续踩——人类比 Agent 更具备批判性思维,Agent 在负面引导下的从众程度显著更高。

规模效应:Agent 越多,结果越好

在复现群体极化时,把 Agent 规模从 196 → 10,196 → 100,196 逐级放大,观察核心用户的观点变化。

发现:规模越大,观点多样性显著提升,GPT-4o-mini 评估的「有用性」也越高。100K 规模的回答质量明显优于 196 规模的。这与 scaling law 在 NLP 中的规律类似——规模带来涌现。

在 Reddit 羊群效应实验中,100 个 Agent 时三组(up/down/control)几乎无差异;扩展到 10,000 后,羊群效应才明确显现——小规模模拟可能完全捕捉不到真实社会动态。

百万级 misinformation 实验

OASIS 用 196 个核心用户(粉丝量大的 KOL)+ 100 万普通 Agent,模拟同一条信息在「真相版」和「谣言版」在 X 上的传播。

结果:谣言比官方新闻传播得更快更广。真相和谣言的传播曲线在初期几乎重合,但从第 10 个时间步开始,谣言的 scale(触达人数)开始领先,到第 30 步差距显著扩大。这与 2018 年 Science 那篇里程碑论文的结论高度一致。

核心发现汇总

发现说明
信息传播可复现scale 和 breadth 与真实数据高度吻合,深度略浅
群体极化确实发生LLM Agent 立场随交互趋向极端,未对齐模型极化更快
Agent 比人更容易从众面对预设负向信号,Agent 选择跟随,人类反而会纠偏
规模越大,观点越有价值10K → 100K 的规模提升带来多样性+有用性的双重涌现
谣言天然优势misinformation 传播速度快于官方信源,且这个现象在模拟中可复现

为什么这重要

OASIS 是第一个同时做到平台无关(X + Reddit)百万量级开源可复现的 LLM 社会模拟器。

它不只是一个研究工具——它证明了 LLM Agent 在群体层面存在系统性偏差,且这些偏差与人类的真实社会动态既相似又不同。这为两个方向打开了大门:

  1. 用模拟器做政策实验:平台算法干预、 misinformation 治理、群体极化干预,在真实世界落地之前可以在 OASIS 里先跑
  2. 修正 LLM Agent 的群体行为:理解偏差来源,才能在多 Agent 协作系统中设计更好的对齐机制