Simile的Joon Sung Park：模拟人类社会的探索之旅——从Smallville到社会科学的CERN

cover Sequoia Capital · 2026-06-16🎬 在 YouTube 观看原视频 →>

摘要

Joon Sung Park是Simile的创始人兼CEO。这家公司正在构建一个应用AI实验室（applied AI lab），通过模拟人类行为和社会来帮助企业做出更好的决策。从斯坦福大学的一个研究项目——在虚拟小镇Smallville中让25个生成式智能体（generative agents）自主生活、工作、社交甚至自发组织情人节派对——到如今服务CVS等财富500强客户，Park讲述了一段从科研到创业的旅程。Simile的核心方法论是：通过与真实人类进行深度访谈和调查采集行为数据，将这些数据编码为智能体模型，从而在模拟中预测人群对新产品、定价策略甚至财报电话会议的反应。Park认为，模拟技术之于社会科学，如同哈勃望远镜之于天文学——它将彻底改变我们理解人类社会的方式。对话还深入探讨了模型的收敛与发散（convergence vs. divergence）、"言与行"的鸿沟（say-do gap），以及一个令人兴奋的可能性：宏观经济、民主崩溃预警、甚至货币体系起源等问题，或许终将被模拟所解答。

正文

Smallville：当25个AI智能体开始自主生活

2023年4月，斯坦福大学的一个研究团队做了一个前所未有的实验：他们创建了一个名为Smallville的虚拟小镇，在其中安置了25个由大语言模型（large language models, LLMs）驱动的生成式智能体。每个智能体都有自己的人物设定（persona），它们会早晨醒来、完成日常事务、去上班、建立关系——就像真实的人类一样。

"我们观察到，大语言模型可以在其训练数据中编码大量人类行为——这些数据来自网络、社交媒体等——如果你以正确的角度去探测，你可以从这些模型中提取出许多微观行为，"Park解释道。"我们发现，这正是我们一直在等待的、用于创建真正复杂的智能体行为的关键要素。"

实验中最令人惊讶的涌现现象（emergent phenomena）之一发生在情人节前夕。一位名叫Isabella的咖啡馆老板智能体，自发地想到："如果我能举办一个情人节派对，邀请很多朋友和顾客来参加，那该多好。"在情人节前一天，她四处收集派对材料，告诉顾客们即将举办派对。到了情人节当天，一场由AI智能体自主组织、其他智能体自发参与的聚会就这样在虚拟咖啡馆中成形了。

更有趣的是那些"人性化"的细节：有些收到邀请的智能体忘记了参加；一个叫Klaus的智能体收到了邀请，决定邀请他的暗恋对象一起去约会——他们真的带着约会对象出现在了派对上。

从社会计算到生成式智能体：五年的研究积淀

Smallville并非凭空而来。Park的研究轨迹可以追溯到2020年，当时GPT-3即将问世。"我们写了一篇名为《基础模型的机会与风险》（Opportunities and Risks of Foundation Models）的论文，"Park回忆道。他的联合创始人之一Percy Liang现在是斯坦福基础模型研究中心（Center for Foundation Model Research）的负责人。

对Park来说，最令人兴奋的不是这些模型能做分类或简单生成——"从交互的角度来看，我们早就知道如何做到这些。"真正让他着迷的是："这些模型实际上编码了人类行为。如果我们把这一点推到极致，会发生什么？"

2022年，团队发表了一篇题为《Social Simulacra》的论文——这是生成式智能体论文的前身。论文的核心设想是：假设你正在设计一个Reddit子版块（subreddit），你想预测人们在这个社区中的行为。"即便对专业设计师来说，这也是一个令人惊讶的难题。"团队的解决方案是：用语言模型创建包含数千个角色（personas）的整个社区模拟。在一个模拟的匹兹堡旅游讨论社区中，这些角色开始自发协作，讨论景点、规划共同旅行——所有这些都在模拟的subreddit中实时发生。

从论文到公司：当财富500强开始敲门

"研究和公司有非常不同的功能，"Park说。"研究是做广度探索的绝佳工具——你在实验室里被一群极其聪明的人包围，每个研究者拥有自己的一小片命题，去深入探索。但我们不擅长把事情做完，不擅长把研究影响力带到现实世界。而公司是一台深度搜索的机器。"

转折点出现在生成式智能体论文发表约半年后。最初，大量社会科学家联系团队，希望能在他们的平台上进行随机对照试验（randomized controlled trials, RCTs）。很快，许多财富500强公司的高管和董事会成员——他们偶尔访问斯坦福时看到了这个演示——开始问："我们一直在做各种调查和实验，但市场上有太多我们无法回答的研究问题。我们能在模拟中运行这些吗？"

为了验证模拟的准确性，团队创建了一个包含1000名美国人口的模拟，并证明使用他们的架构和模型，可以以85%的准确率预测人们的行为——与人们自我复现（self-replicate）的准确率相当。"看到这个结果时，我们想：好的，这确实是我们愿意作为平台提供给用户、用于模拟他们最重要的决策的东西。"

于是，Park与两位斯坦福导师——Percy Liang和Michael Bernstein——共同创立了Simile，三人已经合作了五六年。

Simile如何工作：弥合"言与行"的鸿沟

当被问及为什么不能直接让Claude或GPT扮演"一个34岁、住在沿海都市区的女性"来获得忠实的行为模拟时，Park指出了一个根本性问题：言与行的鸿沟（say-do gap）。

"人们说的事情和他们实际做的事情之间存在真实的差距，"Park解释道。"大语言模型的训练数据从根本上说是'编辑过的数据'——基本上就是人们在网上说过的话。这确实覆盖了其训练数据中的很大一部分。"

Simile的解决方案是：通过与民调公司（如Gallup盖洛普）的战略合作，接触真实人群，收集他们认为是高效且可泛化的数据。数据采集分两种模式：

深度访谈：问题包括"告诉我你的生命故事"。这种数据提供了Park所称的"长尾信息"（longtail information）——不是某个特定时刻你做了什么，而是你在哪里长大、你经历过哪些艰难抉择。"有趣的是，这类数据是构建态度与行为之间转换层（translational layer）的绝佳方式。"
结构化调查：针对更具体的选择和态度问题，这些方式在时间和数据上更高效。

Simile还在训练自己的面试模型，其目标函数是："如何用最少的时间，获得关于一个人最多的可见性？"

此外，公司还在训练一个"人类行为的基础模型"（foundation model of human behavior）——将所有社会科学RCT中的行为信号编码到模型中，使其能预测任何RCT的结果。

智能的CPU与GPU：为什么Simile要自建模型

"今天的前沿模型类似于智能单元的CPU——一个单一模型，在极其理性的数据上训练，在解决有客观答案的复杂问题上表现出色，"Park说。但问题在于：人类并不总是理性的。"我们有大量的主观价值观、偏好和品味。"

"Simile的模型更接近于智能单元的GPU——我们不需要超人类模型，事实上，我们想要的是尽可能像人的模型。但我们需要确保这些个体子单元能代表不同人群的真实观点。"

Park观察到，随着前沿模型在数学和编程等客观基准上的性能不断提升，它们在预测和模拟人类行为方面的能力却出现了停滞（plateaued）。"我们目前的建模范式在真正模拟人类方面已经达到了某种天花板。要达到卓越，我们需要下一个更面向建模人类多样性的前沿。"

从概念测试到模拟财报电话会议：客户的演进路径

Simile的客户旅程通常从一个非常具体的用例开始：概念测试（concept testing）。"客户有新的概念、新的产品创意、新的市场信息想要测试，他们想从用户那里了解看法。这是我们让他们快速测试这些想法的一种方式。"

但客户很快看到了更大的图景：将测试从5-10个想法扩展到数千个想法、数千个子人群。

接下来，需求开始深入：产品测试不仅要提交一张图片，而是"让这些智能体体验这个产品10分钟，然后告诉我们它们经历了什么、看到了什么"——这为测试增加了时间维度。

然后是多智能体模拟（multi-agent simulation）。令Park最初感到意外但后来发现极其常见的一个用例是：模拟财报电话会议（earnings call）。"CEO和董事会成员总是需要考虑如何设计财报电话会议、受众会如何反应。"

模拟vs真实世界测试：为什么模拟更优？

当主持人提出"为什么不直接跑一千个Facebook广告来看真实点击率"的质疑时，Park给出了三个层面的回答：

第一，规模与代表性（scale & representativeness）。"是的，你完全可以在Facebook上做测试。但模拟能让你在任何规模上进行真实行为模拟——你可以拉入任意数量的用户，甚至不受Facebook上可用人口数量的限制。而且更有代表性，因为只有特定人群会回应在线实验。Simile模型的核心承诺之一就是代表性——我们做了获取代表性人群、然后收集能恰当地代表他们的数据的艰苦工作。"

第二，二阶效应（second-order effects）。"想象你是一家汽车公司，在某市场推出一款电动车。电动车卖得非常好。我们可以帮你做电动车的概念测试和营销测试。但这对非电动车的市场感知有什么影响？这会改变市场认知吗？这对你其余产品线意味着什么？你如何在更证据驱动的方式下平衡这些二阶影响？今天没有方法能测试这些——但你可以用模拟来运行。"

第三，长期影响。不仅仅是今年会发生什么，而是未来5-10年意味着什么。

收敛与发散：模拟的两种数学命运

Simile将模拟分为两类：收敛模拟（converging simulations）和发散模拟（diverging simulations），两者有时共存。

收敛模拟：即使存在一些误差，系统也会趋向于某个确定的结果。一个很好的例子是网络模拟——"如果你模拟一个人际网络，那个网络总会形成一个中心节点（hub）。这就是网络科学家所说的无标度网络（scale-free network）。这是人类行为中非常根本的特性，只要你在一定阈值精度内复制了人类行为，这种收敛总会发生。"

发散模拟：经典问题如"第一次世界大战是否不可避免"——每次运行可能得到不同结果。对于这类问题，核心评估方法是置信度（confidence）：运行模拟100次，结果中有多少次是X？用类似自助法（bootstrap）的方式计算置信区间。

Park将模拟领域的发展阶段类比为推论统计学（inferential statistics）的"第一天"。"推论统计学家花了大量时间讨论和研究，才确定P<0.05是科学上足够强的证据。Simile正在为整个领域设定类似的阈值和标准。"

社会科学的CERN：模拟的终极愿景

当主持人提出一个更宏大的想象——宏观经济本质上是"人类行为在大规模上的函数"，中央银行的决策、民主崩溃的信号、货币体系的起源，是否都能通过模拟来解答——Park给出了一个令人振奋的回应：

"还在做研究的时候，我就对两位导师Michael和Percy说：听着，如果我们把这件事做对，这里面有诺贝尔奖可以拿。我是真心这么认为的。"

他提到了诺贝尔奖得主Thomas Schelling——他构建了极其简单的基于智能体的模型（agent-based models）来展示隔离（segregation）如何发生。在Schelling的模型中，个体智能体只是红点或蓝点，每一轮它们环顾四周，如果同色邻居的比例低于某个阈值就搬家。"而今天，我们可以创建真正复制了个体全部丰富性的智能体，运行同样类型的模拟。"

Park展望了一个未来：今天的模拟运行起来又快又便宜，但未来可能出现耗资上亿美元、运行数月才能完成一次的模拟——"但当它运行时，它能解答我们社会中的某个根本性问题。那种可能性真的非常令人兴奋。"

他的联合创始人Percy Liang常说："看看最伟大的科学创新，它们通常始于一项非凡的测量工具。哈勃望远镜真正改变了我们理解宇宙的轨迹。模拟之于人类社会，可以扮演同样的角色。"

科幻小说中的两大支柱

对话以Park回到他最初的灵感来源作为结束：

"我是一个深受科幻小说启发的人。当你读到那些描述技术足够成熟的社会的科幻作品时，你总能看到两大支柱：某种版本的AGI，以及某种版本的模拟——真正帮助引导社会前进的模拟。我今天确实看到了第一次真正尝试构建这种模拟的机会。五年前我都不会这么说，但这是我们在深入研究这个领域多年后建立起来的信念。"

"现在有明确的用例可以为我们的用户服务，但未来还有大量创新尚未到来。这些创新终将汇聚成某种类似于'人类社会的CERN'的模拟器。"