Simile的Joon Sung Park:模拟人类社会的探索之旅——从Smallville到社会科学的CERN

摘要
Joon Sung Park是Simile的创始人兼CEO。这家公司正在构建一个应用AI实验室(applied AI lab),通过模拟人类行为和社会来帮助企业做出更好的决策。从斯坦福大学的一个研究项目——在虚拟小镇Smallville中让25个生成式智能体(generative agents)自主生活、工作、社交甚至自发组织情人节派对——到如今服务CVS等财富500强客户,Park讲述了一段从科研到创业的旅程。Simile的核心方法论是:通过与真实人类进行深度访谈和调查采集行为数据,将这些数据编码为智能体模型,从而在模拟中预测人群对新产品、定价策略甚至财报电话会议的反应。Park认为,模拟技术之于社会科学,如同哈勃望远镜之于天文学——它将彻底改变我们理解人类社会的方式。对话还深入探讨了模型的收敛与发散(convergence vs. divergence)、"言与行"的鸿沟(say-do gap),以及一个令人兴奋的可能性:宏观经济、民主崩溃预警、甚至货币体系起源等问题,或许终将被模拟所解答。
正文
Smallville:当25个AI智能体开始自主生活
2023年4月,斯坦福大学的一个研究团队做了一个前所未有的实验:他们创建了一个名为Smallville的虚拟小镇,在其中安置了25个由大语言模型(large language models, LLMs)驱动的生成式智能体。每个智能体都有自己的人物设定(persona),它们会早晨醒来、完成日常事务、去上班、建立关系——就像真实的人类一样。
"我们观察到,大语言模型可以在其训练数据中编码大量人类行为——这些数据来自网络、社交媒体等——如果你以正确的角度去探测,你可以从这些模型中提取出许多微观行为,"Park解释道。"我们发现,这正是我们一直在等待的、用于创建真正复杂的智能体行为的关键要素。"
实验中最令人惊讶的涌现现象(emergent phenomena)之一发生在情人节前夕。一位名叫Isabella的咖啡馆老板智能体,自发地想到:"如果我能举办一个情人节派对,邀请很多朋友和顾客来参加,那该多好。"在情人节前一天,她四处收集派对材料,告诉顾客们即将举办派对。到了情人节当天,一场由AI智能体自主组织、其他智能体自发参与的聚会就这样在虚拟咖啡馆中成形了。
更有趣的是那些"人性化"的细节:有些收到邀请的智能体忘记了参加;一个叫Klaus的智能体收到了邀请,决定邀请他的暗恋对象一起去约会——他们真的带着约会对象出现在了派对上。
从社会计算到生成式智能体:五年的研究积淀
Smallville并非凭空而来。Park的研究轨迹可以追溯到2020年,当时GPT-3即将问世。"我们写了一篇名为《基础模型的机会与风险》(Opportunities and Risks of Foundation Models)的论文,"Park回忆道。他的联合创始人之一Percy Liang现在是斯坦福基础模型研究中心(Center for Foundation Model Research)的负责人。
对Park来说,最令人兴奋的不是这些模型能做分类或简单生成——"从交互的角度来看,我们早就知道如何做到这些。"真正让他着迷的是:"这些模型实际上编码了人类行为。如果我们把这一点推到极致,会发生什么?"
2022年,团队发表了一篇题为《Social Simulacra》的论文——这是生成式智能体论文的前身。论文的核心设想是:假设你正在设计一个Reddit子版块(subreddit),你想预测人们在这个社区中的行为。"即便对专业设计师来说,这也是一个令人惊讶的难题。"团队的解决方案是:用语言模型创建包含数千个角色(personas)的整个社区模拟。在一个模拟的匹兹堡旅游讨论社区中,这些角色开始自发协作,讨论景点、规划共同旅行——所有这些都在模拟的subreddit中实时发生。
从论文到公司:当财富500强开始敲门
"研究和公司有非常不同的功能,"Park说。"研究是做广度探索的绝佳工具——你在实验室里被一群极其聪明的人包围,每个研究者拥有自己的一小片命题,去深入探索。但我们不擅长把事情做完,不擅长把研究影响力带到现实世界。而公司是一台深度搜索的机器。"
转折点出现在生成式智能体论文发表约半年后。最初,大量社会科学家联系团队,希望能在他们的平台上进行随机对照试验(randomized controlled trials, RCTs)。很快,许多财富500强公司的高管和董事会成员——他们偶尔访问斯坦福时看到了这个演示——开始问:"我们一直在做各种调查和实验,但市场上有太多我们无法回答的研究问题。我们能在模拟中运行这些吗?"
为了验证模拟的准确性,团队创建了一个包含1000名美国人口的模拟,并证明使用他们的架构和模型,可以以85%的准确率预测人们的行为——与人们自我复现(self-replicate)的准确率相当。"看到这个结果时,我们想:好的,这确实是我们愿意作为平台提供给用户、用于模拟他们最重要的决策的东西。"
于是,Park与两位斯坦福导师——Percy Liang和Michael Bernstein——共同创立了Simile,三人已经合作了五六年。
Simile如何工作:弥合"言与行"的鸿沟
当被问及为什么不能直接让Claude或GPT扮演"一个34岁、住在沿海都市区的女性"来获得忠实的行为模拟时,Park指出了一个根本性问题:言与行的鸿沟(say-do gap)。
"人们说的事情和他们实际做的事情之间存在真实的差距,"Park解释道。"大语言模型的训练数据从根本上说是'编辑过的数据'——基本上就是人们在网上说过的话。这确实覆盖了其训练数据中的很大一部分。"
Simile的解决方案是:通过与民调公司(如Gallup盖洛普)的战略合作,接触真实人群,收集他们认为是高效且可泛化的数据。数据采集分两种模式:
- 深度访谈:问题包括"告诉我你的生命故事"。这种数据提供了Park所称的"长尾信息"(longtail information)——不是某个特定时刻你做了什么,而是你在哪里长大、你经历过哪些艰难抉择。"有趣的是,这类数据是构建态度与行为之间转换层(translational layer)的绝佳方式。"
- 结构化调查:针对更具体的选择和态度问题,这些方式在时间和数据上更高效。
Simile还在训练自己的面试模型,其目标函数是:"如何用最少的时间,获得关于一个人最多的可见性?"
此外,公司还在训练一个"人类行为的基础模型"(foundation model of human behavior)——将所有社会科学RCT中的行为信号编码到模型中,使其能预测任何RCT的结果。
智能的CPU与GPU:为什么Simile要自建模型
"今天的前沿模型类似于智能单元的CPU——一个单一模型,在极其理性的数据上训练,在解决有客观答案的复杂问题上表现出色,"Park说。但问题在于:人类并不总是理性的。"我们有大量的主观价值观、偏好和品味。"
"Simile的模型更接近于智能单元的GPU——我们不需要超人类模型,事实上,我们想要的是尽可能像人的模型。但我们需要确保这些个体子单元能代表不同人群的真实观点。"
Park观察到,随着前沿模型在数学和编程等客观基准上的性能不断提升,它们在预测和模拟人类行为方面的能力却出现了停滞(plateaued)。"我们目前的建模范式在真正模拟人类方面已经达到了某种天花板。要达到卓越,我们需要下一个更面向建模人类多样性的前沿。"
从概念测试到模拟财报电话会议:客户的演进路径
Simile的客户旅程通常从一个非常具体的用例开始:概念测试(concept testing)。"客户有新的概念、新的产品创意、新的市场信息想要测试,他们想从用户那里了解看法。这是我们让他们快速测试这些想法的一种方式。"
但客户很快看到了更大的图景:将测试从5-10个想法扩展到数千个想法、数千个子人群。
接下来,需求开始深入:产品测试不仅要提交一张图片,而是"让这些智能体体验这个产品10分钟,然后告诉我们它们经历了什么、看到了什么"——这为测试增加了时间维度。
然后是多智能体模拟(multi-agent simulation)。令Park最初感到意外但后来发现极其常见的一个用例是:模拟财报电话会议(earnings call)。"CEO和董事会成员总是需要考虑如何设计财报电话会议、受众会如何反应。"
模拟vs真实世界测试:为什么模拟更优?
当主持人提出"为什么不直接跑一千个Facebook广告来看真实点击率"的质疑时,Park给出了三个层面的回答:
第一,规模与代表性(scale & representativeness)。"是的,你完全可以在Facebook上做测试。但模拟能让你在任何规模上进行真实行为模拟——你可以拉入任意数量的用户,甚至不受Facebook上可用人口数量的限制。而且更有代表性,因为只有特定人群会回应在线实验。Simile模型的核心承诺之一就是代表性——我们做了获取代表性人群、然后收集能恰当地代表他们的数据的艰苦工作。"
第二,二阶效应(second-order effects)。"想象你是一家汽车公司,在某市场推出一款电动车。电动车卖得非常好。我们可以帮你做电动车的概念测试和营销测试。但这对非电动车的市场感知有什么影响?这会改变市场认知吗?这对你其余产品线意味着什么?你如何在更证据驱动的方式下平衡这些二阶影响?今天没有方法能测试这些——但你可以用模拟来运行。"
第三,长期影响。不仅仅是今年会发生什么,而是未来5-10年意味着什么。
收敛与发散:模拟的两种数学命运
Simile将模拟分为两类:收敛模拟(converging simulations)和发散模拟(diverging simulations),两者有时共存。
收敛模拟:即使存在一些误差,系统也会趋向于某个确定的结果。一个很好的例子是网络模拟——"如果你模拟一个人际网络,那个网络总会形成一个中心节点(hub)。这就是网络科学家所说的无标度网络(scale-free network)。这是人类行为中非常根本的特性,只要你在一定阈值精度内复制了人类行为,这种收敛总会发生。"
发散模拟:经典问题如"第一次世界大战是否不可避免"——每次运行可能得到不同结果。对于这类问题,核心评估方法是置信度(confidence):运行模拟100次,结果中有多少次是X?用类似自助法(bootstrap)的方式计算置信区间。
Park将模拟领域的发展阶段类比为推论统计学(inferential statistics)的"第一天"。"推论统计学家花了大量时间讨论和研究,才确定P<0.05是科学上足够强的证据。Simile正在为整个领域设定类似的阈值和标准。"
社会科学的CERN:模拟的终极愿景
当主持人提出一个更宏大的想象——宏观经济本质上是"人类行为在大规模上的函数",中央银行的决策、民主崩溃的信号、货币体系的起源,是否都能通过模拟来解答——Park给出了一个令人振奋的回应:
"还在做研究的时候,我就对两位导师Michael和Percy说:听着,如果我们把这件事做对,这里面有诺贝尔奖可以拿。我是真心这么认为的。"
他提到了诺贝尔奖得主Thomas Schelling——他构建了极其简单的基于智能体的模型(agent-based models)来展示隔离(segregation)如何发生。在Schelling的模型中,个体智能体只是红点或蓝点,每一轮它们环顾四周,如果同色邻居的比例低于某个阈值就搬家。"而今天,我们可以创建真正复制了个体全部丰富性的智能体,运行同样类型的模拟。"
Park展望了一个未来:今天的模拟运行起来又快又便宜,但未来可能出现耗资上亿美元、运行数月才能完成一次的模拟——"但当它运行时,它能解答我们社会中的某个根本性问题。那种可能性真的非常令人兴奋。"
他的联合创始人Percy Liang常说:"看看最伟大的科学创新,它们通常始于一项非凡的测量工具。哈勃望远镜真正改变了我们理解宇宙的轨迹。模拟之于人类社会,可以扮演同样的角色。"
科幻小说中的两大支柱
对话以Park回到他最初的灵感来源作为结束:
"我是一个深受科幻小说启发的人。当你读到那些描述技术足够成熟的社会的科幻作品时,你总能看到两大支柱:某种版本的AGI,以及某种版本的模拟——真正帮助引导社会前进的模拟。我今天确实看到了第一次真正尝试构建这种模拟的机会。五年前我都不会这么说,但这是我们在深入研究这个领域多年后建立起来的信念。"
"现在有明确的用例可以为我们的用户服务,但未来还有大量创新尚未到来。这些创新终将汇聚成某种类似于'人类社会的CERN'的模拟器。"