Arc Institute 的 Patrick Hsu:为生物学构建 App Store

摘要
Patrick Hsu 是基因组编辑和 CRISPR 技术的先锋,也是 Arc Institute 的联合创始人。Arc 是一家融合基础科学与 AI 技术的新型研究机构,其使命远超"设计更好的药物"——它试图构建生物学的统一理论,并将这种理论转化为可操作的工程平台。
Hsu 的核心论点令人振奋:生物学拥有物理学梦寐以求的统一理论——进化。进化作用于生命的所有尺度,从整个行星(生物改造星球)到生态系统、种群、个体、组织、细胞,再到分子。Arc 的 EVO 系列模型正是受此启发,直接在 DNA 序列上训练——而非仅仅在蛋白质层面——以学习从基因组到生物功能的完整映射。
他将 EVO 模型定位为"比蛋白质基础模型更基础"的生物学基础层,并预言未来会出现一个"虚拟细胞 PDB"——类似于蛋白质数据银行(Protein Data Bank, PDB)为 AlphaFold 提供了训练数据基础,虚拟细胞的标准化数据集将为细胞级别的 AI 建模铺平道路。
在这期对话中,Hsu 还深入探讨了制药行业从药物发现到开发的效率瓶颈、AI 对科研文化的潜在影响(从"猜测与检查"到"预测性科学")、以及对未来十年乃至 2050 年生物学的惊人预测。
正文
生物学拥有物理学没有的东西:统一理论
Hsu 以一句极富冲击力的话开场:"物理学一直苦苦追寻一个统一理论(Unifying Theory),而生物学早就有了——它就是进化。"
进化的精妙之处在于它通过 DNA 突变将自然选择的效应代代相传。这意味着,如果 AI 模型能够充分学习这些序列模式,就能直接连接基因型和表型——理解一个特定的 DNA 突变意味着健康还是疾病。
这正是 EVO 模型系列的核心理念:不是预测下一个单词,而是预测下一个碱基。通过自回归地(autoregressively)预测 DNA/RNA 序列中的下一个碱基、下一个氨基酸残基或下一个基因,模型学会了对细胞功能的分子逻辑。
EVO:从 DNA 到功能的直通车
Hsu 指出,2024 年诺贝尔化学奖同时授予了蛋白质结构预测(AlphaFold)和蛋白质设计(David Baker),这令人振奋——但所有这些获奖辞都明确写着"蛋白质"(proteins)。EVO 的野心更大:直接在基因组层面训练。
为什么是 DNA?两个原因:
1. DNA 是生命的基础信息层——蛋白质、RNA、调控序列都编码在 DNA 中。如果你只看蛋白质,你只看到了部分画面。
2. 数据最丰富——全球科学社区在过去 25 年积累的测序数据(通过 NCBI 序列读取档案等开放数据库)包含了从细菌、噬菌体、病毒到人类的全谱系基因组。
但 Hsu 坦承"我们讲 DNA 口音很重"。他把用 EVO 比作用 ChatGPT 但 99% 的词汇都是俄语——你并不真正理解模型内部在发生什么。因此,大量工作在于构建标注工具和可解释性(interpretability)技术来解码模型学到的东西。
一个具体的惊艳案例是 BRCA1 基因(与乳腺癌和卵巢癌相关)。EVO 模型能够对"意义未知的变异"(Variants of Unknown Significance, VUS)给出预测——在当前医学实践中,患者通常只能在"已知良性"和"已知致病"两个极端之间困惑徘徊。EVO 在 ClinVar 数据库上的表现已达最先进水平。
为生物学构建 App Store
Hsu 提出了一个引人入胜的类比:AI for Bio 不仅仅是药物设计。就像在智能手机时代,底层操作系统之上涌现了无数 App 一样,EVO 这样的生物学基础模型之上也会出现一个"生物学 App Store"。
这种"App Store"生态意味着:
- 不再需要每个团队都从零构建生物语言模型
- 实验室和生物技术公司可以在基础模型上构建特定应用(如 CRISPR 基因编辑系统设计、启动子工程、代谢路径优化等)
- 开源模型释放了社区创造力,类似于 AlphaFold 成为几乎所有结构生物学家的标准工具,EVO 有望成为所有计算生物学家的底层引擎
Hsu 观察到,Arc 已经在实验这个多 agent 科学方法的早期版本:他们用一个 AI agent 作为"搜索爬虫",自动抓取 NCBI 序列读取档案中所有单细胞数据、处理混乱的元数据、系统性地重新分析——这项本来任何一个优秀计算生物学家都不想做(因为太枯燥)的工作,借助一个 agent 和两个主要研究员的努力,就达到了社区级别的规模。"这对我而言是一个巨大的心智解锁。"
制药业的瓶颈不在设计,在验证
当被问及"为什么 AI 还没有带来大量新药"时,Hsu 给出了一个务实的回答:即使我们有完美的药物设计分子,候选分子仍然需要经历从细胞到小鼠到猴到人的漫长验证管线——这动辄需要五到十年、消耗数亿美元。
Hsu 的核心洞察是:制药业的整体成功率只有约 10%。这个统计数据解释了行业的几乎所有特征——为什么 FDA 如此严格地关注安全性(因为 90% 的候选物会失败)、为什么管线是线性的(因为我们缺乏预测能力,必须在真实的细胞和动物中逐个测试)。
AI 的真正变革性不在于把一个步骤做得更快,而在于提高整体成功率——从 10% 到 20%、30% 甚至 50%。如果你能在硅片(in silico)中并行仿真 10,000 个实验,而不是在湿实验室中一个个线性地做,"你就在改写这个行业的游戏规则。"
Hsu 还指出了一个有趣的现象:制药公司的 CFO 们会说,"我其实在药物发现上花的钱不多,大部分钱花在药物开发(毒性测试、CMC 生产等)上。" 这意味着 AI 在监管文件总结、文档生成等"枯燥但昂贵"的环节也有巨大的效率提升空间。
科学方法的缺失环节:没有"失败日志"
Hsu 提出了一个让所有科学家都会心一笑的观察:科学文献中的叙事化问题。每篇论文都写成一个"逻辑必然性导致突破"的英雄史诗,但真正做过实验的人都知道,科学本质上是一场猜测与检查(guess and check)。
缺失的是什么?高保真的推理轨迹(high-fidelity reasoning trace)。你读论文时只看到什么有效,但看不到什么失败了——而失败的数据对于训练更好的推理模型至关重要。
Hsu 认为这正是 AI 可以改变科学文化的路径:当一个预测模型有预测能力时,它的"幻觉"和它的"真知灼见"将基于你的信任度而被有区别地评估。这将改变整个同行评审文化——从"给我看数据"到更精妙的证据三角测量。
虚拟细胞:2030 年的 PDB 时刻
Hsu 在 2025-2050 时间尺度上给出了阶梯式的预测:
- 2025 年:完整的 IgG 抗体从头设计(denovo design)——不再只是单链纳米抗体,而是真正的全尺寸抗体药物。你可以用一次对话(one-shot)设计出与酶表面特定区域结合的 CDR 区域。
- 2030 年:虚拟细胞模型成熟。Hsu 将这个里程碑类比为"虚拟细胞的 PDB"——就像蛋白质数据银行(PDB)为 AlphaFold 提供了训练基础,高质量的虚拟细胞数据集将为细胞级别的 AI 模型赋能,让细胞生物学家"感到情感波动"(feel emotion)。
- 2050 年:具备湿实验室闭环的完全自动化科学方法——从假设生成到实验执行到数据分析到论文撰写的端到端闭合。一个受过充分训练的虚拟细胞模型也许能以 99.9% 的准确率预测特定药物对特定靶点的影响。
但 Hsu 也警告:最大的风险在于我们可能"做出了错误的数据"——你可以把小鼠模型建模到极致完美,但它仍然不是人类。
跨学科团队的构建艺术
Hsu 分享了他从 Arc Institute 学到的最深刻教训之一:真正的科学突破通常来自能够跨越不同领域建立概念桥梁的人。他发现,最好的科学家做两件事:提出极具创意的想法,然后将其执行到底。
在招聘中,他只关心三个简单问题:
1. 你在实验室之外是否还在思考科学?——真正的热情无法伪装。
2. 你是否有过"端到端"完成一件事情的经历?——从第 1 步走到第 15 步会极大筛选候选人池。
3. 你有走完全程的毅力(grit)吗?——"一个项目最后 20% 的完成往往包含了 80% 的工作量。"
Hsu 也特别提到他与 OpenAI 的 Greg Brockman 合作的故事:Brockman 在 Sabatical 期间来 Arc,起初说"我不一定能投入太多时间,这是我第一次休假"。然后他的妻子 Anna 在漫长的会议中途去洗手间时,Brockman 立刻说:"这就是我的邮箱,把我加到代码仓库里。"
脑-肠轴与编程生理学
除了基因组和蛋白质的设计,Hsu 还透露了 Arc 的一个前沿方向:神经-免疫界面(Neuro-Immune Interface)。他们招募了研究内感知(Interoception)的科学家——内感知是指身体如何向大脑传递"我感觉膝盖不舒服"或"我肚子有点怪"这类信号。
一个令人惊叹的研究案例是"跑者嗨"(Runner's High):Arc 的一位 PI 发现了特定肠道细菌种类产生的一种分子,通过肠道神经系统连接到大脑释放多巴胺——缺掉这链条上的任何一个环节(删除细菌、切断神经连接、阻断多巴胺释放),跑者嗨就消失了。反向回路同样成立:深度心理压力会通过大脑向肠道星形胶质细胞发送信号,释放促炎细胞因子,导致肠道发炎甚至溃疡。
Hsu 将这种思路称为编程生理学(Programming Physiology):不只是用药物结合某个蛋白,而是像调整激素或类似 AMPK 信号通路一样,在系统层面调整人的思维、感受和行为——从饱腹感、能量水平到情绪和专注力。