Arc Institute 的 Patrick Hsu：为生物学构建 App Store

cover Sequoia Capital · 2025-04-15🎬 在 YouTube 观看原视频 →>

摘要

Patrick Hsu 是基因组编辑和 CRISPR 技术的先锋，也是 Arc Institute 的联合创始人。Arc 是一家融合基础科学与 AI 技术的新型研究机构，其使命远超"设计更好的药物"——它试图构建生物学的统一理论，并将这种理论转化为可操作的工程平台。

Hsu 的核心论点令人振奋：生物学拥有物理学梦寐以求的统一理论——进化。进化作用于生命的所有尺度，从整个行星（生物改造星球）到生态系统、种群、个体、组织、细胞，再到分子。Arc 的 EVO 系列模型正是受此启发，直接在 DNA 序列上训练——而非仅仅在蛋白质层面——以学习从基因组到生物功能的完整映射。

他将 EVO 模型定位为"比蛋白质基础模型更基础"的生物学基础层，并预言未来会出现一个"虚拟细胞 PDB"——类似于蛋白质数据银行（Protein Data Bank, PDB）为 AlphaFold 提供了训练数据基础，虚拟细胞的标准化数据集将为细胞级别的 AI 建模铺平道路。

在这期对话中，Hsu 还深入探讨了制药行业从药物发现到开发的效率瓶颈、AI 对科研文化的潜在影响（从"猜测与检查"到"预测性科学"）、以及对未来十年乃至 2050 年生物学的惊人预测。

正文

生物学拥有物理学没有的东西：统一理论

Hsu 以一句极富冲击力的话开场："物理学一直苦苦追寻一个统一理论（Unifying Theory），而生物学早就有了——它就是进化。"

进化的精妙之处在于它通过 DNA 突变将自然选择的效应代代相传。这意味着，如果 AI 模型能够充分学习这些序列模式，就能直接连接基因型和表型——理解一个特定的 DNA 突变意味着健康还是疾病。

这正是 EVO 模型系列的核心理念：不是预测下一个单词，而是预测下一个碱基。通过自回归地（autoregressively）预测 DNA/RNA 序列中的下一个碱基、下一个氨基酸残基或下一个基因，模型学会了对细胞功能的分子逻辑。

EVO：从 DNA 到功能的直通车

Hsu 指出，2024 年诺贝尔化学奖同时授予了蛋白质结构预测（AlphaFold）和蛋白质设计（David Baker），这令人振奋——但所有这些获奖辞都明确写着"蛋白质"（proteins）。EVO 的野心更大：直接在基因组层面训练。

为什么是 DNA？两个原因：
1. DNA 是生命的基础信息层——蛋白质、RNA、调控序列都编码在 DNA 中。如果你只看蛋白质，你只看到了部分画面。
2. 数据最丰富——全球科学社区在过去 25 年积累的测序数据（通过 NCBI 序列读取档案等开放数据库）包含了从细菌、噬菌体、病毒到人类的全谱系基因组。

但 Hsu 坦承"我们讲 DNA 口音很重"。他把用 EVO 比作用 ChatGPT 但 99% 的词汇都是俄语——你并不真正理解模型内部在发生什么。因此，大量工作在于构建标注工具和可解释性（interpretability）技术来解码模型学到的东西。

一个具体的惊艳案例是 BRCA1 基因（与乳腺癌和卵巢癌相关）。EVO 模型能够对"意义未知的变异"（Variants of Unknown Significance, VUS）给出预测——在当前医学实践中，患者通常只能在"已知良性"和"已知致病"两个极端之间困惑徘徊。EVO 在 ClinVar 数据库上的表现已达最先进水平。

为生物学构建 App Store

Hsu 提出了一个引人入胜的类比：AI for Bio 不仅仅是药物设计。就像在智能手机时代，底层操作系统之上涌现了无数 App 一样，EVO 这样的生物学基础模型之上也会出现一个"生物学 App Store"。

这种"App Store"生态意味着：
- 不再需要每个团队都从零构建生物语言模型
- 实验室和生物技术公司可以在基础模型上构建特定应用（如 CRISPR 基因编辑系统设计、启动子工程、代谢路径优化等）
- 开源模型释放了社区创造力，类似于 AlphaFold 成为几乎所有结构生物学家的标准工具，EVO 有望成为所有计算生物学家的底层引擎

Hsu 观察到，Arc 已经在实验这个多 agent 科学方法的早期版本：他们用一个 AI agent 作为"搜索爬虫"，自动抓取 NCBI 序列读取档案中所有单细胞数据、处理混乱的元数据、系统性地重新分析——这项本来任何一个优秀计算生物学家都不想做（因为太枯燥）的工作，借助一个 agent 和两个主要研究员的努力，就达到了社区级别的规模。"这对我而言是一个巨大的心智解锁。"

制药业的瓶颈不在设计，在验证

当被问及"为什么 AI 还没有带来大量新药"时，Hsu 给出了一个务实的回答：即使我们有完美的药物设计分子，候选分子仍然需要经历从细胞到小鼠到猴到人的漫长验证管线——这动辄需要五到十年、消耗数亿美元。

Hsu 的核心洞察是：制药业的整体成功率只有约 10%。这个统计数据解释了行业的几乎所有特征——为什么 FDA 如此严格地关注安全性（因为 90% 的候选物会失败）、为什么管线是线性的（因为我们缺乏预测能力，必须在真实的细胞和动物中逐个测试）。

AI 的真正变革性不在于把一个步骤做得更快，而在于提高整体成功率——从 10% 到 20%、30% 甚至 50%。如果你能在硅片（in silico）中并行仿真 10,000 个实验，而不是在湿实验室中一个个线性地做，"你就在改写这个行业的游戏规则。"

Hsu 还指出了一个有趣的现象：制药公司的 CFO 们会说，"我其实在药物发现上花的钱不多，大部分钱花在药物开发（毒性测试、CMC 生产等）上。" 这意味着 AI 在监管文件总结、文档生成等"枯燥但昂贵"的环节也有巨大的效率提升空间。

科学方法的缺失环节：没有"失败日志"

Hsu 提出了一个让所有科学家都会心一笑的观察：科学文献中的叙事化问题。每篇论文都写成一个"逻辑必然性导致突破"的英雄史诗，但真正做过实验的人都知道，科学本质上是一场猜测与检查（guess and check）。

缺失的是什么？高保真的推理轨迹（high-fidelity reasoning trace）。你读论文时只看到什么有效，但看不到什么失败了——而失败的数据对于训练更好的推理模型至关重要。

Hsu 认为这正是 AI 可以改变科学文化的路径：当一个预测模型有预测能力时，它的"幻觉"和它的"真知灼见"将基于你的信任度而被有区别地评估。这将改变整个同行评审文化——从"给我看数据"到更精妙的证据三角测量。

虚拟细胞：2030 年的 PDB 时刻

Hsu 在 2025-2050 时间尺度上给出了阶梯式的预测：

2025 年：完整的 IgG 抗体从头设计（denovo design）——不再只是单链纳米抗体，而是真正的全尺寸抗体药物。你可以用一次对话（one-shot）设计出与酶表面特定区域结合的 CDR 区域。
2030 年：虚拟细胞模型成熟。Hsu 将这个里程碑类比为"虚拟细胞的 PDB"——就像蛋白质数据银行（PDB）为 AlphaFold 提供了训练基础，高质量的虚拟细胞数据集将为细胞级别的 AI 模型赋能，让细胞生物学家"感到情感波动"（feel emotion）。
2050 年：具备湿实验室闭环的完全自动化科学方法——从假设生成到实验执行到数据分析到论文撰写的端到端闭合。一个受过充分训练的虚拟细胞模型也许能以 99.9% 的准确率预测特定药物对特定靶点的影响。

但 Hsu 也警告：最大的风险在于我们可能"做出了错误的数据"——你可以把小鼠模型建模到极致完美，但它仍然不是人类。

跨学科团队的构建艺术

Hsu 分享了他从 Arc Institute 学到的最深刻教训之一：真正的科学突破通常来自能够跨越不同领域建立概念桥梁的人。他发现，最好的科学家做两件事：提出极具创意的想法，然后将其执行到底。

在招聘中，他只关心三个简单问题：
1. 你在实验室之外是否还在思考科学？——真正的热情无法伪装。
2. 你是否有过"端到端"完成一件事情的经历？——从第 1 步走到第 15 步会极大筛选候选人池。
3. 你有走完全程的毅力（grit）吗？——"一个项目最后 20% 的完成往往包含了 80% 的工作量。"

Hsu 也特别提到他与 OpenAI 的 Greg Brockman 合作的故事：Brockman 在 Sabatical 期间来 Arc，起初说"我不一定能投入太多时间，这是我第一次休假"。然后他的妻子 Anna 在漫长的会议中途去洗手间时，Brockman 立刻说："这就是我的邮箱，把我加到代码仓库里。"

脑-肠轴与编程生理学

除了基因组和蛋白质的设计，Hsu 还透露了 Arc 的一个前沿方向：神经-免疫界面（Neuro-Immune Interface）。他们招募了研究内感知（Interoception）的科学家——内感知是指身体如何向大脑传递"我感觉膝盖不舒服"或"我肚子有点怪"这类信号。

一个令人惊叹的研究案例是"跑者嗨"（Runner's High）：Arc 的一位 PI 发现了特定肠道细菌种类产生的一种分子，通过肠道神经系统连接到大脑释放多巴胺——缺掉这链条上的任何一个环节（删除细菌、切断神经连接、阻断多巴胺释放），跑者嗨就消失了。反向回路同样成立：深度心理压力会通过大脑向肠道星形胶质细胞发送信号，释放促炎细胞因子，导致肠道发炎甚至溃疡。

Hsu 将这种思路称为编程生理学（Programming Physiology）：不只是用药物结合某个蛋白，而是像调整激素或类似 AMPK 信号通路一样，在系统层面调整人的思维、感受和行为——从饱腹感、能量水平到情绪和专注力。