Engram的Dan Biderman与Jessy Lin：记忆与持续学习——为什么每个人都需要自己的模型

cover Sequoia Capital · 2026-06-24🎬 在 YouTube 观看原视频 →>

摘要

在这场关于AI领域最前沿问题的深度对话中，Engram的两位联合创始人Dan Biderman和Jessy Lin提出了一个颠覆性的世界观：当前AI的瓶颈不是原始智能（raw intelligence），而是模型理解新的、不断演化的上下文的能力。他们正是围绕"记忆"与"持续学习"（continual learning）这两个同一枚硬币的两面展开工作——将适配器微调（adapter fine-tuning）、LoRA和强化学习等工具组合在一起，让模型将特定团队的私有知识"烧录进权重"，而非仅靠上下文窗口（context window）和检索增强生成（RAG）来临时拼凑理解。他们宣称这是一种"RAG杀手"（RAG killer）的方法论——不是要消灭检索，而是让模型像一位工作多年的老员工一样，本能地知道该搜索什么、如何建立关联。两位创始人还深入讨论了"事实与技能"的虚假二分、KV缓存（KV cache）的惊人低效、语言超越视觉的意外胜利，以及一个每个人拥有自己模型的未来图景。

正文

为什么"模型始终在训练"

Engram网站上有一句引人注目的宣言："我们不通过预训练（pre-training）或后训练（post-training）的镜头看世界——我们的模型始终在训练。"（Our models are always training.）Jessy Lin在访谈中解释了这句话背后的世界观：

"今天的模型已经非常聪明，但让它们更有用的瓶颈不再是原始智能，而是理解新的、不断演化的上下文。无论是你要做的新任务、工作中的特定上下文，还是公司内部的运作方式——如何像预训练和后训练将知识深深嵌入模型权重那样，将这些知识也嵌入进去？"

这正是Engram将自身定位在"记忆与持续学习"这两个根本问题上的原因。当前的行业实践中，人们通过上下文工程（context engineering）来解决这些需求——构建超长提示、在多轮对话中不断调整上下文窗口——但Lin认为，这忽略了一个被严重低估的工具：训练。

"前沿实验室用训练流水线让模型在数学和编码上变得极其出色，但为什么不用同样的方法，将训练应用到你拥有的每一种领域、每一种上下文上？"

内部化vs外部化：RAG杀手登场

Dan Biderman用一个生动的类比框定了Engram的核心命题：

"对一个人来说，记笔记和贴便签是非常有价值的事——我们永远不应该抛弃这一点。但每当我们第二天回到工作时，我们的大脑中总会留下某种记忆的痕迹、某种新的直觉——事情应该如何做、应该去哪里找。这两种东西应该结合起来。"

当前的AI解决方案严重偏向"外部化记忆"——即通过RAG（检索增强生成）将知识存储在外部数据库中，在推理时检索。Biderman指出了这种方法面临的两个根本问题：

第一，成本问题。"我们每个人每天很快将产生数千万token——仅仅存储和搜索这些内容，以及反复读取它们，将变得极其昂贵、极其混乱。"

第二，关联问题。"如果你总是依赖RAG，你无法形成关联——比如'我看到团队中有人在研究这个方向，我突然想起有一个相关的事情你可能想知道'。这种联想只能发生在权重中，因为它们不是关于'你让我搜索X我就搜索X'。"

Lin进一步阐述了"RAG杀手"的核心理念："检索系统的核心问题不是存储什么和放在哪里——而是如何寻址（how to address it），甚至是否知道该查找什么。这种直觉，模型可以通过训练获得。"

Biderman用一个技术细节放大了这个观点："一个KV缓存（KV cache）——当前模型在多轮对话中存储上下文的机制——一篇维基百科文章就可能膨胀到80GB的HBM内存，而整个Llama 70B模型的权重才约100GB。梯度下降（gradient descent）可以将整个互联网的信息压缩到很少的数字里——我们有这个存在性证明。那么，我们能不能花一些离线计算，把这些80GB压缩到千分之一的大小？"

适配器与Lora：把团队知识烧进权重

在技术实现层面，Engram的方法是在工作空间（workspace）层面训练"每个团队专属的模型"。他们与Notion、Microsoft和Harvey等合作伙伴一起工作，针对团队长期积累的文档、智能体交互记录和反馈数据，进行适配器微调（adapter fine-tuning）。

"我们用各种适配器——LoRA、前缀（prefixes）、稀疏架构（sparse architectures），"Lin解释，"所有这些工具都在我们的工具箱里。关键是弄清楚如何将任何原始文档或交互转化为有用的训练信号——监督微调（SFT）、强化学习（RL）、在线策略蒸馏（on-policy distillation），以及领域里发展出的所有这些方法。"

为什么是团队层面而非个人层面？Biderman坦诚地回答："从团队开始更容易——团队在如何收集上下文方面更有纪律，数据量更大。但每个人的电脑、每个人的手机，终有一天都是我们技术的目标。"

事实vs技能：一个虚假的二分法

当被问及"LLM记住'法国首都是巴黎'这类事实是好是坏"时，两位创始人给出了一个颠覆性的回答：将"事实记忆"和"技能学习"分开是一个虚假的二分法（false dichotomy）。

"如果你想剥离所有事实，只留下'纯净的核心'，这个模型会非常不自然——它甚至不知道基本的东西，"Lin说，"你需要回忆基本事实才能进入下一层思考，否则你走不了多远。这正是为什么训练如此重要——为了形成更复杂、更深入的思考，你必须先内化某些东西，才能将它们组合成更抽象的概念。"

Biderman补充道："传统计算机科学中，我们有数据库作为独立的课程，有算法作为独立的课程——数据库存事实，算法高效处理信息。深度学习的魔力在于这两者现在被揉在一起了。而现在我们看到AI被经济体系采用时，这些东西正在逐渐再次分离：公司有自己私有的上下文，小心翼翼地管理它们；而通用模型对这些上下文完全是个陌生人。对我们来说，很清楚的是需要某种收敛——事实、故事和细节需要被混合进模型中。"

为什么前沿实验室不会赢得这个市场

面对"为什么不是OpenAI或Anthropic直接端到端解决这个问题"的尖锐问题，两位创始人给出了一个建立在激励机制和市场结构之上的答案。

Lin的观点是世界观的根本差异："前沿实验室的世界观是：一个越来越大的模型，在越来越多领域越来越智能——这就是通往AGI的路。但我们的世界观是：每个人拥有自己的模型。人们想要学习的很多东西要么是私密的（永远不会出现在后训练数据集中），要么是冲突的（'我做这件事的方式'和另一家公司或个人的方式不同）。很多实际发生的事情是模糊的，很难用传统的干净监督和真实奖励信号来训练。"

Biderman补充说："前沿实验室的P0（最高优先级）是AGI——一个通用模型，非常擅长编码和数学，然后用它来驱动经济的自动化或解决密码学和国防中的真正难题。要实现这一点，需要更多预训练、更大的模型、更多的数据、更多的RL、更多的推理时间计算。他们当然都在思考记忆和持续学习，但这更像是产品层面的投入，而非核心使命。"

在Engram看来，需要三个层面的变化才能真正实现持续学习：新的研究突破、为每个人运行小型模型而非一个大型模型的训练基础设施，以及研究与产品之间更紧密集成的反馈回路。"当前模式下，研究人员训练模型，然后扔给产品团队去提示工程——但在模型始终训练的世界里，用户输入与训练信号是紧密交织的。"

语言为何超越了视觉？一个疯狂的理论

对话中有一个精彩的旁支：主持人提出了一个"疯癫理论"来解释为什么语言模型似乎在AI进展中超越了视觉模型，尽管在生物学中视觉拥有的带宽大得多。

"在生物学中，眼睛到大脑的光学数据比特率比声波高几个数量级——光子到电子是一个下采样过程，而声学是上采样过程。但在计算机中，一切都是电子的，所以你实际上'削弱了视觉的优势、提升了语言的地位'——它们被放在了同一条起跑线上。"

Biderman从神经科学的角度回应："人类的很大一部分脑区——枕叶（occipital lobes）——专门用于视觉，远多于分配给语言区域（如颞叶/temporal lobe）的部分。但我们并没有进化来做知识工作——坐在电脑前读东西、写备忘录，这不是我们的天性。视觉偏见在人类中很重，但啮齿类动物可能更偏嗅觉。"

Lin则从实用的角度补充："当人们训练视觉语言模型（VLMs）时，语言部分最终往往会主导视觉内容。但从知识工作的角度看，文本同样有效。"

每个人拥有自己的模型：5-10年后的愿景

在展望部分，Lin描绘了一个令人向往的未来："一个每个人都拥有自己模型的世界——这个模型与其他人的模型截然不同，也与前沿模型完全不同。人们常说'一个了解你的模型'，但它也以一种对你有意义的方式帮助你，无论你是个人还是团队。你能看到不同类型的智能无处不在。"

Biderman将Engram的使命置于一个更大的类比中："在神经科学中，我们知道记忆和导航使用相同的脑回路——代表空间中地标的神经元也负责情景记忆（episodic memory）的某些元素。对我而言，Engram可以是每个人的'LLM数据面接口'——类似于Databricks和Oracle这样的伟大公司，但我们形成的记忆恰好是神经记忆，模型恰好是个性化的。将会有数亿个这样的模型，它们不是按原样表示文件系统，而是表示该文件系统的'大脑状态'——更高效、更具联想性。"

ChatGPT时刻级的突破还有多远？

当被问及"记忆领域是否会出现类似ChatGPT时刻的突破"时，两位创始人给出了审慎但充满期待的判断。

"第一个概念验证（proof of concept）是：你有一个可以随时间学习的实习生，而且它确实会变得更好，"Lin说，"每个人都在等待看到这一点。无论上下文工程的方法现在多么精妙，它们都还没有达到这个水平——你需要调动所有工具才能实现。"

Biderman补充了一个尖锐的观察："如果你今天辞掉工作，唯一的目标就是为自己打造一个更好的模型——使用OpenAI和Anthropic的所有前沿模型，24/7地进行上下文工程——你作为一个个体能推动的进展极其有限。你可能还不如等待模型的下一个版本。我们希望看到一个未来：你花的时间越多，模型在你关心的领域中的表现就越好。这是非常难以实现的，但唯一可能实现的方式是，你开始在不破坏数据的前提下对数据进行规模化计算和训练。"

实现这一目标的关键障碍是什么？Biderman的回答直指当前AI系统中最根本的张力："梯度下降可以将大量信息打包到很少的数字中，但KV缓存却将很少的信息膨胀成80GB。我们拥有存在性证明——模型权重高效存储了整个互联网的知识——现在需要把这种效率应用到持续学习上。"