Engram的Dan Biderman与Jessy Lin:记忆与持续学习——为什么每个人都需要自己的模型

摘要
在这场关于AI领域最前沿问题的深度对话中,Engram的两位联合创始人Dan Biderman和Jessy Lin提出了一个颠覆性的世界观:当前AI的瓶颈不是原始智能(raw intelligence),而是模型理解新的、不断演化的上下文的能力。他们正是围绕"记忆"与"持续学习"(continual learning)这两个同一枚硬币的两面展开工作——将适配器微调(adapter fine-tuning)、LoRA和强化学习等工具组合在一起,让模型将特定团队的私有知识"烧录进权重",而非仅靠上下文窗口(context window)和检索增强生成(RAG)来临时拼凑理解。他们宣称这是一种"RAG杀手"(RAG killer)的方法论——不是要消灭检索,而是让模型像一位工作多年的老员工一样,本能地知道该搜索什么、如何建立关联。两位创始人还深入讨论了"事实与技能"的虚假二分、KV缓存(KV cache)的惊人低效、语言超越视觉的意外胜利,以及一个每个人拥有自己模型的未来图景。
正文
为什么"模型始终在训练"
Engram网站上有一句引人注目的宣言:"我们不通过预训练(pre-training)或后训练(post-training)的镜头看世界——我们的模型始终在训练。"(Our models are always training.)Jessy Lin在访谈中解释了这句话背后的世界观:
"今天的模型已经非常聪明,但让它们更有用的瓶颈不再是原始智能,而是理解新的、不断演化的上下文。无论是你要做的新任务、工作中的特定上下文,还是公司内部的运作方式——如何像预训练和后训练将知识深深嵌入模型权重那样,将这些知识也嵌入进去?"
这正是Engram将自身定位在"记忆与持续学习"这两个根本问题上的原因。当前的行业实践中,人们通过上下文工程(context engineering)来解决这些需求——构建超长提示、在多轮对话中不断调整上下文窗口——但Lin认为,这忽略了一个被严重低估的工具:训练。
"前沿实验室用训练流水线让模型在数学和编码上变得极其出色,但为什么不用同样的方法,将训练应用到你拥有的每一种领域、每一种上下文上?"
内部化vs外部化:RAG杀手登场
Dan Biderman用一个生动的类比框定了Engram的核心命题:
"对一个人来说,记笔记和贴便签是非常有价值的事——我们永远不应该抛弃这一点。但每当我们第二天回到工作时,我们的大脑中总会留下某种记忆的痕迹、某种新的直觉——事情应该如何做、应该去哪里找。这两种东西应该结合起来。"
当前的AI解决方案严重偏向"外部化记忆"——即通过RAG(检索增强生成)将知识存储在外部数据库中,在推理时检索。Biderman指出了这种方法面临的两个根本问题:
第一,成本问题。"我们每个人每天很快将产生数千万token——仅仅存储和搜索这些内容,以及反复读取它们,将变得极其昂贵、极其混乱。"
第二,关联问题。"如果你总是依赖RAG,你无法形成关联——比如'我看到团队中有人在研究这个方向,我突然想起有一个相关的事情你可能想知道'。这种联想只能发生在权重中,因为它们不是关于'你让我搜索X我就搜索X'。"
Lin进一步阐述了"RAG杀手"的核心理念:"检索系统的核心问题不是存储什么和放在哪里——而是如何寻址(how to address it),甚至是否知道该查找什么。这种直觉,模型可以通过训练获得。"
Biderman用一个技术细节放大了这个观点:"一个KV缓存(KV cache)——当前模型在多轮对话中存储上下文的机制——一篇维基百科文章就可能膨胀到80GB的HBM内存,而整个Llama 70B模型的权重才约100GB。梯度下降(gradient descent)可以将整个互联网的信息压缩到很少的数字里——我们有这个存在性证明。那么,我们能不能花一些离线计算,把这些80GB压缩到千分之一的大小?"
适配器与Lora:把团队知识烧进权重
在技术实现层面,Engram的方法是在工作空间(workspace)层面训练"每个团队专属的模型"。他们与Notion、Microsoft和Harvey等合作伙伴一起工作,针对团队长期积累的文档、智能体交互记录和反馈数据,进行适配器微调(adapter fine-tuning)。
"我们用各种适配器——LoRA、前缀(prefixes)、稀疏架构(sparse architectures),"Lin解释,"所有这些工具都在我们的工具箱里。关键是弄清楚如何将任何原始文档或交互转化为有用的训练信号——监督微调(SFT)、强化学习(RL)、在线策略蒸馏(on-policy distillation),以及领域里发展出的所有这些方法。"
为什么是团队层面而非个人层面?Biderman坦诚地回答:"从团队开始更容易——团队在如何收集上下文方面更有纪律,数据量更大。但每个人的电脑、每个人的手机,终有一天都是我们技术的目标。"
事实vs技能:一个虚假的二分法
当被问及"LLM记住'法国首都是巴黎'这类事实是好是坏"时,两位创始人给出了一个颠覆性的回答:将"事实记忆"和"技能学习"分开是一个虚假的二分法(false dichotomy)。
"如果你想剥离所有事实,只留下'纯净的核心',这个模型会非常不自然——它甚至不知道基本的东西,"Lin说,"你需要回忆基本事实才能进入下一层思考,否则你走不了多远。这正是为什么训练如此重要——为了形成更复杂、更深入的思考,你必须先内化某些东西,才能将它们组合成更抽象的概念。"
Biderman补充道:"传统计算机科学中,我们有数据库作为独立的课程,有算法作为独立的课程——数据库存事实,算法高效处理信息。深度学习的魔力在于这两者现在被揉在一起了。而现在我们看到AI被经济体系采用时,这些东西正在逐渐再次分离:公司有自己私有的上下文,小心翼翼地管理它们;而通用模型对这些上下文完全是个陌生人。对我们来说,很清楚的是需要某种收敛——事实、故事和细节需要被混合进模型中。"
为什么前沿实验室不会赢得这个市场
面对"为什么不是OpenAI或Anthropic直接端到端解决这个问题"的尖锐问题,两位创始人给出了一个建立在激励机制和市场结构之上的答案。
Lin的观点是世界观的根本差异:"前沿实验室的世界观是:一个越来越大的模型,在越来越多领域越来越智能——这就是通往AGI的路。但我们的世界观是:每个人拥有自己的模型。人们想要学习的很多东西要么是私密的(永远不会出现在后训练数据集中),要么是冲突的('我做这件事的方式'和另一家公司或个人的方式不同)。很多实际发生的事情是模糊的,很难用传统的干净监督和真实奖励信号来训练。"
Biderman补充说:"前沿实验室的P0(最高优先级)是AGI——一个通用模型,非常擅长编码和数学,然后用它来驱动经济的自动化或解决密码学和国防中的真正难题。要实现这一点,需要更多预训练、更大的模型、更多的数据、更多的RL、更多的推理时间计算。他们当然都在思考记忆和持续学习,但这更像是产品层面的投入,而非核心使命。"
在Engram看来,需要三个层面的变化才能真正实现持续学习:新的研究突破、为每个人运行小型模型而非一个大型模型的训练基础设施,以及研究与产品之间更紧密集成的反馈回路。"当前模式下,研究人员训练模型,然后扔给产品团队去提示工程——但在模型始终训练的世界里,用户输入与训练信号是紧密交织的。"
语言为何超越了视觉?一个疯狂的理论
对话中有一个精彩的旁支:主持人提出了一个"疯癫理论"来解释为什么语言模型似乎在AI进展中超越了视觉模型,尽管在生物学中视觉拥有的带宽大得多。
"在生物学中,眼睛到大脑的光学数据比特率比声波高几个数量级——光子到电子是一个下采样过程,而声学是上采样过程。但在计算机中,一切都是电子的,所以你实际上'削弱了视觉的优势、提升了语言的地位'——它们被放在了同一条起跑线上。"
Biderman从神经科学的角度回应:"人类的很大一部分脑区——枕叶(occipital lobes)——专门用于视觉,远多于分配给语言区域(如颞叶/temporal lobe)的部分。但我们并没有进化来做知识工作——坐在电脑前读东西、写备忘录,这不是我们的天性。视觉偏见在人类中很重,但啮齿类动物可能更偏嗅觉。"
Lin则从实用的角度补充:"当人们训练视觉语言模型(VLMs)时,语言部分最终往往会主导视觉内容。但从知识工作的角度看,文本同样有效。"
每个人拥有自己的模型:5-10年后的愿景
在展望部分,Lin描绘了一个令人向往的未来:"一个每个人都拥有自己模型的世界——这个模型与其他人的模型截然不同,也与前沿模型完全不同。人们常说'一个了解你的模型',但它也以一种对你有意义的方式帮助你,无论你是个人还是团队。你能看到不同类型的智能无处不在。"
Biderman将Engram的使命置于一个更大的类比中:"在神经科学中,我们知道记忆和导航使用相同的脑回路——代表空间中地标的神经元也负责情景记忆(episodic memory)的某些元素。对我而言,Engram可以是每个人的'LLM数据面接口'——类似于Databricks和Oracle这样的伟大公司,但我们形成的记忆恰好是神经记忆,模型恰好是个性化的。将会有数亿个这样的模型,它们不是按原样表示文件系统,而是表示该文件系统的'大脑状态'——更高效、更具联想性。"
ChatGPT时刻级的突破还有多远?
当被问及"记忆领域是否会出现类似ChatGPT时刻的突破"时,两位创始人给出了审慎但充满期待的判断。
"第一个概念验证(proof of concept)是:你有一个可以随时间学习的实习生,而且它确实会变得更好,"Lin说,"每个人都在等待看到这一点。无论上下文工程的方法现在多么精妙,它们都还没有达到这个水平——你需要调动所有工具才能实现。"
Biderman补充了一个尖锐的观察:"如果你今天辞掉工作,唯一的目标就是为自己打造一个更好的模型——使用OpenAI和Anthropic的所有前沿模型,24/7地进行上下文工程——你作为一个个体能推动的进展极其有限。你可能还不如等待模型的下一个版本。我们希望看到一个未来:你花的时间越多,模型在你关心的领域中的表现就越好。这是非常难以实现的,但唯一可能实现的方式是,你开始在不破坏数据的前提下对数据进行规模化计算和训练。"
实现这一目标的关键障碍是什么?Biderman的回答直指当前AI系统中最根本的张力:"梯度下降可以将大量信息打包到很少的数字中,但KV缓存却将很少的信息膨胀成80GB。我们拥有存在性证明——模型权重高效存储了整个互联网的知识——现在需要把这种效率应用到持续学习上。"