创始人 Eric Steinberger 谈 Magic 的反直觉 AGI 路径

cover>

摘要

Eric Steinberger,Magic 的创始人兼 CEO,是一位从维也纳走出的少年 AI 天才。14 岁时他意识到 AGI 是唯一值得专注的事业,通过给 DeepMind 研究员 Johannes 发送一封长达数页的邮件——详细列出击败他博士论文算法的 10 个方案——赢得了持续一年的指导。此后他又引起了 Noam Brown(前 Facebook AI Research 的顶级 RL 研究员)的注意,作为 FAIR 的兼职研究员与 Noam 合作发表了论文。在本次与红杉合伙人 Sonya Huang 和 Pat Grady 的对话中,Eric 展示了他对 AI 研究本质的深刻思考——"大多数好想法是各种已有成果的综合(synthesis),但最伟大的想法总需要一些跳跃(leap)"——并分享了他精心维护的"AGI 待办清单"。他认为当前 AI 领域最后一个待解决的重大问题是在通用领域中实现长时间跨度的推理可靠性,而这需要在推理时(test time)投入远超训练时每个 token 的资源——不是 1 倍或 10 倍,而是一百万倍。Eric 解释了他为何选择训练自己的基础模型、追求 AGI 与"AI 软件工程师"产品的双轨战略,并大胆预测 AGI 将在"远少于 10 年"内实现。他还分享了 Magic 在长上下文评估方面的最新进展,包括开源了用于替代 Needle-in-a-Haystack 的"哈希评估"基准。

正文

14 岁找到人生使命

Eric Steinberger 开玩笑说自己在 14 岁经历了"中年危机"——只是对寻找有意义的事业怀有执着。他花了一年时间广泛涉猎物理、数学、生物、医学——任何看似对世界有价值的事——直到某天偶然撞上了 AI 这个概念。

"如果你能构建一个计算机系统来自动完成所有其他事情,那就太棒了——我就不用做决定了。"那一刻,他从"决策瘫痪"中解脱,清晰地看到了未来 30 年的人生轨迹:"就是这件事了,我必须做。"Eric 天生被数学吸引,但 AI 比纯数学多了"有用"这一属性——"17 维球体大概不会是最佳职业选择。"

他不会编程、不了解计算机,纯粹为了"攻克 AI"才进入这个领域。经过了几年自学后,他给 DeepMind 研究员 Johannes(David Silver 的博士生)发送了一封可以打印成册的冗长邮件——详细列出了如何击败 Johannes 博士论文中的算法,附上了 10 个方案,并请求每两周一次的"暴打式"指导。Johannes 答应了。Eric 说那段经历"残酷"——他以研究生的标准被严格评判,而自己还在读高中。

一年后,当项目完成时,Eric 刚刚高中毕业,发表了一篇名为"Single Deep Counterfactual Regret Minimization"的论文,在算法性能上略微超越了 Noam Brown 同领域的"Deep Counterfactual Regret Minimization"。Noam 本人因此主动联系了他——Eric 随后在维也纳大学学习期间,以 FAIR 兼职研究员的身份与 Noam 合作了两年。他描述两人之间的研究互动为"无与伦比"——六个月的难题在一次电话中就被解决。

伟大研究的天赋:综合与跳跃

被问及自己作为研究者的"超能力"时,Eric 坦诚分析:在 RL 工作阶段,他的优势在于综合(synthesis)——广泛阅读每一篇论文,在大脑中构建一个庞大的"方法数据库",然后组合"A + B + C 外加一个微调"就得到一个有效的新方案。他提到这也是 Transformer 论文的核心方法论:注意力(Attention)存在,LSTM 堆叠的思想存在,残差流存在——"去掉循环(Recurrence),加上残差更新,再加一点点跳跃"。

但他主动培养了另一项能力:跳跃(leap)——提出完全原创、无法从已有文献中推导的方案。他承认自己仍在刻意练习这种能力。

对于行业英雄,Eric 首先点名 Noam Brown:"Noam 超乎寻常地擅长综合,同时在整条技术栈上都无懈可击。他可以独自实现整个系统并运行它……他早在其他人之前就看到了未来。有一场演示中,他飞快地滚动不同参数规模的模型生成文本,以滑稽的方式展示了'如果把它做得更大呢?'——远在 Scaling Law 流行之前。"他也对 Geoffrey Hinton 表示极大敬意——"在几乎所有人都说没用的时候,他坚持了下来,那种毅力和信念值得最大的尊重。"

最后一个难题:长时间跨度推理与推理时计算

Eric 认为 AI 领域多年来一个接一个的问题已被解决——多模态、长上下文、效率——剩下的最后一座大山是"通用领域中的长时间跨度可靠性"(General Domain Long-Horizon Reliability)。

他的洞察来源于类比:当一个人试图证明数学定理、编写大型软件程序或创作复杂文章时,绝不会逐 token 线性输出——某些 token 的背后需要极深度的思考。他主张需要在推理时(test time compute)投入远超当前水平的资源——"不是 1 倍或 2 倍,而是一百万倍"——以高效的方式将 LLM 和 RL 结合起来。虽然目前市面上没有公开的"配方",但各种思路正在浮现。他坚信即便冻结研究进展,仅靠更多推理时计算和工程投入,人们也终将达到被广泛认可的 AGI。但当然——"我们可以做得更好。"

Magic 的双轨战略:AI 软件工程师与自我改进

Magic 的目标极其直接:自动化软件工程。选择这一方向有两个战略性好处:第一,它将是首批看到"高自动化"爆发的大领域之一——"一旦模型足够好来替代人工,经济的驱动力不会容许它停留在'辅助'阶段";第二,如果创造了一个足够好的 AI 软件工程师,就可以用它来自动化 Magic 内部的工作——从对齐研究到模型开发——形成自我加速的飞轮。

Eric 将这称为"AGI 的最小可行产品"(Minimum Viable AGI):"如果我的电脑里有一个 Noam Shazeer,我就可以复制出一百万个,然后对齐问题也许就被解决了。"

这也是 Magic 坚持从零训练自身基础模型的原因。不依赖 API 的根本逻辑是:如果 API 会催生出价值 1000 亿美元的应用,API 提供方一定会亲自下场做这个应用——就像云计算催生了 Netflix 和 Uber,但"构建一个聊天界面远比构建 Netflix 容易得多"。在他看来,护城河位于 AGI 和硬件层面,而非应用层——这对 Magic 而言是结构性利好,因为市场有动力资助从基础模型做起的团队。

大卫 vs. 歌利亚:对抗超级大厂的逻辑

面对 OpenAI 等拥有近百亿美元资金和营收的巨头,Eric 的逻辑非常冷静:关键问题是"构建 AGI 需要多少计算资源",而不是"能筹集多少资金"。如果 AGI 的成本是 1000 亿美元,Magic 注定失败——但如果不是,那么再多资金也无法带来决定性的速度优势。"有足够的硬件就行,不需要比足够更多。"他认为 AGI 的成本远比市场想象的低,这个赌注如果有足够高的正确概率,就合理。

关于团队规模,Eric 倾向于非常精简的"核心研究团队"——早期可能是 5 人,如今接近 20 人。大量的工作 Magic 选择不做,例如不会同时构建视频模型。他坦诚团队规模的有效利用是一项需要持续学习的技能。

Agent 的终极形态:像与最优秀的工程师对话

Eric 将 AI 工具分为三个层次:无用→需要微管理的助理→管理你的同事。他认为"中间地带"实际上不存在——一旦模型在某个领域比人更擅长,角色立刻发生质变。他的产品愿景是"与最优秀的工程师交谈的体验"——只负责说"这就是我大概想要的",对方问几个澄清性问题,然后独自完成所有工作并交付成果。对用户而言,完全不需要关心 Agent 使用什么工具、运行在本地还是云端、是否有浏览器——"那是我们的问题,不是你的问题。"

他对于质量门槛的执着近乎偏执:14% 的 SWE-bench 通过率毫无意义——他需要 99%+ 的可靠性。"96% 我也不信任。需要审查代码的产品和不需要审查代码的产品处于完全不同的品类。这不是 95% 的问题,而是 99.几% 的问题——就像自动驾驶,最后那几个'9'是最难拿到的。"

哈希评估:用纯噪声测试长上下文

Magic 开源了一个长上下文评估基准——"哈希评估"(Hashes Eval)——直接挑战了当前流行的 Needle-in-a-Haystack 范式。Eric 指出 Needle 测试的根本缺陷:在大量"正常文本"中寻找一个"异常项"(针),模型实际上缩小了对异常的隐式先验记忆,并不需要真正记住整个上下文窗口。

魔法测试的做法完全相反:将所有内容替换为随机生成的哈希值(无任何语义信息),并加入多跳推理——找到 A 中的线索用于定位 B 中的线索。模型被强制必须真正记住整个窗口。"当你想测量上下文窗口,你应该被迫记住整个窗口——否则这个窗口真的有这么大吗?"红杉的研究人员对这套评估的"纯净性"和设计质量给予极高评价。