从AlphaGo到AGI：对话Reflection AI创始人Ioannis Antonoglou

cover Sequoia Capital · 2025-01-28🎬 在 YouTube 观看原视频 →>

摘要

在本期节目中，DeepMind创始工程师、Reflection AI创始人Ioannis Antonoglou（Giannis）带我们回顾了AI历史上最关键的几个里程碑时刻——从AlphaGo的"第37手"传奇到AlphaZero的自对弈突破，再到MuZero的无模型世界学习。作为这些项目的核心贡献者，Giannis分享了第一手的洞见：为什么围棋被认为是AI研究的"圣杯"（Holy Grail），深度强化学习如何让系统从零开始超越人类，以及在2015-2016年间将深度学习和强化学习结合所面临的巨大工程挑战。

Giannis认为，强化学习正在经历复兴——当LLM面临"数据墙"（Data Wall）时，强化学习提供了一条通过自生成经验来"用算力交换智能"的路径。他讨论了AlphaGo系列工作留下的核心遗产：规模（Scale）和规划（Planning）的重要性，以及当前LLM智能体在鲁棒性和可靠性方面的不足。他还提出了三个AI领域最需要突破的方向：规划、上下文学习（In-Context Learning）和错误自纠正能力，并预测我们距离SWE-bench基准的50%通过率只有1-3年。

正文

为什么DeepMind选择从游戏开始

Giannis解释道，DeepMind是第一家从一开始就真正拥抱通用人工智能（Artificial General Intelligence, AGI）概念的公司。"他们有大抱负——构建匹配或超越人类智能的系统。大问题是：如何构建AGI？更重要的是，如何以一种允许有意义的研究和性能改进的方式来衡量智能？"

使用电子游戏作为测试场是自然而然的——联合创始人Demis Hassabis有游戏行业背景，而Shane Legg的博士论文将AGI定义为"能够学习完成任何任务的系统"。游戏提供了受控但复杂的环境，可以探索和测试这些想法。

但Giannis也坦承游戏的局限性："现实世界是混乱的、无界的，是一颗比最复杂游戏更难啃的坚果。"尽管如此，游戏环境中开发的技术已被广泛采用——PPO（Proximal Policy Optimization）被ChatGPT用于RLHF，MCTS（蒙特卡洛树搜索）被用于YouTube视频压缩、特斯拉自动驾驶系统等。

AlphaGo：深度学习的"登月"时刻

Giannis回顾了AlphaGo的技术架构，用通俗易懂的方式解释了两个深度神经网络——策略网络（Policy Network）和价值网络（Value Network）——如何协同工作。策略网络根据当前棋盘状态推荐最有前景的落子位置，价值网络评估某个棋盘状态的获胜概率——这就是"直觉"的数字编码。

"一旦你有了这两个网络，你就可以在你的想象中模拟大量棋局。你考虑最有前景的着法，再考虑对手最有前景的回应，然后用价值网络评估每个局面——这就是极小极大（Minimax）方法在起作用。用最有效的方式来做这种'想象中的搜索'就是蒙特卡洛树搜索。"

AlphaGo首先在人类职业棋手的棋谱上训练策略网络，然后通过强化学习的策略梯度（Policy Gradient）方法让策略网络自我对弈以提升棋力。"对于所有导致获胜的着法，增加选择该着法的概率；对于导致失败的着法，降低概率。如果你做足够多次，就能得到一个改进的策略。"然后在这个改进策略自我对弈生成的大量棋局上训练价值网络。

AlphaGo不仅是一个研究奇迹，更是一个"工程壮举"。"早期版本运行在1000个CPU和176个GPU上，对抗李世石的版本使用了48个TPU。"这些加速器是最早的定制AI芯片，"原始的、不稳定的"。系统必须高度优化以最小化延迟、最大化吞吐量。

"第37手"和第78手：创造性与盲点

Giannis回忆了AlphaGo对阵李世石第二局中那著名的"第37手"："一开始我们以为AlphaGo犯了一个错误，它产生了幻觉——做了一件本不想做的事。但结果证明这是一个绝妙的、反常规的着法，表明系统对围棋有深刻的理解，具有创造力，能想到人类从未想过的事情。"

然而，第四局李世石的第78手揭示了系统的盲点。"AlphaGo基于其评估，错误地解读了这步棋，以为自己在赢，所以没有恰当回应。"解决这个问题的方法后来证明就是：更多的规模、更多的数据、更好的架构——切换到具有两个输出头的深度残差网络，"然后这种幻觉就不再出现了。"

AlphaZero：从零到超人

AlphaZero是真正的游戏规则改变者（Game Changer）——完全从零开始，仅通过自我对弈（Self-Play）学习，不需要任何人类棋谱数据。"首先，AlphaZero简化了训练流程；其次，它展示了AI可以纯粹通过自我对弈从零到达超人水平。"

Giannis解释了AlphaZero的核心机制——策略改进算子（Policy Improvement Operator）："每当你拿到一组策略和价值网络的权重，将它们与搜索结合，你就得到一个更好的玩家。然后你把更好的策略蒸馏回原始网络，重复这个过程——这就是强化学习算法。今天人们尝试用GPT的Q-star或合成数据做的事情，本质上就是这个思路。"

MuZero：学习世界的内部模型

AlphaZero虽然强大，但需要一个完美的环境模拟器——在围棋、国际象棋中就是游戏规则。现实世界问题往往没有清晰的规则和完美的模拟器。MuZero解决了这个问题：它学习构建世界的内部模型。

"MuZero使用基于模型的强化学习（Model-Based Reinforcement Learning）：它根据智能体生成的轨迹学习一个预测模型，预测未来的奖励、价值、策略——只关注规划所需的东西，而不是试图建模一切。"Giannis将这与Sora等视频生成模型进行了类比：它们都试图学习世界模型，但方法不同——MuZero只专注于对强化学习问题有益的方面。

MuZero已被用于特斯拉自动驾驶系统、YouTube视频压缩等实际应用。Giannis认为，"任何试图构建世界如何运作的模型，然后将其用于规划的方法，都遵循MuZero的思路。"

强化学习的回归

Giannis解释了为什么强化学习正在回归AI的中心舞台。"LLM和多模态模型带来了不可思议的进步，但它们有根本性的局限——其中之一是人类数据的可用性。人们一直在谈论'数据墙'——当你用完高质量数据时怎么办？这正是强化学习的用武之地。"

"强化学习的优势在于它不依赖预先存在的人类数据，而是使用智能体自己生成的经验来提升性能。这种自生成经验让强化学习能够学习和适应，即使是人类数据稀缺或不存在的场景。"关键在于：如果你以正确的方式定义了强化学习的奖励问题，"你实际上可以有效地用算力交换智能。就像AlphaGo一样——投入更多计算，使用更大的网络和更多对局，你一定能得到一个更好的玩家。这就是我们想要用合成数据流水线达到的境界。"

合成数据：必然要解决的难题

关于合成数据（Synthetic Data），Giannis的态度很明确："我们不是'看多还是看空'的问题——这是一道我们必须跨过的障碍。人类能产生的数据是有限的，而且重要的是，这些系统必须开始采取行动、从自己的错误中学习。"

他承认最原始的方法——"让模型生成内容然后直接在此基础上训练"——会导致模式崩溃（Mode Collapse），行不通。"但新方法从来不会一开始就行得通，需要投入时间去找到最佳方式。我相信我们一定能找到改进这些模型的方法。"他还暗示，一些像Q-star这样的突破可能隐藏在公司的商业机密背后。

AGI的三个关键问题与创业者的优势

Giannis提出了三个最需要突破的方向：规划（Planning）、上下文学习（In-Context Learning，即系统通过少量示例在飞行中学习新任务的能力），以及可靠性（Reliability）——"让模型知道如何从错误中恢复，就像人类犯错后纠错一样。"

他将LLM智能体与AlphaGo的鲁棒性进行对比："AlphaGo大师在网上与60人对弈，全胜。有这种模式：一致、鲁棒、可靠。而我们现在缺的就是这个——LLM智能体有时行有时不行，你无法信任它们。精彩的Demo可能每两三次甚至十次才出现一次，其余九次它们迷失了方向。我们需要找到办法让LLM智能体像AlphaGo和MuZero那样鲁棒。"

作为创业者，Giannis认为初创公司的优势在于敏捷性（Agility）和专注（Focus）。"每个人真正在乎，每个人都行动迅速，有明确的建设目标。这就是'主线任务vs支线任务'（Main Quest vs Side Quest）的概念——大公司有很多并行项目，有些项目得不到足够的资源和领导层关注。创业公司没有既有产品的羁绊，可以利用开源资源，没有大公司的繁文缛节。"

快速问答：AI里程碑与预测

Giannis列举了过去12年AI领域的里程碑：AlexNet（证明深度学习可行）→ DQN（首次将深度学习与强化学习结合）→ AlphaGo→ AlphaFold（证明AI能为世界做好事）→ GPT-3（让AI普及到广泛受众）→ GPT-4（让人们相信AGI是几年内的事，而非几十年）。

他特别钦佩的人物包括David Silver（他的博士导师，AlphaGo和AlphaZero的领导者，"可能是我认识的最聪明的人"）和Ilya Sutskever（"他对扩展AI方法的执着是非凡的，他确保了GPT-3和GPT-4的实现"）。

关于未来预测：Giannis认为1-5年内我们将看到模型成为强大的、可靠的智能体，能够独立执行任务并大规模应用于各行各业（尤其是科学和医疗）。SWE-bench基准的50%门槛将在1-3年内通过，90%将在3-5年内。LLM的"AlphaZero时刻"——即直接将计算力转化为智能而无需人类干预——将在未来五年内到来。