从AlphaGo到AGI:对话Reflection AI创始人Ioannis Antonoglou

cover>

摘要

在本期节目中,DeepMind创始工程师、Reflection AI创始人Ioannis Antonoglou(Giannis)带我们回顾了AI历史上最关键的几个里程碑时刻——从AlphaGo的"第37手"传奇到AlphaZero的自对弈突破,再到MuZero的无模型世界学习。作为这些项目的核心贡献者,Giannis分享了第一手的洞见:为什么围棋被认为是AI研究的"圣杯"(Holy Grail),深度强化学习如何让系统从零开始超越人类,以及在2015-2016年间将深度学习和强化学习结合所面临的巨大工程挑战。

Giannis认为,强化学习正在经历复兴——当LLM面临"数据墙"(Data Wall)时,强化学习提供了一条通过自生成经验来"用算力交换智能"的路径。他讨论了AlphaGo系列工作留下的核心遗产:规模(Scale)和规划(Planning)的重要性,以及当前LLM智能体在鲁棒性和可靠性方面的不足。他还提出了三个AI领域最需要突破的方向:规划、上下文学习(In-Context Learning)和错误自纠正能力,并预测我们距离SWE-bench基准的50%通过率只有1-3年。

正文

为什么DeepMind选择从游戏开始

Giannis解释道,DeepMind是第一家从一开始就真正拥抱通用人工智能(Artificial General Intelligence, AGI)概念的公司。"他们有大抱负——构建匹配或超越人类智能的系统。大问题是:如何构建AGI?更重要的是,如何以一种允许有意义的研究和性能改进的方式来衡量智能?"

使用电子游戏作为测试场是自然而然的——联合创始人Demis Hassabis有游戏行业背景,而Shane Legg的博士论文将AGI定义为"能够学习完成任何任务的系统"。游戏提供了受控但复杂的环境,可以探索和测试这些想法。

但Giannis也坦承游戏的局限性:"现实世界是混乱的、无界的,是一颗比最复杂游戏更难啃的坚果。"尽管如此,游戏环境中开发的技术已被广泛采用——PPO(Proximal Policy Optimization)被ChatGPT用于RLHF,MCTS(蒙特卡洛树搜索)被用于YouTube视频压缩、特斯拉自动驾驶系统等。

AlphaGo:深度学习的"登月"时刻

Giannis回顾了AlphaGo的技术架构,用通俗易懂的方式解释了两个深度神经网络——策略网络(Policy Network)和价值网络(Value Network)——如何协同工作。策略网络根据当前棋盘状态推荐最有前景的落子位置,价值网络评估某个棋盘状态的获胜概率——这就是"直觉"的数字编码。

"一旦你有了这两个网络,你就可以在你的想象中模拟大量棋局。你考虑最有前景的着法,再考虑对手最有前景的回应,然后用价值网络评估每个局面——这就是极小极大(Minimax)方法在起作用。用最有效的方式来做这种'想象中的搜索'就是蒙特卡洛树搜索。"

AlphaGo首先在人类职业棋手的棋谱上训练策略网络,然后通过强化学习的策略梯度(Policy Gradient)方法让策略网络自我对弈以提升棋力。"对于所有导致获胜的着法,增加选择该着法的概率;对于导致失败的着法,降低概率。如果你做足够多次,就能得到一个改进的策略。"然后在这个改进策略自我对弈生成的大量棋局上训练价值网络。

AlphaGo不仅是一个研究奇迹,更是一个"工程壮举"。"早期版本运行在1000个CPU和176个GPU上,对抗李世石的版本使用了48个TPU。"这些加速器是最早的定制AI芯片,"原始的、不稳定的"。系统必须高度优化以最小化延迟、最大化吞吐量。

"第37手"和第78手:创造性与盲点

Giannis回忆了AlphaGo对阵李世石第二局中那著名的"第37手":"一开始我们以为AlphaGo犯了一个错误,它产生了幻觉——做了一件本不想做的事。但结果证明这是一个绝妙的、反常规的着法,表明系统对围棋有深刻的理解,具有创造力,能想到人类从未想过的事情。"

然而,第四局李世石的第78手揭示了系统的盲点。"AlphaGo基于其评估,错误地解读了这步棋,以为自己在赢,所以没有恰当回应。"解决这个问题的方法后来证明就是:更多的规模、更多的数据、更好的架构——切换到具有两个输出头的深度残差网络,"然后这种幻觉就不再出现了。"

AlphaZero:从零到超人

AlphaZero是真正的游戏规则改变者(Game Changer)——完全从零开始,仅通过自我对弈(Self-Play)学习,不需要任何人类棋谱数据。"首先,AlphaZero简化了训练流程;其次,它展示了AI可以纯粹通过自我对弈从零到达超人水平。"

Giannis解释了AlphaZero的核心机制——策略改进算子(Policy Improvement Operator):"每当你拿到一组策略和价值网络的权重,将它们与搜索结合,你就得到一个更好的玩家。然后你把更好的策略蒸馏回原始网络,重复这个过程——这就是强化学习算法。今天人们尝试用GPT的Q-star或合成数据做的事情,本质上就是这个思路。"

MuZero:学习世界的内部模型

AlphaZero虽然强大,但需要一个完美的环境模拟器——在围棋、国际象棋中就是游戏规则。现实世界问题往往没有清晰的规则和完美的模拟器。MuZero解决了这个问题:它学习构建世界的内部模型。

"MuZero使用基于模型的强化学习(Model-Based Reinforcement Learning):它根据智能体生成的轨迹学习一个预测模型,预测未来的奖励、价值、策略——只关注规划所需的东西,而不是试图建模一切。"Giannis将这与Sora等视频生成模型进行了类比:它们都试图学习世界模型,但方法不同——MuZero只专注于对强化学习问题有益的方面。

MuZero已被用于特斯拉自动驾驶系统、YouTube视频压缩等实际应用。Giannis认为,"任何试图构建世界如何运作的模型,然后将其用于规划的方法,都遵循MuZero的思路。"

强化学习的回归

Giannis解释了为什么强化学习正在回归AI的中心舞台。"LLM和多模态模型带来了不可思议的进步,但它们有根本性的局限——其中之一是人类数据的可用性。人们一直在谈论'数据墙'——当你用完高质量数据时怎么办?这正是强化学习的用武之地。"

"强化学习的优势在于它不依赖预先存在的人类数据,而是使用智能体自己生成的经验来提升性能。这种自生成经验让强化学习能够学习和适应,即使是人类数据稀缺或不存在的场景。"关键在于:如果你以正确的方式定义了强化学习的奖励问题,"你实际上可以有效地用算力交换智能。就像AlphaGo一样——投入更多计算,使用更大的网络和更多对局,你一定能得到一个更好的玩家。这就是我们想要用合成数据流水线达到的境界。"

合成数据:必然要解决的难题

关于合成数据(Synthetic Data),Giannis的态度很明确:"我们不是'看多还是看空'的问题——这是一道我们必须跨过的障碍。人类能产生的数据是有限的,而且重要的是,这些系统必须开始采取行动、从自己的错误中学习。"

他承认最原始的方法——"让模型生成内容然后直接在此基础上训练"——会导致模式崩溃(Mode Collapse),行不通。"但新方法从来不会一开始就行得通,需要投入时间去找到最佳方式。我相信我们一定能找到改进这些模型的方法。"他还暗示,一些像Q-star这样的突破可能隐藏在公司的商业机密背后。

AGI的三个关键问题与创业者的优势

Giannis提出了三个最需要突破的方向:规划(Planning)、上下文学习(In-Context Learning,即系统通过少量示例在飞行中学习新任务的能力),以及可靠性(Reliability)——"让模型知道如何从错误中恢复,就像人类犯错后纠错一样。"

他将LLM智能体与AlphaGo的鲁棒性进行对比:"AlphaGo大师在网上与60人对弈,全胜。有这种模式:一致、鲁棒、可靠。而我们现在缺的就是这个——LLM智能体有时行有时不行,你无法信任它们。精彩的Demo可能每两三次甚至十次才出现一次,其余九次它们迷失了方向。我们需要找到办法让LLM智能体像AlphaGo和MuZero那样鲁棒。"

作为创业者,Giannis认为初创公司的优势在于敏捷性(Agility)和专注(Focus)。"每个人真正在乎,每个人都行动迅速,有明确的建设目标。这就是'主线任务vs支线任务'(Main Quest vs Side Quest)的概念——大公司有很多并行项目,有些项目得不到足够的资源和领导层关注。创业公司没有既有产品的羁绊,可以利用开源资源,没有大公司的繁文缛节。"

快速问答:AI里程碑与预测

Giannis列举了过去12年AI领域的里程碑:AlexNet(证明深度学习可行)→ DQN(首次将深度学习与强化学习结合)→ AlphaGo→ AlphaFold(证明AI能为世界做好事)→ GPT-3(让AI普及到广泛受众)→ GPT-4(让人们相信AGI是几年内的事,而非几十年)。

他特别钦佩的人物包括David Silver(他的博士导师,AlphaGo和AlphaZero的领导者,"可能是我认识的最聪明的人")和Ilya Sutskever("他对扩展AI方法的执着是非凡的,他确保了GPT-3和GPT-4的实现")。

关于未来预测:Giannis认为1-5年内我们将看到模型成为强大的、可靠的智能体,能够独立执行任务并大规模应用于各行各业(尤其是科学和医疗)。SWE-bench基准的50%门槛将在1-3年内通过,90%将在3-5年内。LLM的"AlphaZero时刻"——即直接将计算力转化为智能而无需人类干预——将在未来五年内到来。