构建强化学习环境的GitHub:Prime Intellect的Will Brown与Johannes Hagemann

cover>

摘要

Prime Intellect正致力于让前沿实验室级别的AI训练基础设施对所有人开放。Will Brown和Johannes Hagemann构建了一个端到端的后训练(Post-Training)平台——从计算资源编排到强化学习(Reinforcement Learning, RL)训练框架,再到作为一个社区驱动的环境中心(Environment Hub)。他们的核心理念是:环境(Environment)不仅是评估工具,更是后训练的核心抽象。通过将评估集转化为训练集,企业可以在自己的产品和场景中对模型进行深度定制,而非仅仅依赖提示词层面的优化。这一范式与GitHub的崛起有着相似的逻辑——当软件版本控制从企业内部工具演变为平台级产品时,整个行业的生产力被重新定义了。Prime Intellect正在为AI研究做同样的事情。

正文

后训练与平台愿景

Prime Intellect的使命是"让前沿实验室训练对所有人开放"。当前,大型AI实验室内部掌握着强大的后训练基础设施,但这些能力并未对外部开放。Will和Johannes构建了一个名为"Lab"的全栈研究平台,涵盖从计算资源层到完整后训练技术栈的所有环节。

Johannes解释道:"我们真正从计算层和计算编排层开始,一路向上直到整个后训练栈。包括大规模强化学习所需的训练框架,以及带有社区属性的环境中心,还有安全代码执行的沙箱和评估系统。我们将这一切以端到端产品的形式提供。"

Will进一步指出,这一使命的核心动力来自两个方向:一是开放科学推动人类进步的理念——"历史上重大的科学发现都是公开讨论的成果";二是模型定制化的巨大商业价值。真正的获胜应用需要为特定代理(Agent)、特定工作流优化模型,而这种深度优化需要直接访问模型权重(Model Weights),而不仅仅是在提示词层面进行调整。

"这是为了让企业能够进行比提示词层面更深的定制化,"Will说,"就像Cursor很早就意识到要构建自己的Composer One模型,在Cursor本身这个环境中进行优化。我们认为会有更多创业公司走这条路。"

环境:从评估到训练的范式统一

环境(Environment)是Prime Intellect平台的核心抽象。Will指出,很多人习惯的"环境"概念来自传统的Atari游戏式强化学习——即复杂的状态交互循环。而今天的AI评估基准,如SWE-Bench、Amy、Terminal Bench等,本质上也是环境——它们有任务数据集、模型交互的框架(Harness),以及用于评分质量的评分标准(Rubric)或奖励函数(Reward Function)。

Will提出了一个关键洞察:"离线评估中使用的测试集,同样可以在强化学习中作为训练集使用。"这意味着,企业已经为评估建立的基础设施,天然可以转化为模型优化的引擎。环境这一抽象之所以强大,是因为它超越了单纯的代理(Agent)或框架(Harness)概念,可以涵盖任何系统与模型之间的交互。

对于"何时应该构建专门的RL环境,何时应该让产品本身成为环境"这个问题,Will认为两者都需要。如果训练的是一款Rust编程模型,可能需要针对不同应用的多个专门环境;如果产品本身就是面向终端用户的代理交互界面,那么产品直接变成环境可能是最合理的路径。

"做这件事的公司,和那些关心自己用的是Claude还是GPT、关心系统提示词是否有效、关心模型端点的切换是否带来更好的性价比的公司,是同一批公司。它们已经在构建评估系统——而这些系统就是做强化学习所需的完全相同的系统。"

环境中心与社区生态

Prime Intellect的环境中心(Environment Hub)是一个开放的社区平台,类似于GitHub的定位。用户可以在上面创建、分享、复刻(Fork)和修改环境。Johannes解释说,这个想法的起源是看到了大量开源仓库中存在各种环境实现的碎片化问题。

"仅仅分享环境是不够的,"Johannes说,"你还需要一个地方来建设围绕这些环境的基础设施。比如,将评估直接集成到环境中,这样你就可以立即在所有前沿模型上测试它——这是用户大量使用环境中心的功能之一。"

Will补充说,Hub上最受欢迎的环境包括Wordle游戏(作为"Hello World"级别的入门示例)和Wiki Search(一个可定制的代理式搜索模板,用户只需替换文档即可拥有自己的搜索环境)。此外,Prime Intellect还运营着一个强化学习驻留项目(Residency Program),从最初的8-10人发展到14-16人,参与者来自研究生和全职人士,他们在平台上构建了从可验证软件工程到医学物理、网络安全等多种垂直领域的环境。

关于社区行为,Will观察到许多用户将环境保持私有,但Hub的价值在于他们可以将私有环境与已知的公共基准进行消融实验(Ablation),或在训练过程中插入已知评估来监控进展。

网络安全环境的构建:从玩具到真实

当被问及网络安全环境的构建过程时,Will解释说,网络安全领域已有Capture the Flag(CTF)挑战的传统——这些挑战最初是为程序员设计的"黑客马拉松",其中某个系统隐藏着漏洞,参赛者需要找到它。这些CTF挑战可以直接转化为LLM的环境:代理在终端中操作,使用bash命令和工具,与文件系统交互,最终系统评估终端状态以确定成功与否。

对于"玩具环境是否能反映真实世界的复杂性"这一疑问,Will指出关键在于成本管理而非复杂度的本质限制——"任何能在计算机上运行的东西都可以成为环境,真正的瓶颈是模拟器的成本"。因此,需要聪明地识别系统中哪些部分对特定任务是必要的,哪些可以模拟。他举了T2-Bench的例子:一个涉及数据库的客服代理评估,无需完整的数百万条记录数据库,只需一个包含任务预期范围数据的内存模拟数据库即可。

Will还提到,RL本身正被用作数据质量的评估工具——通过观察在特定环境集上训练模型的结果,可以发现环境中的漏洞(Backdoor)或模型可能利用的系统漏洞。

RL的效率之争与开放权重模型的角色

当被问及Andrej Karpathy关于"RL效率极低,像用吸管从比特中吸取信息"的著名评论时,Will坦然承认:"RL确实使用大量计算来获取相对较小的纯信息信号,但这在某种程度上正是其价值所在。"

他解释道,高质量人类数据的扩展存在瓶颈,而RL允许你用计算来换取数据——用少量人类数据配合大量计算获得远超纯预训练或监督微调(Supervised Fine-Tuning, SFT)的收益。此外,当没有更大的模型可供蒸馏时,RL的探索(Exploration)能力成为进入未知领域的关键工具。

对于开源权重模型的角色,Will表示训练器本身需要访问模型权重,但环境抽象是通用的——你可以使用相同的环境基础设施对闭源模型进行评估、提示词优化(Prompt Optimization)、模型选择(Model Selection)或代理框架评估。"即使你不能为GPT-5上传自己的LoRA适配器,你仍然可以将环境带到平台上来。"

递归语言模型与未来方向

在谈到前沿研究方向时,Johannes分享了对递归语言模型(Recursive Language Models, RLM)的兴奋。RLM由Alex Sheng提出,其核心思想是让模型学习管理自己的上下文(Context),而非依赖外部支架(Scaffold)。通过给模型一个持久化的Python变量来存储信息,模型可以检索、转换和管理上下文,甚至可以调用子语言模型(递归部分)。

Prime Intellect已经将RLM框架集成到其平台中,为前沿语言模型提供对RLM框架的访问(而非在该框架中训练模型),并已观察到在长程推理基准上的显著提升。接下来几个月,他们将开始在该框架中训练模型。

Will则对合成数据(Synthetic Data)研究充满期待。"让模型来策展自己的训练数据、或许策展自己的环境——理解在终身学习(Lifelong Learning)中哪些版本的方法最有效,这里有大量探索空间。"

展望:每个公司都是一个AI实验室

在结尾,Johannes描绘了一个乐观的未来:"我们不希望所有AI未来的价值都被大型实验室所垄断。我们想要赋能创业者和企业,让他们不会被碾压。让他们拥有比现有工具更好的产品优化能力。这样就会产生更多'Claude Code时刻'、更多'Cursor时刻'。"

Will则回到了开篇的主题:"如果数据是瓶颈,真正的专业知识是瓶颈——你是希望公司里有史上最聪明的人,还是一个已经深耕30年的人?有时你真正需要的是那个深耕30年的人。这种对问题的深度理解、长期互动中积累的专业知识,几乎是无法在短提示词中复制的。你真正需要的是让制度性知识(Institutional Knowledge)随着时间复利增长的能力,让最佳实践随着时间复利增长。这就是机构和公司变得真正强大和成功的路径——站在自身积累的肩膀上,而不是每天都重新开始。"