打造机器人的"App Store"：Hugging Face Thomas Wolf谈物理AI

cover Sequoia Capital · 2025-09-09🎬 在 YouTube 观看原视频 →>

摘要

Hugging Face联合创始人兼首席科学官Thomas Wolf在本次访谈中分享了一个重要判断：机器人领域正处于当年Transformer和语言模型爆发前的同一历史时刻。Hugging Face于18个月前启动了LeRobot项目——一个整合策略模型、数据集和硬件的开源机器人平台，旨在让每位软件开发者都能成为机器人专家。Thomas详细阐述了三大社区画像（传统机器人专家、AI背景的跨界者、投资者和非技术人群），以及LeRobot的定位：打造机器人领域的"App Store"，让开发者自由创建和共享机器人行为。访谈深入探讨了机器人数据瓶颈（相比语言模型缺乏互联网级训练数据）、世界模型（World Models）的最新进展、人形机器人的两难（成本高但一旦解决就能完成所有人类任务）、开源vs闭源模型竞赛的新动态（中国成为开源主力军），以及Thomas对开放科学（Open Science）的长期信念——不仅提供模型，更要教会人们如何训练模型。

正文

机器人领域的"Transformer时刻"

Thomas Wolf的判断一针见血：大约两年前，他开始观察到机器人领域的根本性变化。斯坦福等顶尖实验室的研究团队正在展示能够系鞋带、折叠衣物、空中抛接食材的机器人——所有这些都在仅使用极少量数据的情况下实现，并且展现出利用互联网规模的世界模型进行泛化的潜力。

在Thomas看来，机器人的硬件实际上已经"就位"了相当长一段时间——真正的瓶颈在于软件层面：缺乏能够适应动态环境、灵活泛化的智能软件。这与当年Transformer出现前NLP领域的状况如出一辙。

Hugging Face在18个月前启动LeRobot项目的核心赌注是：能否在机器人领域也建立一个大型开源社区？传统机器人领域是一个小而封闭的垂直市场——要么是业余爱好者，要么是工厂产线上的专业机器人工程师。Thomas的目标是将这个窄小的垂直领域变成像AI研究一样的大众化领域——就像今天2-3亿软件开发者几乎都成了"AI研究者"一样，有朝一日他们也都会成为"机器人专家"。

LeRobot：软件、数据和硬件的三位一体

LeRobot是Hugging Face试图在机器人领域重现Transformers库成功经验的产物。它包含三个核心组件：

策略模型（Policy Models）：训练机器人行为的最新算法和技术
数据集（Datasets）：社区共享的训练数据
硬件连接（Hardware/Actuators）：将软件与实际物理执行器连接

Thomas特别强调了"本地运行"在机器人领域比LLM更为重要——因为机器人一旦失去Wi-Fi连接撞墙或碰到孩子，后果远比LLM产生幻觉严重得多。安全性考量使得在设备端运行模型成为机器人的硬需求，这也天然契合了开源模型的优势。

Hugging Face还收购了其第一家硬件公司Pollen Robotics，并推出了两款机器人产品：S100（100美元的最便宜机械臂）和LeKi Mini（300美元的桌面机器人）。社区规模正在指数级增长——从数千人发展到数万人，一次全球黑客马拉松在六大洲设立了100个地点。

三种社区画像：从传统机器人专家到"Vibe Coder"

Thomas将LeRobot社区的开发者概括为三类：

1. 传统机器人专家：他们精通硬件，但长期被传统控制软件的局限性所困扰。AI驱动的软件栈让他们兴奋不已。学术实验室尤其积极采用LeRobot作为学生的入门平台。

2. AI背景的跨界者：这些人本身不是机器人专业出身，但因为机器人是"AI的物理具象"而对机器人产生兴趣。这个群体包括软件开发者以及对机器人好奇的非技术人群。一个典型现象是许多投资者购买了S100机械臂，仅仅是为了亲身体验"机器人能做什么"。

3. 创业者/应用开发者：已有大量初创公司在LeRobot基础之上构建商业应用——有人想自动化手动测试流程，有人想做物理世界的特定任务。Thomas的愿景是让LeKi Mini像智能手机一样开放——自带几种行为，但因为可以自由编程和共享，可能性几乎是无限的。

数据：机器人面临的最大瓶颈

与语言模型拥有互联网上海量文本数据不同，机器人领域的数据稀缺问题极其严峻。虽然可以从互联网视频中提取一些训练数据，但这种方式局限性很大。如果要让机器人学会一个特定任务，最终还是需要真人在真实环境中录制示范数据。

Hugging Face的策略是"去中心化数据集体"——通过Hub平台激励全球社区成员录制并共享机器人数据集。如果能够汇集来自不同地理位置、不同环境（红色墙壁vs绿色墙壁）的训练数据，训练出的模型将拥有远比单一实验室数据更强的泛化能力。

Thomas还观察到机器人公司的独特优势：大多数机器人公司的商业模式是卖硬件，因此他们比LLM公司更愿意开放软件——因为开源软件生态能够提升整个领域的水平，间接促进硬件销售。

世界模型与人形机器人的分歧

关于最近涌现的"世界模型"（World Models）——能够根据输入动作生成逼真可控视频的模型——Thomas认为这是仿真领域的首个真正突破。这些模型不仅可以创造全新的数字娱乐形态，还可以为机器人训练生成合成数据——弥补真实世界数据不足的关键手段。

对于人形机器人（Humanoid），Thomas持保留态度。人形机器人的核心问题在于成本：机器人的成本70%来自执行器（马达），人形机器人通常有60多个执行器，这使得其价格很难低于一辆汽车的水平。当一件产品价格与汽车相当时，用户自然期望获得与汽车相当的价值——这对消费级机器人来说是极高门槛。

Thomas更热衷于"形态多样化"的未来——小型桌面机器人、单臂机器人、移动头部的机器人等。他认为不同的外形不仅更经济，而且更可爱、更容易被社会接受（绕过了"恐怖谷"问题）。从民主化角度看，他担心人形机器人会走向精英化——"有钱人家里有三台机器人，穷人一台也没有"——这与Hugging Face的普世价值观背道而驰。

开源vs闭源：中国崛起与新动态

Thomas分享了一个2020年代最出人意料的观察：中国居然成为了开源AI的"冠军"。中国的AI模型团队内部竞争异常激烈——不仅比模型性能，还比谁更开放。一家名为Zepu的公司曾尝试放弃开源，随即在招聘上遭遇严重反噬，被迫回归开源。

这种现象的背后逻辑是：中国AI公司在西方市场无法销售API（没有人会用中国的云端API），因此在开源上"没有什么可失去的"。同时，Meta等西方公司也利用了类似的策略——当其他人都停止开源时，Meta抓住了成为"唯一顶级开源玩家"的机会窗口。

Thomas还确认了一个趋势：西方公司对使用中国开源模型（即使是下载权重在本地运行）仍普遍持谨慎态度，但这种担忧并不总是基于技术原因——更多是品牌信任问题。他预计随着市场成熟，对"成本节约"和"数据隐私"的诉求将推动开源模型（无论来源）的进一步普及。

开放科学：从物理学家到AI布道者

Thomas的个人经历深刻地塑造了他的开放科学信念。在成为AI研究者之前，他曾在物理学领域研究超导材料——当时他发现苏联科学家在超导理论方面有许多杰出贡献，但这些成果深埋在苏联期刊中，部分甚至只有俄语版本。"获取知识太难了"这一体验成为他后来投身开放科学运动的原动力。

进入计算机科学后，arXiv和开源文化让他激动不已——一切都是免费的、英文的、人人可获取的。但当他尝试复现一篇DeepMind论文时，发现这远远不够——人们发表的只是他们想让你看到的部分，真正的"行业诀窍"却从不公开。这催生了开放科学的核心理念：不仅要给人们模型（授人以鱼），更要教他们如何训练模型（授人以渔）。

Hugging Face践行这一理念的方式包括：撰写超长技术博客（如何用1000块GPU训练模型、如何构建高质量预训练数据集FineWeb等），有些甚至集结成书出版。在Thomas看来，AI将成为像物理一样的基础性知识——就像任何人都可以通过阅读了解广义相对论一样，训练智能系统的完整知识也应当向全人类开放。

科学AI：从"解决问题"到"提出问题"

Thomas对AI在科学发现中的角色持理性态度。他认为当前LLM在"解决问题"方面表现优异——当给定一个明确的数学定理，AI可以找到证明路径。但真正的科学突破不在于解决已知问题，而在于"提出正确的问题"——找到那个无人问津但一旦提出就能开启全新研究领域的问题。这正是诺贝尔奖级别的科学家的共同特质。

目前的LLM在"有品味地提出正确问题"方面仍然极其薄弱。Thomas设想的真正科学AI应该能够说："嘿，我有一个关于如何超越光速的想法"——不是给出答案，而是提出一个足以颠覆现有理论的正确问题。在此之前，AI更适合作为科学家的"超级助手"——加速文献调研、模拟预测、实验设计——将研究效率提升10倍、100倍甚至1000倍。

十年愿景

Thomas对10年后的世界有着清晰的想象：一个每个人都感觉自己能够"用AI构建"而不仅仅是"消费AI"的世界。就像从大众媒体时代过渡到人人都是内容创作者的YouTube时代一样，AI也不应只是少数人的特权——而应该是每个人创造力的延伸。

在机器人领域，他希望看到的是百花齐放的形态多样性，而非单一的人形机器人主宰一切。在AI模型领域，他期待继续推动"开放"的旗帜——尽管我们知道"开源永远不会一劳永逸地胜利"（如同星球大战中的绝地武士），但持续推动开放将是Hugging Face不变的使命。