打造机器人的"App Store":Hugging Face Thomas Wolf谈物理AI

cover>

摘要

Hugging Face联合创始人兼首席科学官Thomas Wolf在本次访谈中分享了一个重要判断:机器人领域正处于当年Transformer和语言模型爆发前的同一历史时刻。Hugging Face于18个月前启动了LeRobot项目——一个整合策略模型、数据集和硬件的开源机器人平台,旨在让每位软件开发者都能成为机器人专家。Thomas详细阐述了三大社区画像(传统机器人专家、AI背景的跨界者、投资者和非技术人群),以及LeRobot的定位:打造机器人领域的"App Store",让开发者自由创建和共享机器人行为。访谈深入探讨了机器人数据瓶颈(相比语言模型缺乏互联网级训练数据)、世界模型(World Models)的最新进展、人形机器人的两难(成本高但一旦解决就能完成所有人类任务)、开源vs闭源模型竞赛的新动态(中国成为开源主力军),以及Thomas对开放科学(Open Science)的长期信念——不仅提供模型,更要教会人们如何训练模型。

正文

机器人领域的"Transformer时刻"

Thomas Wolf的判断一针见血:大约两年前,他开始观察到机器人领域的根本性变化。斯坦福等顶尖实验室的研究团队正在展示能够系鞋带、折叠衣物、空中抛接食材的机器人——所有这些都在仅使用极少量数据的情况下实现,并且展现出利用互联网规模的世界模型进行泛化的潜力。

在Thomas看来,机器人的硬件实际上已经"就位"了相当长一段时间——真正的瓶颈在于软件层面:缺乏能够适应动态环境、灵活泛化的智能软件。这与当年Transformer出现前NLP领域的状况如出一辙。

Hugging Face在18个月前启动LeRobot项目的核心赌注是:能否在机器人领域也建立一个大型开源社区?传统机器人领域是一个小而封闭的垂直市场——要么是业余爱好者,要么是工厂产线上的专业机器人工程师。Thomas的目标是将这个窄小的垂直领域变成像AI研究一样的大众化领域——就像今天2-3亿软件开发者几乎都成了"AI研究者"一样,有朝一日他们也都会成为"机器人专家"。

LeRobot:软件、数据和硬件的三位一体

LeRobot是Hugging Face试图在机器人领域重现Transformers库成功经验的产物。它包含三个核心组件:

Thomas特别强调了"本地运行"在机器人领域比LLM更为重要——因为机器人一旦失去Wi-Fi连接撞墙或碰到孩子,后果远比LLM产生幻觉严重得多。安全性考量使得在设备端运行模型成为机器人的硬需求,这也天然契合了开源模型的优势。

Hugging Face还收购了其第一家硬件公司Pollen Robotics,并推出了两款机器人产品:S100(100美元的最便宜机械臂)和LeKi Mini(300美元的桌面机器人)。社区规模正在指数级增长——从数千人发展到数万人,一次全球黑客马拉松在六大洲设立了100个地点。

三种社区画像:从传统机器人专家到"Vibe Coder"

Thomas将LeRobot社区的开发者概括为三类:

1. 传统机器人专家:他们精通硬件,但长期被传统控制软件的局限性所困扰。AI驱动的软件栈让他们兴奋不已。学术实验室尤其积极采用LeRobot作为学生的入门平台。

2. AI背景的跨界者:这些人本身不是机器人专业出身,但因为机器人是"AI的物理具象"而对机器人产生兴趣。这个群体包括软件开发者以及对机器人好奇的非技术人群。一个典型现象是许多投资者购买了S100机械臂,仅仅是为了亲身体验"机器人能做什么"。

3. 创业者/应用开发者:已有大量初创公司在LeRobot基础之上构建商业应用——有人想自动化手动测试流程,有人想做物理世界的特定任务。Thomas的愿景是让LeKi Mini像智能手机一样开放——自带几种行为,但因为可以自由编程和共享,可能性几乎是无限的。

数据:机器人面临的最大瓶颈

与语言模型拥有互联网上海量文本数据不同,机器人领域的数据稀缺问题极其严峻。虽然可以从互联网视频中提取一些训练数据,但这种方式局限性很大。如果要让机器人学会一个特定任务,最终还是需要真人在真实环境中录制示范数据。

Hugging Face的策略是"去中心化数据集体"——通过Hub平台激励全球社区成员录制并共享机器人数据集。如果能够汇集来自不同地理位置、不同环境(红色墙壁vs绿色墙壁)的训练数据,训练出的模型将拥有远比单一实验室数据更强的泛化能力。

Thomas还观察到机器人公司的独特优势:大多数机器人公司的商业模式是卖硬件,因此他们比LLM公司更愿意开放软件——因为开源软件生态能够提升整个领域的水平,间接促进硬件销售。

世界模型与人形机器人的分歧

关于最近涌现的"世界模型"(World Models)——能够根据输入动作生成逼真可控视频的模型——Thomas认为这是仿真领域的首个真正突破。这些模型不仅可以创造全新的数字娱乐形态,还可以为机器人训练生成合成数据——弥补真实世界数据不足的关键手段。

对于人形机器人(Humanoid),Thomas持保留态度。人形机器人的核心问题在于成本:机器人的成本70%来自执行器(马达),人形机器人通常有60多个执行器,这使得其价格很难低于一辆汽车的水平。当一件产品价格与汽车相当时,用户自然期望获得与汽车相当的价值——这对消费级机器人来说是极高门槛。

Thomas更热衷于"形态多样化"的未来——小型桌面机器人、单臂机器人、移动头部的机器人等。他认为不同的外形不仅更经济,而且更可爱、更容易被社会接受(绕过了"恐怖谷"问题)。从民主化角度看,他担心人形机器人会走向精英化——"有钱人家里有三台机器人,穷人一台也没有"——这与Hugging Face的普世价值观背道而驰。

开源vs闭源:中国崛起与新动态

Thomas分享了一个2020年代最出人意料的观察:中国居然成为了开源AI的"冠军"。中国的AI模型团队内部竞争异常激烈——不仅比模型性能,还比谁更开放。一家名为Zepu的公司曾尝试放弃开源,随即在招聘上遭遇严重反噬,被迫回归开源。

这种现象的背后逻辑是:中国AI公司在西方市场无法销售API(没有人会用中国的云端API),因此在开源上"没有什么可失去的"。同时,Meta等西方公司也利用了类似的策略——当其他人都停止开源时,Meta抓住了成为"唯一顶级开源玩家"的机会窗口。

Thomas还确认了一个趋势:西方公司对使用中国开源模型(即使是下载权重在本地运行)仍普遍持谨慎态度,但这种担忧并不总是基于技术原因——更多是品牌信任问题。他预计随着市场成熟,对"成本节约"和"数据隐私"的诉求将推动开源模型(无论来源)的进一步普及。

开放科学:从物理学家到AI布道者

Thomas的个人经历深刻地塑造了他的开放科学信念。在成为AI研究者之前,他曾在物理学领域研究超导材料——当时他发现苏联科学家在超导理论方面有许多杰出贡献,但这些成果深埋在苏联期刊中,部分甚至只有俄语版本。"获取知识太难了"这一体验成为他后来投身开放科学运动的原动力。

进入计算机科学后,arXiv和开源文化让他激动不已——一切都是免费的、英文的、人人可获取的。但当他尝试复现一篇DeepMind论文时,发现这远远不够——人们发表的只是他们想让你看到的部分,真正的"行业诀窍"却从不公开。这催生了开放科学的核心理念:不仅要给人们模型(授人以鱼),更要教他们如何训练模型(授人以渔)。

Hugging Face践行这一理念的方式包括:撰写超长技术博客(如何用1000块GPU训练模型、如何构建高质量预训练数据集FineWeb等),有些甚至集结成书出版。在Thomas看来,AI将成为像物理一样的基础性知识——就像任何人都可以通过阅读了解广义相对论一样,训练智能系统的完整知识也应当向全人类开放。

科学AI:从"解决问题"到"提出问题"

Thomas对AI在科学发现中的角色持理性态度。他认为当前LLM在"解决问题"方面表现优异——当给定一个明确的数学定理,AI可以找到证明路径。但真正的科学突破不在于解决已知问题,而在于"提出正确的问题"——找到那个无人问津但一旦提出就能开启全新研究领域的问题。这正是诺贝尔奖级别的科学家的共同特质。

目前的LLM在"有品味地提出正确问题"方面仍然极其薄弱。Thomas设想的真正科学AI应该能够说:"嘿,我有一个关于如何超越光速的想法"——不是给出答案,而是提出一个足以颠覆现有理论的正确问题。在此之前,AI更适合作为科学家的"超级助手"——加速文献调研、模拟预测、实验设计——将研究效率提升10倍、100倍甚至1000倍。

十年愿景

Thomas对10年后的世界有着清晰的想象:一个每个人都感觉自己能够"用AI构建"而不仅仅是"消费AI"的世界。就像从大众媒体时代过渡到人人都是内容创作者的YouTube时代一样,AI也不应只是少数人的特权——而应该是每个人创造力的延伸。

在机器人领域,他希望看到的是百花齐放的形态多样性,而非单一的人形机器人主宰一切。在AI模型领域,他期待继续推动"开放"的旗帜——尽管我们知道"开源永远不会一劳永逸地胜利"(如同星球大战中的绝地武士),但持续推动开放将是Hugging Face不变的使命。