GitHub CEO Thomas Dohmke:构建 Copilot 与软件开发的未来 | 训练数据

摘要
GitHub CEO Thomas Dohmke 分享了从东柏林少年程序员到领导全球最大开发者平台的非凡旅程,以及 GitHub Copilot——这个有史以来最成功的企业级 AI 应用——从灵光一现到改变软件行业的完整故事。Thomas 回顾了 Copilot 的起源:2020 年 6 月的一次 Zoom 会议中,团队成员在 GPT-3 中开始输入代码提示,发现模型竟然能写出正确的语法——那一刻所有人被震撼了。到 2021 年初内测时,Copilot 已在启用的文件中生成了 25% 的 Python 代码(团队一开始以为遥测数据出错了)。如今 Copilot 拥有超过 180 万付费用户和 5 万家企业客户,GitHub 的收入年增长 45%。Thomas 还深入探讨了 Copilot 从自动补全到聊天、从代码生成到安全修复、从 Spec Agent 到 Plan Agent 的进化路径,他"10 亿开发者"的宏伟愿景,以及为什么他相信 Transformer 不会是终点——"当然会有新的架构,就像手机里 CPU 和 GPU 共存一样。"
正文
从柏林墙倒下的少年到 GitHub CEO
Thomas Dohmke 的故事始于分裂的柏林。11 岁时,他还在东德,隔着柏林墙望向西德。他在学校的地理实验室第一次见到电脑——那时你必须学会编程才能让机器做任何事。柏林墙倒塌后,他买了 Commodore 64,之后是第一台 PC——一台 386 DX40。"作为一个青少年,我大部分时间都在编程。"
他在 90 年代末创办了一家公司,为保险代理人开发软件。后来搬到南德为奔驰工作,随后创立了一家被微软收购的初创公司。讽刺的是,他并非 GitHub 的创始人,而是在 2018 年作为微软的产品经理,参与了收购 GitHub 的战略规划。作为"交易整合经理",他负责协调从法律、HR 到产品工程的所有环节,确保交易顺利通过监管审批,最终在 2018 年 10 月实现"Day Zero"——而他本人也因此来到 GitHub,最终成为 CEO。
"我热爱为开发者构建软件。我们总是在说:开发者优先。能和这么多开发者交流,为他们构建工具——这对我来说是梦想中的工作。"
Copilot 的诞生:一场 Zoom 会议改变了一切
很多人误以为 Copilot 是 GitHub 收购时的战略蓝图的一部分。Thomas 澄清:"最初的收购提案里有一个关于 AI 的小段落,但那更像是一个'登月计划'而非核心论点。"
真正的转折发生在 2020 年 6 月。当时全球处于封控状态,GitHub 团队获得了 GPT-3 的早期访问权限。在一次 Zoom 会议上,团队成员 Oege de Moor 开始在模型中输入代码提示。其他人都在看着——然后他们看到模型竟然能写出正确的语法。
那一刻所有人都被震撼了。
团队迅速展开系统性研究:他们让内部工程师提交编程练习题,从 GitHub 开源仓库中提取 Python 函数,并与 OpenAI 合作微调模型。到 2020 年 8 月,模型已经能解决 92% 的编程练习题。虽然在实际开源代码体上的准确率"只有"约 52%——因为真实代码的上下文比练习题要复杂得多——但这足以让团队确信:可以围绕这个技术构建产品。
2021 年初的内测带来了第二个惊喜时刻:内部工程师的净推荐值(NPS)高达 70 多分——对于以"别碰我的系统"著称的开发者来说,这几乎是不可思议的。更惊人的是:遥测数据显示,在启用了 Copilot 的文件中,25% 的 Python 代码是由 AI 生成的。团队的第一反应是:"回去检查遥测数据,这不可能是真的。"
到 2022 年 6 月 Thomas 第一次以 CEO 身份做主题演讲时,这一比例已升至 40%。他当时预测:"五年内,Copilot 将编写 80% 的代码。"
为什么 Copilot 成功了?模型 + 体验 + 时机
Thomas 认为 Copilot 的成功有三个关键因素:
第一,模型本身足够好。 OpenAI 在 GitHub 公开可用的源代码上微调了 GPT-3——注意,GitHub 并没有给 OpenAI 特殊的数据访问权限,OpenAI 和其他创业者一样通过 API 或互联网档案获取数据。
第二,用户体验是无缝的。 Copilot 不是作为一个"AI 产品"出售的——它就是在编辑器中,在你写代码的地方,以你习惯的方式工作。Thomas 将之比作手机键盘的预测输入:你的手机一直在用机器学习预测下一个单词,照片库也在用 AI 做面部识别——但没人把这些称为"AI 功能"。它们只是"好用的功能"。"我们在开发者所在的地方与他们相遇,让他们的生活变得更好。"
第三,命名本身就是天才之作。 团队成员 Alex 提出了"Copilot"(副驾驶)这个名字——这个比喻既传达了辅助性(你仍然是机长),又暗示了高级能力(它是你的副驾驶),完美定位了产品。
从自动补全到智能体:Copilot 的进化路线
Copilot 的进化速度令人目眩。从最初的自动补全,到加入聊天功能,再到覆盖整个开发生命周期:
-
Copilot X:将 AI 带入开发者工作流的每一个环节——从写提交信息到调试代码。"写提交信息这个看似琐碎的功能其实无比强大——它减少了我对自己刚写的代码的偏见。对我来说一切都是显而易见的,但对审查我代码的你来说不是。AI 用中立的方式描述我做了什么,让我保持在流状态中。"
-
Copilot Enterprise:让企业基于自己的机构知识(institutional knowledge)定制 Copilot。"当你加入一家公司,你不敢问太多'愚蠢的问题'——怕被人觉得你怎么连这都不懂。有了 Enterprise,你可以问 Copilot 那些问题而不被评判。"
-
Autofix(自动修复):Thomas 最兴奋的功能之一。传统安全扫描只会告诉你哪里有问题——"就像你的扫地机器人不扫地,只指出地上的灰尘让你自己去扫。"而 Autofix 不仅能发现 SQL 注入或跨站脚本等安全漏洞,还能直接给出修复方案。早期数据显示,某些客户可以一次性解决 75-80% 的安全告警。
-
Copilot Workspace:引入多个专业智能体协同工作——从 Spec Agent(帮你将模糊的想法转化为精确的规格说明)、Plan Agent(分析代码库并确定需要修改的文件)、到 Implement Agent(执行代码修改)。"就像乐高积木,积木类型越来越多,组合方式越来越丰富。"
Thomas 将智能体(Agent)定义为:"一个使用模型来完成任务的东西——本质上是与模型循环交互来为你解决问题。"而 Copilot 则是一个"智能体的智能体"(agent of agents)——它在聊天界面内外协调多个智能体。
10 亿开发者的愿景:代码的未来
Thomas 有一个大胆的愿景:到 2030 年,世界上将有 10 亿软件开发者。这并不意味着 10 亿专业开发者,而是 10 亿能够用自然语言与计算机交互、创建小应用和脚本的人。
"今天,在任何餐厅你都可以拿到蜡笔和涂色纸——学习画画很容易、很触手可及。学习音乐也是如此。学习编程也应该如此。"
他认为,代码不会消失——因为人类语言是不确定的(你讲同一句话可能意味着完全不同的东西),而代码是确定的。芯片需要确定性指令,所以从自然语言到机器指令之间总需要一个转换层。Copilot 只是让这个转换层变得更高、更易用。
但 Thomas 同时强调:学习编程仍然至关重要。"只是因为你能买到一把吉他,不代表你就能弹得像 Keith Richards 一样好。Copilot 不会取代成为优秀开发者的过程——它只是给了你工具箱里的一件新工具。"
他对"AI 何时能达到 10 倍工程师水平"这个问题的回答颇具哲学意味:在正确上下文中被正确提示时,今天的模型写出的代码已经比普通开发者更好——因为它知道更多开源库,能写出更简洁的实现。但模型缺乏的是系统思维和创造力——将复杂问题分解为可构建块的能力,以及做出上千个技术选型决策的能力。"这就像盖房子——人类盖了几千年的房子,但盖房子仍然不是一个已被解决的问题。"
开源 vs 闭源、Transformer 的未来
关于开源与闭源模型的争论,Thomas 的立场是实用主义的:"两者都会使用。"他深受 GitHub 自身 DNA 的影响——GitHub 诞生于开源文化,90% 的应用栈建立在开源社区的工作之上。"模型只是自然地融入了这个栈中。"
他对 Nvidia 在 AI 芯片领域是否会被颠覆的回答是一个干脆的"是"——"在未来 5 到 10 年内。"
关于 Transformer 架构是否会被取代,他说"当然会"——"这是一个更容易下注的答案,因为在 Transformer 之前就有其他架构,就像你手机里 CPU 和 GPU 共存一样。会有新的架构出现,它们可能比今天的 Transformer 更大。"