为什么下一场AI革命将发生在屏幕之外:Samsara CEO Sanjit Biswas

cover>

摘要

本期节目对话Samsara创始人兼CEO Sanjit Biswas。Samsara是一家市值超过200亿美元的上市公司,其传感器部署在数百万辆车辆上,每年捕获900亿英里的驾驶数据。Sanjit分享了他对物理AI(Physical AI)的深刻见解——在2到10瓦的边缘设备上运行推理的挑战、现实世界数据的混乱多样性既是最大障碍也是最大机遇。他从MIT的RoofNet项目起步,共同创立了Meraki(后被思科以12亿美元收购),再到打造Samsara这个物理运营领域的数字化平台。对话涵盖了从GPS追踪到AI驱动的风险检测的产品演进、物理世界部署的实战困难、自主驾驶和人形机器人的未来,以及技术创始人如何掌握市场进入(Go-to-Market)执行的艺术。

正文

从连接性到计算力的"为什么是现在"

Sanjit回顾了2015年创立Samsara时的三个核心洞察:连接性(互联网已无处不在)、计算力(GPU浪潮开始、NVIDIA嵌入式GPU使像Switch这样的设备变得强大)和传感器(iPhone发布七年后,摄像头已极其出色)。这三个要素的组合让他看到了物理世界数据处理的巨大变革机会。

与第一家公司Meraki不同——当时他们是网络领域的专家——在Samsara,Sanjit和联合创始人"对这个领域一无所知,从未开过商用卡车,从未在仓库工作过"。但正是这种"睁大眼睛"的心态和对外部技术趋势的敏感,让他们做出了正确的方向性判断。

边缘AI的工程挑战

Samsara的核心产品AI行车记录仪部署在数百万辆车上,覆盖了美国99%的道路。但要运行AI推理,面临严苛的硬件约束:边缘设备仅有2到10瓦的功耗预算,与数据中心级别的数千瓦形成鲜明对比。Sanjit解释说,这些设备"不是微控制器——运行Linux,有几百兆甚至上GB的内存,但绝对不是大型数据中心"。

他们的解决方案是在云端使用大型"教师模型"(Teacher Model)训练,然后将其蒸馏为针对特定任务的小型边缘模型。这些模型不需要知道"法国的首都是什么",但需要在毫秒级内识别驾驶风险——比如手机使用、天气状况、跟车距离等。在云端,他们可以运行完整的视频语言模型进行事故重建和深度分析,这在五年前是不可能的。

数据飞轮与持续的模型能力解锁

Samsara拥有极为丰富的数据集:90亿英里/年的驾驶数据,涵盖城市、乡村、居民区、各种天气条件。Sanjit指出,每两到三年模型能力的提升都会解锁新的用例。最初,他们的AI重点是检测手机使用和未系安全带等明显的风险行为。现在,他们可以从整个行程的视角分析驾驶行为,不仅检测负面风险事件,还能识别和表彰优秀驾驶行为——"一线工人80%-90%的时间都做得很好,以前没人能看到,现在我们可以给他们点赞。"

自主驾驶与人形机器人

Sanjit对自主驾驶非常乐观。"两年前我还会避免乘坐Waymo,现在我感觉比人类驾驶更安全。"他认为自主驾驶不会取代人类司机,而是增加运营强度——想想午夜到早上8点的"第三班",物流可以在人类睡觉时继续运转。当送货成本从50美元降到5美元甚至0美元时,需求将大幅释放。

对人形机器人,他持"谨慎乐观"态度。"感觉像10年前自动驾驶的状态——不是明天就能实现,但感觉是不可避免的。"他认为仓库自动化已经在过去10年稳步推进,但建筑工地等高度非结构化的环境仍有很长的路要走。

技术创始人的市场进入觉醒

Sanjit坦承自己"一生从未卖过任何东西"。在Meraki早期,他甚至会避免任何涉及销售的场合。但2008年金融危机改变了一切——风险资本枯竭,公司必须自负盈亏。"这让我们真正意识到,我们必须搞清楚如何实现可持续的销售执行和高度可预测的模式。"作为工程师,他们将销售视为"一个重大的工程问题"。Samsara已累计从公司自身收入和毛利中再投资了近30亿美元用于研发和客户成功,而这只有通过强大的销售才能实现。

产品组合的同心圆战略

Samsara的产品演进遵循"同心圆"策略。第一个产品是GPS追踪——因为2015年大多数物理运营公司仍在使用打印出来的MapQuest地图来追踪车队。客户随后提出需求:"你们有没有能配合你们系统的行车记录仪?"联合创始人John在亚马逊上买了一个摄像头,周末写了代码,下一周就拿给客户试用——这就是Samsara最核心的AI行车记录仪产品的起源。如今Samsara拥有约10个产品,从车辆追踪、行车记录仪到设备维护,始终围绕核心用例向外扩展。

2030年的物理AI展望

到2030年,Sanjit认为当前的AI技术将在物理运营领域大规模扩散,还会出现全新的技术——他特别看好增强现实(AR)和可穿戴设备对一线工人的影响。"很多工人已经戴着AirPods,但加上视觉反馈,运行VLM(视觉语言模型)来理解工作环境——这在2030年将是可能的。"他个人的AI使用偏好是语音模型:在通勤路上与AI聊天,以及ChatGPT的个性化功能——了解他孩子的兴趣、推荐当地活动,展现出AI"比你更了解你自己"的深远潜力。

对于年轻的技术创始人,Sanjit的建议是:"现在是最好的建造时机。无论是代码辅助工具还是自动化编码平台,将想法变为现实比我们当年容易太多了。回想我们那时还得买Dell服务器自己拖到数据中心——现在简直无法想象。"