为什么下一场AI革命将发生在屏幕之外：Samsara CEO Sanjit Biswas

cover Sequoia Capital · 2025-12-16🎬 在 YouTube 观看原视频 →>

摘要

本期节目对话Samsara创始人兼CEO Sanjit Biswas。Samsara是一家市值超过200亿美元的上市公司，其传感器部署在数百万辆车辆上，每年捕获900亿英里的驾驶数据。Sanjit分享了他对物理AI（Physical AI）的深刻见解——在2到10瓦的边缘设备上运行推理的挑战、现实世界数据的混乱多样性既是最大障碍也是最大机遇。他从MIT的RoofNet项目起步，共同创立了Meraki（后被思科以12亿美元收购），再到打造Samsara这个物理运营领域的数字化平台。对话涵盖了从GPS追踪到AI驱动的风险检测的产品演进、物理世界部署的实战困难、自主驾驶和人形机器人的未来，以及技术创始人如何掌握市场进入（Go-to-Market）执行的艺术。

正文

从连接性到计算力的"为什么是现在"

Sanjit回顾了2015年创立Samsara时的三个核心洞察：连接性（互联网已无处不在）、计算力（GPU浪潮开始、NVIDIA嵌入式GPU使像Switch这样的设备变得强大）和传感器（iPhone发布七年后，摄像头已极其出色）。这三个要素的组合让他看到了物理世界数据处理的巨大变革机会。

与第一家公司Meraki不同——当时他们是网络领域的专家——在Samsara，Sanjit和联合创始人"对这个领域一无所知，从未开过商用卡车，从未在仓库工作过"。但正是这种"睁大眼睛"的心态和对外部技术趋势的敏感，让他们做出了正确的方向性判断。

边缘AI的工程挑战

Samsara的核心产品AI行车记录仪部署在数百万辆车上，覆盖了美国99%的道路。但要运行AI推理，面临严苛的硬件约束：边缘设备仅有2到10瓦的功耗预算，与数据中心级别的数千瓦形成鲜明对比。Sanjit解释说，这些设备"不是微控制器——运行Linux，有几百兆甚至上GB的内存，但绝对不是大型数据中心"。

他们的解决方案是在云端使用大型"教师模型"（Teacher Model）训练，然后将其蒸馏为针对特定任务的小型边缘模型。这些模型不需要知道"法国的首都是什么"，但需要在毫秒级内识别驾驶风险——比如手机使用、天气状况、跟车距离等。在云端，他们可以运行完整的视频语言模型进行事故重建和深度分析，这在五年前是不可能的。

数据飞轮与持续的模型能力解锁

Samsara拥有极为丰富的数据集：90亿英里/年的驾驶数据，涵盖城市、乡村、居民区、各种天气条件。Sanjit指出，每两到三年模型能力的提升都会解锁新的用例。最初，他们的AI重点是检测手机使用和未系安全带等明显的风险行为。现在，他们可以从整个行程的视角分析驾驶行为，不仅检测负面风险事件，还能识别和表彰优秀驾驶行为——"一线工人80%-90%的时间都做得很好，以前没人能看到，现在我们可以给他们点赞。"

自主驾驶与人形机器人

Sanjit对自主驾驶非常乐观。"两年前我还会避免乘坐Waymo，现在我感觉比人类驾驶更安全。"他认为自主驾驶不会取代人类司机，而是增加运营强度——想想午夜到早上8点的"第三班"，物流可以在人类睡觉时继续运转。当送货成本从50美元降到5美元甚至0美元时，需求将大幅释放。

对人形机器人，他持"谨慎乐观"态度。"感觉像10年前自动驾驶的状态——不是明天就能实现，但感觉是不可避免的。"他认为仓库自动化已经在过去10年稳步推进，但建筑工地等高度非结构化的环境仍有很长的路要走。

技术创始人的市场进入觉醒

Sanjit坦承自己"一生从未卖过任何东西"。在Meraki早期，他甚至会避免任何涉及销售的场合。但2008年金融危机改变了一切——风险资本枯竭，公司必须自负盈亏。"这让我们真正意识到，我们必须搞清楚如何实现可持续的销售执行和高度可预测的模式。"作为工程师，他们将销售视为"一个重大的工程问题"。Samsara已累计从公司自身收入和毛利中再投资了近30亿美元用于研发和客户成功，而这只有通过强大的销售才能实现。

产品组合的同心圆战略

Samsara的产品演进遵循"同心圆"策略。第一个产品是GPS追踪——因为2015年大多数物理运营公司仍在使用打印出来的MapQuest地图来追踪车队。客户随后提出需求："你们有没有能配合你们系统的行车记录仪？"联合创始人John在亚马逊上买了一个摄像头，周末写了代码，下一周就拿给客户试用——这就是Samsara最核心的AI行车记录仪产品的起源。如今Samsara拥有约10个产品，从车辆追踪、行车记录仪到设备维护，始终围绕核心用例向外扩展。

2030年的物理AI展望

到2030年，Sanjit认为当前的AI技术将在物理运营领域大规模扩散，还会出现全新的技术——他特别看好增强现实（AR）和可穿戴设备对一线工人的影响。"很多工人已经戴着AirPods，但加上视觉反馈，运行VLM（视觉语言模型）来理解工作环境——这在2030年将是可能的。"他个人的AI使用偏好是语音模型：在通勤路上与AI聊天，以及ChatGPT的个性化功能——了解他孩子的兴趣、推荐当地活动，展现出AI"比你更了解你自己"的深远潜力。

对于年轻的技术创始人，Sanjit的建议是："现在是最好的建造时机。无论是代码辅助工具还是自动化编码平台，将想法变为现实比我们当年容易太多了。回想我们那时还得买Dell服务器自己拖到数据中心——现在简直无法想象。"