当Github7万星标遇上产业老兵

2025年，人形机器人站上”量产元年”的门槛。资本市场的热情、科技媒体的聚光灯、Demo视频的病毒式传播——水面之上，一切看起来都很美。但水面之下，一个冰冷的现实正在威胁整个产业的根基：数据缺口。当前具身智能领域的高质量真实数据规模仅在约50万小时左右。而一个技能点要达到交付级，模型需要2000-5000小时甚至过万训练数据。这意味着，行业数据存量几乎只够支撑几十个技能点——距离大规模商用所需的数万技能点，差距悬殊。两条路已证伪，第三条路正在浮现具身智能行业目前有三条数据获取路径。前两条已经被不同程度地证伪，第三条正在被一支新团队验证。路径一：互联网视频/合成/仿真数据数量庞大（数亿至数百亿小时），但缺乏真实物理交互，无法解决技能操作泛化问题。就像让一个人通过看电影学做饭——他知道步骤，但手上没感觉。路径二：真机遥操/动捕数据现状仅数万小时。与硬件高度耦合，扩展成本高（约180美元/小时），且缺乏真实场景多样性。就像为每一款新手机单独训练一个操作员——不可规模化。路径三：无本体真人数据 —— 第三条

查看原文 →

（来源：36氪深度，2026-05-07）