一、政策背景
六月盛序,太湖之滨。
由清科控股(01945.HK)、投资界主办,吴中金控集团联合主办的“2026投资界SuperLink大会”于6月10-11日举行。
这场盛会覆盖“募投管退”全链条,致力于成为中国创投生态的超级枢纽。
本场《
当AI长出“身体”——具身智能开始真正理解物理世界
》圆桌对话,由北汽产投副总经理
钟志伟
主持,对话嘉宾为:
飞捷科思联合创始人
1、杜朋:聆动通用机器人创始人兼CEO
1、季超:蔚来资本合伙人
吕元兴
OriginFlow创始人&CEO
1、秦深涛:极佳视界联合创始人
1、孙韶言:智平方联合创始人
1、张鹏:以下为对话实录,
经投资界(ID:pedaily2012)
钟志伟
:大家好,我来自北汽产投。今天主题与具身大脑相关。近两年大模型重塑了AI底层能力,无论语言理解、逻辑推理、长程任务规划都得到了全面提升。
当前行业迎来了转折点,具身智能从概念走向实战,AI跨界走进物理世界,产业化落地成为整个行业竞争的核心焦点。
资本市场也更聚焦于核心技术落地与供应链体系建设,未来,围绕着商业化场景落地、稳定商业交付以及物理AI环境的深度适配,将成为整个行业落地突破的关键卡点。
作为产业资本,北汽产投过去三年持续深耕具身智能全产业链投资布局,覆盖本体、大脑、零部件等多个赛道,累计投资了十余个具身智能项目,且多数项目都在早期阶段完成布局,包括智元机器人、银河通用、帕西尼感知、极佳视界等。
本次圆桌主题为“当AI长出身体——具身开始真正理解世界”,邀请嘉宾阵容覆盖面十分广。下面进入第一个环节,有请嘉宾做简单的自我介绍和公司介绍。
杜朋
:谢谢钟总,我是70后老法师团队。飞捷科思在上海创办,核心就是物理引擎和仿真。
物理AI在今年成为一个特别热门的词,包括具身在内的各行各业,都在向AI+、向物理AI看。
今年3月份,我们第一个发布了中国全模态可微的物理引擎,英伟达一直沿用的PhysX物理引擎其实就是我们公司创始人张立华教授在英伟达时期负责研发的。
基于如此深度了解,我们做了底层结构的重构,目前通过飞捷科思的引擎求解出来的结果是非常理想的。
很多产业的朋友,已经与我们在做联动,我想我们可能是世界最好水平。
从引擎出发去做仿真,两个月前我们发布了物理AI的基础模型,意味着从引擎出发可以衍生出更多数据。
欢迎各位看看我们是如何做全新的物理AI底座生态。
季超
:我来自聆动通用机器人,我们是科大讯飞的具身智能板块,2021-2022年初在上市公司体系内正式成立,我主要负责基于多模态强化学习在机器人运动控制上的工作。
早在2019年,我就开始关注物理引擎这一板块。
整个强化学习包括机器人的灵活运动操作,其实本质上都是物理引擎在模拟器里面产生的突破。
国内用的最早的是Lsaac Gym,我的博士论文就做相关的研究,国内基本上很少人做。
在科大讯飞,团队采用数据驱动的方式,完成了Action(行动)环节的数字化。
二、关键进展
1、主要表现
与此同时,公司的大模型团队也在视觉语言领域推进Next-token Prediction(即GPT路线)。
在这一发展进程中,我们敏锐地捕捉到了在Transformer统一架构下实现多模态融合的可能性。
从团队基因来看,我们的核心班底一直专注于“大脑”的研发,因此从LLM到VLM再到VLA的演进,对我们而言是一条自然且连贯的技术发展路径。
为什么会成立聆动通用机器人?从2022年到2023年,我们见证了视觉-语言-动作(VLA)的兴起;
2、关键变化
而到了今年,整个架构正朝着原生多模态大一统的“世界动作模型”演进。
不过目前还不能简单地将其称为“世界模型”,因为大家的观点尚不统一。现在
世界模型主要有四种技术路线:3D生成、3D重构、隐空间表征和操作世界模型
,大家认知没有拉齐。
三、影响与判断
本质上是我们只是在图像视觉层面达到了生成和理解的统一,视觉层面还没有,所以单纯讨论世界模型比较早期。
但是讲世界动作模型里面,加上了模拟器和物理引擎,我们认为这样的backbone比之前的VLM可能在应用空间的特征密度上更好一点。
所以聆动不是通用大脑的公司,我们专注于B端泛制造业,三大板块就是物流、汽车、3C电子。
现在纯通用底座还是长坡厚雪的事情,但已经有了预训练基座的范式,不管是过去ACT等小模型,到后训练大模型,再到世界动作模型,本质上都是在不断增强预训练底座在特定场景中的能力厚度。
这个过程中,在工业场景可以率先落地,所以我们就开始布局团队,2024年年底聆动公司注册成立。
吕元兴
:我来自蔚来资本,我们是一家拥有产业背景的专业投资机构,管理规模将近200亿的等值人民币,旗下有人民币基金、美元基金,覆盖早期、中期和成长期投资。
之前围绕汽车、尤其是智能驾驶、电动化投了非常多的企业,目前我们重点关注AI模型和应用以及具身领域的优秀企业。
具身智能跟智能电动汽车整个产业的发展有非常相似和相通的地方,我们积极布局相关的企业,目前在模型端、本体以及在零部件也投了非常多的企业,后续会持续布局这个领域优秀的创业公司。
秦深涛
:感谢邀请。我就是那个00后,公司也是在座最年轻的一家,成立大概半年。
做的是物理交互基础设施,这应该很久没被提及了。
具身智能发展到今天,最大的问题是缺少一个真正的physical knowledge up-loader,这是一个新词。
此前行业司空见惯有两个knowledge up-loader:第一个是互联网,当Anthropic和OpenAI一路狂奔的时候,我们刷的每一个手机、每一次上网都提供了大量文本数据,当我们开着特斯拉、蔚小理时,通过Shadow Mode等数据回传提供了大量关于video的数据。
这是两个非常典型的knowledge up-loader。
今天全球有近80亿人,每人每天清醒12个小时,意味着每天可以生产1000亿小时的数据。
然而今天任何一家做具身大脑的公司,能够用的数据却不足百万小时,即便是Generalist AI也是几十万小时量级,我们看到了它在scaling曲线上的努力和尝试,也看到了我们离终点真正长坡厚雪的路径。
OriginFlow的路径叫NeuroScale,通过一种Neuro Motor interface的方案,非侵入、无感地进入80亿人的生产和生活,然后去打造这样一个physical knowledge up-loader,这是我们要做的事情。
孙韶言
:我来自极佳视界,公司成立于2023年,是一个自动驾驶背景的团队,创始团队基本上来自地平线。
2023年,大家看到ChatGPT爆发之后,我们就想自动驾驶量产干了这么多年,学了非常多的bitter lesson,那么更本质的解法是什么,当时我们就认为是世界模型。
我们是最早押注世界模型的公司之一,2023年我们发布的自动驾驶世界模型的系列论文,也是后续行业里大家都引用的标杆。
此后我们陆续拿到了理想、小鹏、比亚迪、广汽等客户的世界模型的订单,并一起做了非常多世界模型场景泛化和闭环仿真的工作。
1、驾驶的下一站肯定是通用具身智能
,所以我们现在的定位也是围绕着四个方面——世界模型、具身基模、原生本体和泛化场景,四位一体联合往前推,希望为物理AI的爆发贡献我们自己的力量。
张鹏
:智平方成立于2023年,位于深圳南山,是一家AGI原生通用智能机器人企业,核心理念是围绕通用智能模型的研发,打造真正具有生产力价值的通用智能机器人。
所谓真正体现生产力价值的机器人,不是让它变成摆设或玩具,我们做的是生产力。
因此,智平方一直坚持以模型、硬件、场景三个重要元素来构建研发体系以及整个公司的发展理念。
从2023年4月成立至今,围绕以上三位一体的理念,智平方已经在汽车制造、半导体制造、生物医药、公共服务、新零售领域的场景中落地。
这是我们一直做的事情,希望通过真实场景、具身模型,让整个中国的供应链硬件汇聚到一起,实现打造真正新质生产力和生产力工具的理念。
钟志伟
:纵观整个具身智能行业的发展,从早期聚焦本体到关注小脑、大脑、VLA,以及今年重点关注世界模型、数据采集等等,产业链热度高涨,一环扣一环。
大部分做本体的公司也在做大脑和行业模型,大家怎么看待这个行业的快速变化?
站在创业企业视角,过去一年具身智能行业最大的突破在哪里?从张总开始。
张鹏
:自2023年具身智能赛道兴起以来,行业经历了从“单点技术突破”到“真实场景落地”的关键转型。
早期,业界主要聚焦于基础模型、运动控制或特定动作(如跳舞)等单一维度的研发;而
去年,行业迎来了明显的转折点——全面转向真实场景的探索
。
孙韶言
秦深涛
吕元兴
这一赛道有望成长为人类工业史上体量最大的单一硬件赛道
相比于前两年,我认为今年最大的变化在于,之前大家都是以表演娱乐为主,
1、今年大家都专注于去做生产力的工具
,具身行业从之前发布demo,转向做具体场景应用、做闭环商业化落地,
2026年将成为具身行业的“商业化元年”
。
季超
这相比于去年在应用开发层面是巨大的进步,意味着大家把关注点从后训练迁移到预训练,
预训练必然会出现算力的瓶颈,所以今年整个大模型公司算力消耗非常巨大
。
杜朋
钟志伟
杜朋
季超
秦深涛
钟志伟
孙韶言
明面上期待大家做商业化,更多的是说你能不能找到场景,在场景里面把模型和场景共振
。
钟志伟
张鹏
钟志伟
吕元兴
钟志伟
四、后续关注
1、主要方面
最后一个问题,请大家用两三句话简单:在你们眼中具身智能未来是什么样子的?
杜朋
季超
从第一性原理来说,我认为这是人类所掌控的最后一次工业革命了
。
2、关键变化
吕元兴
秦深涛
孙韶言
张鹏
钟志伟

远见网
