具身模型Scaling Law初现迹象:人形机器人数据竞争全面打响

2026年04月15日 19:38
本文共计2461个字,预计阅读时长9分钟。
来源/科创板日报 责编/爱力方

《科创板日报》4月15日讯(记者 敖瑾)具身智能围绕数据展开的中场战事打响。

过去一年,行业焦点从本体能力转向具身大脑。这在资本市场表现为,2026年一季度,多家专注具身大脑的公司相继完成大额融资,星海图、智平方、自变量等项目估值快速跃迁,密集跻身独角兽行列。

而随着大脑竞赛的不断升温,一个更底层的约束变量——数据,也越来越受到重视。在此背景下,自2025年下半年起,具身智能企业在数据侧的布局明显加速:从数据采集中心建设,到开源数据集,再到分布式采集网络探索,数据竞争成为具身智能发展的新阶段性主线。

最近一家在数据层做出了动作的是戴盟机器人。其于今日(15日)联合多家海内外学术机构与企业,发布了具身数据集Daimon-Infinity。

触觉数据可显著减少训练所需数据量

戴盟机器人成立于2023年,孵化于香港科技大学研究团队,是一家聚焦于触觉感知与灵巧操作的具身智能企业,截至目前,公司官宣完成4轮融资,投资方包括中国移动、招商局创投、招银国际以及国中资本等。

据公司方面介绍,此次最新发布的数据集包含触觉、视觉、动作轨迹及语音文本等多模态信息,其中1万小时数据面向行业开放并在阿里魔搭社区上线开源。按照公司规划,年内这一数据集规模还将扩展至数百万小时、近十亿条。

在数据采集方式上,Daimon-Infinity 依托戴盟自研的二指夹爪及五指手套数采设备,结合高分辨率视触觉传感器、鱼眼相机、双目相机及IMU等多类传感器,实现对操作过程的多维度记录。其中,触觉数据覆盖接触力、形变、接触状态以及材质、纹理、滑移等物理交互信息,主要用于补充精细操作任务中极为稀缺的触觉特征。

戴盟方面表示,该数据集已在OmniVTA等多个含触觉模型中完成验证。

公司相关负责人对《科创板日报》记者表示,在实际验证中发现,触觉数据的引入,能够显著降低模型训练对数据规模的依赖。原因在于,相比视觉信息,触觉能够直接感知接触关系与物体特性,避免多视角采集带来的冗余数据与遮挡问题,从而提升信息获取效率。其进一步表示,在一些以接触为关键环节的操作任务中,引入触觉数据后,任务成功率得到了明显提升。

据介绍,戴盟当前数据主要由其主导,联合全球高校及产业场景方采集,远期目标是逐步转向外发式、众包式采集网络。后者是效率更高的数据采集方式,但对基础设施的要求也更高,需要依托设备端和云端平台的协同运行,以最终实现数据上传、处理、验证与反馈的闭环。

对于开源数据集的战略选择,上述负责人表示,一方面是基于公司当前已具备成熟的数据生产能力,能够对外持续释放数据;另一方面则是希望通过开源引入研究机构与企业参与验证,推动模型能力迭代。“从具身智能当前的发展阶段来看,模型能力的验证需要多方合力推动。”

不过,数据资源的商业价值已经开始显现。上述负责人对记者透露,公司当前采集的数据已对接部分具身大脑研发机构及企业,后者既是数据使用方,也在前期参与数据需求定义。

这也意味着,围绕数据供给的商业模式也在逐步显现。

百度就做出了一次更体系化的探索。其在4月初推出了“具身智能数据超市”,主要面向模型公司提供数据调用、定制采集等服务,本质上正是围绕数据供给侧展开的一种商业化探索。在更早前的今年1月,湖北人形机器人创新中心与智元机器人正式官宣合作,前者向智元交付了数千小时的人形机器人训练数据。

从数采中心到分层体系

目前,具身智能行业围绕数据的布局仍在持续加速。

上述湖北人形机器人创新中心,事实上就是这轮数采大潮中的训练场模式的代表之一。过去一年,上海、北京等多地都相继启动了具身智能数据采集中心建设,通过集中部署机器人与操作场景,进行规模化数据采集。这类模式以本体为核心,强调数据精度与场景真实性,可以说是当前最直接的数据来源。

另一方面,行业级开源数据集与工具链也在加速推出,包括智元机器人、乐聚以及最新加入的戴盟等具身智能企业,都相继推出了面向行业的开源数据集与开发工具,参与开源共建。

同时,国家与高校体系也在推进数据基础设施建设。公开信息显示,北京国家地方共建具身智能机器人创新中心与北京大学计算机学院联合推出RoboMIND数据集及Benchmark体系,尝试建立统一评测标准。

在国际层面,大规模数据对模型能力的影响也在被持续验证。英伟达研究团队发布EgoScale项目,使用超过2万小时带动作标注的第一视角视频训练模型,并观察到随着数据规模提升,模型能力呈现持续改进趋势。

更激进的玩家还有Generalist AI。该公司在2025年底发布的GEN-0 模型,使用了超过 27万小时的真实世界操作数据;其在4月初最新发布的GEN-1模型,更是将数据规模进一步推向了50万小时,模型性能和任务成功率也从64%大幅提升至99%,基于此,一些业内人士认为具身模型的Scaling Law得到了初步的验证。

在具身智能行业内人士看来,Generalist AI路径的价值还在于,利用人佩戴低成本穿戴设备产生的视频数据进行预训练,在降低成本的同时也突破了采集规模的瓶颈。

上述戴盟数据负责人对《科创板日报》记者表示,具身智能的数据供给存在一个金字塔结构。“最顶层是由机器人本体采集的高质量数据,这类数据精度高、最贴近真实运行状态,在精细操作和特定场景具有重要价值,但采集效率与规模存在明显约束。因此,仅依赖顶层数据,难以支撑模型对复杂场景的泛化能力,还需要中层与底层数据共同补充。”

其进一步介绍,中层数据更强调在保证可部署性的同时实现规模化,例如通过手持式设备等方式采集,让数据在结构上能够迁移至机器人执行端;底层数据则更多以人为中心,通过第一视角、多模态方式获取大规模数据,以支撑模型在更大规模数据上的训练需求。

可以看到,极速前进的具身智能领域在短短几年时间内,就经历了竞争焦点的切换,从最早的堆砌硬件,到争夺算法,再到如今对数据基础设施的系统性卡位。当数据成为决定模型能力上限的关键变量,围绕数据展开的竞争或将继续升级。

来源:具身模型Scaling Law初显?人形机器人数据战事全面打响 | 科创板日报

声明:本文来自科创板日报,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/