今日热文:从实验室到真实场景 数据为具身智能落地关键
在近期具身智能企业的发布活动中,数据成为高频词汇。随着具身智能从实验室走入真实场景,数据成为影响具身智能落地部署的关键。近日,觅蜂科技、帕西尼发布具身智能数据与数据服务平台,多家企业发布更低成本的数据采集方案,围绕物理AI数据规模、质量与成本的竞赛全面开启。
数据成为模型能力关键
(资料图片)
“机器人其实硬件到位了,但是大脑没有跟上,就像空有一身漂亮的肌肉。”自变量机器人CEO王潜在4月21日举办的发布会上说。
如今,业内普遍认为具身智能数据是提升机器人“大脑”能力的关键,这种能力对应着更强的具身模型能力,通常指机器人执行任务的泛化性。自变量机器人CTO王昊将具身智能模型训练所用的数据分为“糖水数据”和“牛奶数据”:“糖水数据”来自实验室,与现实世界有较大差距,难以提升模型的泛化性;“牛奶数据”来自真实环境,充满随机性,对模型训练更有益。
为了获得高质量的“牛奶数据”,自变量机器人将机器人部署到100个志愿者的真实家庭中进行训练。“真实的混乱和不可预测的场景、画面,这些才是能驱动数据飞轮真正转起来的因素。”王昊称,以实验室数据打底,真实环境的数据提质,自变量机器人发布新一代基于世界统一模型架构的具身智能基础模型WALL-B。公司还宣布,今年5月25日,部署WALL-B模型的新一代机器人将入驻真实家庭,边做边学。
具身数据已经成为今年行业发展的关注焦点。“机器人的跑跳等运动能力,前两年已经很大程度得到解决,下一步要解决机器人能干活的问题,这需要机器人‘大脑’能感知、能做规划,需要数据来训练模型。”祥峰投资管理合伙人夏志进对记者表示,对具身模型和数据的高关注度,正是当前行业推动机器人落地部署的真实需求。
觅蜂科技董事长姚卯青认为,2026年是具身智能产业数据元年,具身智能是万亿元级赛道,但行业面临数据荒漠。“文本大模型语料规模达百亿小时级,具身智能高质量数据规模仅为50万小时级,差距巨大。”他表示,百亿小时是通用智能的基础门槛。阿里云高级算法专家张民英也表示,要让具身智能模型能力实现突破,需要100亿小时数据量级。
头部企业积极布局
4月16日,帕西尼联合京东云、腾讯云、百度智能云共同推出全模态具身智能数据云商城,即日起全面对外开放。同日,智元机器人控股的具身智能数据平台公司觅蜂科技在上海发布一站式物理AI数据服务平台,并上线觅蜂数据商城,公司计划到2026年和2030年,分别实现千万小时级、百亿小时级数据产能。今年3月光轮智能宣布完成近10亿元融资,成为首个具身数据领域的“独角兽”企业,并宣布在今年一季度获得5.5亿元订单。
“当下处于数据‘军备竞赛’的起点。”姚卯青表示,行业头部数据需求方,普遍有全年百万小时的数据需求。
此前,北京、上海、天津、武汉、无锡等多地已经建立起大规模的具身智能数据采集工厂,行业探索发现,传统数据采集模式依赖大量机器人本体,由人工遥操作采集,采集成本高、花费时间长。如今,更多企业开始探索更低成本的数据采集方式。
夏志进介绍:“近期比较受关注的是采用UMI(通用操作接口)方案,通过人类穿戴采集设备采集数据,再将采集到的数据部署至机器人。”如今年3月鹿明机器人发布FastUMI无本体数采产品,该方案将单条数据采集时间从传统遥操作所需的50秒缩短至10秒,效率大幅提升,同时将综合成本降至原来的五分之一。
今年4月,觅蜂科技发布MEgo系列无本体采集硬件,包括夹爪造型的手持轻量化采集设备MEgo Gripper,以及穿戴在头部、手部的MEgo View采集终端。这些搭载着传感器、摄像头的采集设备会将穿戴者的周围环境与动作轨迹采集、还原。“随着无本体采集方案普及,预计采集效率会达到真机采集的两三倍,数据成本也将下降。”姚卯青称。
专家认为,另一个降低数据采集成本的方案是使用部分视频数据与仿真合成数据,与真实数据相印证,帮助降低模型训练成本、提升效率。例如极佳视界2025年12月发布并开源的具身世界模型GigaWorld-0,将世界模型生成数据在VLA训练中的占比提升至90%。千寻智能联合创始人高阳介绍,公司选择基于海量人类互联网视频进行预训练,通过自研设备将数据采集成本降低了90%。
夏志进表示,目前市场上,具身智能相关数据仍存在较大缺口,与此同时,关于具身智能数据的选用标准、用量规模以及采集方式,行业内尚未形成统一共识,企业仍处于探索阶段。另有业内投资人表示,当下资本更看好具备低成本、高效率的数据获取方式的企业。
需尽快建立标准
在提升具身数据规模的同时,具身数据标准、质量问题成为行业挑战。“首先是行业标准缺失,各家企业生产数据的格式、标注都自成体系,难以互通和复用;二是数据质量参差不齐,数据标注不规范、数据质量粗糙问题普遍存在。”姚卯青表示,大模型由数据驱动,如果输入“垃圾数据”,产出的就是“垃圾模型”。
为解决数据标准问题,行业企业正在各自探索。如觅蜂科技通过数据治理引擎对采集到的数据进行处理,其中包括数据预处理、空间感知信息提取、数据质量评估等。“从数据硬件层面的同步、标定,再到语义的标注,再到采集操作的规范,以及数据场景、任务的多样性,这些都构成了高质量数据的必要元素。”姚卯青称。
帕西尼则建立了一套标准化的数据全生命周期闭环管理系统,降低数据清洗成本,确保数据的一致性与高质量。北京人形机器人创新中心设立的具身智能机器人数据与训练基地也建立了标准化项目管理体系,制定数据采集、标注、质检等系列规范,实现全流程的质量把控。
光轮智能创始人兼CEO谢晨表示,具身智能数据呈现为“真机数据、仿真数据、互联网视频数据”三层金字塔结构,三类数据都是实现行业泛化的必要条件。除了数据的缺失,当前行业痛点还在于缺少模型评价体系。谢晨说:“如果没有评价体系,大家就不知道用什么样的数据能够使模型表现得更好。”从业者普遍认为,行业需要建立统一的数据采集标准和模型评价体系。
您可能也感兴趣:
为您推荐
中国红APP正式上线发布
第十二届东亚地方政府会议将在山东临沂召开 促进东亚地区交流合作
(乡村行·看振兴)山西柳林依托“数商兴农”打造乡村e镇 电商交易9个月达3.5亿元
排行
最近更新
- 今日热文:从实验室到真实场景 数据为具身智能落地关键
- 李金羽:英博外援能力非常突出,通过个人能力决定了比赛走势
- 巴萨队史出场最多的荷兰球员,德容获赠纪念球衣并与科库合影
- 俞敏洪官宣:邀请10名东方甄选会员共赴南极_焦点讯息
- 现货黄金涨0.41%,报4739.31美元/盎司
- 一组数据看懂中国制造新动能
- 帝奥微:一季度亏损2465.23万元 同比由盈转亏 百事通
- 焦点讯息:图解财报:四创电子全年归母净利润-2.88亿元,上年...
- 2026年3月不锈钢净出口总量为15.48万吨|速看料
- 阿根廷对华鞋类产品作出反倾销情势变迁复审终裁 今日讯
- A股总市值达117万亿元,创历史新高|前沿热点
- 每日消息!江苏省镇江技师学院 2026 年 “阅读悦美” 读书节启幕
- “喜”从何来?
- 快报:中国航空工业集团等在成都新设智谱科技公司
- 4月22日恒天海龙粘胶短纤价格快讯-消息
- 第三届海南国际游艇设计大赛颁奖典礼闪耀消博会,全球创意...
- 中国绿发发布6818好房子产品体系
- 即时焦点:河北宁晋举办世界读书日暨迎“五一”主题读书分享会
- 体验为王 TATA木门服务升级首站落地天津南京
- 快资讯丨南昌一宗宅地溢价18.75%成交
- 今日精选:中银证券给予佰仁医疗"买入"评级:Q1业绩快速增长,...
- 青年市集聚烟火,宝堰 “堰” 上青年 “庙” 趣横生 五...
- 【每周之星】扬子晚报苏州小记者工作室2026年第16周“作文之...
- 2026年智能云仓托管服务推荐指南:全托管模式如何选到靠谱伙伴
- 泰安高新区税务局:秀城春正好 税宣进街巷 焦点热文
- 分布式生态的“解耦”革命:ant.fun 纯界面架构的技术合规性分析
- AAV艾艾薇:“美式高阶情趣”定义全新愉悦体验
- 午评:创业板指低开高走涨0.63% CPO、光纤等算力硬件股集体...
- 中广核风电、远景能源在内蒙古成立新能源公司
- 快播:用雨花石“讲”南京地史,地质遗迹保护与利用研讨会举行
今日要闻
- 2026年3月不锈钢净出口总量为15.48万吨|速看料
- 第三届海南国际游艇设计大赛颁奖典礼闪耀消博会,全球创意锚定绿色智能新航向
- 中国绿发发布6818好房子产品体系
- 体验为王 TATA木门服务升级首站落地天津南京
- 中广核风电、远景能源在内蒙古成立新能源公司
- 狄耐克 3·21 脑机发布会:推出"1+4+N"方案,重塑非侵入式脑机健康新范式
- “春启新程 智驭先机”--山东神光2026春季投资策略会在沪圆满举行
- 4月21日创业板ETF易方达基金份额减少4.83亿份,重仓股宁德时代、中际旭创、新易盛
- 中国3D打印鞋品牌星世线亮相米兰设计周:以设计为桥,让中国科技与文化走向世界中心
- 滚动:视频丨第六届亚沙会准备工作就绪 海南自贸港静待四方宾朋


