机器人为什么还不够聪明？具身智能不缺融资、缺数据为啥机器人始终没有那么灵活机器人不容易解决的问题_股票证券

创始人

2026-06-25 10:43:53

具身智能无疑是科技行业最火热的赛道之一，资本持续涌入，创业公司不断刷新估值，机器人也在从演示视频走向真实场景。但热闹之下，一个核心问题始终没有被真正解决：机器人为什么还是不够“通用”？

许多机器人在特定任务上表现出色，“但换个物体操作就失效，换个场景可能就得重新训练。”RoboScience机器科学联合创始人汪涛认为，这背后最大的瓶颈是数据。

大语言模型的发展几乎验证了一条共识：更大的模型、更大的算力以及更大的数据规模，会持续带来能力提升。但这套Scaling Law（缩放定律）到了机器人领域，却遇到了现实阻碍。

互联网积累了海量文本数据，而机器人需要学习的是人与物体、环境之间的真实互动，这样的物理交互数据天然稀缺。

在汪涛看来，一个真正具备通用操作能力的具身智能大模型，所需的数据规模甚至可能超过今天的大语言模型，“千万小时、亿万小时都未必够。”而目前全球头部企业掌握的高质量真机数据，大多仍停留在数十万小时量级，最高约30万小时左右。

按照RoboScience机器科学的测算，相比大语言模型所拥有的数据规模，具身智能领域的数据缺口大约在10⁶至10⁸倍之间。这意味着，机器人行业距离自己的“ChatGPT时刻”，可能还有高达1亿倍的数据鸿沟。

面对数据短缺，传统的破局思路是真机采集。这一方式确实有效，业内预计，今年真机数据总量有望达到百万小时量级。但短期来看，成本与产能的问题同样明显。

如果算一笔账：靠人采集数据，每个人每天只有几百条，月产也只是万条级别，远不能满足大模型对数据规模的指数级需求；后训练阶段，为了让机器人学会一个复杂操作，动辄需要上万条人工标注，成本随任务数量线性累加。

行业正在重新思考具身智能的技术路线。过去几年，VLA（视觉语言行动模型）和模仿学习曾被视为主流方案。但随着实践深入，越来越多团队开始遇到架构和数据的瓶颈。

一个思路是用“算力换时间”：利用海量互联网视频以及自研仿真器生成的数据，替代大量人工采集过程，力求立刻开始基座模型的预训练。

RoboScience机器科学将“物体在三维空间中的运动轨迹（Object Trajectory）”作为数据格式，搭建了一条全自动数据管线，数据成本被压缩至“几分钱一条”，仅为真机采集的几十分之一，而产能则完全取决于算力，“理论没有上限”。

据介绍，今年年初，RoboScience的视频数据量超过百万小时，仿真数据达到了十亿、百亿量级。按照规划，今年他们的视频数据体量要超过千万小时，仿真数据要做到TB级别，基本上接近ChatGPT数据量的十分之一。

尽管属于机器人的“ChatGPT时刻”还未到来，但资本市场的热情持续至今。

IT桔子的数据显示，2026年上半年国内具身智能及机器人领域共发生288起融资事件，涉及226家企业，披露融资额超460亿元，有49家公司在半年内完成了两轮及以上融资。

但资本会更加谨慎和聚焦，汪涛提到，机构投资者会青睐解决核心问题的团队，同时相比概念和故事，今年投资者会更关注真实的落地以及客户复购率，这些指标真正能够验证团队能力。