视频预训练的争议与破局
2026年,具身智能赛道热度不减,但围绕VLA(视觉-语言-动作)视频预训练商业化价值的争论也在持续升温。一边是投资机构持续加注,一边是业内对"互联网视频训练机器人"实际效果的质疑。
就在风口浪尖上,韩国初创公司RLWRLD宣布完成累计600亿韩元(约4180万美元)的种子轮融资,让整个行业看到了另一种可能性。
这笔融资最值得关注的,不是金额本身,而是资方构成——LG、SK、乐天、CJ物流、ANA航空等日韩实体产业巨头悉数入局。产业资本用真金白银投票,代表的是对技术能否真的落地的判断。
两种视频训练路线,两种商业逻辑
目前市面上主流的视频训练方式,可以分成两条截然不同的路线:
路线一:全网公开视频预训练
这是国内多数具身智能初创公司的选择。抓取YouTube、抖音等平台的公开视频片段,用海量数据快速建立模型的视觉认知和基础动作逻辑。
- 优势:成本低、数据量大、模型泛化能力强,适合早期快速迭代和多行业试点
- 短板:网络视频视角杂乱、光线不一、存在摆拍,更重要的是——记录的是人类肢体动作,和机器人的机械结构存在根本性偏差,在需要高精度的工业场景中稳定性不足
路线二:实景岗位视频训练(RLWRLD路线)
RLWRLD走了另一条更"笨"但更扎实的路。团队放弃网络公开数据,直接深入酒店、仓储、便利店、机场后勤等真实一线场景,长期驻场,通过穿戴设备全程记录在岗员工的标准操作流程。
- 优势:数据完全贴合真实工作环境和标准作业动作,没有多余干扰,模型学到的是一线成熟岗位的完整操作逻辑
- 短板:数据采集成本高、扩张速度慢,难以快速覆盖多行业
两种路线对应两种市场需求:全网视频适合快速试水、拓宽场景边界;实景岗位视频更适合沉淀可付费、可量产的落地能力。
为什么RLWRLD的模式能在日韩跑通?
超过4000万美元的种子轮,不是资本炒作,而是这套模式切中了日韩产业端的真实痛点。
需求端:老龄化催生的用工缺口
日韩的老龄化问题已渗透到服务业各个环节。酒店客房运维、仓储拆包分拣、商超货架整理、机场后勤辅助等岗位,人员流动大、人工成本年年涨,但传统自动化设备只适配固定流水线,无法应对服务业灵活多变的作业场景。行业长期缺少低成本的柔性自动化方案。
RLWRLD的实景训练模式,刚好填补了这个空白——无需改造现场环境、不用反复编程,机器人可直接适配现有工作流程,人力替代成本可控。
技术端:规避"画面看懂、实操出错"的落地偏差
全网视频训练的最大痛点,是模型"看懂"了画面,但实际操作总出错。原因很简单:人类动作和机械硬件的物理逻辑不匹配,模型只是复刻视觉表象。
RLWRLD的数据采集方式决定了其技术优势:以一线员工原生作业视频为核心,同步结合力觉、运动轨迹等物理参数做训练优化。模型学习的是标准化、可复用的动作流程,作业稳定性大幅提升。
生态端:产业资本直接带场景入场
RLWRLD的投资方本身就是拥有海量线下场景的产业巨头,投资的同时开放自有业务场景和真实订单。企业从成立第一天就有稳定的数据来源和收入来源,一边落地、一边迭代,形成自给自足的正向循环。
同时,公司聚焦算法大脑研发,不涉足重资产硬件制造,资金利用率高,商业化节奏更稳健。
中韩对比:千寻智能的"另一条路"
和RLWRLD形成镜像的,是国内同样引人关注的千寻智能。这家由前珞石机器人CTO韩峰涛与伯克利算法专家高阳联合创立的企业,走的是"全网视频预训练 + 场景微调 + 全栈自研"路线。
国产路径有充分的合理性:
- 国内制造业品类繁杂、场景高度碎片化,工厂需求普遍是小批量、多品类、快迭代
- 如果逐场景采集实拍视频,成本太高、扩张太慢
- 全网视频是最快、最便宜的冷启动方式,能快速适配千差万别的非标场景
- 国内机器人供应链完善,全栈自研保留硬件量产的增长空间
但短板也很明显:全网视频训练的模型泛化强、深度弱,容易出现"试点多、付费少"的局面,长期缺少稳定现金流支撑,高估值容易引发泡沫争议。
对创业者的启示
RLWRLD用真实的落地案例证明,视频预训练不是伪需求,关键在于匹配对的场景。对于关注AI创业的一人公司和超级个体来说,这个故事有几个值得思考的点:
- 垂直深耕大于泛化覆盖:与其铺开做十几个行业的试点,不如在一个有真实付费意愿的行业做到可量产的深度
- 产业资本比VC更有价值:带着场景和订单进来的投资人,比只给钱的投资人能让创业公司走得更远
- 数据质量压倒数据数量:一万条贴合真实场景的数据,比一亿条网络垃圾数据更有商业价值
- 轻资产模式更灵活:聚焦核心算法能力、不押注重资产硬件的模式,资金效率更高、调整更敏捷
RLWRLD和千寻智能的路线之争,本质上是"深度"与"广度"的取舍。两条路可能都对,关键看你面对的是什么样的市场、什么样的客户。