11亿,具身智能单笔最大融资出现,我们独家对话了银河通用创始人王鹤

关注
我相信它标志着人形机器人生产力时代的揭幕,大家一起努力让这个时代更加光明。

编者按:本文来自微信公众号 腾讯科技(ID:qqtech),作者:晓静,编辑:萌萌,创业邦经授权转载。

6月23日,北京银河通用机器人有限公司(以下简称“银河通用”)宣布正式完成由宁德时代领投的11亿元人民币新一轮融资,这也是目前为止国内具身智能领域单笔最大融资。

除了宁德时代,其他投资方包括溥泉资本、国家开发银行国开科创、北京机器人产业基金、纪源资本(GGV)等新顶级投资方,及多家老股东追加投资。

这家成立于 2023 年 5 月的初创公司,曾以 7 亿元天使轮融资打破业内纪录;如今再度创下新高。

北京大学助理教授、银河通用机器人创始人及CTO、智源学者王鹤,拥有清华本科、斯坦福博士的履历,师从美国三院院士Leonidas J. Guibas教授,2021年加入北京大学前沿计算研究中心担任助理教授,创立具身感知与交互实验室。

银河通用的机器人已经“进厂打工”了,有些在整车装配线“工作”,还有一些在零售场景实现不间断值守。

在人形机器人行业,除了进厂打工的机器人,还有会跳舞和打拳击的机器人。但是,跳舞和打拳击通常是在固定场景下通过预编程或遥控实现,这些机器人并不具备真正的"泛化"能力——即在面对新环境、新任务或新情境时,能够应用已学习的知识和技能进行适应和执行的能力。

只有具备这种“泛化”能力,机器人才能真正进入工厂,成为人类劳动的得力助手。

然而,从"炫技"到"进厂",机器人行业最大的问题是训练数据缺失。同时,行业对数据路线分歧巨大:英伟达主推Isaac Sim仿真平台,代表合成数据路线;谷歌DeepMind联合21家机构发布包含100多万条真实机器人轨迹的数据集,坚持"只有真实世界的遥操数据才能让机器人真正理解物理世界"。

而王鹤则坚持用高质量合成数据进行VLA大模型预训练,认为这种方法比大规模真机遥操作更高效。在2025年智源大会现场,银河通用的Galbot机器人展示了如何从密集货架中精准抓取酸奶和果冻。它搭载了银河通用新发布的 VLA 大模型,采用了99%的合成数据和1%的真实数据进行训练。

这也是行业内首次在公开舞台上进行云端自主推理的实机演示。

这个演示的技术难点在于,每条指令都要经云端模型实时推理,哪怕延迟几十毫秒就可能抓取失败;再加上光照、行人和噪声干扰,感知到执行的全链路稍有偏差就会“翻车”。

在2025的智源大会,腾讯科技和王鹤教授进行了深度对话,这位90后的创始人认为,具身智能发展尚在早期,技术曙光初现,面对无限种可能,创业公司的每个关键选择,都无异于一场“基于技术自信的豪赌”。

在对谈中,关于具身智能的发展,我们还探讨了以下问题:

  • 聚光灯下的VLA大模型,对机器人“进化”有什么重要意义?

  • 合成数据是训练具身大模型的最优解吗?

  • 几十万一台的Galbot,如何实现PMF?

  • “跳舞“、”跑步“的技能,对机器人的生产力提升有何帮助?

聚光灯下的VLA大模型,对机器人“进化”有什么重要意义?

腾讯科技:Galbot机器人去年也在智源大会展示过,今年有什么新的进化?

王鹤:去年Galbot首次亮相,主要是依靠 2D/3D 视觉与实时运动生成的多模块组合,从货架上抓取瓶装饮料和盒装零食。

今年,我们用端到端的 VLA 大模型重构了整套系统,不再依赖 3D 小模型,扩展性与泛化能力大幅提升。

今年的新演示把场景推近真实商超:瓶与瓶紧贴,SKU 成倍增加,新增袋装果冻、膨化食品、方便面、面包和散装卤蛋等异形包装;即便瓶子被碰倒或临时移动,VLA 仍能闭环稳定抓取。这是全球应用VLA技术首次在高度密集、多品类环境下公开展示大规模物体泛化抓取。

腾讯科技:发出指令后机器人马上就能执行,这是VLM和VLA两个大模型的配合吗?一台机器人需要几个模型?

王鹤: 我们的核心是VLA模型。VLA基于VLM底座开发,在VLM基础上加入了动作执行能力,既保留了视觉语言理解功能,又能直接执行操作。

系统支持两种交互方式:语音输入(先转文字再进入VLA)和iPad界面点击操作。除了主要的VLA模型,还有语音识别和iPad系统对接等辅助模块。

未来也可能升级为VLAA模型,直接处理人类语音输入,无需文字转换,从而降低响应延迟。

腾讯科技:那是否意味着未来机器人能用一个大模型实现所有操作?

王鹤: 这是个好问题。人的大脑有系统一、系统二,对应着快系统和慢系统。慢系统负责思考推理、长程规划,典型代表是DeepSeek、OpenAI的O3这些推理模型。

在货架上拿饮料时,慢系统负荷很小,主要通过VLA快系统,人脑快速通过神经产生动作规划,由小脑负责平衡和控制。

但如果未来任务出现复杂推理和动作生成交互,是用单一系统还是双系统或层级化系统,目前还没有确定的答案。神经网络的特性是速度相对恒定,但很难在快慢之间轻易切换。如果能突破大模型快慢速度切换,可能可以用一个大模型类比人的大脑。

腾讯科技:您也提到了,今年各家具身智能公司都在推出自研VLA模型,这对每家公司的重要意义在哪里?VLA目前的局限性在哪里?

王鹤: VLA是将大模型系统变成端到端大模型的重要尝试,核心优势在于能够直接从视觉观测和自然语言指令中端到端地输出动作,无需中间产物。但是人类除视觉的输入之外,还有味觉、触觉、嗅觉、听觉以及对温度的感知。所以VLA模型只能是一个起点,如果想达到人类级别的具身智能,还需要不断融入新模态。

我认为VLA是一种通用且端到端的范式,在以视觉作为主要反馈模态、不需要深度思考、看懂就直接执行的任务中拥有很高的性能上限,且未来有很好的模态和任务扩展性。

不同厂商在 VLA 技术上的侧重点各不相同。

我们希望能聚焦视觉模态反馈就能做好的一些“atomic action(原子动作)”,打造真正的产品级 VLA:将抓取、放置、移动、导航四类基本动作训练为具备跨场景、跨物体自由泛化能力的foundational model(基础模型)。

这种端到端的 Mobile Pick-and-Place(移动-抓取-放置)大模型,可在工业与商业场景中覆盖搬运、分拣、补货/卸货等高频任务,加速具身智能的商业化落地。

相比之下,部分以研究为主的厂商虽然展示了更“diverse skills(多样技能)”,却高度依赖特定数据采集环境:一旦更换场景或物体,模型往往难以稳定工作。

腾讯科技:具身智能VLA模型的技术路线是否已经收敛?

王鹤: 从模型角度看,大家都是从VLM做模态插入,或用VLM的token接action decoder(动作解码器),部分团队再叠加 World Model(世界模型)或 Future Prediction(未来预测)模块,整体思路大差不差。

但目前不是在模型架构上拼胜负,而是从数据角度,我们究竟能用哪些数据充分训练VLA。

合成数据是训练具身大模型的最优解吗?

腾讯科技:既然数据是目前最大的区分点,银河通用的数据策略是怎样的?像你上文提到的,究竟用的是哪些数据呢?

王鹤:我们的观点是要用好合成数据。

高精物理仿真和物理渲染的合成数据,我们认为是现阶段信息量最丰富的,这些数据同时包含视觉信息、任务级语言标签和严格符合动力学约束的机器人动作轨迹,信息密度最高且理论上可无限扩充(只需 GPU 渲染即可)。

相较之下,互联网上的人类劳动视频虽带有“动作”,却是人体动作:与机器人关节约束、运动学完全不匹配,且缺乏精确 3D 轨迹标注;即便勉强提取,也混杂了摄像机运动与人体运动,误差难以校正。

依托高比例的精确合成数据,我们可以将资源聚焦于 Mobile Pick-and-Place(自动化抓取、放置) 等原子动作的产品级落地,不用在人力密集的遥操采集与低效标注上耗费成本。

腾讯科技:合成数据一直很有争议,其他同行用遥操建立仿真或真实环境收集数据,这与合成数据有哪些本质区别?

王鹤: 遥操有两种:真实世界人类遥操真实世界机器人,和遥操仿真环境中的机器人。

先说遥操仿真环境中的机器人,相对于我们的自动合成管线没什么优势,最终都受制于渲染器和物理仿真器精度。遥操仿真环境时,3D世界被渲染成2D平面图片,操作员对深度感知减弱,操作比真实世界更难,可能产生更多运动轨迹偏差。

我也认同遥操真实世界机器人是重要数据来源,但是不是今天具身智能冷启动可以真正依赖的数据来源。

可以类比自动驾驶,但不同的是,自动驾驶的驾驶行为是自发自愿的,因为车比人快。而我们今天的遥操都达不到人干活的效率。

而且遥操很难,因为你用双臂遥控机器人从臂时,没有从臂的触觉力觉,只能通过视觉观察被遥操机器人的运动状态,从传感器角度是缺失的,需要长时间训练。

另外,机器人稀缺,全世界头部厂商今年都是千台级量产目标,没有汽车那样上百万存量支持大规模遥操;第三是数据量挑战,采集需求量指数依赖于动作空间维度,人形机器人操作比自动驾驶2D平面运动维度高很多,从二十几到接近100个自由度。

腾讯科技:这是否能证明合成数据的泛化能力?

王鹤: 很多从业人员对合成数据的真实能力缺乏体验。合成数据作为具身智能基建,需要长期积淀。制造低质量合成数据很容易,随便搞个渲染假的仿真器,产生只有深蓝浅蓝背景的trajectory,学完发现根本不能用,就得出合成数据垃圾的结论。

这其实是对工具认知不足、理解不充分、使用水平低造成的武断评论。

腾讯科技: 高质量合成数据的核心和门槛是什么?

王鹤:首先是如何自动生成动作。以“叠衣服”数据集为例,衣料在折叠过程中会出现褶皱,必须在合成时实时检测并展开,再继续模拟。若缺乏这种 on-the-fly 闭环校正能力,只能得到局限于简单场景的低质量数据。

类似地,我们在灵巧手项目Dextonomy中,对人类手学界公认的 33 种抓握方式全部实现批量合成:无论给定什么物体、什么手型,都能生成对应抓取。这背后依赖长期积累的数学优化和物理推导;有了仿真器,并不代表就能“按键生成”高质量动作。

第二,做对物理仿真与渲染。每条数据都要通过动力学检验与高品质渲染输出,保证视觉、语言标签与机器人动作三位一体、一致可信。

第三,分清“必须真实”的部分。仿真永远无法与现实完全等价,但通过预训练的大规模 VLM,我们发现模型真正关心的是时序逻辑和物理因果,而非人眼感到“逼真”的纹理细节;因此应把计算预算投入在模型在乎的环节,把不敏感的地方简化掉。

第四,掌握数据分布与闭环迭代。模型推理阶段暴露的失败用例,必须反哺合成管线,定向生成难例,形成持续改进的数据分布。

我们是专注做了九年,才能有今天合成数据基底。在智源大会现场完成真实货架抓取演示的大部分数据,就来源于这条自研管线。

腾讯科技:英伟达也支持合成数据,但是使用比例和你们相比呢?

王鹤:我们比他更高。Nvidia的工作试图构建更广阔意义的基座,不追求在场景的每个应用上能直接work到99.99%,他们论文也不敢声称可以做到这点。

但我们做完后,对于桌面级抓取、货架级抓取,都能做到九十大几的成功率,才能搬到用户或访客面前演示,最终会做到百分百成功,直接能当产品用。

腾讯科技: 你会在意质疑的声音吗?

王鹤: 不管研究还是创业,本质都是大家认知上的差异。如果认知没差异,知识技术都平权,就没有先进与落后之分了。质疑的人可以永远保有质疑,但我们需要凭借坚信把事情进一步推动下去做好。

几十万一台的Galbot,如何实现PMF?

腾讯科技:这样看来,银河通用的资源主要投入是在模型研发上吗?

王鹤: 行业里有一种误解,做一款模型产品不需要硬件。如果目标是科研Demo,展示时间仅限于台上的几分钟,当然无所谓。

但是如果真的让让机器人在实际场景里24小时不间断服役,可靠性要求完全不同,需要按照车规级做。其实我们公司里做硬件的团队规模大于软件团队。比如,我们在24小时药店的场景里出现任何硬件问题,都要工程师到场维修。

腾讯科技: 您之前提过最重视机器人的大脑和手臂,对腿放在次要位置,但如果只是大脑和手,和现在智能产线用机械臂实现的任务有什么区别?

王鹤:在传统流水线上,绝大多数工业机器人主要靠“定态操作”工作:工程师先把来料位置、抓取姿态、喷涂或焊接轨迹调试成固定程序,机械臂随后只需反复播放这一条轨迹即可完成任务。

这种方法对零部件位置和姿态要求极度标准化,一些无法标准化的地方,比如在汽车总装前端的配料区——需要从数千种零件中按订单快速拣选并装车——自动化就迟迟难落地。

要么用价值上亿、体积堪比厂房的“巨型自动售货机”彻底重构产线,要么给每个料框配一台机械臂,既占空间又成本高昂,这笔账算不过来。

具身智能机器人必须像人类一样,在杂乱料筐中识别多形态零件、选择合适抓取策略、完成抓—放—移动(Mobile Pick-and-Place)闭环,并在几米范围内灵活巡视多个料位。

只有把“视觉理解+多样抓取+自主导航”三大能力融为一体,才能用一台机器人替代多个工人。主要的空间在于“传统机械臂干不了、人类又昂贵”的中间地带自动化。

对中国电动车厂而言,一线工人紧缺,两班倒已成常态,哪怕能为每辆车节省 1000元人力成本,都很重要。

腾讯科技:市场空间有多大?

王鹤:在零售前置仓和车企 SPS (分拣配料系统)等高频场景中,“抓—放—移动”式作业需求极为庞大,仅工业分拣一项,潜在出货量就可达数十万台。

以全球工业机器人年产值约 1000 亿美元、出货量也不过数十万台。如果 Mobile Pick-and-Place 机器人在这些场景全面落地,其市场规模有望与传统工业机器人比肩甚至超越。

腾讯科技:但是特斯拉的机器人还在分拣电池,这看起来也是机械臂能完成的工作?

王鹤: 所以说特斯拉的人形机器人是否具备落地价值有待讨论,跟波士顿动力过去几十年做的事情性质相当。

腾讯科技:但大家可能喜欢看机器人跳舞、跑马拉松、打擂台,普通人觉得那些更炫的机器人更厉害?

王鹤:不同人有不同视角,大众觉得娱乐化觉得最吸睛。

我们也时刻关注双足层面的全身运动控制,在智源大会上公布开源方案做双腿人形机器人全身控制,为未来发挥高自由度全人型本体做基石性工作。

但如果跟产业方聊,客户只问一件事:你能不能像人一样把活干好?一个工人有才艺能歌善舞固然好,但没有哪个厂大面积雇佣舞蹈演员,关键是能不能把产线上的活做好。

这是我们最关注的,找到具身智能真正可批量复制的商业模式,把技术作为产品真正落到场景中。

腾讯科技:银河通用Galbot一台机器人的成本是多少?

王鹤: 成本会随量产不断下降,但我可以说我们的成本目前远低于雇佣一个人工作三年企业需要付出的成本。在当下,企业只要能做好功能,只要具身智能能有功能保证高质量完成任务,价格不是问题,使用方非常愿意用。

腾讯科技: 您从创业开始就思考PMF吗?

王鹤: 是的。

腾讯科技:银河通用的PMF主要是什么逻辑?

王鹤: 很简单,人形机器人做的事是能真正节省人类劳动力,产生自主的新智生产力,所以我们的价值应当与对等的人类做这件事的价值进行衡量。

在目前能干活的人形机器人约等于没有的状态下,这是我们价值的天花板。未来银河通用会不断推出越来越高技能的人形机器人,持续占据重要的企业可批量复制的场景,本质上一直拥有非常好的ROI,所以PMF不成问题。

今年银河应该有数亿元收入。我们专注高价值场景,一台卖几十万,但能替代客户"三班倒"三年的人力成本。

腾讯科技:单机器人本体定价几十万会不会太贵了?

王鹤:如果机器人能连续工作一个月零故障,这就是它应有的价格。

具身智能如何跨入“生产力时代”?

腾讯科技:你期待银河通用的下一个技术突破是什么?

王鹤:把Mobile Pick-and-Place做到可以大规模复制:零售货架、工厂分拣线全部覆盖。这将是具身机器人史上的里程碑。

腾讯科技:在未来批量化的下一阶段,最大的障碍和困难是什么?

王鹤: 还是要把机器人打造成真正高可靠的产品,需要付出系统化努力。今天你买一台车,期待开五年都没有机械故障,这是天然期望。车达到这么高良率和可靠度,是上百年积淀。

人形机器人作为新生产品,必须正视产业仍处发展初期,从上游供应链到模型,到与客户打磨,都处在推进过程中。我们要做好产品,大家一起系统化迭代,最终实现以数年级不出现失误为期待的产品。这路上我们还会通过远程人类干预、运维团队来做客户服务,这也是一种国内新的商业模式探索。

腾讯科技:您为什么说具身智能发展现在已经进入生产力时代?

王鹤: 这是我们的目标,“推动人形机器人生产力时代到来”。今年我们已经部署机器人在药店里真正投入使用,目前在北京常态化运行7家店,到年底北京、上海、深圳等一线城市预计会运营超过100家店。这100家店里,我们的人形机器人24小时完成自动化拣货,这是人形机器人生产力时代的开端。

虽然目前只有100个人形机器人,但我们在三年内看得到1万台人形机器人完全自主干活,替人类解决在封闭环境里24小时工作这样的苦活。

我相信它标志着人形机器人生产力时代的揭幕,大家一起努力让这个时代更加光明。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅