RoboScience田野专访:师从吴恩达,携苹果产品哲学,赋予机器人「生命感」

关注
RoboScience
北京人工智能
具身智能模型及机器人研发商
最近融资:天使轮|近2亿人民币|2024-12-31
我要联系
让机器人成为人类的「忠实伙伴」。

作者丨Lucas

编辑丨刘恒涛

图源丨RoboScience

在具身智能的赛道上,RoboScience创始人田野带着在斯坦福、苹果公司时的沉淀,正试图以更本质的思考方式定义具身机器人。

这位深耕人工智能多年的创业者,本科毕业于中国科学技术大学物理系,随后赴斯坦福大学AI Lab深造,师从吴恩达教授。毕业后,他加入苹果公司,迅速成长为Apple AI Platform的技术负责人(Tech Lead)。他带领团队打造了被誉为“苹果的PyTorch与CUDA”的核心平台,并推动多项关键AI技术在苹果生态和App Store中的大规模落地,奠定了苹果AI体系的基础。如今,他把这些核心平台、关键AI技术复用于具身智能,构建具身智能行业全新的产品及生态体系。

深受苹果产品哲学影响,RoboScience坚持“软硬一体化”发展。团队正开发机器人系统和自研核心零部件,既面向物流、商业服务等B端场景,也规划打造成为用户"伙伴"的C端产品。

RoboScience 正加速技术迭代与场景落地,田野希望五年内将公司打造成具身智能领域的知名品牌,用技术赋予机器人 “生命力”,推动行业从技术探索走向规模化价值创造。

在资本层面,RoboScience已于今年7月份完成天使轮融资,由京东领投,招商局创投、商汤国香资本跟投,老股东零一创投继续追投。

在激烈的行业竞争中,RoboScience的核心优势是什么,未来有哪些战略规划,如何看待行业趋势?以下是RoboScience创始人兼CEO田野的回答。

斯坦福的学术烙印,苹果的产品灵魂

创业邦:您早年在中科大攻读物理,之后到斯坦福AI Lab师从吴恩达教授,为什么选择了这一条求学路径?

田野:我从小对不同领域的知识非常感兴趣,比如生物学、动物学、古生物学和人类学历史等,渴望理解世界运行的规律。在初中和高中时期,数学和物理成为我最喜欢的科目。大学本科时期,我选择了物理专业,并选修了数学、计算机等课程。我希望全面了解社会和自然界的运转规律,尽管那时我还不清楚具体要创造什么。

在2012 、2013 年,我了解到吴恩达老师在 Google Brain 的成果“Google Cat”——通过观看 YouTube 视频,神经网络在无监督的情况下学会了辨识猫。这让我深受震撼,认识到 AI 是创造智能的方式。从此开始,我希望从事用技术创造智能的事业。

再后来,我去了斯坦福,并有幸与吴恩达老师一起做科研。

创业邦:这段学术经历对您后来的职业发展和技术观产生了哪些影响? 师从AI大牛吴恩达是一种什么体验?

田野:师从吴恩达教授是一段宝贵的经历。他极具远见,认为AI将成为新时代的电力系统,从生产制造到生活各个角落,AI都将为各行业和产品赋予新能力。他强调技术的重要性,谷歌猫项目就是让神经网络自主学习知识的体现。同时,他注重工程化,主张构建强大的神经网络,结合大量集群和数据。

这段经历对我影响深远,让我明白做AI既要有长远视野,又要具备扎实的工程化思想,对基础设施、工具和AI系统构建要有深刻理解。

创业邦:您加入苹果时,公司的AI技术体系还处于早期阶段。您能否分享一下参与苹果AI项目时最初的情况?

田野:我加入苹果时,公司的AI技术还处于早期阶段,此前只有人脸识别系统等少量的应用。但当时,苹果已决定大力投入AI研发,例如设计神经网络引擎芯片(NPU),并有零散团队尝试将AI融入产品,但缺乏系统性支持。我开始着手做的,其实是enabler的工作:构建一个平台,能让AI开发者更容易地把想法转化为高质量的产品。

我带领团队搭建了端侧机器学习平台,主要完成两项工作:一是,构建模型评测和训练系统,不仅测试模型准确率,还评估其与苹果系统的融合情况。由于神经网络引擎芯片尚未生产,我们开发了模拟器,在网络端的web service上测试模型架构及其在苹果计算芯片上的功耗和速度,该平台最终成为全公司模型开发和评测的标准。二是,开发端侧推理引擎,使神经网络模型能在苹果的手机、手表、电脑等设备上运行。苹果几乎所有的AI功能,如相机人脸识别、景深算法、Siri语音识别等功能。这其实是非常有成就感的一个工作。比如我家里的长辈不太会使用输入法。我告诉他们手机系统里任何需要输入的地方,都可以用我们的离线语音识别系统来输入。我真的看到他们的生活因为我做的产品而变容易了一些。

此外,我们还构建了一套丰富的生态体系。比如,苹果拥有庞大且活跃的开发者群体,我们会根据不同开发者的能力提供不同的开发框架。对于精通AI的开发者,我们提供通用框架,让他们能轻松地将模型部署到苹果设备上;对于更关注用户体验、缺乏AI能力的开发者,我们提供专用框架,让他们能直接使用强大的AI功能;对于介于两者之间的开发者,我们提供灵活的解决方案。

在精神层面,苹果的开发者是非常有信念感和认同感的。这一方面是因为苹果好的产品平台,另一方面也是我们积极营造社区环境的结果。例如,我们每年会举办开发者大会,开设开发者论坛与他们频繁沟通,对于有特别需求的开发者,还会直接邀请到公司合作开发。

创业邦:注意到您曾核心参与构建苹果的AI产品生态及AI应用生态,并服务了超10亿用户。能否分享在构建这一庞大生态过程中,您获得的最重要的产品化洞察是什么?

田野:苹果是全球首屈一指的产品公司,无论是产品定义还是技术实力,很少有公司能够与之媲美。

苹果的核心优势在于,将每个用户视为独立的个体,将其感受放在首位。这种对用户的尊重,使用户能与设备建立情感连接。例如当时我们在相册里做的“Memories”功能,系统会在不经意间智能推送过往瞬间的剪辑视频,让用户觉得自己的人生记忆被妥善保存。这种“润物细无声”的关怀,让人与生态自然融为一体。

产品设计研发强调系统性思考,而非单点突破。以最新iPhone的大模型功能为例,这要求我们从底层的芯片算力、内存管理与散热控制,到中间层的软件架构设计,再到顶端与应用生态的全面融合,进行通盘考量。

系统性思维的优势在于,它能让我们高效整合内外部最优技术,最终融合成统一的产品。为实现这一目标,我们采纳成熟的供应商方案,同时对核心环节进行自主开发。

创业邦:在苹果工作的七年里您从工程师成长为技术负责人,在管理团队方面,你有哪些心得体会?

田野:我认为团队管理是一门科学,需要用系统化的思维处理问题。我在管理团队时,最看重的是两个维度:专业上扎实的基本功和发自内心的热情。管理者需要激发团队成员对事业的认同感与热爱,才能让团队保持旺盛的创造力。

让我印象深刻的是18、19年开发视觉系统时的经历。当时需要实现多物体检测与分割功能,但相关技术在移动端还不成熟,某些网络结构甚至得不到神经网络引擎的支持。团队里一位擅长算法但对硬件和底层软件相对不了解的同事,凭着对技术的热爱主动钻研。我们共同开发了新的编译器技术,最终将复杂的高动态网络成功部署到手机端。

在探索“无人区”时,我们很难很难从上至下给团队成员设定计划。更应该做的是提供环境和支持,让每个成员自发地发挥潜能。那些能自发开拓进取的人,往往能为团队带来更大的价值。这种对技术热忱的珍视,最终会体现在产品品质上,让用户也能感受到创造者的用心。

创业邦:在苹果时,作为一个拓荒者,没有可以学习的对象,您是依靠自己的摸索还是基于需求来实现?

田野:首先现在的任何领域,我们都不会完全从零开始。对AI而言,斯坦福和硅谷已有许多先行者,包括我的导师以及邵林的导师,他们都做出了重要的基础性工作。

我们的核心目标是如何让整个组织有效运转,并激发更多人才参与进来。当时AI专业人才稀缺,因此关键挑战在于:如何帮助那些有意投身于此但缺乏深厚经验的人快速成长,并有效整合团队力量来共同创造新产品。这是我当时力推AI平台的主要原因。

从产品定义的角度看,许多应用场景的需求是清晰可见的。比如人脸识别和语音交互功能的实现,都是AI能力自然延伸的结果。说到底,AI是人工智能,人的智能里的许多方向,既然在人身上有用,放到人工设备里也有用。

这些需求有很多都不是来自市场调研,而是源于对用户本质期待的理解。就像人们自然希望手机能拍出单反相机的效果一样,我们的任务就是通过AI技术将这种期待变为现实。

田野(左三)与同事们在苹果参加活动

具身智能「GPT时刻」将在5年内到来

创业邦:在很多人看来,从斯坦福到苹果是一条非常理想的职业路径,是什么促使您决定离开并回国创业?为什么选具身智能这个方向?

田野:我来自四川自贡。自贡被称为龙都,因为那里生产古生物,尤其是恐龙化石。我小时候总是流连在恐龙博物馆里。有几层楼高的蜥脚类恐龙,长满背刺的剑龙,天上飞的翼龙,水里游的蛇颈龙。这里科普一下,后两者不是恐龙(笑)。这些曾经存在过的生命让我感到世界是如此多彩,也在我心里埋下一个理想:人类的智慧让世界变得更丰富更美好呢?

后来我的学习工作逐渐收敛到AI领域。因为这是用人工创造智能的事业。我在苹果做的各种AI产品,实实在在地给全世界的用户创造了很多价值。但我始终希望能创造出更贴近人类自然生活的智能体。

这里就要提到我的好朋友邵林。邵林是我在斯坦福时期的同学。他一直从事具身智能机器人的科学探索,我则在更多从事数字世界各个领域的AI。我们都认为,具备通用智能的实体机器人,就是我们想要完成的创造。一个早期的例子,是早在2020年的时候,我跟他在斯坦福旁边的小酒馆讨论如何实现了用通用自然语言与机器人交互并进行操作,并最终成为了Concept2Robot这篇论文。这几乎是现在大热的VLA领域最早的一篇论文。

后来语言模型的通用性随着ChatGPT的出现而爆发。学术界和业界有很多试图在机器人领域复制scaling law的尝试。我们经过了很多思考讨论,最终明确了我们认为可行的通用化技术路线,也就是VLOA。我告诉他:我们一起来创造具有智能的机器人吧。于是,我们开启了创业之旅。

而决定回国,是因为我看到了更快的发展速度。

客观来看,美国硅谷是技术资源高度集聚的区域,汇聚了众多科技企业、高校及科研机构,形成了极具活力的创新氛围。那里有许多人为热爱而事业,具备强烈的创业精神和主动性,持续推动着前沿技术的开拓。

而中国同样拥有全球顶尖的创新土壤。这里充满生机,每当夜幕降临,街头依然熙熙攘攘,随处可见努力生活、积极经营的人们。

比如从产业环境来看,中国大湾区有完善的产业链,这里聚集了大量机器人公司,从零部件到测试资源,再到软件支持,生态非常丰富,这些都为我们提供了极大的便利。我们做机器人硬件产品迭代,可能十分钟车程内就能找到供应商。这对创业公司来说至关重要,在一切未知的情况下,必须快速试错、快速做出新产品,才能不断突破边界。

创业邦:您认为苹果的产品和机器人有哪些异同?

田野:我认为苹果产品,尤其手机,和机器人具有高度相似性,二者都属于智能设备,需要接收外界信息,经过计算后产生输出。但从软件到硬件的整体架构来看,它们之间存在大量共通之处。而且手机是每个人的“个人设备”,而未来的机器人则应成为每个人的“个人伙伴”。你希望它能够完全理解你、永不背叛、数据绝不外泄。你也期待它具备某种“生命感”——正如我们希望手机响应迅捷一样,机器人在接收信息后的即刻反馈,正是这种“生命感”的直接体现。

同时,苹果的两次巨大成功都是来源于对交互方式的变革。第一次是用苹果电脑普及了图形界面,第二次则是用iPhone普及了触控屏。但这两者的输出都是非接触式的。而具身智能会带来接触式的输出,也就是说,机器人可以智能地与物理世界中的人与环境进行接触性交互。传媒学里有一句经典名言:媒介即信息。我相信具身智能会带来的交互方式的创新会是又一次大的突破。

创业邦:您认为目前制约具身智能发展的最大瓶颈是什么?RoboScience的核心优势是什么?

田野:我认为这是一个新的行业,大家仍处于技术探索阶段,路径并未收敛。大家沿袭了许多类似大模型的方法论,期望某天开始涌现出通用能力。

我们的优势在于,对具身智能本质的深度思考,如何用更少的数据实现更优的效果。当前,行业中许多方案过度依赖真机数据采集,但这种模式的可持续性存疑。我们曾测算:一名操作员每日最多能采集200-300条有效数据,而要实现真正的智能泛化,所需数据量与之之间存在数量级的差距。这种依赖人工采集的模式,在数据规模和时间成本上都面临巨大挑战。

我们团队提出的VLOA模型架构,其核心创新在于抓住了机器人与物理世界交互的本质。以"杯子从桌面移动到我面前"这个动作为例,关键不在于由谁执行,而在于"物体运动轨迹"本身的描述与规划,我们可以实现任务规划的泛化,这使得海量视频数据都能成为训练资源,降低对真机数据的依赖。

其次是要解决“如何执行”的问题,即让任意机器人能操控任意物体完成任务。这类似于婴儿的学习方式:他们通过本能地对各种物体施加作用力,并观察其状态变化,从而抽象出通用的物理规律。

我们可以节省人力、物力在采集真实机器人数据上,将核心精力转向大模型算法。去年我们这么做的时候还显得特立独行,但现在马斯克也提到要用视频训练替代真机数据,这说明行业正在朝我们这个方向走。

创业邦:最近的落地场景可能会出现在哪些领域?

田野: 我认为具身智能的落地场景充满可能性。正如我们之前提到的,最终目标是实现"泛化",让任何机器人能操作任何物体、执行任何任务。

目前最容易落地的是那些任务明确、环境相对固定的场景。比如物流仓库或商业服务场所,机器人需要处理的物体种类很多,但核心动作主要是搬运、堆叠、码放这类有边界的操作任务。这类场景定义清晰,技术实现难度相对较低。

相比之下,娱乐表演类的机器人或者跑步机器人,它们不需要和复杂物体交互,任务相对单一,技术挑战更小一些。

具身智能的真正优势在于突破现有自动化的瓶颈。传统方案每换一个场景就要重新调试,成本高、周期长。而我们的系统具备泛化能力,可以快速适应新环境、新物体,大幅降低部署成本,同时提升应对复杂场景的灵活性。这才是真正意义上的"智能升级"。

创业邦:您如何看待具身智能未来的发展?有没有类似“GPT时刻”那样的关键转折点?预计会在什么时候出现?

田野:具身智能的"GPT时刻"确实很难用一个标准去衡量,但我们可以从两个维度来观察。

第一个是技术维度。ChatGPT爆发时的认知能力可能相当于10岁孩子的智力水平,而具身智能要看的是操作能力。两三岁会用勺子,四五岁能用剪刀,五六岁已经可以写字、做精细动作了。我认为对机器人的要求可以更早,因为人的身体发育比大脑发育早。当机器人能达到五六岁孩子的动手能力时,技术上就已经实现真正的泛化了。

第二个是产品维度。一个关键标志是,普通用户能在5分钟内上手使用,并且觉得它创造的价值超过使用成本。就像当年ChatGPT让每个人都能轻松对话一样,如果一个小白用户5分钟就能指挥机器人做事,而且用起来比其他替代品更划算,那这个产品就成了。

从这两个维度来看,我认为具身智能的"GPT时刻"会出现在5年以内。

创业邦:放眼全球,您觉得三到五年后具身智能领域可能会形成怎样的竞争与合作格局?

田野:具身智能远不止于单一产品,而是一个将重构社会格局的战略性行业,会像智能手机或汽车一样形成产业集群。正因如此,我认为该领域难以出现单一垄断者,而是会有非常长的产业链,而且产业链的每一环都会有很多玩家。最后的产品也会是百花齐放。

机器人的可能性太大,现在很多人关注人形机器人,但谁说不能有恐龙形机器人呢(笑)。或者哆啦A梦也不是人形对吧。各种形态的机器人会在不同场景发挥作用。大家的思路其实可以放开,既然这是时代赋予我们的创造的机会,就不用局限自己的思维。

从国家的角度看,更可能形成由中美两国主导的“双引擎”合作竞争态势。中国的核心优势在于完整的产业链与巨大的市场纵深,能够支撑起大规模、普惠性的商业化应用。而美国则更可能聚焦于价值链的高端环节,打造精品化、高附加值的方案,主攻高端市场。其他地区可能难以独立形成第三极,但可通过与中美生态合作参与其中,并作为重要的应用供应链与市场伙伴,共同形成全球格局。

赋予机器人“生命感”,让它成为人类的“忠实伙伴”

创业邦:您和几位联合创始人是如何走到一起的?团队的多元背景(如学术、产品等)如何互补?

田野:我们现在有4个联合创始人,其中2位是我多年好友。

邵林是我在斯坦福大学的同窗挚友。我们于2014年一同入学,同在人工智能实验室深造,我主攻AI,他则专注于具身智能机器人方向。

我们相识多年,信任基础牢固,且性格互补——他更为严谨沉稳,我则更外向活泼。在技术层面也互补:他长期专注于机器人底层系统,偏向科学层面;我聚焦AI层面,偏向工程实现。

另外一位联合创始人是我多年的好朋友汪涛。我们在中科大同一级读本科,虽然他与我不在同一个院系,但我们有一支年级的足球队,他是我的队长。他之前一直在投资行业,对于科技初创公司的投融资、内部管理、战略非常熟悉并进行了很多投资,我认为他与我们整个团队在能力上非常互补。

另一个联合创始人刘朋海是业界老兵,他有20多年的硬件研发、管理、供应链的经验,曾经在科沃斯任职,而科沃斯是机器人领域出货量最大的公司之一,我与他是去年相识的,我们很快成了好朋友。我们从技术互补性到产品构想上都有很多共通之处。

创业邦:RoboScience 也会自己研发机器人本体吗?

田野:虽然现在市面上很多机器人都长着人形,但它们的内部配置其实千差万别,不同场景对机器人的要求完全不同。特别是“手”的部分,也就是末端执行器,每个场景的需求都不一样。

所以,我们一开始会更多采用集成的方式去做,但对末端执行器及其他核心零部件会逐步自研,重点是要把用户体验做到最好。最终一定要软硬件一起优化,这和苹果的思路很像,软硬一体才能出好体验。

除了像手机那样的芯片和传感器,动力系统也是关键。大部分情况下我们用现成的方案就行,但有些特殊需求就得自己动手攻克或者和产业链上的伙伴共同打磨。我们当然会自己做机器人,但不是什么都做。最终还是基于产品驱动,把体验做到极致,这必须靠软硬件一起打磨。

我们的算法有一个独特优势:可以跨机器人本体快速迁移,同一套模型能支持不同形态的机器人。但我们不会盲目覆盖所有场景,而是聚焦在核心场景打造完美体验。至于其他场景,我们非常乐意开放合作,和所有机器人公司一起把生态做大。

创业邦:未来五年内在商业层面的考虑和规划是什么?

田野:我们的发展会分几步走:现阶段重点是把模型能力打磨到极致,同时在小范围场景里做POC验证,把机器人实际放进去测试,这是今年到明年的重点。之后,我们会把自研的机器人和算法深度结合,在真实场景里跑通。

长期来看,我们需要to B和to C两条腿走路。尤其是to C方向,机器人不应该只是个工具,更应该是一个能融入生活的伙伴,真正地懂你。很多人说,狗是人类最忠实的伙伴。未来的机器人也会是一个忠实且聪明能干的伙伴,这才是我们最终想实现的状态。

参照苹果的经验,构建生态壁垒可分为三个层次:第一层是产品本身必须具备卓越的用户体验;第二层是建立起活跃的硬件、软件与开发者生态;第三层是品牌建设,使用户在想到“具身智能”时,自然联想到我们“RoboScience”这个品牌。

尽管具体的时间规划存在一定不确定性,但我们将专注于快速迭代推进。第一阶段将率先推出几款受市场认可的产品,积累核心用户群体;第二阶段将逐步扩大用户规模,构建完整生态,吸引开发者和合作伙伴加入;第三阶段重点塑造品牌影响力。我们计划在五年内完成这三个阶段的布局。

机器人生态会比手机更广阔,因为每个用户都能成为开发者——你可以直接教你的机器人做新事情。技术上,大部分能力将在端侧运行。这是让机器人具备“生命感”的关键,也即独立快速的响应与行动。并且它会为你保守秘密。换句话说,它该像生命体一样“有独立行为”,同时又是你绝对可信赖的朋友。

本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅