伯克利具身智能图谱：深度强化学习浪尖上的中国 90 后们

作者 | 赖文昕

编辑 | 陈彩娴

短短不到一年内，边塞科技、星动纪元、星海图和千寻智能接连成立，跻身国内明星创企之列；大洋彼岸，Covariant 和 Anyware Robotics 也正在湾区闪耀。

六家具身智能公司，八位 90 后创始人，他们都成长于深度强化学习的摇篮。

作为最早一批开启新范式的人，他们探索 AI 和 Robotics 的故事要从踏入伯克利校园说起。

潮起深度强化学习

2016 年春，伯克利计算机系每学期都会变化的 frontier 课开始了。

Frontier 课又称临时课，内容不定，老师多变，是为了探讨学术前沿而设——这次，轮到了“深度强化学习”。

走进只有二三十人的教室，吴翼和高阳、段岩（Rocky Duan）、陈曦（Peter Chen）坐在了一起。

讲台上，Pieter Abbeel 和 Sergey Levine 轮番上阵分享最新研究，系统性理论教学与进阶内容并不多。此时鼎鼎大名的人工智能实验室 BAIR 尚未成立，伯克利最火的教授还是做统计、贝叶斯机器学习的 Michael I. Jordan 和 Martin Wainwright 等人。

当时 OpenAI 尚未提出近端策略优化（PPO）算法，其前身 TRPO 算法（由 John Schulman 和两位讲者提出）、DeepMind 刚改进的 DQN（深度强化学习开山之作）以及强化学习经典的策略梯度（Policy Gradient）算法是这门临时课的重点。

作为刚入门强化学习的“小白”，吴翼不懂就问，常抱段岩和陈曦的“大腿”，因后两人正跟着导师 Pieter Abbeel 在 OpenAI 实习，研究强化学习算法的框架 RLLib，天天写代码。

此时的吴翼刚结束了一个学期的焦虑与煎熬：博二的他在 Stuart Russell 组研究贝叶斯推理，继续大三暑研就开始参与的概率编程语言项目。上课之余，他还在带本科生参加 DARPA Challenge，项目重且每学季都有汇报。论文九投一中，新方向颗粒无收，反而是本科论文中了。

吴翼

但同年，和吴翼同届的 Chelsea Finn 与 Sergey Levine、Pieter Abbeel 开发的算法之一次实现了用深度学习做机器人控制，让机器人 BRETT 学会了将瓶盖拧到瓶子上、将衣架放在架子上以及用锤子爪端拔出钉子等技能。

尽管圈内鲜有人认可，但伯克利 AI 方向的几位教授已开始带着学生试跑强化学习，比如 Trevor Darell 和其学生 Evan Shelhamer（现 DeepMind 科学家）。他们踩了些坑后判断这个方向可行，于是 2015 年夏天，Pieter Abbeel 开了个大组会，宣布整组转向深度强化学习。

目睹隔壁组的转向，申博时就想做大规模机器学习系统的吴翼也对深度强化学习产生了兴趣。最初他选择伯克利的原因之一，便是被 AMP Lab 孵化出来的 Databricks 及其开源大数据处理工具 Spark 吸引，觉得学术界能做出工业级别的系统很厉害。

但导师 Stuart Russell 对此不太感冒，其研究偏好在贝叶斯推理、逻辑推理，喜欢优雅的算法和 AI 理论，而非工程性较强的项目。

吴翼和 Stuart 讨论过一个问题：如何将逻辑推理系统扩展应用到大规模数据处理？

吴翼认为由下至上（bottom up）的逻辑推理系统比较容易实现，先从简单情况开始，把整个逻辑系统中容易扩展（scale）的部分迁移到 Spark 上，以便先把算力利用起来实现一些应用进展，然后再慢慢向完整的推理系统和逻辑理论靠近。

Stuart 则支持由上而下（top down），不能一开始就仅仅为了计算能力去盲目追求扩展性（scalability），应该从更高的起点出发，先构建一个完整的推理系统，再考虑如何使其可扩展。

文无之一，师生二人的理念不同，虽然 Stuart 的观点从做科学的角度看很有道理，但吴翼对自己的学术偏好也有自己的坚持。该研究导师感兴趣的问题，还是做自己最想做的方向？

在纠结中失眠半年后，吴翼想了一个解法：在做组里课题的同时，多加一个新方向的研究项目。这个想法也获得了 Stuart 的支持。

2015 年圣诞节假期结束回校，吴翼就去找了 Pieter Abbeel，自我介绍后就开门见山：“I want to do some deep reinforcement learning projects（我想做点深度强化学习的项目）”。

Pieter 欣然同意，让吴翼从三个项目中自选，吴翼没多考虑就选了“Value Iteration Networks”这个项目——半年后，他就发表了之一篇深度学习论文，并获得了 NIPS 2016 更佳论文奖。

2016 年 7 月，吴翼去参加 IJCAI，偶遇刚读博的 Jakob Foerster（现剑桥教授，多智能体领先者之一），与其聊到智能体之间如何通过交流推测帽子颜色，发现这和自己在清华姚班读本科时接触过的博弈论有异曲同工之妙。

同年暑假，他受李磊邀请去字节今日头条实习，接触了自然语言处理（NLP），回伯克利后发现他的师兄 Jacob Andreas（现 MIT 教授）开创性地将强化学习与 NLP 结合，能让 AI 智能体实现指令跟从，在 2D 模拟环境中执行从找到镰刀、拿起镰刀、移动到麦田、收割麦子等一系列动作。

这两项工作对吴翼的启发很大，他也由此对多智能体学习产生了兴趣，并转向该方向的研究。后来博士毕业后，吴翼加入 OpenAI 也是从事大规模强化学习系统与多智能体的研究。

此外，在伯克利读博期间，吴翼还到 Facebook 实习，在田渊栋的指导下参与了视觉导航最早的工作之一 House3D。House 3D 是 Facebook 具身智能体研究平台 Habitat 的重要组成部分，后来其“Habitat 挑战赛”也成为了具身智能最热门的挑战赛之一。

被吴翼抱大腿的段岩和陈曦，由于在 Pieter Abbeel 组，也最早经历了伯克利深度强化学习浪潮的崛起。

2011 年，段岩从深圳中学毕业后来到伯克利读本科，和陈曦是计算机与统计双专业的同班同学。此外，段岩还多修了数学专业。

段岩人称“Rocky Fast”，做事效率高、速度快，因为想创业，和陈曦两人用三年读完本科后就创立了一家公司叫 Sellegit，专注于对移动电商平台的开发与研究，比如以 9 分钟极速闪拍模式爆火的时尚电商拍卖平台 PEACH。

段岩 Rocky Duan

这段创业经历也很快结束，只持续了一年左右。2015 年 8 月，两人又回到伯克利，一起在 Pieter 组读博。

段岩与 Pieter 的缘分可以追溯到大三，他发表的之一篇论文就是 Pieter 带领的铰接式机器人工作，被机器人顶会 IROS 2013 接收。

读博后不久，两人又跟着 Pieter 加入了当时团队只有 10 人的 OpenAI，研究深度学习、强化学习和模仿学习。可以说，他们是最早接触深度强化学习的中国青年。

先行者们很快认识到深度强化学习的局限性：它依赖大量环境互动，且适应性差，一旦环境变化就需要重新训练，成本高昂。相比之下，人类和动物能够利用丰富的先验知识和经验迁移，快速学习新技能。

为了解决这个问题，段岩提出将元学习与深度强化学习结合，目标是让模型学会如何快速学习，并在 2016 年末提出了 RL²算法，陈曦也参与其中。

此时 Transformer 尚未诞生，太过领先的元强化学习还是一个难以理解的概念，不被学术圈看好，因此论文投稿一直没中。

为了支持学生，Pieter 干脆将自己演讲 PPT 的之一页换为论文介绍，只要有外出分享的机会，就会向在场观众介绍，“这是我们今年最重要的工作。”

除了元强化学习开山之作 RL²算法外，在 OpenAI，陈曦还跟着生成对抗 *** （GAN）之父 Ian Goodfellow，参与了提高训练 GAN 技术的工作，论文引用量超过了一万。

陈曦 Peter Chen

开创 AI + Robotics

Pieter Abbeel 的成名之作是在斯坦福吴恩达组读博时用强化学习控制直升机倒飞。2008 年他到伯克利后，除了开拓深度强化学习，还最早将原本壁垒很大的深度学习与机器人领域结合，创立了机器人学习（Robot Learning）实验室。

机器人学习研究的主要内容，也是如今具身智能领域最核心的方向之一。

前文提到的 TRPO 算法是该方向的一大突破性贡献，它让机器人能学习一系列模拟的控制技能，其开源代码与视频教程也吸引了越来越多研究人员参与其中，使机器人能完成的任务越来越复杂。

除了 TRPO，Pieter 团队在该方向还发表了许多引领性的工作，例如 2015 年的泛化优势估计（GAE）首次实现了 3D 机器人运动学习，2018 年的柔性致动评价（soft-actor critic）能在数小时内教机器人解决真实世界的问题、引用量接近一万，是迄今为止更流行的深度强化学习 *** 之一。

2016 年陈曦和段岩的本科师弟张天浩加入 Pieter 组读博时，Pieter 组内的研究重点也从强化学习转向了机器人与 AI 算法的结合。

从左到右：Pieter Abbeel、陈曦、张天浩、段岩

段岩与陈曦提出的 RL² 算法虽能让机器人从自身经验中快速学会一项技能，但机器人在实验室学习的经验是简单和人为的，可学习的技能范围也有限。

那时候，陈曦和段岩常从伯克利校园自驾 15 分钟，到奥克兰唐人街的中餐厅吃饭。一次晚饭，二人聊起 RL² 算法，发现对机器人快速学会技能后具体的下一步是什么并不清楚。

他们意识到，机器人该掌握哪些技能、应用在哪些具体场景、任务的实施对象、在多长周期内完成、所需硬件有哪些等等问题依旧悬而未决——学术领域的抽象追求和真实行业的实际需求差距太大。

于是他们就产生了一个想法：创业。

“Rocky Fast”再次用三年时间读完博士，然后拉上还没毕业的好友陈曦、师弟张天浩，以及对他们无条件支持的导师 Pieter Abbeel，一起离开当时已经近百人规模的 OpenAI，2017 年 9 月成立了一家名为“Embodied Intelligence”的机器人创业公司。

但很快，因为名字太直接、与“Embodied AI”的大研究方向几乎重名，就像用 AGI 给大模型公司命名一样不合时宜，他们又将公司名改为了“Covariant AI”。

有了 Pieter 的加入，Covariant AI 在种子轮就融到了 700 万美元，后续的投资人阵容更是众星云集，包括 Geoffrey Hinton、Yann LeCun、李飞飞、Jeff Dean 等人工智能领域的大牛，连比尔·盖茨也参与了去年的 C 轮融资。

也是在 2017 年前后，伯克利计算机系的几位大牛一起筹备成立了一个虚拟的组织——伯克利人工智能实验室（BAIR）。

Jitendra Malik 和 Trevor Darrell 是 BAIR 最初的两位发起人。他们认为，伯克利的 AI 虽强，但各自为战、没有形成群体的影响力，所以希望通过 BAIR 把计算机系的各个团队聚集起来，整合资源做更大的事。

这个想法获得系内的一致认可。于是参与 BAIR 的各个组汇聚到同一个大平层里，宁可吵一点也要让所有人每天都能交流，无论是老师之间、学生之间还是师生之间都能平等合作。

Trevor 的两位中国学生高阳、许华哲也是从这时开始，从视觉转向，开始同 Pieter Abbeel、Sergey Levine 合作研究强化学习相关的课题。

高阳是 2014 年到伯克利读博，和吴翼同一届。到伯克利之前，高阳在清华计算机系读本科，期间曾加入朱军团队参与研究贝叶斯推理，以及在谷歌北京跟着原谷歌中国工程院副院长张智威和清华学长李方涛研究 NLP。

高阳

进入伯克利后，高阳之一年上了许多包括 Michael Jordan 在内的教授的课，发现他们做的研究偏理论，涉及大量数学公式推导而非编程实践，与自己的预期差距不小。

高阳想做更有现实影响力的工作，于是就找到了 Trevor Darrell。彼时 Trevor 正在研究机器人跨模态的视觉和触觉交互数据集，让高阳也参与进来，算是对他的考察。项目完成后，Trevor 对高阳很满意，高阳就成功进了 Trevor 的组读博。

机缘巧合下，后来视觉与触觉也成为如今机器人最重要的两个感知模态。高阳的之一个工作也被 CVPR 2015 的“视觉领域数据集的未来” workshop 接收。

Trevor 的风格是鼓励学生自由探索自己感兴趣的方向。他有一个特别知名的中国学生叫贾扬清，就是在这样包容的研究氛围中开发出了深度学习框架 Caffe。高阳进组后也先做了一个深度学习 *** 结构的工作，并在头两年跟着 Trevor 深耕视觉。

除了视觉的感知，Trevor 还鼓励学生广开思路，探索可动、可执行的人工智能（Actionable AI），去做跟决策相关的研究。于是 2016 年博二下学期，高阳开始接触自动驾驶，暑假还到 Waymo 实习，参与了自动驾驶的感知与决策研究。

决策涉及强化学习的知识，但此时高阳只在 frontier 课里上过 Pieter 的课、没上手做过项目，而这又跨出了 Trevor 擅长的研究范围，高阳就同 Trevor 提议，跟大力钻研 RL 的 Sergey 合作，Trevor 爽快同意，团队便一起探索彼时仍少人涉足的模仿学习预训练与强化学习微调相结合的算法。

项目最早的实验针对人形机器人站立、跑动等控制问题展开，后期再转移到自动驾驶领域。“本质上自动驾驶就是一个特殊的机器人控制问题，所以最开始研究的很多算法，在机器人和自动驾驶两个领域都完全通用。”高阳告诉雷峰网。

从技术发展的先后顺序看，自动驾驶当时恰好处于人脸识别等纯视觉技术与机器人之间，技术未定型又不至于完全不成熟，需解决视觉感知和决策问题，正合高阳的意。

到了博四，高阳参与了由 Trevor 领衔的 Deep Drive 项目。作为北美更大的自动驾驶研究组织之一，此项目汇集了包括 Sergey、Pieter 在内的十余位教授，Toyota、Meta 和 Sony 等汽车制造商和上下游公司出资赞助科研，高阳也因此之一次接触硬件。

在 2017 年，高校里有一 *** 整的自动驾驶汽车还是件新鲜事，因本校空间有限，还得到里士满湾校区做实验。高阳负责开发核心算法并将其整合到汽车上验证效果，以 Sim2Real 的方式测试端到端算法在现实世界中的表现。

当看到自己单独开发的算法能让汽车通过简单的训练在测试场里连续行驶三四圈，高阳很惊喜，“当时从下至上把 ROS（机器人操作系统）摸了一遍，深刻理解了硬件实际操作与纯仿真环境的不同。”

2016 年，许华哲也从清华毕业来到伯克利 Trevor 组读博，首个项目便是与高阳合作的端到端自动驾驶课题，被 CVPR 2017 录取为 Oral Paper 。

他们发布了当时最全面、时长最长的自动驾驶数据集 BDDV。

当时 Trevor 传达的核心理念是，模型的质量取决于数据的质量。基于这一理念，他们利用车载摄像头收集了数万小时的视频数据，几乎覆盖了旧金山所有街道，再通过位置、速度、加速度等信息预测车辆动作，同后来模仿学习的范式非常一致。

论文链接：https://arxiv.org/pdf/1612.01079

在伯克利，许华哲与高阳、吴翼的关系更好。他们都来自清华，又都对 AI + Robotics 感兴趣，三个人有一个微信小群，经常约着一起吃饭。

许华哲刚进 Trevor 组时，团队主攻域迁移与视觉-语言两大方向，Trevor 建议许华哲和高阳去“开荒”彼时热度飙升的自动驾驶。

但做了几个自动驾驶的项目后，许华哲认为视觉技术的本质是识别或生成，而他更希望创造出能做决策、与世界互动并对世界产生影响的智能体——也就是机器人。

所以博一下学期，得益于 BAIR 对跨组合作的鼓励，许华哲开始跟 Sergey 合作，研究重点也从单纯的视觉转向了强化学习、视觉与机器人结合的方向。

2017 年 6 月，BAIR 博客正式开张，许华哲还成为了首届编辑部的五位成员之一。

许华哲

因早期机器人非常昂贵，他们的研究主要以模拟器和游戏为主。许华哲和 Sergey 合作过 2.5 个项目，是关于赛车游戏、超级马里奥和仿真机器人；还和同样喜欢打星际争霸的师兄唐浩然（曾任 Covariant 研究科学家）一起，同 Pieter 合作了一个打星际争霸的项目。

转方向后，许华哲更大的感受是个人的研究乐趣提高了，“因为成果很直观，比如（强化学习）能让游戏打得更好，当然代码难度也更大。纯视觉更多是对神经 *** 的调参能力要求较高，强化学习的神经 *** 结构相对简单，但要处理一大堆模拟器等底层的东西。”

2018 年 2 月，许华哲到 Facebook 人工智能研究院（FAIR）实习，和田渊栋、马腾宇合作。当时马腾宇刚拿到斯坦福教职 offer，想在 gap year 探索些不同的理论，许华哲就与他合作了机器人的相关内容。

随着机器人成本逐渐下降，许华哲在 2019 年第二次入职 FAIR 时开始逐渐上手碰真机，真正地从 Actionable AI 转到具身智能。

当时 Facebook 跟伯克利有个“FAIR BAIR Triangle”项目，双方合作，学生可以在两地各有一位导师，许华哲在 Facebook 的导师是 Roberto Calandra（今德累斯顿工业大学教授），在他和 Trevor 的指导下做机器人触觉相关项目，完成了触觉数据库 Pytouch 与让机械手弹钢琴的工作。

在触觉灵巧手项目中，许华哲意识到，真机与仿真间的gap很大：触觉模拟器不好用。和只需要按下重启即可做下一次实验的模拟器不同，真机的某零件损坏就得修理或重买，是个“脏活”，“2020 年疫情自己在家里拿杯子采数据，触觉传感器突然坏了，得等 *** 的东西到才能修好，节奏马上就慢了下来。”

Robotics + AI

如果说计算机系作为深度强化学习摇篮研究的是 AI + Robotics，那么隔壁的机械工程系则是在盟友的影响下，加速了对 Robotics + AI 的探索。

具体而言，计算机系是从上层感知技术向底层逐步渗透，从 AI 出发，在遇到 AI 的局限（例如可解释性不足）时，再整合控制理论等元素；机械工程系则从底层起步向上拓展，侧重于模型基础研究和工业应用，在遇到传统技术局限时，引入 AI 技术进行增强。

也是从 2017 年起，两大专业的交叉内容越来越多。

随着伯克利 CS 系的 frontier 课逐渐系统化，加入了理论推导和更多细节，其最终在 2017 年正式成为全球首个深度强化学习（DRL）课程。此时 DRL 在业界才刚火起来，基本停留在研读论文的阶段，由 Sergey Levine 授课的 CS285 自此成为该领域的“圣经”。

之一次正式开课，伯克利机械工程系的陈建宇、汤特也来了。两人在机械系统控制实验室（MSC Lab）读博，师从模型预测控制（MPC）的奠基人、美国工程院院士 Masayoshi Tomizuka。

Sergey 备课极认真，深入浅出地从基础知识到最前沿技术，串起深度强化学习，配上编程作业和仿真器教学，学生们得以兼修理论和实践。当时还在读博的 Chelsea Finn 偶尔也来做嘉宾讲座，分享自己的之一手研究。在最后的开放式大作业中，陈建宇开发了一种分层强化学习框架，并首创了一个无人车仿真器进行训练，填补了当时该领域的空白。

2011 年，陈建宇被保送到清华精密仪器系（国内最早从事双足人形机器人研究的单位之一），前两年接触机器人硬件，后两年关注机器人算法，大三暑研就来到了 MSC Lab 做步态检测，以类似遥操作的方式提取人腿数据分析双足步态行走，并在毕设项目设计机器人步态规划算法，在仿真里做双足机器人。

读博期间，陈建宇主要参与无人驾驶项目。

他的导师 Masayoshi 自 1980 年代起便对无人驾驶技术充满热情，曾在加州高速公路上开展无人驾驶车队列项目，希望通过紧密编队提高运输效率。但由于成本过高和技术限制，该项目最终被搁置。

直到 2015 年深度学习技术兴起，无人驾驶车辆的感知能力显著提高，Masayoshi 认为无人驾驶发展前景光明，于是重启了相关研究。在此背景下，陈建宇成为了组内最早做无人车的 PhD 之一。

陈建宇

在研究无人车的同时，陈建宇密切关注着隔壁 CS 系将强化学习与深度学习相结合的研究，特别是在机器人领域的应用。他认为深度强化学习与控制领域紧密相关，且其解决问题的表示形式与 MPC 在本质上相似。在观察到这些技术的潜力后，他决定转向强化学习领域进行深入研究。

博三起，陈建宇在无人驾驶领域进行了端到端的探索，他坚信端到端学习是未来发展的趋势，并在仿真环境中进行了强化学习和模仿学习的研究，初步尝试将世界模型的概念融入算法中，尽管受数据和技术所限未能在实车上应用。

即使主要课题和奖学金都来自无人车项目，在验证学习算法时，陈建宇也使用了其他形态的机器人，如机械臂等，以展示具身智能的普适性。在他看来，无人车也是一种机器人形态，“而且无论是 MPC 还是强化学习，都是适用于不同形态机器人的通用 *** 。”

尽管在论文层面没有直接合作，陈建宇同 CS 系在 *** 和创意的交流十分频繁，特别是向 Sergey 请教。

比陈建宇大两届的汤特则和 Pieter Abbeel 交流更多，还邀请了 Pieter 加入自己的博士委员会提供指导。读博期间，汤特的研究主要围绕模仿学习而展开。

工业机器人巨头发那科和 MSC Lab 合作紧密，因此汤特在 2013 年从上海交大毕业来到伯克利后，便一直与发那科深度合作，甚至每年暑假都去极少对外界开放的发那科研发总部实习。他读博的首个课题，便是解决业内公认难题：让工业机器人根据触觉反馈，灵活地进行装配。

“装配过程很难用精确的数学建模来解析。但人类有一种直觉，在感受到阻力时调整装配的方向和移动速度，而机器人在需要柔顺性的任务上表现不佳，其核心问题在于不具备此直觉，”汤特解释道，“模仿学习能将这种直觉转移到机器人身上，且即使在数据匮乏的情况下，也能高效地学习到高维度的信息。”

汤特

在刚体装配有所突破后，接下来的两年半时间里，汤特进一步挑战更复杂的柔性体装配。像汽车生产的四大环节中，冲压、焊接、涂装都已高度自动化，但总装环节仍然劳动力密集。一个重要原因就是以线束为代表的柔性体很难被自动化装配，涉及实时3D追踪和运动规划的问题。

汤特使用模仿学习的策略，通过较小样本量的人类演示，教会机器人完成复杂的柔性体操作任务，比如在不同的初始状态下给绳子打结、折叠衣服，控制人形机器人双手协作安装线束。

通过这两个项目，汤特深刻理解了感知与决策的关系：3D 视觉是之一步，用于获取物体三维信息并进行初步处理。但关键挑战在于将识别结果与机器人动作决策相结合，而模仿学习通过将视觉信息转化为运动指令来填补这一空白。

2018 年汤特毕业，正遇上湾区机器人创业的浪潮，陈曦和段岩想开拓物流仓储场景，需要擅长工业机器人的伙伴互补，便通过 Pieter 联系汤特，想让他加入 Covariant 一起合作。

汤特考虑再三，觉得自己对工业场景和客户需求的理解还不够深刻，决定先到工业界历练几年，便婉拒了邀请，来到发那科参与组建先端研究所 (Advanced Research Lab)，成为其首位成员。

除了 MSC Lab 的二人外，在机械工程系读博士的罗剑岚也在探索 Robotics + AI，同时在 Pieter 指导下攻读计算机系的硕士，最后 Pieter 也成为了他博士论文的 co-chair。罗剑岚最关注的是如何让强化学习在真实世界可行。

同年来到伯克利的罗剑岚和陈建宇志趣相投，前者做强化学习和真机机器人，后者做强化学习和自动驾驶，两人常一起约饭，讨论强化学习的应用。

2017 年暑假，罗剑岚参与西门子伯克利分部的项目，和 Pieter、Sergey 开始合作，把深度强化学习应用到工业生产中，学习策略以解决传统机器人解决不了的问题，比如高精度装配。

这也是罗剑岚在强化学习领域的起点，所设计的算法不仅要能进行规划，还要能实时响应外部变化，并制定策略成功完成装配。那时，在 MuJoCo 模拟环境中进行强化学习实验、刷榜、发论文是常规操作，但罗剑岚却认为，当时的强化学习算法性能榜单与现实世界机器人控制问题脱节，并没有解决实际问题。

几篇论文下来，强化学习效果有限，罗剑岚却决心“一条路走到黑”。2020 年，罗剑岚毕业，Pieter 两次邀请他加入 Covariant，但他觉得时机不是特别成熟便婉拒了，想先去谷歌积累经验。

加入谷歌后，他先后在 DeepMind、Everyday Robot 和 Google X 工作，跟随 Stefan Schaal。Stefan Schaal 是诺奖摇篮马普所的创始所长以及机器人强化学习、控制的泰斗人物，联结整个欧洲机器人圈子。罗剑岚读着 Stefan 的论文成长，全面掌握了机器人系统的各个层面，包括从底层动力学到上层控制的所有知识。

罗剑岚

他在谷歌参与的项目孵化为工业机器人创企 Intrinsic 后，罗剑岚决定重返学术界，想在回国找教职前先 *** 读一年博士后，便去询问了在 Google X 期间合作较多的 Sergey。

先前合作时，Sergey 训练机器人几十个小时以完成简单任务，而罗剑岚做插拔等工业精密任务的成功率高达 100%，这让 Sergey 深刻意识到团队里需要有人既懂机器人系统又懂 learning，才能将二者结合。Sergey 热情表示，二人能力互补，提议他 *** 两年，罗剑岚便在 2022 年回到了伯克利。

强化学习应用门槛高，流程易出错且不稳定，用其解决实际任务一直是 AI 社区想攻克的难点。

因此，在 2023 年 6 月，罗剑岚萌生了提供一个开源的端到端解决方案的想法，包括强化学习环境和机器人控制器，以便用户能够轻松下载并使用，就像使用仿真器训练机器狗一样简单。

基于这一愿景，罗剑岚主导与斯坦福、华盛顿大学、谷歌等机构合作，将自己谷歌时期的项目成果在伯克利进一步发展完善，在有视觉信息的情况下，能够在 20 分钟内学会一个 100% 成功率的复杂操控策略，效果显著。

论文链接：https://arxiv.org/pdf/2401.16013

在有视觉输入的情况下，真机强化学习训练操控策略基本上已被放弃，但在此工作后，大量的企业和高校又重新捡起来这个几乎被放弃的方案，比如 Toyota 研究所、波士顿动力、北大、斯坦福等等。

一次徒步时，罗剑岚和 Sergey 聊起仿真，说如果有 100 亿美元，是去建世界上更大更好的仿真器，还是去收集世界更大的数据集？

两人同时脱口而出：数据集。

“仿真对移动（locomotion）很有效，但不是魔法，相对于基于模型的控制，是更好的计算工具。而且移动的模型很简单，狗是桌子模型、双足是倒立摆模型，外界的不确定性也有限。”

罗剑岚认为，高性能的操作必须建立在真实数据上，“操作的难点在真实世界连续多样的变化，以及各种难以计算的复杂物理，比如物理接触，柔性物体，尤其是在涉及视觉输入的情况下，因此重点是设计出具有高样本效率的算法，且与硬件和控制器对接无误。”

具身智能创业

伯克利的具身智能人才似乎天然具有创业的基因：国内，边塞科技、星动纪元、星海图和千寻智能在一年内陆续诞生；国外，除了 2017 年的 Covariant，汤特等人于 2023 年 1 月创立的 Anyware Robotics 也早早入局。

汤特在婉拒 Covariant 的邀请后，在发那科先端研究所锻炼了四年，作为创始成员领导 AI Vision 项目从无到有并实现商业化。

随着对机器人在工业领域的商业化落地的认识加深，汤特觉得自己的研究基础加上对工业领域的理解已成熟，是时候出来创业了。

两位 MSC Lab 的同门师弟范永祥、周亦扬也有创业的想法，三人能力互补、一拍即合：汤特擅长模仿学习与 3D 视觉；范永祥擅长运动规划；周亦扬则专注于自动驾驶。

三方面结合起来，就构成了他们机器人最核心的要素——一套移动机械臂需要自动驾驶的能力来移动底盘，运动规划的能力来进行手臂抓取，同时还要有视觉和学习的能力来进行引导。

Anyware Robotics 希望打造重型通用机器人, 应用于物流、生产场景。汤特认为，未来将有两种主要的通用机器人形态互为补充，“一种是灵活的人形机器人，擅长轻任务；另一种则是体型更大、更强壮的轮式机械臂，擅长执行重体力任务。我们在打造的是后一种通用机器人。”

作为“伯克利归国四子”，吴翼、高阳、许华哲、陈建宇的路径出奇的一致，都是“清华—伯克利—清华叉院”。

同在 BAIR 的吴翼、高阳、许华哲座位挨得很近，当时 Stuart 组里只有吴翼一个中国学生，他便总和 Trevor 组里同为零字班的高阳聊天，许华哲来到伯克利后又变成了三人小队。陈建宇则和许华哲在学生会干活，时不时一起组织中国留学生的烧烤局。

BAIR 三人常在名为“葫芦娃”的小群里约着干活后一起去实验室门口的 food court 吃饭，临近毕业时也开始讨论对于求职的迷茫与焦虑。

作为首批回清华叉院任教的“青椒”，吴翼是最早做出决定的。

从 2016 年暑假首次来到北京的字节 AI Lab 到博士毕业，除了 2017 年在 Facebook 外，吴翼每逢放假都会回国到字节实习，还在 2018 年暑假转到了核心的搜推组。早期的字节让吴翼看到了 2012 年的 Facebook：员工三千，管理扁平，CEO 爱办 All Hands（全员沟通大会），每周讲 all in 短视频。

国内互联网的朝气蓬勃让吴翼决定回国，那就留在字节吗？

2018 年的字节处在从传统系统转向深度学习的阶段，用大规模神经 *** 做搜推是个不错的机会。但经历过 2016 年 3000 人的字节，面对 2018 年的字节，吴翼觉得自己有很多想做的技术探索，尤其是强化学习方向，似乎在当时看来很难在一个大厂里实现，而直接创业又没有特别好的时机。琢磨一周后，吴翼人生中之一次冒出当老师的念头，想在自己的课题组做强化学习。

9 月，吴翼联系了自己本科毕设老师徐葳，询问是否有职位空缺，徐葳回复说有，并嘱咐他尽快回国。10 月，吴翼从美国飞回北京参加面试，在飞机上赶完了最后一版 PPT。面试结束后，他进到姚期智院士的办公室，一拿到合同就问签字的位置，姚先生笑着告诉他，应该由自己先签字。就这样，吴翼成了之一个在姚先生办公室里就即刻签约入职的“青椒”，也是之一个回姚班教书的姚班毕业生。

吴翼认为，自己在学生时代的特点是涉猎比较广泛，而强化学习又是一个很通用并且能把很多不同方向整合起立的框架，因此希望作为教师组建团队后，同时推进语言注入、多智能体强化学习算法、机器人，最后实现一个完整的人机交互系统。“我的目标不是做一个机器人硬件，而是一个需要承载在硬件上做交互的大脑。”

签约清华后，吴翼跟姚先生提出在美国业界多待一年半再入职，姚先生爽快答应了。

起初吴翼想去在学术界声誉好且发表论文多的 Google Brain，面试后谷歌对吴翼也很满意，不过由于吴翼坦诚只能干一年，headcount 紧张的谷歌需要花时间走内部流程。

与此同时，曾与吴翼合作过的 Bob McGrew 给他打 *** ，邀请他下周入职 OpenAI，吴翼希望多等谷歌一个月，Bob 也同意稍后再沟通。2018 年平安夜前一天，Bob 再次联系吴翼，问他考虑得如何。吴翼便决定不等谷歌，去 OpenAI，就这样成为了多智能体研究组的一员。

在 OpenAI，吴翼加入了智能体玩捉迷藏的项目，让智能体分成红蓝两队进行游戏。研究显示，只用简单的+1/-1奖励机制和大规模的强化学习，智能体也能自行进化，掌握工具使用，并发展出六种不同的策略和对策。为了衡量智能体行为的复杂度，团队还设计了五种测试，所有通过强化学习训练的智能体在测试中都达到了更高分。

这意味着，多智能体强化学习加上复杂的模拟环境可以产生类似人类的智能行为。此工作一经发布便获得了大量关注，其官方视频至今仍是 OpenAI 在 YouTube 播放量的榜首。

2019 年，吴翼一边在 OpenAI 工作，一边开始招首批博士生。一人做语言注入，强化学习加语言；一人做强化学习+机器人+控制；还有一人是电子系汪玉老师的博士生，和吴翼联合指导，做多智能体学习。年末，Bob 在内部评审会时建议吴翼多待两年，给他升职发股权，毕竟他入职时 OpenAI 还是个没有股份的 NGO。吴翼却觉得发股权对自己意义不大，还是得回清华当老师。

回到清华开始自己做机器人后，吴翼深刻体会到硬件之难，“以前伯克利路线是较 AI 驱动而非传统硬件驱动，刚开始上真机踩了不少坑。”

彼时吴翼的高中与伯克利师兄、时任字节 AI Lab 总监的李磊也想做 AI 机器人，和吴翼一拍即合，决定一起学习、踩坑。吴翼带着学生李云飞和字节合作，从头开始搭建了机械臂、足式机器人等软硬件设施。经吴翼推荐，李云飞还到 Covariant 实习，让段岩帮忙培训培训。

最早回国的吴翼也是最早开始商业化尝试的。2020 年在上海期智研究院成为项目负责人后，吴翼有了更大的探索空间，在姚先生的大力支持下，吴翼根据自己在 OpenAI 的经验和自己的认知，想做全栈且和工程结合的研究，于是 2021 年在上海期智研究院组建了专注于大规模强化学习技术研究的科研团队。

一次和网易的合作，吴翼发现团队已具备充足的能力，就决定用商业化公司的方式更大化强化学习技术的商业影响力，恰好碰上疫情爆发，封控结束后就遇上了大模型的浪潮。“还是很幸运吧，回顾以往，做的选择都很随机。”

2023 年 5 月，吴翼团队孵化成立了边塞科技，目标是用强化学习为更多人创造更好的智能体验。

在一众伯克利博士+清华叉院教职的创业者里，边塞科技是唯一不涉及机器人硬件的。“算法、应用、多模态融合以及硬件都很重要，”吴翼拆解自己的宏观愿景，“但是人不能追求高而全，还是要先去更好自己擅长的事情，硬件的环节我不是专家，算法、成本、供应链都有很多要学习和探索的部分，因此就不在公司里面商业化运营了，机器人就研究院做技术研究。”

第二个确定入职清华的是高阳。

2018 年，姚期智院士到伯克利 *** ，和高阳简单交流后热情邀请他回国面试。此前高阳主要在美国面试公司，没考虑过回国当老师，但既然有面试机会，便决定试一试。

12 月 31 日，高阳在清华进行了两场学术报告后的当晚，就收到了叉院 offer。火速到手的 offer 出乎了高阳的预料，经过 2 个月的深思熟虑，他决定拒绝 Waymo、Nuro、Aurora 等多家自动驾驶公司的 offer，回国教书。

此时已是高阳博士生活的最后一年，自动驾驶在学术界能做的探索已基本完结，去到清华能做什么呢？

回到伯克利，高阳参加了 Jitendra Malik 和 Alexei Efros 等多位视觉教授的组会，聊起人的智能如何进化而来的哲学问题。

大家认为，五指灵巧手能进行复杂物理操作，为智能的发展提供了基础，因此猴比猫狗智能；而猫狗之间，狗的群居特性促进了沟通的发展，使得狗与人社交时强于猫——因此，智能产生的本源，是和现实物理世界产生交互（与环境、与人类、与机器人本身）。

看到具身智能作为大有可为且尚处初级阶段，很自然地，高阳想到把自己做自动驾驶的技能转到通用机器人上。

除了钻研已久的感知外，为了继续提高对决策的了解，高阳向 Pieter Abbeel 提出自己将去清华任教，计划做机器人的研究，想先到他的组里做一年博士后，还分享了很多想做的题目。Pieter 也想把更高级的视觉技术引入强化学习里，便爽快答应了。

在机器人领域，传统的输入并非基于纯视觉信息/场景图像，而是基于对物理世界的低维表征，例如物体的 XY 坐标。高阳与 Pieter 的合作便是针对从高维度的视觉数据中提取对决策有用的信息这项极具挑战的工作，其中最知名的 Efficient Zero 项目更是将这一研究方向推向了极致，并提高强化学习的样本效率。

与喜欢在半小时内高强度输出的 Sergey 不同，Pieter 则更关注宏观层面，不讨论具体技术细节，而根据自己的经验给出方向是否有前景的反馈。适应了一阵后，高阳逐渐领悟到宏观指导实际上是优秀导师的理想状态，科研的品味与独立性也得到了提升。

2020 年 8 月，高阳入职清华叉院任助理教授，聚焦计算机视觉与机器人结合领域，探索强化学习在机器人领域的应用，让机器人通过 “看” 操纵周围事物。

强化学习应用于现实世界需解决数据匮乏和缺少监督信号两大难题，高阳团队也基于此开展了一系列工作，比如从2D人类视频中学习机器人动作策略的 ATM、具身大模型框架 ViLa 和 CoPa 等。

高阳想实现的终极场景是，在物理实体上实现科学研究中的算法，建立一个可以“用眼睛看”并服务于家庭场景的机器人，如告诉机器人“做一杯咖啡”，它就会走到咖啡机前，进行磨豆子、拉花等一系列操作。

去年年中，在看到大模型和具身智能领域的变革后，高阳决定创业。他清楚具身智能产品必须是软硬件结合的解决方案，自己虽有多年 AI 软件经验，但缺乏硬件和商业化背景，就开始寻找既懂硬件也懂机器人落地瓶颈的合伙人。

在共友的牵线下，高阳结识了前珞石机器人 CTO 韩峰涛，后者有十余年机器人行业经验，不仅很懂硬件，还做过 1000 多个落地场景，对于各场景的卡点到底在软件还是硬件非常清楚。而韩峰涛也有创业打算，在找 AI 人才，两人能力互补、一拍即合，便决定一起创业。

今年 2 月，千寻智能成立，做具身智能基座大模型，是国内少数选择端到端技术路线的具身智能创企，选择轮式+双臂的方案。

入局创业后，高阳对技术路径与团队协作也有了新的认识，在最近的两次美国之行中，高阳还分别和 Deepak 与 Sergey 交流了 Skild AI 和 Physical Intelligence 的发展情况，还聊到了具身大模型的未来，包括其构建 *** 、面临的挑战以及所需的数据量等关键话题。

至于比吴翼、高阳小两届的许华哲，也在 2022 年夏天回到了清华。

一年前，许华哲从伯克利毕业，来到斯坦福的吴佳俊小组读博士后。吴佳俊也对机器人很感兴趣，彼时组里正在进行让机器人捏橡皮泥、学会弹塑性物体操作任务的项目。

过年期间，许华哲和好友包饺子庆祝春节，突然意识到如果让机器人学会饺子的世界模型，就能使一个机械臂独立完成包饺子的步骤。于是，几人搭好工具库和厨房后，让机器人随机选择工具与面团任意互动以采集数据。

加上训练的工具分类 *** 、机器人策略 *** 以及视觉反馈作为新的感知信息输入，机器人能在有干扰的情况下使用工具包饺子，文章也被机器人学顶会 RSS 2022 所接收。

在斯坦福时，许华哲就拿到了叉院的 offer。刚回国时，许华哲发现具身智能的概念在国内很少人买账，清华里研究机器人的依旧是以传统 MPC 等 *** 为主的自动化系。

许华哲希望做出可以决策的机器人或智能体，便成立了自己的实验室，在次年正式命名为具身智能实验室，以包含视触觉的机器人泛化灵巧操作和控制为长，也探索 DRL 在实际机器人复杂任务中的应用。

许华哲支持学生们去尝试各种奇思妙想，上课很有热情，课堂教学评价常排在前 5%，被吴翼称之为“经典的伯克利 Style”和“当老师的料”。他选择加入星海图的那天，恰逢十一假首日，正带着组里的博士生去郊游。

许华哲合流星海图其实是个巧合：他看到具身智能的机会后想自己创业，听闻赵行已开始，便来咨询心路历程和时间节点。而星海图在筹建期，赵行就拉上许华哲和高继阳一起吃饭，大家聊得投机，想法高度契合，许华哲丝滑加入，负责带领操作团队，同样采取轮式+双臂的构型方案。

除了“葫芦娃”三人外，MSC Lab 的陈建宇则在 2020 年末入职叉院。

此时正值疫情爆发，陈建宇在暑假的面试还得线上进行。回国后的前两年里，陈建宇除了延续无人驾驶的工作外，也开拓了包括机械臂、轮式、四足等多形态的机器人方向，并在 2022 年的春夏之交开始自己做人形，研究更通用的具身智能。

“无人车的技术和产业格局已初步成型，所以想转新的大方向。”对陈建宇而言，在新领域做开创性工作吸引力太大，“我本科做过双足，一直关注人形的动态，当有了自己的课题组和研究资源，并花时间琢磨技术架构后，发现是可行的。”

在实验室研究双足人形的陈建宇逐渐发现其具有能改变世界的产业价值，可改变世界不能仅靠在实验室做 demo ，得借助更多商业化、产品化手段，而公司能吸纳社会资本， *** 、股份激励等更宽松。随着小米、特斯拉等产业界代表的入局与 ChatGPT 的诞生，陈建宇意识到是时候了——2023 年 8 月，星动纪元创立。

涉猎过包括无人车等多种形态的机器人后，陈建宇认为，不同形态之间没有本质上的区别，很多原理是相通的，但若想实现智能，必须一开始就做最终极的人形（双手和双腿），“可以在过程中辐射其他形态，但不能从开始就降低天花板。”

在硬件方面，业界对于如何制造高爆发力双腿和灵巧手尚无统一的解决方案。陈建宇团队就先从腿部开始，从前两代的 MPC 逐步升级到 2023 年以强化学习为核心的步态行走 *** ，让机器人能在雪地、长城、戈壁滩等复杂路面上稳定快速行走。

至于手部设计，陈建宇选择了一条与众不同的路径：缩小腿部关节应用在手部上，以实现更精细的操作和更高的灵活性。因此，他们的灵巧手为全驱动，拥有超过十个主动自由度，而特斯拉的手部仅有六个。

结语

回到 2017 年伯克利的深度强化学习课堂上，对于几位中国 90 后而言，热点方向紧密发生在身边，可之一时间和作者们面对面交流切磋甚至参与其中，无疑是兴奋与享受的。

彼时具身智能（Embodied Intelligence）还不是热词，机器人学习（Robot Learning）随着深度学习范式的兴起开启了新的一页，在感知有所突破后，AI 和 Robotics 开始双向奔赴。

他们隐隐感觉到：下个十年的机会来了。

段岩、陈曦、张天浩、吴翼、高阳、许华哲、陈建宇、汤特、罗剑岚......从深度强化学习出发的伯克利一派，以先驱者之势火速突破上层感知，让机器人真正开始具备类人的学习能力。

更重要的是，在得益于 AI 之强势时，他们也清楚地意识到硬件和底层控制的价值，无论是计算机系还是机械工程系，都在往交叉点靠拢，追求全栈式覆盖。

最合适冲浪的波浪周期为 8-16 秒，对于伯克利派系而言，深度强化学习的浪从十年前开始，站在浪尖上的他们，此刻正踏着具身智能的波峰，再望向下一朵浪。

关于具身智能领域的更多精彩群像故事，欢迎添加雷峰网(公众号：雷峰网)作者微信 anna042023 交流。雷峰网

3D 视觉派：斯坦福具身智能人物关系图

伯克利具身智能图谱：深度强化学习浪尖上的中国 90 后们

你可能感兴趣的

发表评论