绿洲对谈吴翼教授：泡沫带来的黄金时代

参赞生命力緑洲资本 Vitalbridge 2023-09-12

即便是 AI，有了先进的大脑，还是需要灵活的躯体。
我们和清华大学交叉信息研究院助理教授，前 OpenAI 研究员，师从人工智能泰斗 Stuart Russell 教授的吴翼教授，交流了机器人控制领域的最新进展，Enjoy。

绿洲：最近这一波 AI 热潮对您研究上有什么影响或是思路上有什么变化吗？

吴教授：我认为变化还是挺大的。回顾一下我的研究，最早是强化学习与规划算法，到多智能体强化学习，最后统一到强化学习的泛化性。强化学习本身是一个过拟合的学科，只要能记住最牛的策略，比如说下棋，只要这个策略一直能赢，记住就可以，不用考虑泛化性。多智能体强化学习更复杂，多个策略同时最优已经很困难了，如果其中一个智能体要变成一个人，那人的策略可能根本就不是最优，就需要开始考虑有没有可能让 AI 对不同的人有泛化能力，和不同的人做交互。我研究人机交互，包括在游戏里跟人做交互，或真实中跟机器人做交互，去研究强化学习怎么才能学出一些比较像人的行为。

ChatGPT 的语言能力让人机交互实现了飞跃。之前人对机器只能使用非常简单的语言指令，比如说“打开红色按钮”，“打开蓝色按钮”，“向前走 3 米”。ChatGPT 却可以将“我渴了”这类对 AI 而言复杂的语言翻译成 AI 可以执行的任务：理解你可能想喝水，去找厨房，找冰箱，然后打开冰箱拿到水。这让我顿时觉得全方位互动的智能 AI 助理是可以实现的！AI 助理不仅能跟你说话，还能帮你完成生活或者办公上任何浪费时间的琐事。ChatGPT 的出现让之前难以企及的目标变得可行了，我自己还蛮高兴的。

绿洲：您的研究方向最近有哪些进展？

吴教授：我们主要在做人机互动。比如我们去年在 NeurIPS（神经信息处理系统大会）有个玩游戏的工作。在很多即时战略游戏里，人要高效率操作很多兵是非常麻烦的，我们思考让 AI 听从人的指令以便帮人完成复杂的微操。人和人交流的方式是很抽象、很高级的，日常交流中很少会出现“往前走 3 米，往左转再走 3 米”这类表达。所以我们开始研究如何用抽象指令去指挥 AI，做了一个可以跟 AI 说话并指挥它去做事的项目。现在你只要直接跟兵说“你去采矿”，具体哪几个小兵去采矿，采哪个矿你就不用管了；又或者你想造冰龙这个单位，只要说“Build Dragon”，造了龙放在哪里，或者有什么前续动作，AI 都可以帮你处理。

除此之外我们还做了很多别的项目，比如让游戏里的 AI 根据人的行为推测他的想法并辅助人类完成目标，比如用语言去控制机器人，比如让机械狗像宠物狗一样招手等等。这些研究的核心都是形成一个“助手”，让 AI 能在现实或虚拟世界中，听懂人类的抽象指令，并完成任务。

绿洲：您研究的终极目标是什么呢？

吴教授：每个人都拥有“私人助手”。我们想做一个通用的 AI 大脑，有一天让每一个人都有属于自己的定制化助手，就像钢铁侠里的 Jarvis。

绿洲：在您的领域或是工业界哪些开源工作让您印象比较深刻？

吴教授：算法上差别不大，但有很多项目效果不错。比如 Google 花了一年时间做的 SayCan Robot，让一个移动机器人成功听懂指令去厨房拿东西。局限性肯定有，但能第一个做出来，相当不容易。机器人控制在有了深度学习和强化学习之后整个领域变得很卷，但也卷出了诸多好玩的项目。还有值得一提的项目是最近斯坦福的工作，让 25 个 AI 在游戏里自己跟自己说话，模拟人生。这些工作并非难在技术，而是原本大家不敢想或者觉得不可能的事，现在真的有团队会花时间耗精力做出演示模型，让世人眼见为实。

我做研究的哲学也是这样，做 AI 最重要的是拿出东西来给人看到，而不只体现在算法创新。

我跟学生也说，“有了大语言模型之后，这个时代变了，你还是可以做传统的算法，但是有一个如此强力的工具摆在面前，为什么不用呢？”退回十年看，当时也有很多人觉得深度学习这个不行，那个不好。但是它既然已经表现出了很强的能力，至少可以当成一个工具用起来。结果显而易见，现在基本每个领域都多少会用到深度学习。

我认为这个时代强化大语言模型是一个强有力的工具，并非说它广泛适用，它必然存在局限性，但可以预见的是它在未来 10 年会成为一个基准工具，所有的领域都会用到，会带来很多范式的变化。

绿洲：机器人控制是在哪些方向卷呢？

吴教授：机器人控制领域很广，不同的机器人差异很大。强化学习让机器人控制做得越来越好，比如说无人机，现在高速无人机可以完成很多复杂灵活的机动，速度更快，机动能力更强，反应更快，越来越炫酷。又比如最近学术圈都在做机械狗，可能因为这是学术圈最容易买到的移动机器人了（笑），控制机械狗本身又比较难，也适合强化学习产生突破。现在训练好的机械狗能走各种地形、上山下海，跳起来翻越障碍或者站起来走。我们组自己最近做了一个站起来能走的狗，然后发现伯克利发了一篇论文，他们的狗站起来走还能跳一跳；我们做了让狗追着球跑，然后发现伯克利做了一个守门员狗，能跳起来扑救。可以感受到这个领域有多卷。

大语言模型出现之后，也因为 Google 做了 SayCan 机器人项目的原因，从语言直接控制机器人的领域也很卷。但语言到机器人控制因为有语言部分，难度更高。机械狗没有语言的部分，主要就是控制，所以就卷起来就更疯狂。不过我们这里说的都是世界上最好的研究组，直接和他们相比的确感觉整个领域非常卷。事实上机器人领域的门槛很高，每个子领域的机器人能做到很精深的组并不多。但确实在深度学习和强化学习技术之下，每个子领域都往前推进了不少。

绿洲：您对开源机构的 LLM 怎么看，是会普惠，还是会出现譬如 OpenAI 一家独大？

吴教授：我认为可能出现一家领先，但不太可能垄断。因为 LLM 的核心在于数据、框架和算力。举一个不是很恰当的类比，之前的人脸识别，刚开始有些机构特别领先，比如说像商汤，从技术上还有优势，但多年发展下来目前大家的水平都差不多了。从实际应用来看，当大家都有一定水准之后，随便弄一个评分差一点的模型，也凑合能用。如果你领先别人10 个点或者 20 个点，那确实很厉害。但如果只领先 5 个点，在部分场景确实能有垄断地位，但从宏观上看，就很容易被替代。

大语言模型像当年的深度学习， 12 年、14 年的时候深度学习也就一小部分人会，也只有那些人在做，他们积累了很多东西。随着开源的进步，OpenAI 原来可能领先两个身位，现在可能只领先一个，过 5-10 年再看，它可能就只能领先半个身位或者零点几个身位。

技术上我觉得早晚都会差不多，商业上 OpenAI 可能就是 0.5 个身位的优势。而在垂类或者产品上必定会有超过 OpenAI 的公司。另外从政治角度看，如果出现一家垄断，政府也会监管。

绿洲：您是为数不多在 OpenAI 工作过的中国人，能分享下您在 OpenAI 的工作体验和感受吗？

吴教授：我当时在多智能体团队，做的项目叫“捉迷藏”，应该是 OpenAI 公司历史上视频点击率最高的一个视频。

OpenAI 对我而言还挺独特，我之前在 Facebook AI Research 兼职了一年，觉得两者还是挺不一样的。 Facebook AI Research 特别像一个实验室，那个年代拥有大量顶尖 PhD和最好的研究员，会做顶级的科研项目。OpenAI 一开始也这样，很多强化学习的基础工作都是 OpenAI 在16、17年做的。但到 18、19 年开始做 OpenAI Five 和 Dota 之后，公司内部的目标发生了变化，大家也能发现这个时间点开始，OpenAI 的论文数量显著变少，但它逐渐秀出一些大新闻，比如说机械手拧魔方、捉迷藏、打 Dota，还有 GPT-2。公司的风格变了。OpenAI 一直只有 100 人左右规模的团队，拆成几个小团队，每个小团队就做一件大事。但它做的“大事”也不算产品，就是研究项目。一个打 Dota 的 AI，能够开新闻发布会，但不是为了赚钱而做的。OpenAI 用一个团队的方式做一个大科研项目，这点让我觉得与众不同。

绿洲：从这角度来说，OpenAI 的确不像实验室，更像是一个面对终端用户或者客户产品思维的公司？

吴教授：DeepMind 从某种程度上说也是这样，但 OpenAI 做得更彻底——用做产品的方式做研究。当然缺点也不可避免，比如“拧魔方”的工作投论文就一直没投中。但从结果导向回顾的话，虽然没有论文发表，影响力却极为可观。

绿洲：在学校里做研究是不是就不太适合 OpenAI 的思路？

吴教授：这个还是看人，在学校也要看地方。伯克利就有类似的组，并且非常成功。比如说我们系统组，当年最早叫 AMP Lab，然后叫 RISE Lab，现在叫SKY Lab，伯克利每隔一段时间就攒一堆学生加上工程师一起，去做每个时代最先进的技术，孵化出很有名的公司，比如 Databricks、Anyscale 等等，都作出了很好的产品。在系统方向很多，但 AI 领域确实比较少。

我的组也有这样的倾向，我的学生开启一个项目之前，我都会说，先不要跟我讲你想做什么算法，你告诉我最后你想展示什么东西，这个东西得是现在世界上没有的。我认为这是一种有挑战性的工作方式。缺点就是之前提过的，论文数量会比别人少。所以还是看个人目标，如果一个人受限于比如学校要你发 10 篇论文才能毕业，那可能确实得采取另一种策略。但我觉得事实上越来越多的人开始觉得 OpenAI 模式还不错。

绿洲：现在的大模型几乎都是以谷歌 Transformer 为基础模型的，OpenAI 的创新革新体现在哪里？

吴教授：我觉得是要看怎么定义创新，是学术圈的创新还是工业工程上的创新？OpenAI 的创新更像做系统的创新，比如 Operating System 和 Distributed System 里面的创新。大家如果去关注计算机系统领域的顶级会议，他们的创新点往往一句话就能说完，之后补上 10 到 14 页的论文，讲清楚所有细节。OpenAI 就是这样，每个工作就只有一个创新，比如说大语言模型，他的创新点就是模型做大了之后发现了它很牛，就这么一句话。看起来好像在算法上，数学公式上没有什么创新。在传统的人工智能领域，大家特别喜欢在数学公式、算法、逻辑上做得漂亮。但 OpenAI 有创新么？显然有。GPT-3 做出来，结论很简单，但是论文里面得有 20 页的细节。当时我们做”捉迷藏“的时候，就一句话——用强化学习算法跑了一个捉迷藏游戏——这事就结束了。从传统 AI 领域的视角去看，是用现有算法，写个环境，跑了一把，发现一点好玩的行为，仅此而已。

绿洲：您觉得这波 AI 的变革对于物理世界的机器人会有哪些方面的影响？哪些机器人的终端产品是能够做得更好的？

吴教授：除了人机交互之外，其他我觉得变化不大。人机交互核心就三点：一是事情的理解，二是事情的执行，三从执行到控制。“理解”原来确实做不了，现在有了 ChatGPT 就没问题了。

早年我做强化学习的时候，也可以做到简单模版类型的语言控制，用强化学习 AI 去做特定任务，而大模型可以做一些复杂任务的拆解。当然拆解任务这件事情强化学习也可以做。关键在于有了大语言模型之后，复杂语言理解的能力实现了飞跃。从宏观上看，其他部分的变化并不多。从控制的角度看，最大的变化是由当年机械手拧魔方项目带来，它是第一个端到端的强化学习模型，可以控制一个机械手，并完成了传统机械机器人控制算法完全解决不了的任务。现在几乎所有最新的基于强化学习的机器人控制项目也都是这一套，就是说从 19 年 Open AI 拧魔方开始的，技术路线一直没变。

不过，路线虽然一直很确定，但不代表所有问题都很好解决，因为控制中算法和硬件的耦合占比太重。机器人并不像语言一样有一个特别通用的标准，基于强化学习的控制需要仿真器，需要数据，但是你要采集那么多现实生活中的数据，并且机器人硬件还可能在变化。硬件不像语言是统一的，是基本不变的。不同领域不同型号的机器人硬件可以有完全不同的设计，机器人硬件上的很多具体限制是没办法完全在仿真里完美体现的。如果要在现实生活中用真实硬件去采集数据又很慢，所以硬件这个坎至今还很难真正迈过去。

一句话来总结现状：硬件控制的问题一直都在，任务拆解方向有提升，而理解做得非常之好。

关键还是你希望做怎样的机器人，工业机器人？还是 ToC 机器人？ToC 就需要复杂指令，ChatGPT 可以把指令的理解和交互做到位。但是 ToC 对硬件的要求、成本控制、以及产品形态，都是未知数。只能说我们做了一个很好看的例子，比如办公室里的辅助机器人。真要产品化那就会涉及到硬件的各种问题。比如你每天要叠被子、倒垃圾，很多事情是柔性的，或者需要很强的触觉反馈，触觉反馈在硬件上就很难做。目前人类造出的机器人并不能很好地反映人类本身躯体的灵活性，这是目前 ToC 机器人硬件上过不去的坎。相比而言，工业场景中的机器人，比如说装手机装汽车，就不需要理解那么复杂的指令。工业机器人有没有一个好的语言接口完全不要紧，关键的是底层控制精度。

在我看来，大语言模型给机器人带来更多变化的是有人参与较多的场景。虽然离产品化还有距离，但新技术确实带来新的可能性，机器人是可能从工厂最终走向千家万户的。具体产品形态到底如何，还得以后再去看。

绿洲：特斯拉一直在展现的人形机器人，LLM 对其可能除了在指令接收上有帮助，其他部分的进展反而关系不大是么？

吴教授：对，大语言模型带来的一种可能性，一旦下游全硬件做好了，接入大语言模型，机器人就能直接跟人一样思考和行动了。但因为这个目标非常宏大，所以下一步怎么走，如何使机体达到和人一样的灵活度，总体还是相当困难的。但是假设工程上可以解决这些难题，大语言模型就是机器人的大脑，这个大脑已经很强了。但我们也得承认一个事实，就是现在看起来脑子之外的其他部分似乎更难攻克。

绿洲：目前来看机械控制的进展比大脑的进展节奏要慢了？

吴教授：特别明显。大家原本觉得 AI 能替代所有体力工作，后来发现 AI 其实只能替代脑力工作，体力工作实在替代不了。因为人体是一个太厉害的系统，要硬件去仿真，而且还是用刚性结构去仿真人体这样的生物结构，可以想象一下其中的难度。

我们组主要做“脑子”，现在就靠买来一个“身体”，然后去做适配的一个好“脑子”。我们希望能做出一套通用的大脑 pipeline，让整个流程自动化工业化，这样随便给我什么样的身体，都能很快配上足够好的“脑子”。我们自己不做硬件，直接买来的硬件会有各种问题，硬件一迭代，我们就很崩溃。我们也想找一些做硬件的伙伴，大家合作，这样装脑子的时候会容易很多。

绿洲：这一波 AI 对很多做泛娱乐类的带来很大冲击，您觉得对 3A 大作游戏有影响么？

吴教授：我觉得游戏形态会发生很大变化。我的组研究人机交互，核心是多智能体学习，研究 AI 如何理解人，怎么帮人，如何行为才能像人。我希望有一个 AI 能够替代人，可以实现跟人的无缝交流合作。这个使命对应到游戏里，就是有一个特别开放的世界，里面有一半的玩家是 AI，对于人来说你不太能够区分这个游戏世界里面哪一些是 AI，哪些是人，AI 跟你一起共创新世界。现在很多游戏的内容是需要人去设定的， AI 只是机械角色。以后 AI 可以很智能，跟人一样是个玩家，每天带来不同的体验，进行个性化的沟通。在游戏体验上的想象空间会大很多。

绿洲：这个阶段各行各业都有点从焦虑到狂热的状态，大厂也每周有都要出一两个基础模型，您怎么看这个状态？

吴教授：对，但是我觉得正是因为大家看不清才有机会，如果看清了，这个世界也就没有可能性了。只有在大家都狂热的时候才会有人能走出去。我觉得也是好事，所有的行业都得先有泡沫，没有泡沫行业就死了。

大厂应该是商业考虑。这个可以对标历史，比如 Alpha Fold 刚出来的时候，国内也有 20 个发布蛋白质预测生物医疗的公司；人脸识别年代类似的事情也特别多。这就是泡沫的一部分，但泡沫本身代表的是一个黄金时代的来临。

绿洲：在这波 AI 浪潮中您觉得美国和中国的创业有什么不同？

吴教授：美国的好处是生态不同。OpenAI 做了很棒的基本模型，提供 API，加上美国的商业生态和付费意愿特别好，所以做小的垂类都可以做得很成功，这跟中国很不一样。中国一来没有像 OpenAI 一样做得极牛的公司，大家都在同一起跑线，不太可能出现像 OpenAI 这样一骑绝尘的团队，竞争势必激烈。第二中国付费生态跟美国不一样，最后做大模型不太可能只做 API，但如果要去切垂直领域，一个人也切不过来，最后大概率会是留下来几家，不同的垂类有不同的机会。我的看法是，在美国做 OpenAI 真能做成功，并成为基础设施的一部分，但中国不太可能。

绿洲：近期出现了 AI 换脸等诈骗，您对 AI 安全方面有什么看法吗？

吴教授：AI 越强，安全问题肯定会越多。我的导师 Stuart Russell 教授在伯克利成立了 Center for Human-Compatible AI，这几年一直在奔走，说的就是 AI Safety。我们不能等一个非常强大的东西出现之后，再想去怎么应对它。安全问题应该作为一个科学问题，或者说大家应该关注的问题，从头到尾应都需要尽心考虑，不能出事了再去擦屁股。最近欧盟已经开始做监管，国内的反应也很快。这一波 AI 技术革命，每个政府的反应都挺快。

安全问题在每个时代都出现过，互联网刚出现的时候，原来大家觉得网上说的都是真的，电视上说的都是真的，后来就有莆田系医院，骗了很多人。大家觉得新事物起始进去的都是高知，都是好人，所以信任，结果骗子就来了。这也是个趋势，未来适应了经常有人换脸，也就会出现新的应对方式。只要有新技术，生活就会发生改变。坏事的出现并不是百分之百由技术导致的，而是因为人的弱点。人会轻信，会相信自己愿意相信的东西，技术只是放大了这些弱点。

绿洲：疫情这两年有没有对学术交流层面产生影响？

吴教授：影响还是很大的，最大的问题就是学术界交流的时差。人和人之间的关系一定是要线下沟通的——这也是我觉得大语言模型不是一切原因。因为人和人的沟通不光是文字，我们一起吃饭，有微表情，气场，情绪，这些都是人类交互的一部分，语言模型只有文字，还有太多东西没有囊括在内。

学术界的交流也一样。中美有时差，美国所有报告都是这里的深夜，就算我想听，也不能天天凌晨 4 点钟爬起来听报告。这导致你和他人的沟通会滞后，所有的事情只能通过开公开发表的信息去获取，相当于原来大家可以坐在一起感受最前沿的信息，现在变成所有事情滞后半年。这种滞后和孤立的感觉还挺糟糕的。现在总算能去线下开会了，真的很重要。

绿洲：最近榜单也多了，你觉得榜单怎么获得公信力，榜单本身是否也面临很多挑战？

吴教授：榜单是第一步。你上不了榜单，那估计你肯定不行。但说到底，看榜单的感觉远没有你实际去用一个模型的感受那么强烈。比如 ChatGPT，如果我只告诉你它榜单刷得超级厉害，你是没有直观感受的，一定得亲自去用才能意识到它有多牛。所以我倒是觉得能开源让大家用是一个最有底气的行为。

绿洲：在过去的一个月当中开源的大模型非常的多，您觉得这股开源的力量是会产生怎样的局面？

吴教授：开源的力量会让学术界的水平开始赶上工业界。工业界目前领先是因为工业界资源多。但是开源，尤其在美国的生态里，会让技术的发展变得很快。以文生图为例，Stable Diffusion Model 一下子拉低了门槛，新想法层出不穷。大模型最近也开始开源，从长期来看，它会联合很多学术界分散的力量，在追赶公司的路上加速。这也是整个 AI 领域或者整个 Computer Science 领域最先进的地方，比如说你要对标生物，整个领域大家都不开源，进展就很慢。相比之下，AI 日新月异的原因，就是鼓励发表，鼓励开源。当然它可能会导致领先者的技术一下子被人追上，但它确实在客观上推动了这个时代的快速进步。

参赞生命力

你觉得什么是科技生命力？

人类最终的目标一定是走向星辰大海，这才是最有生命力的文明。科技是推动生产力发展，促进人类走向星辰大海的一个最重要的推手。科技一定是常青的，人类文明应该去拥抱发展的生态。

—— 吴翼教授
清华大学交叉信息研究院

绿洲资本是中国新一代风险投资机构，致力于发现中国未来十年最有生命力的企业家，并与他们共同成长，创造长期价值。 “参赞生命力”是绿洲的愿景和使命。这种生命力（Vitality），既是时代结构性变革的方向，亦是企业家坚韧和进化的力量。

绿洲资本专注于早期和成长期投资，单笔投资300万到3000万美金，重点投资机器人、人工智能、科技服务等领域，助力中国科技驱动的新服务升级。

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

进城注意！南宁全面启动入城安检→

绿洲对谈吴翼教授：泡沫带来的黄金时代

您可能也对以下帖子感兴趣

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

进城注意！南宁全面启动入城安检→

生成图片，分享到微信朋友圈

绿洲对谈吴翼教授：泡沫带来的黄金时代

您可能也对以下帖子感兴趣