DeepMind 两年研究一朝公开,通用人工智能最新突破:一个模型、一套权重通吃 600 + 视觉文本和决策任务

DeepMind 两年研究一朝公开,通用人工智能最新突破:一个模型、一套权重通吃 600 + 视觉

感谢IT之家网友 Sancu 的线索投递!
通用人工智能,还得看 DeepMind。这回,只一个模型,使用相同的权重,不仅把看家本领雅达利游戏玩得飞起。和人类聊聊天、看图写话也不在话下。甚至还能在现实环境里控制机械臂,让其听从指令完成任务!模型名为 Gato,西班牙语中的“猫”。按照 DeepMind 的说法,这只猫猫可以使用具有相同权重的同一个神经网络,适应各种不同的环境。具体而言,DeepMind 让它在 604 个不同的任务上接受了训练,这些任务模式完全不同,需要观察的元素和行为规则也不同。而 Gato 不仅在 450 个任务中都超过了专家水平的 50%,在 23 个雅达利游戏上表现还超过人类平均分。DeepMind CEO 哈萨比斯直接说:这是我们目前最通用的智能体。这一最新成果一发布,当即就在 AI 圈子里掀起热议。有 AI 研究者指出:Gato 令人印象深刻。只需要在云上花费 5 万美元,就能完成对它的训练。这点钱只是 PaLM 训练费用 1100 万美元的一个零头。用 PaLM 的预算完全可以将 Gato 扩展 100 倍,而这很可能是行之有效的。PaLM 是谷歌发布的 5400 亿参数语言模型。有人直接祭出了 AlphaStar 架构和 Gato 架构的对比:Zoom AI 杰出科学家 Awni Hannun 则直接感叹起过去 5 周以来,谷歌 / DeepMind 释出成果之密集。所以这只来自 DeepMind 的“猫猫”,究竟怎么一回事?一个 Transformer 搞定一切对于研究方法,DeepMind 只用一句话就解释明白了:我们受到语言大模型的启发,用类似的方法把模型能力拓展到文本之外的领域。没错,这次立功的又是语言大模型中常用的 Transformer 架构。Transformer 的本质就是把一个序列转换 (transform) 成另一个序列。所以要想让它掌握各种不同任务,首先就需要把各类数据都编码成序列。文本自不必说,天然就是序列信息,可用经典的 SentencePiece 编码。图像,ViT 已经打好样,先按 16×16 像素分割,再给每个像素编上号处理成序列。玩游戏时的按键输入同样是序列,属于离散值,比如懂得都懂的“上上下下左右左右 BABA”。操纵机器人时的传感器信号和关节力矩属于连续值,也通过一系列采样和编码处理成离散序列。最终,所有序列数据都交给同一个 Transformer 处理。整个 Gato 模型使用的训练数据总体上偏向游戏和机器人控制任务,596 个任务占了 85.3%。视觉和自然语言任务只占 14.7%。模型架构上,为了简洁和可扩展性,就在最经典的原版 Transformer 基础上小改,具体参数如下:24 层 11.8 亿参数版的 Gato,在谷歌 16×16 Cloud TPUv3 切片上训练了大约 4 天。到了部署阶段,Gato 对于视觉和语言任务就像传统 Transformer 和 ViT 那样运行。对于游戏和机器人控制的行为模式则可以理解为“走一步看一步”。首先给出一个任务提示,比如游戏操作或机器人动作,作为输出序列的开头。接下来 Gato 会观察当前的环境,对动作向量进行一次自回归采样,执行动作后环境发生变化,再重复这个过程……那么这样训练出来的 Gato,在各项任务中到底表现如何?仅靠 12 亿参数成为多面手玩游戏方面,Gato 的表现可以用一张图来总结。x 轴是训练集之中专家水平的百分比,其中 0 代表一个随机参数模型的水平。y 轴是 Gato 超过或达到对应专家水平的任务数量。最终结果,Gato 在 604 个任务中,有 450 个超过了专家水平的 50%。更详细的结果如下:雅达利游戏测试中,Gato 在 23 个游戏上表现超过人类平均分,11 个游戏上比人类得分高一倍。这些游戏包括经典的乒乓球、赛车,也包括射击、格斗等多种类型。在 Bengio 团队推出的 BabyAI 测试上,Gato 几乎在所有关卡达到了专家水平的 80%,最难的几个 Boss 关达到 75%。与之前 BabyAI 榜单上的两个模型水平相当(分别为 77% 和 90%),但这两个模型都针对性的用了上百万个演示来训练。▲ BabyAI 关卡示例在 Meta-World 上(虚拟环境中操作机械臂),Gato 在全部 45 个任务中,有 44 个超过专家水平的 50%,35 个超过 80%,3 个超过 90%。▲ Meta-World 任务示例操纵真实机器人方面,与之前模型对比也不遑多让。至于视觉和文本任务 DeepMind 这次至少为了验证通用模型的可行性,没有做跑分,而是给了一些示例。△ 描述图像▲ 聊天对话最后,DeepMind 还对 Gato 模型的可扩展性做了评估。虽然当前 Gato 在每一个单独任务上都还比不上 SOTA 结果,但实验结果表明,随着参数、数据和硬件的增加,Gato 模型的性能还有成比例上涨的空间。另外,Gato 在少样本学习上也表现出一定潜力。DeepMind 认为,这样一个通用模型将来可通过提示或微调迅速学习新的任务,再也不用为每个任务都重头训练一个大模型了。通用人工智能还有多远?看完 Gato 如此表现,网友们的“大受震撼”也就不奇怪了。甚至还有人认为,AGI(通用人工智能)近在眼前。当然,反对 / 质疑的声音也不小。比如始终冲在给人工智能泼冷水一线的马库斯,这次也第一时间开了炮:仔细看看第 10 页。无论模型有多大,大型语言模型标志性的不靠谱和错误信息仍然存在。但不管怎么说,DeepMind 在通用人工智能方向上的努力都在不断涌现出新成果。事实上,无论是 2013 年惊艳了谷歌的雅达利游戏 AI,还是名满全球的 AlphaGo、AlphaStar,DeepMind 透过这些阶段性成果想要达成的终极目标,一直都通向通用人工智能这个关键词。去年,DeepMind 首席研究科学家、伦敦大学学院教授 David Silver 还领衔发布了一篇同样引起不少讨论的文章:Reward is Enough。论文认为,强化学习作为基于奖励最大化的人工智能分支,足以推动通用人工智能的发展。而据 Gato 团队成员透露,这只“猫猫”已经在 DeepMind 内部孕育了 2 年时间。此次 Gato 是以有监督方式进行离线训练的,但论文也强调,原则上,同样可以采用离线或在线强化学习的方式对其进行训练。而就在一周前,DeepMind 发布了一个新视频,其中说到:我们接下来要做一件大事(the next big thing),那意味着需要去尝试很多人们认为过于困难的事情。但我们一定要去尝试一下。现在看来,这个 next big thing 就是指 AGI 了。论文地址:https://www.deepmind.com/publications/a-generalist-agent

为您推荐

返回顶部