导读
具身智能(Embodied Intelligence)是人工智能领域近期一个热门的研究方向,它研究一种智能系统,使得具身智能本体机器人与环境(物理模拟或真实世界)进行交互,该技术被认为是通往通用人工智能的重要途径。本文是对来自斯坦福大学SVL(Stanford Vision and Learning Lab)的Agrim Gupta和Silvio Savarese以及Human-Centered AI(HAI)研究所的Surya Ganguli和李飞飞(Fei-Fei Li)发表于2021年10月《自然》杂志子刊Nature Communications的《Embodied Intelligence via Learning and Evolution》[1] 论文的解读。
01
引言
为了使机器能够帮助人类完成各种任务,人工智能(Artificial Intelligence, AI)在近三十年迅速发展。特别是在过去十年中,由于深度学习(Deep Learning)的应用、大型免费静态数据集(例如图1的ImageNet [2] )的创建以及机器计算能力的提升, AI在计算机视觉(Computer Vision)、自然语言处理(Natural Language Processing)等子领域中,处理许多任务(如目标检测、语义分割等)时取得了超越人类的表现。
图1 ImageNet图像数据集[2]
然而,目前大部分深度学习模型训练时使用的数据来自于互联网,得到的模型是旁观型的,它只能学习到数据中的模式(pattern)并将其映射到标签层,并不能在真实世界中直接进行学习,也不能对真实世界作出直接影响。为了满足AI机器人能够像人类一样在真实世界中实践型学习,并执行任务的需求,具身智能成为了一个近期热门的研究方向,它被认为是通往通用人工智能的重要途径。
02
具身智能
具身智能是面向构建一种智能系统,使得具身智能本体机器人与环境(物理模拟或真实世界)进行交互。机器人在环境中通过感知获取数据,在其“大脑”中学习物理概念,并作出决策执行任务(移动、操作等),即:智能产生于机器人本体、大脑和环境的耦合。这使得AI与人类一样,以第一视角与环境交互,从连续的经验中学习。具身智能的实际价值有:(1)逐步替代众多行业中的中低端型从业人员,有望解决各行业劳动力短缺问题;(2)替代社会运行中的人工操作环境,实现完整的无人数字化闭环。
为了构建一个具身智能系统,学者们致力于回答以下几个科学问题:
(1)如何定义、获取、表达可以被机器人使用的物理概念;
(2)如何构建元操作流模型 [3],即用一个简单模型来统一描述各种行业、各种环境下近乎无穷数的操作任务,将任何一个人类操作任务分解为多个步骤,用于具身智能学习任务;
(3)如何设计智能本体集以用于感知环境和执行各种任务。
当前具身智能主要的研究方向有:(1)创建具身智能执行任务,如操作任务 [4](Manipulation Tasks)、导航 [5](Navigation)、问答 [6](Question Answering)等;(2)制作具身智能工具(如仿真器);(3)构建具身智能的方法,如模型学习,即在人类的指导下学习如何执行任务;以及强化学习,即不断试错进行学习。
目前除了斯坦福、麻省理工、加州伯克利等团队开始探索具身智能的研究,国内上海交通大学卢策吾教授团队也正在开展关于具身智能的相关研究,研究论文AnyGrasp [4],如图2所示,是第一个在杂乱场景中实现人类水平抓取的解决方案,它可以在任何场景下抓取任何物体,无论是刚性物体还是可变形物体。
图2 AnyGrasp通用对象抓取[4]
03
Nature Communications论文[1]解读
在自然界中,动物为了适应环境,其形态会不断地进化,以更好的生存和生活。因而在具身认知领域中,假设了形态非常适应环境的智能本体可以快速学习复杂任务。为了创建在多样化复杂的环境中学习控制任务的具有良好适应性形态的具身智能本体,该论文构建了一个计算机模拟的进化游乐场,其中具身智能本体的形态会通过突变和自然选择来模仿达尔文代际进化,包含所有形态的集合被称为通用动物形态学设计空间(UNIversal aniMAL,UNIMAL)。而在与不同的复杂环境交互中,具身智能本体感知环境及自身情况获取数据,具身智能大脑(控制器)在不断地试错中学习如何运动及完成操作任务。上述的计算框架被称为深度进化强化学习(Deep Evolutionary Reinforcement Learning,DERL)。此外,该论文首次对形态学鲍德温效应进行了验证。
(1)UNIMAL是一个通用动物形态学设计空间,它使用了DeepMind的开源机器人物理模拟引擎MuJoCo来将智能本体形态的基因型编码为运动树,其中:球体代表了智能本体的头部即树的根结点,圆柱体代表智能本体的肢体。与智能本体相关的参数有:最大肢体数(固定值)、肢体半径(固定值)、肢体高度、肢体密度、肢体方向角度、头部半径(固定值)、头部密度、关节轴、齿轮比、旋转角度限制。UNIMAL设计空间包含了约个独特的肢体数的智能本体形态。
图3 UNIMAL通用动物形态学设计空间[1]
(2)DERL是一种可以进化出不同智能本体形态来在复杂环境中学习有挑战性的运动和操作任务的计算框架,即具身智能本体与环境、形态和学习到的控制三个维度相关。DERL包含了两个相互作用的自适应过程:模仿达尔文代际进化的外部循环通过变异操作优化智能本体形态,以及强化学习的内部循环优化控制器的参数。
每次的进化运行开始于576个形态不同的智能本体种群(控制器随机初始化),这些智能本体并行学习500万次(迭代)与环境的交互(终生学习),在终生学习最后约10万次迭代中获得的平均奖励产生了形态的适应程度(评估指标)。代际进化从当前种群中随机选择4个智能本体进行比赛(在任何时刻,288场比赛异步并行),4个中适应程度最高的被选为父代,变异其形态参数来创造其子代(子代的控制器随机初始化),通过终生学习来评估子代的适应程度并将子代添加到种群中,将种群中最老的智能本体删除来保持种群规模相同。在训练了4000种不同的形态后,进化运行停止,此时种群中的每个形态平均经历了10代进化。
图4 UNIMAL通用动物形态学设计空间[1]
在每个时间步,智能本体与环境交互得到内外部的感知数据:内部感知(智能本体形态特征)和外部感知(地形、目标和任务信息)共四种数据,每种数据首先分别进行编码,然后将其传递到全连接层,用于生成神经控制器的两个参数(分别对应策略网络和评价网络)。通过终生学习循环,采用近端策略优化(Proximal Policy Optimization, PPO)来优化这两个参数。
图5 内部强化学习优化神经控制器参数[1]
(3)3种复杂度不断增加的环境被用于在DERL框架中进化形态并学习智能本体的控制器:(1)平坦地形(Flat terrain,FT);(2)可变地形(Variable terrain,VT);(3)可变地形中的非抓握操作(Non-prehensile manipulation in variable terrain,MVT)。实验结果表明DERL能够为三种环境都找到成功的形态学解决方案,并且在不牺牲适应程度的情况下确保智能本体形态和步态的多样性。
图6 在三种环境中智能本体采取不同策略的延时图像[1]
为了评估在3种环境中进化出的形态的性能,该论文创建了8个任务用于测试形态的敏捷性(巡逻、点导航、过障碍和探索)、稳定性(逃生和倾斜面)和操纵性(在倾斜面上推盒子和操作球)。在每个环境的3次进化运行中选择了10个表现最佳的形态用于测试任务训练,控制器都随机初始化,仅比较形态差异对于性能的影响。实验结果表明,在更复杂的环境中进化出的形态在大部分测试任务中表现得更好,且学习速度更快。
图7 八个用于测试智能本体形态性能的任务[1]
(4)验证了形态学鲍德温效应的更强形式。实验结果表明,为达到所有三种环境最终种群中的前100名智能本体的标准适应程度水平所需的学习时间在几代之中迅速减少,这证明了存在形态学的鲍德温效应,即在进化早期通过终生学习在生命晚期才学习到的表型能力逐渐成为本能,甚至可能在后代的生命早期表达(通过基因型传递)。此外,由于实验设置仅考虑UNIMAL形态在学习结束后的表现,并没有给学习速度设置直接选择压力,但实验结果表明后几代不仅表现更好,而且学得更快 。因此对学习速度的直接选择压力对于鲍德温效应的成立是不必要的,即鲍德温效应的更强形式。这个结果的理论支撑是在三种环境中进化都会间接地选择更节能且更稳定的形态。这种形态学鲍德温效应可能在未来的研究中用来创建具有更高样本效率和泛化能力的具身智能本体。
04
总结
当前关于具身智能的研究仍处于探索阶段,在本期文章中,我们介绍了具身智能这一人工智能研究方向,并解读了一篇相关的论文。该论文提出了DERL框架用于具身智能本体形态的达尔文代际进化以执行运动和操作任务,论证了形态在越复杂的环境中进化可以表现得越好学习得越快,和形态学鲍德温效应的存在。作者希望他们的研究能够鼓励对具身智能学习和进化的探索,以在真实世界中制造出具身智能机器人。
参考文献
[1] Gupta, Agrim, et al. "Embodied intelligence via learning and evolution." Nature communications 12.1 (2021): 1-12.
[2] ImageNet Website and Dataset https://image-net.org/update-mar-11-2021.php
[3] Cewu Lu, Shiquan Wang.The General-Purpose Intelligent Agent[J].Engineering,2020,6(3):221-226.
[4] Fang, Hao-Shu, et al. "Graspnet-1billion: A large-scale benchmark for general object grasping." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.
[5] Batra, Dhruv, et al. "Objectnav revisited: On evaluation of embodied agents navigating to objects." arXiv preprint arXiv:2006.13171 (2020).
[6] Das, Abhishek, et al. "Embodied question answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

人工智能评测服务
上海市计算机软件测评重点实验室(SSTL)人工智能测评服务面向计算机视觉、语音识别、自然语言处理、推荐与搜索等领域,聚焦人工智能应用过程中的模型功能有效性评估、模型性能评估、数据集质量评估、对抗样本防御能力等,提供全方位的测评服务,保障人工智能应用的质量。


上海市计算机软件评测重点实验室(简称SSTL)由上海市科委批准成立于1997年,是全国最早开展信息系统质量与安全测评的第三方专业机构之一,隶属于上海计算机软件技术开发中心。
觉得内容还不错的话,给我点个“在看”呗
我知道你在看哟
