学术咨询

让论文发表更省时、省事、省心

基于深度强化学习的机器人操作行为研究综述

时间:2022年02月15日 分类:电子论文 次数:

摘要:通过梳理、总结前人的研究,首先对深度学习和强化学习的基本理论和算法进行介绍,进而对深度强化学习的流行算法和在机器人操作领域的应用现状进行综述。最后,根据目前存在的问题及解决方法,对深度强化学习在机器人操作领域未来的发展方向作出总结与展望。 关键

  摘要:通过梳理、总结前人的研究,首先对深度学习和强化学习的基本理论和算法进行介绍,进而对深度强化学习的流行算法和在机器人操作领域的应用现状进行综述。最后,根据目前存在的问题及解决方法,对深度强化学习在机器人操作领域未来的发展方向作出总结与展望。

  关键词:深度学习;强化学习;机器人操作;深度强化学习;机器人学习

深度强化学习

  1引言(Introduction)

  随着机器人技术的发展,机器人被广泛应用于医疗、工业、国防以及家庭服务等领域。机器人在人工示教、遥操作以及复杂编程等传统方法的基础上,经过训练后具备一定的操作技能,并且在结构化环境下可以快速准确地完成任务[1-2]。然而,在智能化时代,机器人面对的往往是复杂多变的非结构化环境,传统的机器人技术会面对一些难题,比如机器人不具备处理未知环境的能力、开发时间长以及专业技能需求高等[3]。在一些情况下机器人仅能完成固定工作且不能泛化到新任务[4]。为了使机器人技能泛化到新环境中,机器人需要不断地与环境交互和学习,提高应对复杂环境的能力[5]。

  随着人工智能(artificialintelligence,AI)的发展,AI赋予了机器人强大的学习能力,使机器人学习更快并且缩减了机器人操作技能的开发时间,机器人的学习能力在一定程度上甚至能达到人类的水平[6-7]。在AI背景下,机器学习为机器人领域带来了新的机遇[8],尤其是强化学习(reinforcementlearning,RL)。RL是机器人与环境不断交互,进而不断强化自身决策能力的过程。RL不仅可以有效地解决复杂编程的问题,而且已经在机器人操作领域得到了广泛应用。深度学习与强化学习结合形成的深度强化学习进一步提升了机器人学习操作技能的能力。

  深度强化学习(deepreinforcementlearning,DRL)将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入信息控制机器人的行为,赋予了机器人接近人类的思维方式,是机器人获得操作技能非常重要的方法。机器人技能学习是使机器人通过交互数据,从行为轨迹中自主获取和优化技能,并应用于类似的任务[9]。机器人操作技能作为机器人与外界交互的重要技能之一,对机器人的发展应用具有重要意义。近年来,机器人操作行为的研究已经成为机器人领域的研究趋势和热点[10-11]。

  但RL应用于机器人操作行为的研究存在数据特征提取困难和机器人缺乏感知能力等问题。因此,深度学习与强化学习的结合必不可少。本文首先对基于深度强化学习的机器人操作行为研究进行了概述,然后介绍了深度学习和强化学习的核心概念和算法模型、深度强化学习的流行算法及原理以及深度强化学习在机器人操作领域的实际应用以及存在的问题,最后对深度强化学习在机器人操作领域的应用研究进行展望和总结。

  2概念和术语(Conceptsandterminology)

  2.1深度学习

  深度学习侧重于对事物的感知和表达,其核心思想是通过多层网络结构和非线性变换,将低层次数据特征映射为易于处理的高层次表示,以发现数据之间的联系和特征表示。深度学习使用多层结构抽象表征数据特征以构建计算模型,足够复杂的结构可以处理高维度的原始数据。深度学习的模型主要有深度信念网络(deepbeliefnetwork)、卷积神经网络(convolutionalneuralnetwork,CNN)、循环神经网络(recurrentneuralnetwork)等。CNN是前馈神经网络,经典的CNN由一个或多个卷积层和顶端的全连接层组成。CNN使用反向传播算法训练模型,在图像处理方面应用广泛。

  对CNN进行改进的典型工作如下:Krizhevsky等[12]提出AlexNet深度卷积神经网络,该网络引入了全新的深层结构,并采取随机丢弃部分隐藏神经元的方法抑制过拟合现象;Simonyan等[13]通过增加网络层数,提出了VGG-Net模型,图像识别准确率进一步提升;Lin等[14]通过增加卷积模块,利用多层感知卷积层提取图像特征,大大降低了图像识别错误率。研究表明,CNN图像识别具有良好的性能,为基于视觉的机器人操作研究工作提供了技术保证。

  将深度学习方法应用到机器人操作领域具有一定的挑战性,其中包括状态估计中存在噪声干扰、奖励函数难以确定、连续行为空间难以处理等[15]。但是仍有研究人员在基于深度学习的机器人操作领域进行了深入研究:杜学丹等[16]提出了基于深度学习算法的机械臂抓取方法,在UniversalRobot5机械臂上验证了方法的有效性和鲁棒性。伍锡如等[17]运用CNN进行图像处理以定位目标,并通过六轴柔性工业分拣机器人验证了模型的识别精度可达98%。除此之外,深度学习已经成功应用在机器人推动目标物[18]、操作3维物体模型[19]和操作容器倾倒液体[20]等任务。 然而,基于深度学习训练的机器人模型不具备行为决策能力和对未知环境的适应能力,因此强化学习的应用不可或缺。

  2.2强化学习

  2.2.1强化学习算法原理

  强化学习算法的原理是智能体不断与环境交互,理解最佳的行为方式,最终学习到最优的行为策略。

  2.2.2强化学习算法分类

  (1)无模型(model-free)算法和基于模型(model-based)的算法无模型强化学习算法是智能体通过与环境交互产生的样本数据,直接优化动作,而不是拟合模型。该算法以最小化偏差的方式与动态环境进行交互,保证算法渐近收敛,最终获得最优解。但是,无模型算法在样本数据收集方面非常昂贵,相对简单、低维度的行为也可能需要百万级数据,高维度的复杂行为需要花费更多的时间和精力。

  除此之外,无模型算法对超参数(比如学习率)非常敏感,微调参数后才能达到较好的结果。基于模型的强化学习算法是智能体根据其与环境交互产生的数据,训练并拟合模型,然后智能体基于模型优化行为准则。在基于模型的算法中,智能体可以推断未知的环境状态,提前计算状态转移概率和未来期望奖励,提高了样本效率。然而,该算法对未知的、复杂的动态环境难以精确地建模。

  因此,模型可能存在严重的偏差,且不能保证算法最优解渐近收敛,导致难以产生有效的行为策略。总之,无模型的和基于模型的强化学习方法没有绝对的好坏之分,不同的任务设计需求对应不同的算法类型。基于深度强化学习,机器人操作行为研究多采用无模型强化学习方法。(2)基于价值(value-based)的算法和基于策略(policy-based)的算法在基于价值的强化学习算法中,动作选择策略固定不变,如ε贪婪策略[6]。特定状态下,动作的选择方式相同。

  3深度强化学习(Deepreinforcementlearning)

  3.1深度强化学习概述及分类

  深度强化学习可以直接根据输入的原始数据进行动作选择,是一种更加接近人类思维方式的人工智能算法[25]。深度学习通过学习深层的非线性网络结构和数据集的本质特征,实现函数的逼近[26]。智能体在与环境交互的过程中,利用强化学习通过不断试错和最大化累积奖励来生成最优的行为策略[21]。

  近年来,深度强化学习[27]已经成功应用到围棋[28-31]、视频游戏[32-38]和多智能体[39]等领域。许多公司及机构,如DeepMind公司、OpenAI公司及加州大学伯克利分校等,基于深度强化学习对机器人行为的研究做出了突出贡献。DeepMind公司成功将深度强化学习算法应用到连续动作领域,比如机器人操作和运动等[40]。Heess等[41]基于分布式近端策略优化算法,使用前向传播的简单奖励函数,在多种具有挑战性的地形和障碍物上,成功训练了多个虚拟人物完成跑酷任务。

  OpenAI公司提出了新型的近端策略优化算法[42],成功训练多腿机器人相互玩游戏,并指导机器人不断适应彼此策略中的增量变化[43]。加州大学伯克利分校提出策略搜索算法,该算法迭代拟合局部线性模型以优化连续的动作轨迹[44],并且训练机器人成功完成了拧瓶盖任务[45]。

  总之,上述研究工作极大地促进了机器人领域的发展,为机器人实现智能化提供了强大的技术支撑。TRPO算法首先通过蒙特卡洛方法估计Q值,然后根据平均Q值得到目标和约束的估计,最后采用共轭梯度和线搜索方法近似解决约束优化问题[70]。TRPO算法保证了策略优化过程中性能渐进提高。但是,由式(19)~(23)的推导可知,其计算量较大,并且策略与值函数之间参数不共享。

  针对TRPO算法存在的问题,Schulman等[42]提出了TRPO1阶近似形式的改进型算法,近端策略优化(proximalpolicyoptimization,PPO)算法。PPO算法同样有AC架构形式,采用重要性采样机制重复利用样本数据,提高了样本效率,限制了采样网络和训练网络的分布相差程度。PPO算法在目标函数中增加剪切项,将策略更新限制在规定区间内。PPO算法使用了1阶近似形式,相比较TRPO算法的2阶泰勒展开,在复杂的高维度空间中具有更好的性能,保证了精度和训练速度。

  相对于TRPO算法,ME-TRPO(modelensembletrust-regionpolicyoptimization)算法[60]采用集成神经网络解决环境中数据不稳定性的问题,并交替进行模型学习和策略学习,对复杂任务具有良好的适应性。SLBO(stochasticlowerboundoptimization)算法[61]相对于ME-TRPO算法,保证了单调性的提高,并使用L2范数损失函数训练动力学模型。少样本训练时,SLBO算法在多项MuJoCo仿真器任务中的性能优于SAC算法、TRPO算法等。

  3.2.其他深度强化学习算法

  HER(hindsightexperiencereplay)算法主要解决了稀疏奖励导致强化学习困难的问题。HER算法通过附加目标奖励和价值函数,使得智能体到达的每个状态均有目标,且每个目标均对应一套稀疏奖励函数。智能体可以利用失败的探索经历进行动作限制,提高了样本利用率。除此之外,HER算法将目标数据附加到经验池中,重塑了经验池数据结构。Andrychowicz等[62]基于HER算法进行了机械臂推动、滑动、抓取并放置方块等3个任务。实验表明,HER算法可以结合任意的离线策略算法,并且效果优于原版算法。

  4深度强化学习在机器人操作中的应用(ApplicationsofDRLtorobotmanipulation)

  机器人操作行为是机器人与外界交互的首要条件,机器人只有具备了类似人类的思维方式,才能自主地与外界环境交互。研究表明,基于深度强化学习,机器人能够根据交互信息学习到行为策略,并根据行为策略和环境的状态表征选择合适的操作行为。传统机器人操作研究的局限性表现为:动态环境具有不可预测性、机器人仅在固定位置完成任务且不具备自主学习的能力、机器人技术开发时间长等。

  部分传统机器人依靠多种传感器采集机器人工作过程信息,传感器信息的融合过程不仅会导致信息丢失,而且会严重压缩信息质量。机器学习技术在计算机视觉领域广泛应用,这使得越来越多的机器人将视觉信号作为输入控制信号[71]。基于视觉的机器人操作系统是从图像中提取视觉特征信息来控制机器人运动,直接根据输入信息,输出机器人的行为。

  相对于基于多传感器数据融合的机器人操作系统,以基于深度强化学习的视觉信息作为输入的机器人操作系统能够直接将状态信息映射到行为空间,高效且精确。以机器人抓取为例,机器人需要通过视觉采集物体的空间位姿,计算出最佳的抓取位置和方向。因此,基于深度强化学习、以视觉信息为输入的机器人操作行为研究成为机器人操作领域的主流方向。本节主要讨论基于深度强化学习、以视觉信息为输入的机器人操作行为研究。

  针对不同的目标物属性,总结了以刚性物体和非刚性物体为操作目标的研究工作;针对不同的模型训练场景,总结了在模拟环境和真实环境中训练模型的研究工作;针对不同的奖励函数设计方式,总结了以稀疏奖励和塑性奖励为行为评价标准的研究工作;针对不同质量的示范数据,总结了示范和次优示范的研究工作,包括模仿学习在其中的应用;针对模型迁移到新任务需要进行大量微调或重新训练的问题,对元强化学习在机器人操作行为中的应用进行了总结。其中列举的工作为基于深度强化学习的机器人操作行为的近期研究成果和被引量较高的工作。

  4.1刚性目标和非刚性目标

  大多数机器人的操作目标主要是刚性物体,当机器人操作刚性物体时,物体不会发生形变或者形变可忽略不计。最近几年,家庭辅助机器人的产量逐年递增,机器人被大规模地应用于现实生活当中,而且人们对家庭辅助机器人的性能要求越来越高。家庭辅助机器人的操作对象主要集中在非刚性物体,如衣服、毛巾等。由于机器人操作非刚性物体会导致结构发生变化,非刚性物体的精确建模异常困难,因此,基于不同的操作对象属性选择不同的深度强化学习方法至关重要。

  5挑战和未来展望(Challengesandfutureprospects)

  基于深度强化学习的机器人操作研究,其发展动力主要源自于如何将深度强化学习的能力最大化。机器人只有具备了自主思考的能力,才能像人类一样在面对未知环境时探求最优的行为方式。虽然基于深度强化学习的算法已经解决了多种多样的机器人操作任务,并使机器人在执行操作任务时具备自主学习的能力,但是仍然存在很多技术挑战。

  几乎没有机器人操作问题可以被严格地定义为马尔可夫决策过程,而是表现为部分可观性和非平稳性,这是实验效果并不如预期的原因之一。对于多步骤任务而言,它涉及到很多动作和行为,不可能对每个动作或者行为都设置奖励函数。因此,机器人为了达到目标状态会表现出大量不合理的动作。

  此外,如何平衡“探索”和“利用”一直是机器人操作领域难以解决的问题,许多工作通过机器人在实验过程中的表现,人为限定“探索”和“利用”的界限,但是机器人难以自主学习如何去平衡“探索”和“利用”。基于深度强化学习的机器人操作研究仍然在如下几个方面存在挑战:

  1)非刚性物体难以被精确建模。机器人在重复性高、环境设定简单和操作不确定度小等场景下表现较好,但所操作的对象大部分为刚性物体。而非刚性物体(如毛巾、衣服等)的姿态和形状是不断变化的,难以构造其精确的物理模型,因此机器人在操作这类物体时难以选择抓取点,或者抓取点被遮盖住,直接导致机器人操作任务失败。针对此挑战,设计多指灵巧机械手和开发非刚性物体的开源模拟平台可能成为机器人操作柔性物体的有效解决方法。具体而言,多指灵巧机械手的手指可以相互配合,类似于人类手指,并且每个手指可以单独动作。对于柔性物体的姿态和形状发生变化的情况,开发强大的模拟平台实时对物体形状进行建模以确定理想的操作位置是有效解决途径。

  2)模型难以从模拟环境迁移到真实环境。大部分机器人操作研究首先在模拟场景中训练行为模型,然后将其迁移到真实机器人测试。虽然模拟场景有训练速度快、采样效率高和不损耗机器人设备等优点,但是由于模拟场景和真实场景存在物理约束和环境差异等领域差异,模型迁移后需要进行大量微调工作才能工作,往往效果不佳。因此,根据实验需求,将二者的领域差异因素加入到模拟环境中,可使行为策略具备更强的鲁棒性。在算法层面上,开发高级深度强化学习算法并从动力学角度加入真实场景中的摩擦力、光照、噪声等干扰因素,也可以成为一种有效减小领域差异的途径。

  3)不同环境不同任务间模型可移植性差。在某个特定环境和特定任务中训练的行为策略移植到新环境中往往需要微调以适应环境;移植到新任务中往往不具备直接完成任务的能力,甚至需要重新开始训练。针对此挑战,元强化学习可成为有效解决方法。元强化学习可根据经验和少量样本数据,改进行为策略适应新任务、新环境。此外,多任务学习可以通过多个任务间共享结构实现不同任务间的模型移植[172]。

  6结论(Conclusion)

  对深度强化学习算法的原理及其在机器人操作领域的应用现状进行了详细的论述。基于深度强化学习的机器人技术打破了传统方法中复杂编程及示教编程的壁垒,并赋予了机器人自主学习操作技能的能力。在基于深度强化学习算法的机器人操作任务中,深度强化学习算法训练的行为策略可指导机器人探索行为空间,使机器人面对未知环境时具备一定的决策能力。

  在此算法下,机器人面对未知环境时能自动调整行为策略以适应不同的操作任务。目前,深度强化学习已经在机器人操作领域取得了显著的成功,但仍面临非刚性物体建模困难、模型迁移性差、数据效率低等挑战。总之,深度强化学习的创新与进步促进了机器人操作行为的研究进程,为机器人真正实现智能化提供了技术保证。

  参考文献(References)

  [1]刘乃军,鲁涛,蔡莹皓,等.机器人操作技能学习方法综述[J].自动化学报,2019,45(3):458-470.LiuNJ,LuT,CaiYH,etal.Areviewofrobotmanipulationskillslearningmethods[J].ActaAutomaticaSinica,2019,45(3):458-470.

  [2]倪自强,王田苗,刘达.基于视觉引导的工业机器人示教编程系统[J].北京航空航天大学学报,2016,42(3):562-568.NiZQ,WangTM,LiuD.Visionguidebasedteachingprogrammingforindustrialrobot[J].JournalofBeijingUniversityofAeronauticsandAstronautics,2016,42(3):562-568.

  [3]RozoL,JaquierN,CalinonS,etal.Learningmanipulabilityellipsoidsfortaskcompatibilityinrobotmanipulation[C]//IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems.Piscataway,USA:IEEE,2017:3183-3189.

  [4]BroquereX,SidobreD,NguyenK.Frommotionplanningtotrajectorycontrolwithboundedjerkforservicemanipulatorrobots[C]//IEEEInternationalConferenceonRoboticsandAutomation.Piscataway,USA:IEEE,2010:4505-4510.

  作者:陈佳盼1,郑敏华1,2

NOW!

Take the first step of our cooperation迈出我们合作第一步

符合规范的学术服务 助力您的学术成果走向世界


点击咨询学术顾问