基于改进PPO算法的双足机器人自适应行走控制

2024-01-11 13:06吴万毅刘芳华郭文龙
关键词:双足步态网络结构

吴万毅, 刘芳华, 郭文龙

(江苏科技大学机械工程学院, 江苏 镇江 212000)

双足机器人为仿人类外形设计, 具有多种行走模式,经控制可实现在楼梯、崎岖地面等复杂地形环境中智能行走.为保证机器人的稳定运行, 国内外学者开展了大量研究.葛一敏[1], Kim[2], Chen[3]等将离线步态规划作为主要控制手段, 结合其他在线步态修正算法, 实现了双足机器人的持续稳定行走, 但对算法解算的快速性与实时性要求较高, 双足机器人行走至复杂地形时无法迅速适应环境变化, 故该方法对双足机器人的实际控制效果不理想.深度强化学习(deep reinforcement learning, DRL)算法具有深层网络结构, 可处理高维状态信息[3-5].近端策略优化(proximal policy optimization, PPO)作为一种DRL算法, 可重复使用样本, 减少采样次数, 缩短学习时间, 在串联刚性体的轨迹规划控制中得到了广泛应用[6-10].Hou等[7]将PPO算法与单刚体的模型预测控制算法相结合, 准确预测双足机器人摆动下肢的运动状态, 同时抵抗行走干扰, 实现了双足机器人的稳定行走, 但该控制方法的模型训练收敛速度较慢, 并且机器人自重可能会影响行走的稳定性; Zhang等[8]采用PPO算法结合卷积神经网络处理拍摄的图像, 提高了状态处理效率, 使智能体具有稳定的控制效果, 但该方法仅适用于视觉领域的图像处理, 对于非视觉领域的应用存在局限性.针对上述问题, 本文拟提出一种基于改进近端策略优化算法的双足机器人控制方法, 将长短时记忆(long short-term memory, LSTM)与近端策略优化算法相结合, 并在非视觉领域引入注意力机制[11], 以期提高算法的学习效率和实现双足机器人在复杂环境下的自适应稳定行走.

1 近端策略优化算法

2 改进的近端策略优化算法

2.1 引入长短时记忆

图1 LSTM结构图Fig.1 Structure diagram of LSTM

2.2 引入多头注意力机制

多头注意力机制(multi-head attention mechanism, MHSA)是注意力机制的一种扩展形式, 结构如图2所示.多头注意力机制的头数为h, 多个查询向量Q和状态信息输入向量X经LSTM输出后, 每个注意力关注LSTM输出信息的不同部分, 并进行平行计算, 最后将输出状态信息的不同权重进行拼接att((K,V),Q)=att((K,V),q1)⨁…⨁att((K,V),qm), 从而获得带有不同权重的状态信息, 提高神经网络处理信息的能力.

图2 多头注意力机制Fig.2 Multi-head attention mechanism

2.3 改进后PPO算法网络结构

改进后PPO算法网络结构如图3所示.在动作策略网络中, 把速度、位姿、雷达信息等24个搜集到的状态信息作为输入, 转化到具有256个隐藏单元的中间层, 通过LSTM映射及注意力机制计算, 输出带有权重差异的状态信息高维表示, 得到连续空间的输出动作概率分布.在价值网络中, 输入状态经两层全连接层, 由LSTM映射为一维的价值函数,得到输出的预测值.

图3 网络结构Fig.3 Network structure

3 实验结果与分析

为验证所提算法的有效性, 在Open AI gym提供的BipedalWalker-v3环境中进行仿真测试, 利用MuJoCo物理仿真器模拟双足机器人在崎岖道路环境下运动时身体姿态和关节角度的自适应变化.机器人具有四自由度和24个维度的状态信息, 前14个维度的状态信息包括机器人的关节运动速度、质心角度、地面接触力等, 后10个维度的状态信息由雷达提供.机器人行走建模时,设置学习率为0.000 1,衰减率为0.99, 剪切函数的超参数为0.2, 批量大小为256, 梯度阈值为1.

3.1 收敛性

图4为改进后PPO算法的损失函数曲线.由图4可知, 随着迭代次数的增加, 损失函数曲线逐渐趋于平稳, 表明该算法收敛到最优解.为进一步分析所提算法的性能, 采用本文改进算法与PPO算法和深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法[13]进行对比仿真实验, 结果如图5和表1所示.由图5和表1可知, 本文算法的最终奖励结果与PPO算法相近, 而收敛速度更快, 这是因为该算法善于利用复杂的状态信息进行机器人动作预判.综上, 本文改进的PPO算法较其他算法具有更好的综合性能.

表1 3种算法的实验结果对比

图4 改进后PPO算法的损失函数曲线Fig.4 Loss function curve of enhanced PPO algorithm

图5 不同算法的平均奖励对比曲线Fig.5 Average reward graph of each algorithm

利用双足机器人膝关节和髋关节的弯曲角度数据创建可视化窗口, 分析双足机器人在仿真环境中的表现, 得到如图6~7所示的双足机器人自适应行走和四维动作的输出结果.由图6可知, 双足机器人能够根据输入状态信息, 不断调整并输出4个关节的角度, 最终形成稳定步态, 实现自适应行走.由图7可知, 双足机器人的4个关节能够交替进行周期性运动, 进一步证明了算法收敛后双足机器人运动过程的稳定性.

图6 双足机器人自适应性行走示意图Fig.6 Adaptive walking diagram of biped robot

图7 机器人四维动作输出值Fig.7 Output value of robot four-dimensional action

3.2 实物验证

为验证本文所提算法对双足机器人在不同行走环境下的控制效果, 搭建四自由度双足机器人实物模型, 模型照片及各部分具体参数如图8和表2所示.

表2 各段参数和关节幅度

图8 双足机器人实物模型Fig.8 Physical model of biped robot

在Gazebo物理仿真平台上, 利用本文所提算法对双足机器人在平坦地面和高度变化地面分别进行行走训练, 具体行走过程如图9所示.训练完毕后, 迁移近端策略的网络数据, 进行实物模型验证, 并通过超声波距离传感器测试双足机器人在平坦地面和高度变化地面行走时水平方向和竖直方向的位移变化情况, 结果如图10所示.由图10(a)可知, 双足机器人在平坦地面行走时的步态周期为2.5 s, 一个步态周期内的水平位移为60 mm, 竖直位移为10 mm以内, 行走过程中双足机器人始终保持稳定前行.由图10(b)可知, 双足机器人在高度变化地面行走时, 能够根据地面突起高度调节步态,进而实现自适应行走.综上, 改进后的PPO算法能够控制双足机器人在平坦地面及高度变化地面实现自适应行走.

图9 双足机器人在不同行走环境下的行走示意图Fig.9 Illustrations of bipedal robot walking in various environments

猜你喜欢
双足步态网络结构
步态异常,老年人应警惕这些疾病
Anti-N-methyl-D-aspartate-receptor antibody encephalitis combined with syphilis:A case report
基于面部和步态识别的儿童走失寻回系统
基于Kinect的学步期幼儿自然步态提取
冰冻的梦
基于互信息的贝叶斯网络结构学习
知识网络结构维对于创新绩效的作用机制——远程创新搜寻的中介作用
沪港通下A+ H股票网络结构演化的实证分析
复杂网络结构比对算法研究进展
便宜假肢能模仿正常步态