基于粒子滤波的强化学习算法研究

2016-09-25 05:37董春利

无线互联科技 2016年15期

关键词：全局频谱滤波

董春利，王　莉

（南京交通职业技术学院电子信息工程学院，江苏　南京　211188）

基于粒子滤波的强化学习算法研究

董春利，王莉

（南京交通职业技术学院电子信息工程学院，江苏南京211188）

文章分析了一种基于粒子滤波和强化学习的算法。该算法通过结合粒子滤波和Q-学习算法，得到一种基于粒子滤波和强化学习的机会频谱接入算法（RLPF）。实验结果表明，RLPF算法能够在策略空间直接进行全局搜索，这是对传统的基于局部搜索策略的强化学习算法的明显改善。

强化学习；粒子滤波；策略空间；全局搜索

由于频谱资源紧张并不是频谱真正“物理上的稀缺”，而是传统的静态频谱管理方式导致的结构性矛盾。动态频谱接入（Dynamic Spectrum Access，DSA）被认为是一种与传统静态频谱管理相反的频谱利用方式，这使得DSA有了更广泛的内涵，为提高频谱资源的利用效率提供了全新的方向。认知无线电是实现DSA的关键技术，提供了与授权用户（Provided User，PU）机会共享无线信道的能力［1］。

认知无线电的OSA具有认知能力，能感知当前网络条件并且作出规划和决策，具有对以前决策的评判和未来决策判定的学习能力。因为OSA系统中的频谱环境总是随时间而变化，因此在不需要信道环境的先验知识和动态模型的前提下，亟待通过不断与环境进行交互学习，实现优越性能的革新技术出现［2］。强化学习作为一种无模型、无监督的在线学习算法，是解决上述问题的有效途径，近年来已经成为解决OSA问题的主流方法，得到了广泛应用。

为了提高全局搜索能力，从而找到全局最优策略，将粒子滤波引入到机会频谱接入，这是对传统的基于局部搜索策略的强化学习算法的明显改善。把强化学习的奖励函数看作是粒子滤波的一个不恰当的概率密度函数（IPDF），是基于有限数量采样的未知概率密度函数（PDF）的一种近似估计算法。文献［3—4］提出了基于粒子滤波的直接策略搜索强化学习算法，在策略空间中具有进行全局搜索的能力，从而找到全局最优策略。与卡尔曼滤波相比，粒子滤波适应于认知无线电OSA的非线性环境。

1　粒子滤波

（2）计算重要性权值

2　基于粒子滤波和Q-学习的机会频谱接入算法（RLPF）

文献［5］利用粒子滤波为一个大规模动态频谱接入系统进行资源分配。按照每个用户实现的吞吐量，分析了粒子滤波算法的性能，并将粒子滤波算法与Q学习算法进行了性能比较，验证了所提出的粒子滤波算法的有效性。与卡尔曼滤波相比，粒子滤波适应于一般情况（非线性模型，非高斯噪声，多模态分布）。

文献［3—4］提出了基于粒子滤波的直接策略搜索强化学习算法，主要借鉴粒子滤波的思想，揭示粒子滤波算法和强化学习之间的联系，提出了一种新的强化学习算法。该算法的主要优点是在策略空间中具有进行全局搜索的能力，从而找到全局最优策略。

定义一个策略粒子pi，数组pi=〈qi，ti，Ri，wi〉，通过运行强化学习策略π（θi）所执行的试验τi得到粒子pi，θi是策略参数值的一个矢量，调节强化学习策略π的行为。策略粒子还存储着评价这次试验的奖励函数值Ri=R（ti（p（qi）））。变量τi包含试验期间记录的特殊任务信息，这个信息被奖励函数执行它的评价使用，变量ωi是该策略粒子的重要性权值，它的计算方法如下。

RLPF继承了粒子滤波的很多优点，实现简单，计算量小，占用内存非常低。利用函数g（R），增加每个奖励间的相对差异，例如，函数g（R）=（1+R）2，RLPF可把执行全局随机采样的努力集中到策略空间最重要的部分中。通过改变初始噪声水平ε0和衰减因子λ，根据精度和时间的要求，RLPF可显示自适应算法的收敛速度。

RLPF作为一个全局搜索算法，因为搜索的范围是尽可能最大的全部策略空间，一般需要多次试验来收敛。另外，即便粒子滤波没有收敛性的严格证明，在实践中，粒子滤波的经验已经证明，在实际应用中能获得优异的结果。

3　实验结果

首先在一维问题中单独评估RLPF，它在可视化和分析中是最简单的。图1显示了一个RLPF运行的例子，有多个局部最优解的一组合成的一维奖励函数。通过RLPF生成的策略粒子由垂直灰色条纹显示，在绿色的奖励函数线上，相应的奖励值由黑色圆圈显示。使用以下的合成奖励函数，因为它有许多局部最优：R（θ） = 1.55 + 0.3 sin（2.7θ） + 0.4 sin（4.5θ） + 0.2 sin（8.7θ） + 0.14 sin（20θ） + 0.08 sin（30θ） + 0.08 sin（50θ）。显然可见，通过RLPF所产生的策略粒子往往集中在奖励函数的最高峰。

图1　一维问题中的RLPF的一个典型运行

图2　全局策略搜索RL算法的收敛性比较

其次，比较RLPF与其他全局策略搜索RL算法的性能。很难选择比较RLPF的基准，因为没有任何真正意义上的基于RL算法的全局搜索策略。比较一个本地搜索RL，如策略梯度RL和RLPF是不公平的，因为局部搜索方法会容易陷入局部最优。因此作为一个基准，使用一个随机的全局策略搜索RL算法，在策略空间上，它是基于全局随机抽样（Global Random Sampling， GRS）。其与RLPF的比较如图2所示，平均超过许多运行次数，和图1同样的问题。平均每个算法50以上运行的结果。每轮有100个试验。在实现的奖励值大和奖励值较小的变化两个方面，RLPF轻易超过GRS。

4　结语

由于粒子滤波有进行全局搜索的能力，将粒子滤波和强化学习相结合，由此产生的RLPF算法也能够在策略空间直接进行全局搜索，这是对传统的基于局部搜索策略的强化学习算法的明显改善。这项研究为OSA开辟了一个新的研究方向，未来它将会应用到更多的领域。

［1］WU J， YANG L， LIU X. Subcarrier and power allocation in OFDM based cognitive radio systems［J］.4th International Conference on Intelligent Computation Technology and Automation， 2011（13）：728-731.

［2］XU Y H， WANG J L， WU Q H， ET AL. Opportunistic spectrum access in unknown dynamic environment a game-theoretic stochastic learning solution［J］. IEEE Transactions on Wireless Communication， 2012（4）：1380-1391.

［3］PETAR KORMUSHEV， DARWIN G， CALDWELL. Direct policy search reinforcement learning based on particle filtering［J］. European Workshop on Reinforcement Learning， 2012（10）：1-13.

［4］BORKAR V S， JAIN A. Reinforcement learning， particle flters and the EM algorithm［J］.Information Theory and Applications Workshop， 2014（12）：1-5.

［5］BEN GHORBEL M， KHALFI B， HAMDAOUI B， et al. Resources allocation for large-scale dynamic spectrum access system using particle fltering［J］.Globecom Workshops， 2014（23）：219-224.

Research on reinforcement learning algorithm based on particle flter

Dong Chunli， Wang Li
（School of Electronic and Information Engineering， Nanjing Vocational Institute of Transport Technology， Nanjing 211188， China）

This paper analyzes a particle flter based on reinforcement learning algorithm. The new algorithm processed the opportunistic spectrum access algorithm based on particle flter and Q-learning algorithm by combining particle flter and Q-learning algorithm. The experimental results show that the RLPF algorithm can be directly used for global search in the strategy space， which is a signifcant improvement of traditional reinforcement learning algorithm based on the local search strategy.

reinforcement learning； particle flter； strategy space； global search

南京交通职业技术学院高层次人才科研基金项目；项目编号：No. 2013。

董春利（1964— ），男，山东青岛，博士，教授；研究方向：认知无线电网络与下一代无线泛在网络。

基于粒子滤波的强化学习算法研究

1 粒子滤波

2 基于粒子滤波和Q-学习的机会频谱接入算法（RLPF）

3 实验结果

4 结语

1　粒子滤波

2　基于粒子滤波和Q-学习的机会频谱接入算法（RLPF）

3　实验结果

4　结语