基于斯金纳的强化理论浅谈警犬训练中奖励的运用

2024-03-07 13:12许普之

中国工作犬业 2024年2期

许普之李涛杨毅

众所周知，斯金纳提出的操作性条件反射理论正被广泛应用于警犬训练之中，其核心观点为人或动物为了达到自身的某种需求，会采取一定的行为，而当这种行为的后果是对自身有利或者正向时，那么这种行为在以后出现的频率就会增加，反之则减少或完全消退。我们可以利用这种正强化或负强化的方法来决定动物行为的后果，从而达到固定所需的特定行为，这就是强化理论。目前，在警犬训练中的奖励正是基于强化理论中的正强化方法，训导员在训练中在恰当的时机通过给予犬食物、物品、抚拍、声音等奖励，对所需行为起到正强化作用从而达到训练目的。本文结合斯金纳的强化理论分析警犬训练中奖励物的选择、奖励时机的把握以及奖励的原则等内容，以期与业内人士共同探讨提高。

一、奖励物的选择

斯金纳的强化理论中提出强化作用与使用强化物是分不开的，这里所说的强化物不一定是实物（食物、物品等），也可以是行为（抚拍、声音）、表情等。在实际操作中，强化物的概念更为宽泛，我们将可以刺激动物再次出现某种行为的行为本身或由它带来的后果，都归为强化物。通过使用某种强化物，能使所需的行为发生概率增加，动物受到这种强化物的正向刺激，表现出积极性增高，这就是正强化，那么该强化物即为正强化物。正是因为强化物在塑造动物的行为上有着极大作用，所以在警犬训练中正强化物的选择也就是通常说的奖励物的选择就显得格外重要。

通常来说警犬训导员对奖励物的选择至少要考虑三个方面的因素：训导员便于提供和给予、警犬能够接受、对警犬能够起到正强化效果。在警犬训练中，训导员应当基于以上三个方面来选择强化物，同时还应考虑到便捷易用和成本限制的问题。在大多数情况下，在训练中训导员会在犬完成动作后给予抚拍、“好”的口令以及食物（犬粮、肉粒）、球类、咬包或其他玩具等物品作为奖励。除此之外，要使正强化能达到理想的效果，对奖励物的恰当使用是很重要的。一般来说，在开始训练前，首先要弄清本次训练的目标与训练科目难度以及受训犬的能力强弱，然后针对训练的特点使用恰当的强化物。例如在基础科目中的“坐”“卧”“立” “来”等科目的训练，训导员可以选择使用强化效力较小的奖励物，例如犬粮、肉粒等且考虑到训练的连贯性与重复性，单次奖励的量不宜过多；在训练基础科目中的“随行”或者使用科目尤其是搜索类科目时，选择使用强化效力较大的奖励物，例如球类、咬包或其他玩具等物品。总之，在训练中通过使用恰当的奖励物，可以使训练成效最大化。

需要注意的是奖励物效用的大小还与接受奖励的警犬有关。某种奖励能否达到相应的激励效果，取决于该奖励物的运用是否恰当合适，而评估该奖励物运用的恰当与否，又取决于施加的该奖励物作用对象的接受程度。因此，在警犬训练中选择奖励物时必须考虑到警犬的特质。比如，麻棒一般能够起到奖励作用，但是在较小月龄的犬的训练中却难以达到相应的奖励效果，理由很简单，较硬的麻棒不适宜幼龄犬的牙齿，此阶段的训练，小的咬包或者球反而更为合适。对于食物动力强的犬，选用较易获得的犬粮或者肉粒作为训练中的奖励，可以在达到奖励效果的同时也能保障训练的连续开展；对于衔取欲望和占有欲望强的犬则适于选用该犬喜欢的衔取物品作为奖励物进行训练。所以，在训练中采用奖励手段时，奖励物的选择应该根据警犬的个体特点和训练目标进行调整，以确保奖励对警犬具有意义。

二、奖励时机的把握

在警犬训练中，奖励时机的把握对训练效果的好坏有着直接联系，斯金纳的强化理论强调的动物行为与其带来的结果之间存在某种联系，可以通过强化来促进这种联系的建立，从而促进动物行为的发生。同样，在警犬训练中，训导员可以利用奖励的手段使警犬建立相应科目与奖励之间的联系。在此过程中，训导员对奖励时机的把握恰当可以使训练事半功倍。

首先，在前期的训练过程中的奖励要注重及时性，也就是及时反馈。根据斯金纳的强化理论，警犬在做出相应动作后训导员迅速给予奖励，以使警犬建立反馈机制，将该训练科目与可以直接获得奖励进行关联。这样，警犬在后续的训练过程中就能因为渴望获得奖励而更加积极地对训导员的指令做出响应。因此，训导员应避免过早或过晚给予奖励，从而避免使犬产生不良联系，影响训练效果。

其次，在后期的训练过程中要灵活运用间歇奖励。斯金纳的强化理论中提到强化类型表，将强化分为两大类——连续强化和间歇强化，其中间歇强化又分为固定时间、变动时间、固定比率和变动比率。斯金纳指出间歇强化停止后产生的反应消退要远低于连续强化，因此，训导员在训练中要善于运用间歇强化以更好地固定警犬的行为。例如基础科目训练时有时可以在犬每次完成动作就立即奖励，而有时可以在犬连续完成数个动作后给予奖励，这样警犬会更加努力响应训导员，以及为后续延缓能力打下训练基础。

三、奖励的原则

（一）奖励应当具有一致性。在训练中奖励伴随着警犬特定动作的完成而出现，那么最初的强化刺激便形成了。随着训练的开展，警犬的特定行为动作以及科目均伴随不同程度的奖励的出现，警犬就能形成分辨性刺激，从而自行区分相倚性联系。为了更好地使警犬形成分辨性刺激，我们在实际训练当中应保持奖励的一致性，即警犬每次完成训导员需要的行为或动作后均应该获得奖励，从而使警犬更加期待奖励的到来，积极做出相应动作。这样可以帮助警犬明确地对不同行为和指令进行区分，并且不会因为奖励的变化而混淆。

（二）奖励应当具有可变性。如果在长期的训练中训导员给予警犬的奖励总是相同的，警犬可能会对该奖励逐渐失去兴趣，那么所谓正强化的效果也就随之减弱。因此，训导员应该不时地改变奖励的类型和数量，保持奖励的神秘感以激发警犬对奖励的渴望和参与训练的积极性。

（三）奖励应当具有渐进性。在警犬训练中，随着训练的进行训导员应当逐渐减少奖励的使用频次，以培养警犬的自主性和独立性，使警犬降低对奖励的依赖。训练一开始，训导员应该也必须频繁地给予奖励，以建立警犬完成动作的积极的正反馈。然而，随着训练的深入，训导员应当逐渐减少奖励的使用频次，让警犬逐渐习惯不完全依赖奖励而完成训导员下达的指令或任务。根据斯金纳的强化理论，逐步减少奖励的使用可以增加警犬对奖励的渴望和期待，保持神秘感同时也可以增加警犬的自主性和独立性，这和间歇性奖励的运用有着紧密的联系。

（四）奖励应当具有多样性。警犬的不同训练方向和不同品种的警犬对不同类型的奖励偏好也有所差异，在训练过程中，警犬训导员要根据所带警犬的喜好，有针对性地选择多种奖励方式，如食物、玩具或响片的“咔哒”声、抚拍等。这样既可以增加训练的趣味性，又可以提高训练的成效。同时警犬训导员要培养敏锐的观察力，灵活地运用奖励，以满足每头警犬在不同阶段的需求差异。