"Дрессировка собак с помощью кликера" - читать интересную книгу автора (Карен Прайор)

ГЛАВА ПЕРВАЯ СОБАКА И ДЕЛЬФИН Дрессировка без наказания

Если вы видели выступление дрессированных дельфинов в океанариуме или по телевизору, вы наверняка обратили внимание, насколько дельфины — обучаемые животные. По команде они показывают все виды точных действий, включая прекрасные акробатические трюки и взаимодействие друг с другом и людьми-пловцами. Публику всегда поражает их готовность работать и тот интеллект, которым они для этого должны обладать. Как бы было хорошо, если бы собаки реагировали так же!

Если мы узнаем дрессировщиков дельфинов поближе, то увидим, что ни дельфины, ни их тренеры не являются гениями. Скорость, точность и явное наслаждение дельфинов своей работой обусловлены принципами дрессировки, которые используют при их обучении. Те же методы можно использовать и для обучения собак.

Исключение наказания

Самым первым принципом дрессировки дельфинов является исключение наказания при работе с животными. Не имеет значения, что вы получаете, даже если животное хочет вас заставить что-то сделать, окатив водой с головы до ног, ответить ему вы не можете. Вы не можете использовать поводок или кнут или собственный кулак против животного, которое быстро уплывёт от вас. Вы не можете заставить дельфина голодать, чтобы заставить его сотрудничать. Дельфины получают воду из рыбы, которую едят, поэтому лишение их рыбы приведёт к быстрому обезвоживанию и смерти. В конце концов, вы даже не сможете закричать на дельфина, потому что он вас не услышит.

Может быть, вы подумали: «Держу пари, я смогу найти способ наказать дельфина», а я держу пари, что вы действительно найдёте такой способ, но он всё равно не понадобится, потому что дрессировщикам дельфинов он и не нужен.

Собака которую обучают с кликером, становится энергичнее и отзывчивее она любит работать.

Дрессировщик может получить от дельфина всё, что захочет, для этого он использует только положительное подкрепление: один-два свистка и ведро рыбы. Мы «формируем» каждое действие с помощью положительного подкрепления. Мы используем позитивное подкрепление, чтобы добиться быстрой и правильной реакции на команду, достичь послушания. Мы можем использовать положительное подкрепления даже для улучшения дисциплины, для контроля нежелательного поведения, такого как атаки на плавучий матрас или отказ проходить в ворота (см. далее). Точное использование положительного подкрепления приводит к развитию у животных филигранной техники исполнения и любви к работе.

Для дрессировки собак мы часто используем силу как для побуждения к каким-то действиям, так и для исправления неизбежных ошибок. Мы можем использовать вознаграждение или ласку, делая неважным приобретение собакой опыта смущения, страха и даже физической боли в процессе дрессировки. Некоторые собаки достаточно спокойны к такому негативному опыту, но дельфины, которые являются дикими животными, на это не способны. Конечно, можно обучить дельфина и такими методами, но вы получите вялое, безрадостное и ненадёжное исполнение, к тому же дельфин может выказывать агрессию к людям. (Не правда ли, похоже на выполнение команд некоторыми собаками?)

С другой стороны, если вы дрессируете собаку теми же методами, которыми мы обучаем дельфинов, на основе положительного подкрепления, собаки начинают вести себя, как дельфины, они становятся энергичными, внимательными, точными, послушными и способны просто на фантастическое исполнение команд. В этой книге описано, как этого добиться.

Магический сигнал

Когда я общаюсь с дрессировщиками собак, то часто сталкиваюсь с неправильным мнением, что положительным подкреплением является пища. Это не так. Главным элементом достижения удивительного исполнения у дельфинов является вовсе не пищевое подкрепление. Дельфины работают не за рыбу, дельфины работают за свисток. Звук свистка является магическим сигналом, который влечёт за собой великолепное выполнение команды.

Первым шагом в дрессировке дельфинов является обучение их тому, что каждый раз, как они услышат свисток, они могут получить рыбу. Когда животные узнают, что свисток означает «Сейчас будет рыба», то дрессировщик свистком может отмечать то поведение, которое ему нравится, а затем постепенно формировать или развивать что-то более сложное как ответ на указание.

Например, допустим, что несколько раз дельфин слышит свисток (а затем получает рыбу), когда выпрыгивает из воды. Затем он начинает выпрыгивать каждый раз, когда дрессировщик поднимает руку. Затем он открывает для себя, что прыжок «работает» только тогда, когда дрессировщик поднимает руку. Так поднятая рука становится зелёным светом для прыжка.

Дрессировщик может постепенно вводить и другие условия — прыжок «работает» только в направлении от дрессировщика и по направлению к публике, когда прыжок выше полутора метров, когда прыжок совершается ровно через три секунды после поднятия руки. И, наконец, после нескольких уроков дрессировщик обучает дельфина делать «поклон на публику», по команде и с большой точностью. Дельфин тоже учит дрессировщика: «Все, что я делаю, представляет собой определённые виды прыжков, когда дрессировщик поднимает руку, он немедленно мне свистит и даёт рыбу каждый раз!»

Заметьте, что свисток не используется как команда. Он не приказывает дельфину что-то делать, сигналом к действию является поднятая рука. Свисток говорит дельфину в течение или в конце действия, что дрессировщику нравится это действие и за него дельфин получит рыбу. (Вы можете не зацикливаться только на пище, вы также можете связать условное подкрепление с лаской или игрушкой или другим стимулом.)

Теперь свисток становится условным подкреплением. На языке психологов пища, ласка или любое приятное переживание являются безусловным подкреплением, чем-то, что животное хочет получить безо всякого обучения. Свисток же является условным подкреплением, это то, что животное учат хотеть сделать. (Некоторые люди используют термин «первичное подкрепление» для пищи и «вторичное подкрепление» для сигнала. Я избегаю этих терминов, поскольку они приводят к мысли, что раз свисток «вторичен», он должен даваться после пищи, что для животного, конечно, бессмысленно и бесполезно как инструмент дрессировки.)

Главная роль

Что случится, если вы постараетесь научить дельфина простым прыжкам от вас по указанию, но не используя свисток? Во-первых, вы не сможете правильно выбрать время для вознаграждения рыбой, когда животное сделало плохой прыжок. Поэтому не имеет значения, какой прыжок сделало животное, ему всё равно потом дадут рыбу или не дадут рыбы вовсе. У вас нет возможности объяснить животному, почему один прыжок будет вознаграждён, а другой нет, или какой прыжок вам понравился больше. Был ли он достаточно высоким? Или вам понравилось, как животное уплывает или подплывает? Чтобы разработать прыжок нужной высоты, своевременности и направления, вы должны исключить все неточности методом проб и ошибок на многочисленных дрессировках. Вы будете счастливы, если животному не надоест (и дрессировщику тоже!), прежде чем исполнение будет правильным и точным.

Из-за отсутствия информации об этом, тот дрессировщик, который использует пищу как вознаграждение безусловного подкрепления обычно получает животное, которое работает энергично, но учится медленно. Мы наблюдали это и на собаках, которых вознаграждали многократно лакомством без какого-то ясного сигнала, который бы точно обозначил подкрепляемое действие. Эти собаки полны энтузиазма и дружелюбия, но они ничего не знают.

Дрессировка с лакомством эффективна всегда, но без условного подкрепления, например кликера, собака может стать одержимой попрошайкой.

К тому же если дрессировщик использует пищу без условного подкрепления, животное учится постоянно следить за дрессировщиком в ожидании пищи. Лошади суют нос вам в карман, а собаки лижут руки. Дельфины плавают вокруг дрессировщика и боготворят ведро с рыбой. Если животное постоянно следит за дрессировщиком, очень трудно научить дельфина прыгать в противоположном направлении, к публике.

Когда вы выработали условное подкрепление, вы сможете идентифицировать действие на расстоянии или когда животное двигается от вас. Поэтому хорошо обученное животное вместо того, чтобы надоедать вам своим попрошайничеством, будет делать своё дело, но одновременно внимательно слушать магический звук, чтобы оно ни делало: для лошадей и собак эта внимательность имеет огромное обучающее значение сама по себе.

Поскольку сигнал позволяет отмечать доли секунды, то свистком можно развить у животного точное понимание, чего хочет дрессировщик. Это позволит обучить животное, чему вы хотите, очень чётко и подробно. Например, пусть дельфин выучил одно правило (прыгать в заданном направлении), поэтому вы уверены, что он почти всегда прыгает в правильном направлении по вашему сигналу. Теперь добавим новые детали или правила. Вы решили: «Я буду подкреплять только высокие прыжки». Дельфин достаточно быстро учится новым деталям («Я должен прыгать в этом направлении и прыгать высоко»).

Этот постепенный процесс кажется очень тщательно разработанным, но на практике это фантастически короткий способ обучения сложному поведению. Даже с необученным дельфином дрессировщик может разработать эффектное и специфическое поведение по одному указанию (например, поклон на публику, который я описывала) за два-три дня, а иногда, если все идёт хорошо, и за один десятиминутный урок. Много раз за мою работу с дельфинами мне удавалось «схватить» определённое действие, сформировать его в нечто особенное и научить делать его по одному указанию всего за один урок, об этом говорят и другие дрессировщики дельфинов.

Как быть с собаками?

За один десятиминутный урок вы легко сможете переложить методы дрессировки дельфинов для собаки при использовании условного подкрепления. Некоторые собаки боятся свистков. Лучшим условным подкреплением для собак является кликер, маленькая коробочка, которая при надавливании на металлическую пластинку издаёт щелчок. Её можно купить в магазинах для животных или заказать по Интернету.

Как только вы увидите что собака напряжена и ждёт лакомства, знайте, что сигнал (щелчок) стал условным подкреплением

Возьмите с собой кликер и немного лакомства. Разделите лакомство на маленькие кусочки, так чтобы вознаградить собаку пятнадцать-двадцать раз, но не насытить её. Некоторые собаки будут работать за сухой корм, особенно перед кормёжкой, но обычно лучше взять что-то более соблазнительное.

Научите собаку распознавать щелчок кликера, щёлкая и давая лакомство раз пять в различных частях комнаты или сада (чтобы у собаки не появилось мысли, что кликер работает только в одном определённом месте).

Затем щёлкните кликером и помедлите с лакомством несколько секунд. Если вы увидите, что собака напряглась и ждёт лакомство, знайте, что сигнал стал условным подкреплением. Теперь вы можете создавать поведение, мы называем этот процесс «формированием».

Формирование поведения

Легче всего сформировать поведение под названием «Поймай свой хвост». Конечно, существует столько способов, как добиться этого поведения, сколько придумывают дрессировщики: вы можете повернуть собаку вокруг себя за ошейник, вы можете положить кусочек бекона на кончик хвоста, чтобы собака обернулась вокруг себя, чтобы полизать хвост. Но есть только один способ добиться этого сразу без принуждений.

Прекратите щёлкать кликером и немного подождите. Ваша собака может быть заинтригована и возбуждена, когда вы ничего не делаете. Она может крутиться и даже заскулить или залаять. В тот момент, когда собака движется или поворачивается в нужном вам направлении, щёлкните кликером. Дайте лакомство.

Опять подождите. Не обращайте внимания на все остальные действия собаки, за исключением правильного (не ждите чуда, один поворот головы или один шаг передней лапой в правильном направлении — это всё, что вам нужно). Если «поймали» это поведение, если у вас хорошее чувство времени, за три или четыре подкрепления вы можете добиться, что собака поворачивается в нужном направлении чаще и быстрее.

Теперь вам не нужно подкрепление после первого шага в нужном направлении, но вы должны подкреплять весь поворот в нужном направлении, который состоит из нескольких шагов, возможно, каждую четверть круга, а после того, как собака освоит эти четвертинки круга, обучение полному повороту пойдёт ещё быстрее.

Гриффа учат поворачиваться по кругу. За каждое правильное движение ему щёлкают кликером.

Это лучший момент прекратить первый урок: остановка после маленькой победы — вот золотое правило. На следующий день возьмите кликер, кучу лакомств и начните с первого шага, затем сделайте четверть круга, а затем полный круг, вы увидите, что во второй раз все пойдёт намного быстрее.

После обучения повороту на один круг переходите к следующему шагу — повороту на два круга, а затем уже к следующему и очень важному шагу — разнообразию подкрепления — в одном случае подкрепляйте половину круга, в другом два круга или один или три полных круга, или даже один с четвертью, такой порядок ваших действий заставит собаку быть очень внимательной. Когда собака поймёт, что от неё требуется, вы можете ввести знак рукой или словесное указание, чтобы собака выполняла этот трюк, только когда её попросят.

Это очень простой трюк, и он не создаст вам имени великого дрессировщика. Существует и другое поведение, в котором вы сможете попрактиковаться, это «обозначение целей», при котором у собаки формируют такое поведение, как прикосновение носом к точке, на которую вы указали. (Дрессировщики морских львов учат своих животных «целиться» в сжатый кулак дрессировщика, затем опуская кулак на землю, или поднимая его в воздух, дрессировщик может заставить льва двигаться в нужном направлении без принуждения.) Целью этих экспериментов не является обучение собаки трюкам, это демонстрация использования условного подкрепления при формировании поведения и того, насколько эффективным может быть этот вид подкрепления.

Почему нужно использовать кликер?

Зачем вам нужен кликер? Почему вы не можете, к примеру, использовать голос и слово «Молодец» в качестве условного подкрепления? Основной причиной является то, что вы не сможете сказать «Молодец» именно в те нужные доли секунды, чего вы с лёгкостью достигнете щелчком кликера. С помощью кликера после небольшой практики вы сможете подкреплять совершенно неуловимые движения — всего один шаг лапой в правильном направлении. Похвала — вещь неопределённая, потому что занимает слишком много времени. Щелчок также несёт информацию и для вас. Он учит вас чувству времени, потому что провести грань между слишком ранним и слишком поздним щелчком намного проще, чем между сказанными вслух словами.

Другой трудностью в использовании слов являются наши постоянные разговоры рядом с собаками, и с самими собаками, которые мы ничем не подкрепляем. Для собак очень трудно рассортировать значимые слова от общего шума, который мы производим. Но щелчок кликера сильно отличается от остальных звуков, поэтому его значение так кристально ясно для собак. Вы действительно увидите, насколько точно условно подкрепляемая собака реагирует на трещотку (она наэлектризована, гальванизирована, возбуждена), по сравнению с собакой натренированной на слово «Молодец». («Что? А…» Собака улыбнулась, помахала хвостом.)

Реальный мир

Итак, я слышала дрессировщиков, которые говорили, что кликер хорош только для обучения трюкам, но ни для чего больше. Вы не сможете использовать его, к примеру, в ринге обидиенс. Конечно, нет, но он там вам и не нужен. Значимость кликера заключается в формировании нового поведения или уточнении деталей, он не нужен животному, которое уже обучено. Но даже для знаменитого чемпиона по рабочим соревнованиям кликер в качестве условного подкрепления может стать очень полезным инструментом.

Когда поведение уже закреплено, его не нужно постоянно подкреплять

Один участник состязаний рассказал мне, что он обучил свою суку добермана сигналу кликера, а затем использовал этот сигнал для подкрепления того, чтобы собака смотрела в лицо хозяина во время работы вместо того, чтобы смотреть в сторону.

«Это выглядело, как будто она была признательна за информацию, потому что для неё все прояснилось», — сказал он. Конечно, когда собака начинает понимать, чего же от неё хотят, она будет делать это правильно и на ринге безо всякого кликера.

Не следует, однако, думать, что люди никогда не использовали условного подкрепления на ринге. Все дрессировщики делали это, чтобы закрепить в сознании собаки сигнал, который больше никто, кроме неё, не поймёт. Я знаю одного очень способного дрессировщика на послушание, использовавшего едва слышное фырканье как условное подкрепление. Я видела похвалу одной из участниц соревнований: «Хорошая работа!» (она тут же отразилась великим наслаждением на морде её собаки), которая была передана прикосновением пальца хозяйки к голове собаки. Я знаю, что одна участница соревнований научила свою собаку Рекса, что лакомства называются «Билли». Затем, когда собака все выполняла на ринге, она подкрепляла особенно хорошее поведение, например точное возвращение, что выглядело в виде команды: «Билли, рядом!» И всем казалось, что она использует обычное имя своей собаки.

Еда, еда, еда! Собака наслаждается, но общее впечатление отвратительное.

Насколько приятнее смотреть на собаку, которой щёлкнули, чтобы она приняла нужную стойку, ведь она знает, что её наградят позднее.

Когда собака обучена каким-то действиям, условное подкрепление позволяет не только отсрочить награду пищей, не теряя при этом совершенства исполнения, но и давать вообще меньше лакомства. Вам не следует волноваться, что ваше животное успеет насытиться ещё до конца работы. Один пример: на собачьих выставках я часто замечала хендлеров, которые раз за разом подкармливали собак, давали им пищу, чтобы получить наиболее совершенную выставочную стойку или напряжённое выражение. И когда бы я не наблюдала, как в собачью пасть падает все новая и новая пища, всякий раз я знала, что хозяин этой собаки не имеет ни малейшего представления об условном подкреплении! Намного эффективнее приучить животное к нужной позе, развить понимание словесного указания, а затем подкрепить собаку щелчком за то, что она сохраняла нужную стойку соответствующее время. Награда пищей последует потом, вне ринга или когда эксперт уйдёт.

Сила условного подкрепления заключается в его действии — оно передаёт информацию и влияет на поведение животного, причём во всех ситуациях, когда обычное подкрепление нежелательно или невозможно. Подумайте, к примеру, насколько было бы полезно условное подкрепление для обучения розыскных собак, ездовых, сторожевых, поводырей, разыскивающих птиц и приносящих убитую дичь и для формирования любого поведения собак, когда требуется, чтобы животное работало далеко от вас.

Контроль плохого поведения

Контроль плохого поведения при помощи положительного подкрепления вместо «коррекции» может показаться бесперспективным занятием, но дрессировщики дельфинов знают множество способов, как это делать. Мы предлагаем три примера.

1. Установление условного отрицательного подкрепления

Это не будет сигналом, означающим «Я собираюсь тебя ударить», но это будет сигнал «Нет, я не буду тебя подкреплять». Оно говорит животному, что ряд его действий не будет оплачен. Например, вы можете просто повернуться спиной к своей собаке. Животное быстро поймёт, что, увидев этот «красный свет» или «плохой» сигнал, оно должно изменить своё поведение. Вы сможете использовать этот сигнал, чтобы, к примеру, отучить собаку прыгать на вас приветствуя, а вместо этого спокойно стоять — тогда её подкрепят лаской.

Если ваша собака ведёт себя плохо, например прыгает на вас, вы должны чётко объяснить ей, что такое поведение подкрепляться не будет.

Однако когда собака твёрдо стоит на земле, её нужно подкрепить.

2. Использование положительного подкрепления для обучения несовместимым действиям

В нашем шоу в Морском парке один дельфин просто изводил одну из девушек, выступавших в том же шоу. Прежде чем дать пловчихе водяной пистолет (или разрешить другое наказание), мы обучили дельфина давить на рычаг, торчащий над водой по свистку или за рыбу, и каждый раз, когда девушка оказывалась в воде, мы просили его давить на этот рычаг. Дельфин не мог одновременно давить на рычаг и преследовать пловчиху, эти действия были несовместимы (тем более что давление на рычаг всегда подкреплялось, поэтому прекратилось преследование пловчихи). Вы можете использовать эту технику для приучения собаки лежать в гостиной во время вашего обеда, тогда она не будет попрошайничать у вашего стола.

3. Тайм-аут

Иногда дельфин делает что-то действительно плохое, например проявляет агрессию (бьёт головой или зубами по руке дрессировщика). Когда такое происходит, нужно сразу же повернуться к нему спиной, забрать свои принадлежности и ведро с рыбой и уйти на целую минуту. Дельфин сразу же высовывает голову из воды и смотрит с недоумением: «Эй, что я такого сделал?» После нескольких повторений он учится думать о своих действиях. Собачий эквивалент может быть таким же: уберите лакомство и кликер — и конец всем развлечениям.

Дрессировщики в океанариуме успешно используют тайм-ауты для борьбы с агрессией, направленной на людей-пловцов, даже у таких высокодоминантных животных, как взрослые самцы-касатки. Но эта техника может приносить страдания животным, поэтому использовать её нужно осторожно.

Вдумчивое отношение

Использование подкрепления составляет большую часть работы дрессировщика, поэтому оно заставляет вас думать. Но что за головная боль! Намного легче следовать таким простым правилам: если сделала кучу, ткните её носом, если собака не идёт рядом, дёрните поводок. Однако обдумав то, что вы собираетесь подкрепить, вы станете намного более искусным дрессировщиком. Но для совершенного выбора момента для подкрепления вам нужно сосредоточиться, тогда дрессировка станет очень волнующим, а не скучным занятием.

С точки зрения животного этот вид дрессировки не означает приучение держаться подальше от неприятностей, выполняя то, что от него требуют, ведь это просто обычная работа, и больше ничего. Взамен эта дрессировка даёт животному шанс победить, снова и снова, а также шанс контролировать хотя бы часть своей работы. Например, с точки зрения дельфина, когда он научился понимать значение свистка, дрессировка не становится для него сменой команд и послушания, она становится игрой в загадки, которые дельфин стремится «разгадать» различными способами, как заставить дрессировщика дунуть в свой свисток. Это игра по строгим правилам, но при равенстве обеих сторон. Ничего удивительного, что дельфины очень любят своих дрессировщиков, которые учат их послушанию!

Действие положительного условного подкрепления намного сильнее, чем у простой дрессировки. Если вы прекратите полагаться на контроль плохого поведения, а начнёте формировать хорошее поведение с чётко выраженными условными сигналами подкрепления, ваша собака будет относиться к вам совсем по-другому. Вы научитесь использовать интуицию при общении со своей собакой.

Дрессировка с кликером даст вашей собаке шанс побеждать снова и снова. Здесь Мич (помесь ротвейлера) учат удерживать лакомство на кончике носа, а затем схватить его.

Щелчок! Мич вознаграждают за правильное поведение, и она получает своё лакомство.