Обучение с подкреплением: суть метода и перспективы

Не секрет что промышленные роботы, задействованные в различных отраслях промышленности, в основном выполняют повторяющиеся задачи. Их общая производительность зависит от точности контроллеров для отслеживания заданных траекторий движения. На сегодняшний день способность технологических решений работать в сложных условиях окружающей среды ограничена.

Например, захват манипулятором ранее неизвестных ему объектов или вставка новых деталей во время сборки какого-либо элемента являются достаточно сложными операциями. Вы можете справедливо отметить, что технологические решения уже сейчас демонстрируют повышенную ловкость и продвинутый уровень контроля. И с этим нельзя не согласиться. Примером тому являются манипуляторы ABB в Robot Fanta Can Challenge или роботы-игроки в пинг-понг.

Однако использование роботов для таких специфических случаев подразумевает сложное предварительное программирование и большие затраты. Кроме этого никто пока не отважился внедрить такие манипуляторы в полноценное производство. Ведь такие роботы как правило могут работать только по строго заданному алгоритму.

Другое дело если бы технологические решения могли самостоятельно приобретать навыки, необходимые для выполнения тех или иных операций. Но для этого они должны обладать более высоким интеллектом. Так перед учеными встала задача разработать адаптируемые, но надежные алгоритмы управления манипуляторами, просчитать как можно справиться с трудностями моделирования всех возможных поведений системы и создать прототипы поведенческих реакций робота.

Специалисты нашли возможный путь для решения таких задач. Это обучение с подкреплением. В чем его суть? Такой метод позволяет испытуемой системе (агенту) обучаться через взаимодействие с окружающей средой. Cамое главное — робот сможет самостоятельно выяснить, как выполнять поставленные перед ним задачи. А специальные механизмы позволят технологическому решению каждый раз фиксировать успешность своих действий.

Представьте следующую ситуацию. Робот получил задание достать предметы из одной коробки и переложить их в другую. В течение ночи технологическое решение будет само пытаться понять, как выполнить поставленную задачу. К утру манипулятор уже освоит выполнение данной операции, как если бы он был запрограммирован специалистом.

В отличие от традиционных методов управления робототехническими решениями основная идея метода обучения с подкреплением состоит в том, чтобы предоставить контроллерам роботов как можно более точную и подробную информацию о том, что нужно сделать, а не о том каким образом это нужно сделать. Таким образом, агент взаимодействует с окружающей средой и собирает наблюдения. Робот запоминает верный алгоритм выполнения действий. Такой подход и вправду более глубинный по сравнению с традиционным.

Используя традиционные методы программирования не учитывается динамика мира, действия робота просто программируются. Метод обучения с подкреплением позволяет «наблюдать» за миром.

Рассмотрим еще один пример. Ученые провели опыт с шестеренками и валом. Для выполнения поставленной задачи манипулятору потребовалось 7 попыток как при традиционном методе, так и при обучении с подкреплением. Сперва может показаться что такое количество попыток не так уж и много для лабораторных установок. Однако при этом они влекут за собой риск, поскольку каждая попытка в среде с высоким коэффициентом трения может повредить деталь, контактирующую с захватом. Точные датчики и адекватное управление ограничениями помогут облегчить проблему. Все же не удастся совсем избавиться от необходимости инженерных работ, чтобы робот не попал в положение блокировки из-за ограничений в движении. Однако безусловно гораздо лучше, когда манипулятор при работе ориентируется на окружающую обстановку и учитывает возможное трение.

Возможно, наилучшим решением будет использовать комбинацию методов. Традиционный контроль дает гарантию безопасности и производительности роботизированных установок, в то время как новый подход отвечает за гибкость и адаптивность при корректных настройках. Кроме этого таким образом устраняется специфичность, необходимая на этапе проектирования элементов управления. Например, управление положением манипулятора может осуществляться с помощью ПИД-регулятора, а новый метод позволит усовершенствовать часть управления, связанную с контактами и трением.

В целом специалисты в области робототехники считают, что обучение с подкреплением поможет упростить и ускорить программирование роботов, которые используются на заводах.

— Промышленные роботы ABB в каталоге robotforum.ru

Автор: Мария Котанович: 17.12.2018

Источник: Therobotreport

Источник: robotforum.ru