05.10.2022
Наш канал в Telegram: https://t.me/berzaru

Искусственный интеллект научил робота ходить

DayDreamer World Models for Physical Robot Learning

Обычно роботов обучают движениям на компьютерном симуляторе. Однако этот метод не универсален и требует значительных затрат, в том числе временных. Команда Калифорнийского университета в Беркли предложила решение проблемы — алгоритм Dreamer, основанный на обучении с подкреплением. Он позволяет роботу самостоятельно осваивать новые навыки и адаптироваться к изменениям вокруг. Исследование опубликовано на arXiv.org.

Робособака машет лапами в воздухе, как раздражённый жук. После 10 минут борьбы ей удаётся перевернуться на живот. Через полчаса робот делает свои первые неуклюжие шаги, как новорождённый теленок. Час спустя он уверенно расхаживает по лаборатории. Особенность этого четвероногого робота в том, что он научился этому сам, без компьютерной симуляции.

«Проблема в том, что симулятор никогда не будет таким точным, как в реальном мире. Какие-то аспекты всегда будут упущены. Чтобы адаптировать уроки из симулятора, требуется дополнительное программирование», — говорит Данияр Хафнер, который работал над проектом с коллегами Алехандро Эсконтрелой и Филиппом Ву, а сейчас проходит стажировку в DeepMind.

Алгоритм команды, получивший название Dreamer, использует прошлый опыт для построения модели окружающего мира. Dreamer также позволяет роботу проводить вычисления методом проб и ошибок в компьютерной программе, в отличие от реального мира, путём прогнозирования результатов его потенциальных действий. Это позволяет ему учиться быстрее. Как только робот научился ходить, он продолжал учиться и адаптироваться к неожиданным ситуациям, например, сопротивляться падению, если его толкнут палкой.

Джонатан Херст, профессор робототехники в Университете штата Орегон, говорит, что результаты, которые ещё не прошли экспертную оценку, ясно показывают, что «обучение с подкреплением станет краеугольным камнем в будущем управления роботами». У решения убрать тренажёр из обучения роботов есть много преимуществ. По словам Хафнера, алгоритм может быть полезен для обучения роботов тому, как осваивать навыки в реальном мире и адаптироваться к таким ситуациям, как аппаратные сбои – например, робот может научиться перемещаться с неисправным двигателем на одной ноге.

Этот подход также может иметь огромный потенциал для более сложных вещей, таких как автономное вождение, которые требуют сложных и дорогостоящих симуляторов, говорит Стефано Альбрехт, доцент кафедры искусственного интеллекта в Эдинбургском университете. Новое поколение алгоритмов обучения с подкреплением могло бы «очень быстро освоиться в реальном мире, поняв, как работает окружающая среда», говорит Альбрехт. В будущем, говорит Хафнер, было бы неплохо научить робота понимать произносимые команды. По его словам, команда также планирует подключить камеры к робособаке, чтобы дать ей зрение. Это позволило бы ему ориентироваться в сложных ситуациях внутри помещения, например отправиться в комнату, найти предмет или принести мяч.