Роботов учат точнее следовать желаемому сценарию

Роботов учат точнее следовать желаемому сценарию

Ученые из Стэндфордского университета объединили два разных способа задания целей для роботов. Этот «кентавр» оказался эффективнее, чем каждый из способов отдельно друг от друга, — как в моделировании, так и в реальных экспериментах, сообщается на сайте университета. Исследователи представили свои работы 24 июня на конференции Robotics: Science and Systems.

«В будущем, я полностью уверен, в мире будет больше автономных систем, и им понадобится некоторое представление о том, что хорошо, а что плохо», — сказал Энди Палан (Andy Palan), аспирант Стэндфордского университета по направлению компьютерных наук и один из первых авторов работы.

Новая система для обучения роботов сочетает в себе способ демонстрации и опросы пользователей. Первый способ предполагает, что люди показывают роботу, что делать, а во втором случае они отвечают на вопросы о том, как они хотят, чтобы робот себя повел в определенной ситуации: например, когда определяет траекторию движения самоуправляемого автомобиля.

Демонстрации носят информативный характер, но они могут содержать и много лишнего. Предпочтения же составляют максимум один бит информации, но гораздо более точны, отмечают исследователи. Эти подходы отлично дополняют друг друга — и очень важно разумно обьединить данные, поступающие из обоих источников.

Новая комбинационная система начинается с демонстрации роботу манеры поведения. Это может дать автономным роботам много информации, при этом они часто пытаются определить, какие части демонстрации важны. Человек также не всегда хочет, чтобы робот вел себя так же, как и он сам. Так, предыдущие исследования показали, что люди хотят, чтобы автономные автомобили были бы менее агрессивными в управлении, чем они сами.

Эксперимент показал, что 80% людей охотнее пользовались комбинированным методом. Однако были и сложности. Эти люди сообщали, что не всегда могли понять вопросы, которые им задавал робот. Иногда им предлагали выбрать один из двух сценариев, которые казались одинаковыми или не относились к задаче. Это общая проблема в обучении на основе предпочтений. Исследователи надеются устранить этот недостаток с помощью более простых опросов, которые также позволяют быстрее получить ответ.

Оставить комментарий

Вы можете использовать HTML тэги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>