четвер, 30 січня 2025 р.

Новий підхід до навчання може допомогти ШІ-агентам працювати краще в непередбачуваних умовах


Якщо домашнього робота навчити виконувати завдання в умовах фабрики, він може погано впоратися з прибиранням у кухні чи винесенням сміття, оскільки реальне середовище суттєво відрізняється від тренувального.

Щоб уникнути цього, інженери зазвичай намагаються максимально наблизити віртуальне навчальне середовище до реальних умов, у яких працюватиме ШІ.

Однак дослідники з Массачусетського технологічного інституту та інших установ виявили, що в деяких випадках навчання в кардинально іншому середовищі дає кращі результати.

Їхні експерименти показали, що тренування ШІ-агента у світі з меншою кількістю випадкових факторів (так званого «шуму») може зробити його ефективнішим, ніж навчання безпосередньо в хаотичному середовищі, в якому його потім тестуватимуть.

Цей ефект вони назвали «ефектом тренування в приміщенні» (indoor training effect).

Ефект тренування в приміщенні

«Якщо людина вчиться грати в теніс у залі без вітру, їй легше освоїти різні удари. А потім, граючи на відкритому корті, вона матиме більше шансів добре зіграти, ніж якби одразу почала навчання в умовах сильного вітру»
— пояснює Серена Боно, дослідниця Media Lab.

Вчені дослідили цей феномен, тренуючи ШІ-агентів у змінених версіях класичних ігор Atari, зокрема Pac-Man. Вони виявили, що «ефект тренування в приміщенні» повторювався у різних іграх та їхніх модифікаціях.

Ці результати можуть відкрити нові підходи до навчання штучного інтелекту, які не обмежуються простим відтворенням реального середовища.

«Це зовсім новий спосіб поглянути на проблему. Замість того щоб намагатися ідеально відтворити реальні умови

Чому ШІ-агенти погано адаптуються до нових умов?

Основна проблема полягає в тому, як саме навчають ШІ-агентів. Один із популярних методів — навчання з підкріпленням (reinforcement learning), коли агент пробує різні дії в середовищі та отримує винагороду за правильні рішення.

Дослідники вирішили перевірити, як впливає на навчання так звана функція переходу — механізм, що визначає, як змінюється ситуація після кожної дії ШІ-агента. Наприклад, у грі Pac-Man ця функція контролює, з якою ймовірністю привиди будуть рухатися вгору, вниз, вліво чи вправо.

У звичайних умовах навчання ця функція залишається незмінною під час тренування та тестування. Але вчені експериментально додали випадковість у поведінку привидів, щоб зробити середовище менш передбачуваним.

Очікувано, якщо агент навчався в такому хаотичному середовищі, його продуктивність падала.

Проте несподіваним відкриттям стало те, що ШІ-агенти, які спочатку навчалися у спокійному, передбачуваному середовищі, а потім переходили до хаотичного, працювали краще, ніж ті, які одразу навчалися у хаосі.

Це суперечить стандартному підходу, коли тренувальне середовище намагаються зробити максимально схожим на реальне.

«Зазвичай вважається, що для досягнення найкращих результатів потрібно максимально точно відтворити реальні умови під час тренування. Ми перевірили цю гіпотезу десятки разів, бо самі не могли в це повірити»

 — зазначає Мадан.

Як саме працює «ефект тренування в приміщенні»?

Дослідники виявили, що ефективність навчання залежить від того, як ШІ-агенти досліджують середовище.

  • Якщо вони вивчають одні й ті ж області, то агент, навчений у «спокійному» середовищі, працює краще, оскільки йому легше зрозуміти правила без впливу випадкових факторів.

  • Якщо ж їхні маршрути дослідження суттєво різняться, агент, навчений у хаотичному середовищі, може мати перевагу, оскільки звикає до нестандартних ситуацій.

«Це схоже на гру в теніс: якщо я навчуся грати лише правою рукою у спокійному середовищі, але в складних умовах доведеться використовувати й ліву, то мені буде важче адаптуватися» 
— пояснює Боно.

Перспективи дослідження

У майбутньому вчені планують перевірити «ефект тренування в приміщенні» у складніших сценаріях навчання штучного інтелекту. Вони також хочуть розробити спеціальні середовища для тренування, які дозволять максимально використати цей ефект, допомагаючи ШІ-агентам краще адаптуватися до реального світу.

Авторка: Дар’я Бровченко

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.