Команда дослідників із Meta FAIR та Єврейського університету Єрусалиму зробила несподіване відкриття: змушувати великі мовні моделі «думати» менше насправді покращує їхню здатність розв’язувати складні завдання.
У новому дослідженні, йдеться, що коротші процеси міркування в системах штучного інтелекту не лише підвищують точність результатів, а й суттєво знижують обчислювальні витрати.
«У цій роботі ми ставимо під сумнів поширену думку, що довгі ланцюжки мислення обов’язково покращують можливості розуміння», — зазначають автори у статті «Не перевантажуйте думки. Перевага коротших ланцюжків для покращення логіки великих мовних моделей».
Це дослідження суперечить сучасній тенденції в розвитку ШІ, де компанії активно збільшують обчислювальні ресурси, щоб моделі могли виконувати детальні покрокові роздуми — так звані «ланцюжки мислення», які допомагають вирішувати складні завдання.
Точність ШІ зростає на 34% завдяки коротшим ланцюжкам міркувань
Дослідники виявили, що в межах одного завдання «коротші ланцюжки мислення значно частіше дають правильну відповідь — до 34,5% точніше, ніж найдовші ланцюжки, протестовані для того самого запитання». Це спостереження підтвердилося на різних провідних моделях та тестових наборах.
«Хоча довгі роздуми демонструють вражаючі результати, вони водночас потребують значних обчислювальних ресурсів і часу на висновок», — підкреслюють автори, звертаючи увагу на низьку ефективність таких підходів.
Новий метод «short-m@k» економить до 40% ресурсів і підвищує продуктивність ШІ
Дослідники запропонували інноваційний спосіб роботи штучного інтелекту під назвою «short-m@k». Ідея в тому, що ШІ робить кілька спроб розв’язати задачу одночасно, але припиняє обчислення, щойно перші відповіді готові. Потім обирається найпопулярніша відповідь серед цих коротких роздумів.
Для компаній, які використовують великі системи ШІ, це означає суттєву економію часу і ресурсів. За допомогою цього методу можна зменшити навантаження на обчислювальні потужності до 40%, при цьому не втрачаючи точності.
Хоча варіант «short-3@k» трохи менш економний, ніж «short-1@k», він стабільно дає кращі результати і працює швидше — економить до 33% часу.
Навчання на коротких прикладах робить ШІ кращим
Головний автор дослідження Майкл Хассід та його команда також виявили, що навчати ШІ на прикладах із короткими роздумами — корисно. Це покращує якість роботи моделей.
Навпаки, якщо навчати ШІ на довгих і складних роздумах, він починає думати довше, але не стає точнішим.
Великі компанії можуть зекономити мільйони, не «перевантажуючи» ШІ
Ці відкриття з’явились у важливий момент, коли компанії змагаються за створення ще потужніших ШІ, які споживають багато ресурсів. Дослідники наголошують, що довгі роздуми не завжди роблять ШІ розумнішим. Іноді навпаки — вони погіршують результати і збільшують витрати.
Чому це важливо
Це дослідження суперечить популярним раніше методам, які підтримували ідею довгих послідовних роздумів у ШІ.
Для тих, хто приймає рішення про інвестиції в ШІ, це означає: не завжди більше — це краще. Оптимізація і економія ресурсів можуть дати кращі результати та знизити витрати.
У світі, де всі хочуть масштабувати технології, виявляється, що навчити ШІ думати простіше — це не тільки економить ресурси, а й робить його розумнішим. Навіть штучний інтелект іноді потребує простого правила: не перевантажуйся!
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.