середа, 29 січня 2025 р.

Чому прогрес в ШІ навряд чи сповільниться


За останнє десятиліття системи штучного інтелекту (ШІ) розвивалися з неймовірною швидкістю. Від перемоги над легендарним гравцем у складну гру Go у 2016 році до здатності ШІ тепер розпізнавати зображення та мову краще за людей і успішно проходити тести, включаючи екзамени в бізнес-школах і питання на співбесідах в Amazon.

Минулого тижня, під час слухань Сенатського комітету з юстиції США щодо регулювання ШІ, сенатор Річард Блюментал з Коннектикуту описав реакцію своїх виборців на останні досягнення ШІ.

"Слово, яке використовують найбільше, — це страшно"
— зазначив він.

Підкомітет з питань конфіденційності, технологій та права, що контролює це засідання, почув свідчення трьох експертів, які наголосили на темпі прогресу в ШІ. Один із свідків, Даріо Амодеї, генеральний директор відомої компанії з розробки ШІ Anthropic, заявив, що

"найважливіше, що потрібно розуміти про ШІ, це наскільки швидко він розвивається".

Часто вважається, що науковий і технологічний прогрес є фундаментально непередбачуваним і залежить від спалахів прозорих ідей, які стають зрозумілими лише заднім числом. Проте прогрес у можливостях систем ШІ передбачувано залежить від трьох основних факторів — обчислювальної потужності, даних і алгоритмів. Багато з досягнень останніх 70 років стали можливими завдяки використанню більшої обчислювальної потужності, більшій кількості даних і алгоритмічним вдосконаленням, що дозволяють зменшити потребу в обчисленнях або даних для досягнення тих самих результатів. Розуміння того, як ці три фактори сприяли прогресу в ШІ раніше, є ключовим для розуміння, чому більшість фахівців вважають, що прогрес не сповільниться найближчим часом.

Обчислювальна потужність

Першу штучну нейронну мережу, Perceptron Mark I, розробили в 1957 році. Вона могла навчитися визначати, чи була картка позначена з лівого чи правого боку. Мережа мала 1000 штучних нейронів, і для її навчання було потрібно близько 700 000 операцій. Більше ніж через 65 років OpenAI випустила велику мовну модель GPT-4, для навчання якої знадобилося оцінено 21 септильйон операцій.

Збільшення обчислювальної потужності дозволяє системам ШІ обробляти більші обсяги даних, що означає, що система має більше прикладів для навчання. Це також дозволяє моделювати зв'язки між змінними з більшою точністю, що дає можливість робити точніші та більш детальні висновки.

З 1965 року закон Мура — спостереження, що кількість транзисторів в інтегральній схемі подвоюється приблизно кожні два роки — означає, що ціна на обчислювальні ресурси постійно зменшується. Хоча це і збільшило обсяг обчислювальних ресурсів, використовуваних для навчання систем ШІ, дослідники зосереджувалися більше на розробці нових методів створення систем ШІ, а не на тому, скільки обчислень вони використовують для навчання цих систем.

Це змінилося близько 2010 року.

"Люди зрозуміли, що якщо ви будете тренувати більші моделі, то насправді не отримаєте зменшення результатів"

— каже Хайме Севілья, директор Epoch, дослідницької організації.

З того часу розробники витрачають все більше коштів на навчання моделей більших масштабів. Для навчання систем ШІ необхідні дорогі спеціалізовані чіпи. Розробники ШІ або будують власну інфраструктуру для обчислень, або оплачують доступ до обчислювальних потужностей хмарних провайдерів. Сем Альтман, генеральний директор OpenAI, заявив, що навчання GPT-4 обійшлося більше ніж у 100 мільйонів доларів. Це зростання витрат у поєднанні зі зниженням ціни на обчислення, що зумовлене законом Мура, призвело до того, що моделі ШІ стали тренуватися на величезних обсягах обчислювальних потужностей.

Дані

Системи ШІ працюють, створюючи моделі взаємозв'язків між змінними у навчальних даних. Чим більша кількість даних, тим більше інформації має система для створення точної моделі зв'язків між змінними, що покращує її продуктивність. Наприклад, мовна модель, якій подають більше текстів, матиме більше прикладів речень, у яких слово "run" йде після "home".

Перше дослідження про Perceptron Mark I свідчить, що вона була навчена всього на шести даних точках. Для порівняння, модель LLaMa, розроблена дослідниками Meta, була навчена на близько одному мільярді точок даних, що є збільшенням в понад 160 мільйонів разів.

Алгоритми

Алгоритми визначають, як саме системи ШІ використовують обчислювальну потужність для моделювання зв'язків між змінними. Протягом останніх років дослідники знаходили способи досягати більшого з меншими затратами. Як зазначено в дослідженні Epoch,

"кожні дев'ять місяців введення кращих алгоритмів дозволяє подвоїти обсяги обчислювальних ресурсів".

Наступний етап прогресу ШІ передбачає значне збільшення обчислювальних потужностей, які використовуються для тренування моделей. Це зростання обумовлене зниженням вартості цих потужностей. Однак, коли витрати на збільшення потужностей стануть не виправданими, прогрес може сповільнитися. Інші дослідники вважають, що інновації в ШІ триватимуть завдяки новим методам використання даних та потужностей.

Прогрес у ШІ ймовірно триватиме на високій швидкості кілька років. Це викликає занепокоєння щодо того, що через два-три роки доступ до наукових знань може стати доступним не лише експертам, що збільшить ризики у таких сферах, як кібербезпека, ядерна технологія, хімія та біологія.


Авторка: Дар’я Бровченко

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.