Стрімке зростання популярності ChatGPT — а разом із ним і лавина схожих генеративних моделей від інших компаній — вже засмітило інтернет масою марної інформації. І це вже серйозно гальмує розвиток майбутніх AI-моделей.
Коли штучний інтелект починає створювати все більше контенту, він "забруднює" ті людські тексти, на яких нові моделі вчаться. В результаті дедалі більша частина інформації, яку штучний інтелект вивчає і копіює, сама по собі стає продуктом AI — ніби підробкою, а не оригіналом.
Якщо це продовжувати, розвиток штучного інтелекту перетворюється на гру в "зіпсований телефон". Якість контенту падає, він все менше схожий на справжній, а самі системи стають менш точними і "розумними". У галузі це явище називають "колапсом моделі".
Саме тому дані, створені до буму ChatGPT, стають дуже цінними. У статті The Register це порівнюють із "сталлю з низьким рівнем радіації" — металом, виготовленим до ядерних випробувань у 1945 році.
Для прикладу:
Подібно до того, як вибухи атомної бомби забруднили метал радіацією, зараз інтернет заповнюється "забрудненими" AI-даними. Сучасний "метал" (тобто дані) непридатний для найчутливішого обладнання. Найцінніша "чиста" сталь — це старі військові кораблі з часів світових воєн, які не піддавалися радіаційному забрудненню.
Моріс Кіодо з Кембриджа назвав цей випадок "найбільшим внеском у ядерну медицину". Завдяки цьому ми маємо запас "чистої" сталі, без якої дослідження були б неможливими.
Аналогія підходить і для даних: якщо брати інформацію до 2022 року, можна бути впевненими, що вона майже не містить "забруднень" від генеративного AI. Все, що створено раніше — "чисте", все після — "брудне".
У 2024 році Кіодо та колеги написали статтю, в якій наголошують на важливості "чистих" джерел даних для того, щоб уникнути колапсу моделей і забезпечити чесну конкуренцію між розробниками AI. Бо інакше перші компанії, які "засмітили" інтернет AI-відходами, матимуть величезну перевагу, використовуючи "чисті" дані для навчання.
Чи це реальна загроза?
Дискусії тривають уже давно, і багато вчених, серед них і Кіодо, б’ють на сполох.
"Поки що неясно, наскільки серйозною буде проблема колапсу моделі, але якщо це станеться, очистити дані буде надзвичайно дорого і, можливо, навіть неможливо," — попереджає він.
Проблема вже проявилася у методі retrieval-augmented generation (RAG), який допомагає AI доповнювати старі навчальні дані новою інформацією з інтернету в реальному часі. Але ця інформація може бути також "забрудненою" AI, що призводить до появи небезпечних помилок у відповідях чатботів.
Це також піднімає ширшу тему про масштабування AI — збільшення обсягу даних і потужності обробки. Коли OpenAI та інші компанії в 2024 році помітили, що нові моделі працюють гірше, деякі експерти заявили, що розвиток AI "впирається у стіну". І якщо дані стають ще більш "забрудненими", цю стіну подолати буде складніше.
Кіодо вважає, що суворіші правила, наприклад, обов’язкове маркування AI-контенту, могли б допомогти очистити інтернет, але це буде важко контролювати. При цьому сама AI-індустрія часто протистоїть державному регулюванню, що може вдарити по ній же.
"Зараз ми на початку шляху регулювання, де уникаємо суворих правил, бо хочемо зберегти інновації," — пояснює професор Рупрехт Подшун з університету Генріха Гейне, співавтор статті разом із Кіодо. "Це типовий сценарій для будь-яких новацій: AI — це великий прорив, тож давайте дозволимо йому вільно розвиватися."
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.