понеділок, 16 червня 2025 р.

ШІ виходить за межі тексту: нова хвиля моделей змінює правила гри

Коли великі компанії, як OpenAI, Anthropic і інші гіганти інвестують мільярди у розвиток потужних моделей на основі мови, невелика група провідних дослідників AI рухається в іншому напрямку — створює так звані «світові моделі». Професорка Стенфорда Фей-Фей Лі, яка зробила прорив у AI, винайшовши ImageNet, і головний науковець Meta з AI Янн Лекун працюють над моделями, що вчаться не лише з текстів, а й із уявлень про реальний світ.

На відміну від великих мовних моделей, які генерують відповіді, ґрунтуючись на статистичних зв’язках між словами, світові моделі передбачають події, імітуючи ту ментальну карту світу, яку створює людський мозок. «Мова — це штучний винахід, її не існує в природі», — сказала Лі в одному з останніх епізодів подкасту a16z. «Люди не просто виживають чи працюють, ми будуємо цивілізацію, яка виходить за межі мови».

Ще у 1971 році професор MIT Джей Райт Форестер пояснив, що кожен із нас постійно користується ментальними моделями для прийняття рішень, адже в голові немає реальних міст чи бізнесів, лише концепти й уявлення про них. Якщо AI хоче досягти або перевершити людський інтелект, дослідники вважають, що він теж повинен мати здатність створювати такі ментальні моделі.

Фей-Фей Лі працює над цим у своїй компанії World Labs, яку заснувала у 2024 році з початковим фінансуванням у 230 мільйонів доларів від венчурних фондів на кшталт Andreessen Horowitz і Radical Ventures. Мета — підняти AI з двовимірного світу пікселів у повноцінні тривимірні віртуальні та реальні світи, наділяючи його просторовим інтелектом, що не поступається людському. Просторовий інтелект — це «здатність розуміти, аналізувати, взаємодіяти та створювати 3D-світи», пояснює Лі, адже наш світ — це тривимірний простір.

Світові моделі мають широке застосування — від творчих індустрій і робототехніки до військових технологій. Схожі проєкти є в Meta, Anduril та інших технологічних гігантів Силіконової долини. Зокрема, це допомагає солдатам краще орієнтуватися на полі бою й прогнозувати дії противника. Однак проблема полягає у дефіциті якісних даних. Якщо мова — це результат століть розвитку і документування, то просторовий інтелект поки що розвинений слабше.

«Якщо зараз попросити вас заплющити очі й намалювати 3D-модель оточення — це далеко не просто», — зазначає Лі в подкасті No Priors. «Ми не маємо достатньо ресурсів для створення складних моделей без спеціального навчання». Для цього потрібна розвинена інженерія даних, їхнє збирання, обробка та синтез. Це робить завдання створення правдоподібного світу ще складнішим.

У Meta Янн Лекун разом із командою працює над схожою ідеєю. Вони тренують моделі на основі відеоданих, абстрагуючи відео на різних рівнях, щоб передбачати події не на рівні пікселів, а на більш узагальненому рівні. «Ідея у тому, щоб не прогнозувати кожен піксель, а навчити систему працювати з абстрактним уявленням відео, що дозволить виключити непередбачувані деталі», — пояснив Лекун на AI Action Summit у Парижі.

Це спрощує створення моделей, які описують, як змінюватиметься світ у конкретний момент часу. Як і Лі, Лекун переконаний: тільки такі світові моделі можуть привести до справжнього інтелекту штучного походження.

«Нам потрібні AI-системи, які швидко навчаються новим завданням, розуміють фізичний світ — не лише тексти, а справжній світ, володіють базовим здоровим глуздом, вміють логічно мислити, планувати, мають довготривалу пам’ять — усе те, що ми очікуємо від розумних істот»,
— підсумував він.

Авторка: Дар’я Бровченко


Джерело





Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.