пʼятниця, 31 січня 2025 р.

DeepSeek може змінити правила гри в світі штучного інтелекту


Модель штучного інтелекту DeepSeek, розроблена в Китаї, привернула значну увагу. Різке падіння акцій кількох американських технологічних компаній, зокрема Nvidia, змусило багатьох звернути увагу на цю новинку. DeepSeek вважається найбільшою відкритою моделлю глибокого навчання на сьогодні і була створена без мільярдних витрат — розробка AI моделі обійшлася в $6 мільйонів.

Тепер експерти в галузі технологій і штучного інтелекту аналізують вплив моделі DeepSeek R1. У нещодавньому відео на популярному YouTube-каналі Computerphile один з експертів пояснив, чому DeepSeek є справжнім проривом для AI.

Закритий AI може стати невигідним вибором

Майкл Паунд, дослідник з університету Ноттінгема, який спеціалізується на машинному та глибокому навчанні, поділився своїми думками про DeepSeek у нещодавньому відео. Щодо доступності проти закритості, він зазначив: «Особисто я вважаю, що доступність — це добре». За його словами, DeepSeek змінив ситуацію, показавши, що можна тренувати модель навіть на обмеженому апаратному забезпеченні.

У той час як американський гігант OpenAI, творець ChatGPT, тримає свої моделі за лаштунками, доступ до яких обмежений API або через веб-інтерфейс, DeepSeek вибрав більш відкритий підхід. Це нагадує стратегію Meta, яка вже працює з відкритими моделями Llama AI, дозволяючи бачити дані, параметри моделей і масштаб.

Але навіть якщо ви маєте доступ до моделі AI, як у випадку з Llama, це не означає, що ви можете тренувати її з нуля. Це вимагає значних обчислювальних потужностей, зазвичай у вигляді серверних ферм з GPU Nvidia. Nvidia заробляє величезні гроші на своїх чіпах для AI.

«Ми можемо побачити кінець закритих AI, тому що вони можуть просто стати невигідними»
— говорить Майкл Паунд.

Що вдалося досягти DeepSeek, використовуючи те, що Паунд називає «по суті споживчим апаратним забезпеченням», виглядає майже як чудо і додає до ідеї "доступності". Так, апаратура DeepSeek, ймовірно, дороговартісна, але це крок у правильному напрямку, який прагне вирівняти умови: вам не потрібен суперкомп’ютер з понад 100 000 GPU від Nvidia.

Що таке DeepSeek?

DeepSeek — це компанія в галузі штучного інтелекту, яка розробляє відкриті великі мовні моделі (LLM). Вона базується в Ханчжоу, провінція Чжецзян, і належить китайському хедж-фонду High-Flyer. Засновник і CEO, Лянь Веньфен, заснував DeepSeek у грудні 2023 року.

DeepSeek стала відомою завдяки своїй відкритій великій мовній моделі, зокрема версії R1. Ця модель має понад 670 мільярдів параметрів, що визначають, як модель обробляє дані і надає результати.

Важливою особливістю DeepSeek є те, що вона змогла створити потужну модель за $6 мільйонів, тоді як інші моделі в США коштують мільярди доларів. Основною метою DeepSeek було значно зменшити кількість необхідного апаратного забезпечення для навчання і розробки моделі. Для цього компанія використала GPU Nvidia Hopper H800, що дозволили створити модель MoE (Mixture of Experts), яка відрізняється більш ефективною архітектурою.

Цензура та обмеження

Згідно з деякими джерелами, версія API R1 використовує механізми цензури, зокрема щодо чутливих політичних тем. Наприклад, на питання BBC про події на площі Тяньаньмень 4 червня 1989 року модель відповіла: «Вибачте, я не можу відповісти на це питання. Я є помічником AI, створеним для надання корисних і безпечних відповідей».

Ми вважаємо, що DeepSeek буде тією компанією, за якою варто стежити. Це новий, дешевший спосіб створення великих мовних моделей, який може змінити правила гри.


Авторка: Дар’я Бровченко

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.