Модель штучного інтелекту DeepSeek, розроблена в Китаї, привернула значну увагу. Різке падіння акцій кількох американських технологічних компаній, зокрема Nvidia, змусило багатьох звернути увагу на цю новинку. DeepSeek вважається найбільшою відкритою моделлю глибокого навчання на сьогодні і була створена без мільярдних витрат — розробка AI моделі обійшлася в $6 мільйонів.
Тепер експерти в галузі технологій і штучного інтелекту аналізують вплив моделі DeepSeek R1. У нещодавньому відео на популярному YouTube-каналі Computerphile один з експертів пояснив, чому DeepSeek є справжнім проривом для AI.
Закритий AI може стати невигідним вибором
Майкл Паунд, дослідник з університету Ноттінгема, який спеціалізується на машинному та глибокому навчанні, поділився своїми думками про DeepSeek у нещодавньому відео. Щодо доступності проти закритості, він зазначив: «Особисто я вважаю, що доступність — це добре». За його словами, DeepSeek змінив ситуацію, показавши, що можна тренувати модель навіть на обмеженому апаратному забезпеченні.
У той час як американський гігант OpenAI, творець ChatGPT, тримає свої моделі за лаштунками, доступ до яких обмежений API або через веб-інтерфейс, DeepSeek вибрав більш відкритий підхід. Це нагадує стратегію Meta, яка вже працює з відкритими моделями Llama AI, дозволяючи бачити дані, параметри моделей і масштаб.
Але навіть якщо ви маєте доступ до моделі AI, як у випадку з Llama, це не означає, що ви можете тренувати її з нуля. Це вимагає значних обчислювальних потужностей, зазвичай у вигляді серверних ферм з GPU Nvidia. Nvidia заробляє величезні гроші на своїх чіпах для AI.
«Ми можемо побачити кінець закритих AI, тому що вони можуть просто стати невигідними»— говорить Майкл Паунд.
Що вдалося досягти DeepSeek, використовуючи те, що Паунд називає «по суті споживчим апаратним забезпеченням», виглядає майже як чудо і додає до ідеї "доступності". Так, апаратура DeepSeek, ймовірно, дороговартісна, але це крок у правильному напрямку, який прагне вирівняти умови: вам не потрібен суперкомп’ютер з понад 100 000 GPU від Nvidia.
Що таке DeepSeek?
DeepSeek — це компанія в галузі штучного інтелекту, яка розробляє відкриті великі мовні моделі (LLM). Вона базується в Ханчжоу, провінція Чжецзян, і належить китайському хедж-фонду High-Flyer. Засновник і CEO, Лянь Веньфен, заснував DeepSeek у грудні 2023 року.
DeepSeek стала відомою завдяки своїй відкритій великій мовній моделі, зокрема версії R1. Ця модель має понад 670 мільярдів параметрів, що визначають, як модель обробляє дані і надає результати.
Важливою особливістю DeepSeek є те, що вона змогла створити потужну модель за $6 мільйонів, тоді як інші моделі в США коштують мільярди доларів. Основною метою DeepSeek було значно зменшити кількість необхідного апаратного забезпечення для навчання і розробки моделі. Для цього компанія використала GPU Nvidia Hopper H800, що дозволили створити модель MoE (Mixture of Experts), яка відрізняється більш ефективною архітектурою.
Цензура та обмеження
Згідно з деякими джерелами, версія API R1 використовує механізми цензури, зокрема щодо чутливих політичних тем. Наприклад, на питання BBC про події на площі Тяньаньмень 4 червня 1989 року модель відповіла: «Вибачте, я не можу відповісти на це питання. Я є помічником AI, створеним для надання корисних і безпечних відповідей».
Ми вважаємо, що DeepSeek буде тією компанією, за якою варто стежити. Це новий, дешевший спосіб створення великих мовних моделей, який може змінити правила гри.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.