Китайський стартап у сфері штучного інтелекту Deepseek привертає увагу технологічної спільноти, демонструючи результати, що перевершують або відповідають рівню лідерів галузі, таких як OpenAI, GPT-4 чи Claude 3.5, використовуючи при цьому набагато менші ресурси.
Їхня остання розробка, модель Deepseek-V3, у незалежних тестах перевершила провідні комерційні системи. Ще кілька місяців тому їхній R1-Lite майже досяг рівня OpenAI o1-preview, а остаточна версія R1 вийшла на один рівень із нею.
Попри використання західних відкритих рішень, Deepseek інтегрує власні ідеї, що дозволяє їм залишатися на передовій. Їхніми досягненнями зацікавився навіть генеральний директор Meta Марк Цукерберг, який стурбований швидкістю і ефективністю роботи стартапу.
Шлях від фінансів до прориву в ШІ
Все почалося з Ляна Венфена, народженого у 1985 році в сім’ї вчителя початкової школи в місті Чжаньцзян. Після випуску з університету Чжецзян у 2006 році він почав досліджувати машинне навчання у фінансовій сфері під час магістратури.
На відміну від медійних постатей, таких як Сем Альтман чи Ілон Маск, Венфен залишається в тіні. Його профіль у IEEE свідчить, що він продовжує активно займатися дослідженнями, публікуючи у 2024 році статті про використання ШІ у виробництві та нових матеріалах.
У 2015 році Венфен із двома однокурсниками заснував хедж-фонд High-Flyer, який за шість років досяг управління капіталом у 13 мільярдів євро. Успіх фонду дозволив у 2019 році створити High-Flyer AI.
До 2021 року його "дорога забавка" переросла у щось значно більше. Венфен придбав тисячі графічних процесорів Nvidia для побудови суперкомп’ютера Fire-Flyer, що став основою майбутніх досягнень Deepseek.
Культура досліджень як основа успіху
Офіційно запущений у травні 2023 року, Deepseek виглядає більше як науковий центр, ніж типова технологічна компанія. Уже перші продукти, такі як Deepseek Coder і Deepseek LLM, швидко здобули популярність. Усього за рік компанія випустила вдосконалені моделі Coder-V2 і Deepseek-V2.
Серед 200–300 працівників компанії близько 100–140 займаються розробкою моделей. Deepseek зосереджується на фундаментальних дослідженнях, повністю фінансується High-Flyer і відкрито публікує свої результати.
Фокус на допитливості, а не комерції
На відміну від західних компаній, Deepseek робить акцент на довгострокових дослідженнях. Венфен зазначає, що основна мета — це не прибуток, а прагнення до інновацій.
Стартап став джерелом натхнення для інших китайських компаній, демонструючи, що справжня різниця полягає не в копіюванні, а в створенні оригінальних рішень.
Похвала від лідерів індустрії
Лідери штучного інтелекту відзначили підхід Deepseek. Метта AI, Nvidia та інші компанії визнають, що їхні відкриті рішення чинять тиск на комерційних гігантів, змушуючи останніх пришвидшуватися.
Проте залишаються питання про методи тренування моделей, дотримання державної цензури та можливу залежність від західних рішень.
Цей прорив Deepseek демонструє, як обмежені ресурси та концентрація на дослідженнях можуть змінити правила гри у сфері штучного інтелекту.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.