Команда Qwen китайського технологічного гіганта Alibaba офіційно представила нову лінійку відкритих мультимодальних LLM-моделей Qwen3, які вважаються одними з найпотужніших серед відкритих рішень і майже досягають рівня продуктивності закритих моделей від OpenAI та Google.
У серію Qwen3 увійшли вісім моделей: шість щільних (dense) і дві з архітектурою Mixture-of-Experts (MoE) — тобто таких, що комбінують декілька спеціалізованих підмоделей. При цьому в процесі обробки запиту активуються лише ті "експерти", які найбільш релевантні. Такий підхід популяризував французький стартап Mistral.
Флагманська модель серії — Qwen3-235B-A22B із 235 мільярдами параметрів — за заявою розробників, перевершує відкриту модель R1 від DeepSeek і навіть o1 від OpenAI за результатами незалежних бенчмарків, зокрема ArenaHard (500 складних питань зі сфери програмування й математики). Її результати майже дорівнюють продуктивності новітньої пропрієтарної моделі Google Gemini 2.5-Pro.
Розширене гібридне мислення
Qwen3 спеціально навчена на підтримку так званого гібридного мислення — можливості перемикання між швидкими відповідями та поглибленими, ресурсоємними логічними розв’язаннями (аналогічно серії "о" від OpenAI). Це дозволяє моделі ефективно відповідати на складні запити в галузях науки, математики, інженерії тощо. Підхід гібридного мислення активно досліджується командами Nous Research та іншими AI-гравцями.
Користувачі можуть активувати «режим мислення» через кнопку на сайті Qwen Chat або командами /think чи /no_think під час локального використання або через API. Це дає гнучкість у виборі — від швидких відповідей до глибокого аналізу.
Доступність і розгортання
Моделі Qwen3 доступні на Hugging Face, ModelScope, Kaggle, GitHub, а також через вебінтерфейс Qwen Chat і мобільні застосунки. Всі версії випущені під відкритою ліцензією Apache 2.0, що дозволяє вільне комерційне використання.
Крім моделі MoE (235B з активними 22B і 30B з активними 3B), Qwen3 включає щільні моделі різного масштабу:
Qwen3-32B, 14B, 8B, 4B, 1.7B і 0.6B — гнучкий набір для різних потреб і ресурсів.
Потужна мультимовність
Qwen3 значно розширила мовну підтримку: тепер це 119 мов і діалектів з усього світу. Це відкриває ширші можливості застосування в глобальному масштабі — від локалізованих продуктів до академічних досліджень.
Архітектура та навчання
У порівнянні з попередником Qwen2.5, обсяг навчального корпусу подвоївся — до 36 трильйонів токенів. Джерела включають вебкраулинг, структурування документів (типу PDF) та синтетичні дані, згенеровані попередніми моделями, орієнтованими на математику й програмування.
Навчання проходило в три етапи пре-тренування та чотири етапи пост-тренувального вдосконалення — саме ці кроки дали змогу реалізувати режим гібридного мислення. Навіть базові щільні моделі Qwen3 перевершують або дорівнюють за продуктивністю набагато більшим моделям Qwen2.5.
Інтеграція моделі можлива через популярні фреймворки SGLang та vLLM (сумісні з API OpenAI). Для локального використання підходять Ollama, LMStudio, MLX, llama.cpp, KTransformers. А для реалізації автономних агентів — Qwen-Agent toolkit, що спрощує виклики інструментів.
Коментар від команди
Інженер з команди Qwen, Junyang Lin, повідомив у X (екс-Twitter), що створення Qwen3 вимагало вирішення ряду технічних викликів — від стабілізації RL-навантаження до збереження якості під час масштабування багатомовності та міждисциплінарності. Команда вже готується до наступного кроку — створення агентів зі здатністю до довгострокового планування в реальному середовищі.
Що це означає для бізнесу
Розробники можуть швидко інтегрувати Qwen3 у свої системи, перенаправивши запити з OpenAI-сумісних API — всього за кілька годин. MoE-моделі з 235B (22B активні) забезпечують GPT-4-рівень продуктивності за вартістю, подібною до щільної 20–30B моделі.
Офіційна підтримка LoRA та QLoRA дає змогу тонко налаштовувати модель локально — без передавання конфіденційних даних стороннім серверам.
Варіативність масштабів (від 0.6B до 32B) робить Qwen3 зручною як для прототипування на ноутбуках, так і для запуску на мульти-GPU-кластерах. Запуск моделі локально дозволяє повний контроль над даними, а MoE-архітектура — мінімізує обсяг активних параметрів, зменшуючи ризики атак під час інференсу.
Ліцензія Apache 2.0 — велика перевага: немає юридичних обмежень на використання. Проте компаніям слід окремо оцінити питання експортного контролю та управління ризиками, пов’язані з тим, що модель створена китайським розробником.
Це також посилює конкуренцію між великими AI-гравцями — як у Китаї (DeepSeek, Tencent, ByteDance), так і у США (OpenAI, Google, Microsoft, Anthropic, Meta та інші). Гнучкість і відкритість Qwen3 — очевидна перевага для тих, хто хоче зменшити витрати та мати свободу у виборі інструментів.
Подальші плани
Команда Qwen не вважає Qwen3 просто оновленням. Це крок у напрямку Штучного Загального Інтелекту (AGI) і навіть Штучного Надінтелекту (ASI) — тобто рівня, який перевершує людські можливості.
У планах:
збільшення обсягів даних і параметрів,
розширення підтримки мультимодальності,
подовження контекстного вікна,
вдосконалення RL-настроювання з урахуванням зворотного зв’язку від середовища.
Випуск Qwen3 під відкритою ліцензією — це важливий крок до демократизації передових LLM-рішень. Це нові можливості для дослідників, розробників і компаній, які прагнуть створювати інновації на основі штучного інтелекту.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.