середа, 26 лютого 2025 р.

Anthropic презентує нову модель ШІ Claude 3.7 Sonnet


Компанія Anthropic представила передову модель штучного інтелекту Claude 3.7 Sonnet, яка здатна «обдумувати» запити користувачів стільки часу, скільки вони забажають.

Anthropic називає Claude 3.7 Sonnet першою у галузі «гібридною моделлю ШІ для логічних міркувань». Це означає, що одна модель може видавати як миттєві відповіді, так і більш глибокі, продумані рішення. Користувачі можуть самостійно обирати, чи активувати режим «мислення», що дозволяє моделі аналізувати питання протягом короткого або тривалого часу.

Ця модель є частиною ширшої стратегії Anthropic щодо спрощення взаємодії з ШІ. Багато сучасних чат-ботів змушують користувачів обирати між кількома моделями, що відрізняються ціною та можливостями. Anthropic прагне усунути цю складність — ідеальною є одна універсальна модель, яка виконує всі завдання.

Доступність та вартість

З 26 лютого Claude 3.7 Sonnet стала доступною для всіх користувачів і розробників. Проте, функція «логічного мислення» буде доступна лише підписникам платних планів Claude Pro. Безкоштовні користувачі отримають стандартну версію моделі без розширених можливостей міркувань, яка, за словами Anthropic, все одно перевершує її попередника — Claude 3.5 Sonnet.

Ціна Claude 3.7 Sonnet:

  • $3 за мільйон вхідних токенів (~750 000 слів)

  • $15 за мільйон вихідних токенів

Це дорожче, ніж у конкурентів: OpenAI o3-mini ($1.10 за 1 млн вхідних токенів, $4.40 за 1 млн вихідних) та DeepSeek R1 (55 центів за 1 млн вхідних, $2.19 за 1 млн вихідних). Однак Claude 3.7 Sonnet не просто ШІ для міркувань, а гібридна модель з розширеним функціоналом.

Нові режими «мислення»

Claude 3.7 Sonnet став першою моделлю Anthropic, що підтримує логічні міркування. Інші лабораторії також активно працюють у цьому напрямку: Google Gemini 2.0 Flash Thinking, xAI Grok 3 (Think) та OpenAI o3-mini використовують подібні підходи. Такі моделі витрачають більше часу на обробку запитів, розбиваючи завдання на дрібніші етапи для підвищення точності відповідей.

У майбутньому Anthropic планує автоматизувати вибір часу для роздумів моделі, щоб користувачам не доводилося налаштовувати цей параметр вручну.

«Люди не мають двох окремих мозків для швидких та складних запитань. Ми вважаємо, що міркування — це лише одна з важливих здібностей сучасної моделі ШІ, яка має працювати інтегровано, а не у вигляді окремого режиму», — зазначається у блозі компанії.

Також Claude 3.7 Sonnet отримав нову функцію — «видима чернетка» (visible scratch pad), яка дозволяє користувачам переглядати проміжні етапи обробки запитів. Однак деякі частини цього процесу можуть бути приховані з міркувань безпеки.

Практичне застосування та продуктивність

Результати тестування:
62,3% точності у тесті SWE-Bench (програмування) — порівняно з 49,3% у OpenAI o3-mini
81,2% точності у тесті TAU-Bench (взаємодія з користувачами та API) — проти 73,5% у OpenAI o1

Крім того, модель на 45% рідше відмовляється відповідати на запити, порівняно з Claude 3.5 Sonnet, що дозволяє їй краще розрізняти шкідливі та нешкідливі питання.

Новий інструмент для розробників — Claude Code

Разом із Claude 3.7 Sonnet компанія анонсувала інструмент Claude Code — агентну систему для розробників.

Функції Claude Code:

  • аналіз проєктів за простими запитами (наприклад, «Поясни структуру цього проєкту»);

  • автоматичне редагування коду та тестування на помилки;

  • можливість інтеграції з GitHub.

Наразі доступ до Claude Code обмежений — компанія надасть його лише обраним користувачам на основі принципу «хто перший, той і отримав».

Anthropic намагається випередити конкурентів

Останнім часом лабораторії ШІ змагаються у швидкості розробки нових моделей. Anthropic традиційно відзначалася обережним підходом до безпеки, але цього разу компанія прагне стати лідером галузі.

Чи вдасться їй втримати позиції? Поки що невідомо. OpenAI вже анонсувала запуск власної гібридної моделі, яка, за словами CEO компанії Сема Альтмана, з’явиться «протягом кількох місяців».

Авторка: Дар’я Бровченко

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.