Український клуб штучного інтелекту: Термінал стає новою ареною для ШІ у кодуванні

Протягом останніх років редактори коду на основі штучного інтелекту, як-от Cursor, Windsurf і GitHub Copilot, стали незамінним інструментом у розробці програмного забезпечення. Однак із поширенням агентних моделей і нових підходів, таких як vibe coding, поступово відбувається малопомітний, але суттєвий зсув: ШІ переходить від взаємодії з кодом безпосередньо до роботи через термінал — оболонку операційної системи, яка, попри свою «олдскульність», демонструє неочікуваний ренесанс.

Термінал, зазвичай асоційований із чорно-білим екраном з фільмів 90-х, не такий яскравий чи інтуїтивний, як сучасні IDE, але надзвичайно гнучкий і потужний у руках досвідчених користувачів. Саме через нього зараз дедалі частіше реалізуються агентні рішення: хоча ШІ може генерувати або виправляти код, саме термінальні інструменти стають містком до його фактичного запуску, тестування й інтеграції в реальні середовища. Із лютого цього року провідні лабораторії, як-от Anthropic, DeepMind і OpenAI, представили свої термінальні інтерфейси — Claude Code, Gemini CLI та CLI Codex відповідно. Попри те, що вони залишаються під брендами великих моделей, ці продукти суттєво змінюють спосіб, у який агенти взаємодіють із системами.

На думку Майка Меррілла, співтворця бенчмарка Terminal-Bench, саме ця форма взаємодії стане домінантною: «Ми робимо велику ставку на те, що 95% роботи мовних моделей з комп’ютерами відбуватиметься саме через інтерфейс, схожий на термінал». Ця впевненість зростає на тлі того, як традиційні AI-редактори коду втрачають вплив. Windsurf опинився в центрі кадрових змін — ключових керівників забрав Google, а майбутнє продукту після його купівлі компанією Cognition стало невизначеним. Одночасно дослідження METR продемонструвало, що Cursor Pro, один з лідерів серед AI-асистентів, на практиці не скорочує час на завдання, а навпаки — іноді навіть уповільнює розробку.

У цьому вакуумі почали зростати нові гравці. Зокрема, Warp — інноваційне агентне середовище, яке поєднує переваги IDE з гнучкістю командного рядка. Warp очолює рейтинг Terminal-Bench і активно просуває ідею повноцінної роботи агентів у терміналі. Засновник компанії Зак Ллойд переконаний, що саме на цьому рівні відкривається справжній потенціал агентів: «Термінал знаходиться на найнижчому рівні розробницького стеку, тому це найуніверсальніше середовище для роботи ШІ».

Цю зміну добре ілюструють нові бенчмарки. Якщо раніше моделі тестували на GitHub-проблемах у SWE-Bench — де агент мав виправити поламаний код до робочого стану — то TerminalBench вимагає набагато ширших навичок. Тут і налаштування Git, і запуск скриптів, і розгортання складних систем. В одному з тестів агенту надають архіватор і текстовий файл, а завдання — відтворити алгоритм стиснення. В іншому — зібрати ядро Linux, самостійно виявивши, що перед цим треба знайти й завантажити сирцевий код.

Співтворець TerminalBench Алекс Шоу пояснює: «Складність полягає не тільки в завданнях, а в самих середовищах, де вони виконуються. Тут потрібно послідовно розв’язувати проблему, як це робить справжній програміст». Агентні моделі вже демонструють вражаючі результати — Warp виконав понад половину тестів, що є високим показником, враховуючи масштаб задач. Але це також свідчить про те, скільки потенціалу ще не реалізовано.

Зак Ллойд наголошує: вже зараз термінальні агенти здатні закривати більшість щоденних завдань розробника, не пов’язаних безпосередньо з написанням коду. «Якщо йдеться про налаштування нового проєкту, встановлення залежностей, запуск середовища — Warp здатен зробити це майже повністю автономно. І якщо щось піде не так — він пояснить, у чому причина», — зазначає Ллойд. Саме ця гнучкість і пояснювальна здатність можуть зробити термінал ключовим інтерфейсом епохи AI.

Авторка: Дар’я Бровченко

Джерело