середа, 9 липня 2025 р.

Від Googlebot до GPTBot: хто сканує ваш сайт у 2025 році

Про веб-краулерів і тренди

Веб-краулери не нові. Перший — World Wide Web Wanderer, з’явився 1993 року. Пошукові системи JumpStation і WebCrawler почали активно їх використовувати. Основна мета — індексувати сайти для пошуку.

У 2025 році роль краулерів ускладнилась через розвиток штучного інтелекту. Вони не лише збирають інформацію, а й тренують AI-моделі, породжуючи нові питання про права на контент і навантаження серверів.

Хороші і погані краулери

Краулери — частина ботів, що автоматично виконують завдання в Інтернеті. Є «хороші» (Googlebot, API-клієнти) і «погані» — що збирають дані без дозволу або крадуть контент.

За даними Cloudflare Radar, близько 30% світового трафіку — боти. Іноді це більше, ніж людський трафік.

AI-краулери

Нова категорія — AI-краулери — збирають дані для тренування великих мовних моделей. Серед них GPTBot (OpenAI), ClaudeBot (Anthropic), Meta-ExternalAgent (Meta) та інші.

Зміни 2024–2025

GPTBot виріс із 5% до 30%, став лідером. Meta-ExternalAgent набирає 19%. Bytespider (ByteDance) впав із 42% до 7%. ClaudeBot і Amazonbot втратили частку.

Зростання AI і пошуку — +18%

За перший квартал 2025 трафік AI і пошукових краулерів виріс на 18% (або 48% з новими клієнтами). Пік — квітень 2025.

Googlebot — лідер із +96% зростання

Googlebot майже подвоїв трафік. Пік — квітень 2025, активність на 145% вища, ніж у травні 2024.

Топ-8 краулерів травня 2025

  1. Googlebot — 50% (+20 п.п., +96% трафіку)

  2. Bingbot — 8.7% (-1.3 п.п., +2%)

  3. GPTBot — 7.7% (+5.5 п.п., +305%)

  4. ClaudeBot — 5.4% (-6.3 п.п., -46%)

  5. GoogleOther — 4.3% (-0.1 п.п., +14%)

  6. Amazonbot — 4.2% (-3.4 п.п., -35%)

  7. Googlebot-Image — 3.3% (-1.2 п.п., -13%)

  8. Bytespider — 2.9% (-19.8 п.п., -85%)

Контроль краулерів

Вебмайстри керують доступом через robots.txt, але дотримання правил — добровільне. Тому все більше сайтів застосовують веб-фаєрволи.

У червні 2025 близько 14% сайтів із топ-10 000 мали директиви щодо AI-ботів. GPTBot найчастіше блокували, але деякі дозволяли частковий доступ.

Висновки

ШІ змінює веб-краулінг — це не лише пошук, а й збір даних для AI. Google і OpenAI зміцнюють лідерство.

Власники сайтів стикаються з викликами: як захистити контент і залишатися видимими в пошуку та AI. Використання robots.txt разом із сучасними захисними технологіями — обов’язок для ефективного контролю.

Авторка: Дар’я Бровченко


Джерело

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.