четвер, 5 червня 2025 р.

DeepSeek могла використати Google Gemini для тренування свого нового AI

Минулого тижня китайська лабораторія DeepSeek представила оновлену версію своєї моделі штучного інтелекту для логічних завдань R1, яка демонструє високі результати у низці тестів з математики та програмування. Хоча компанія не розкрила джерела даних, на яких навчали модель, деякі фахівці зі штучного інтелекту припускають, що частина інформації могла походити з сімейства AI-моделей Google Gemini.

Розробник із Мельбурна Сем Печ, який спеціалізується на оцінці «емоційного інтелекту» для AI, опублікував, за його словами, докази того, що остання модель DeepSeek, R1-0528, тренувалась на вихідних даних Gemini. Зокрема, він зазначив, що модель DeepSeek віддає перевагу словам і виразам, близьким до тих, що використовує Google Gemini 2.5 Pro.

Це поки не є беззаперечним доказом. Проте інший розробник, який під псевдонімом створив «оцінку свободи слова» для AI під назвою SpeechMap, звернув увагу, що «мисленнєві сліди», які генерує модель DeepSeek під час формування відповіді, «читалися як сліди Gemini».

DeepSeek уже неодноразово звинувачували у тренуванні своїх моделей на даних конкурентів. У грудні минулого року користувачі помітили, що модель DeepSeek V3 часто видає себе за ChatGPT — платформу чатбота від OpenAI, що свідчить про можливе використання чат-логів ChatGPT у тренуванні.

Раніше цього року OpenAI повідомила Financial Times про наявність доказів, які пов’язують DeepSeek із практикою дистиляції — методу тренування AI, коли модель навчають на основі даних, витягнутих із більших і потужніших моделей. За інформацією Bloomberg, Microsoft, партнер і інвестор OpenAI, виявив значний потік витоку даних через облікові записи розробників OpenAI наприкінці 2024 року — облікові записи, які, за припущенням, належать DeepSeek.

Дистиляція — поширена практика в галузі, але умови використання OpenAI забороняють клієнтам застосовувати вихідні дані їхніх моделей для створення конкурентних AI.

Варто зауважити, що багато моделей можуть помилково ідентифікувати себе та використовувати схожі формулювання через те, що основний обсяг тренувальних даних надходить з відкритого інтернету, який зараз переповнений штучним контентом. Ферми контенту генерують клікбейт за допомогою AI, а боти заповнюють Reddit і X (колишній Twitter).

Ця «забрудненість» значно ускладнює відділення справжніх даних від AI-виводів у тренувальних наборах.

Попри це, експерти, як-от Натан Ламберт із некомерційного інституту AI2, вважають, що ймовірність того, що DeepSeek тренувався на даних Google Gemini, цілком реальна.

«Якби я був у DeepSeek, я б точно створив багато синтетичних даних на основі найкращої доступної моделі API», — написав Ламберт у дописі на X. — «У них мало GPU, але є гроші. Це фактично означає більше обчислювальних ресурсів для них».

Щоб частково запобігти дистиляції, компанії, що розробляють AI, посилюють заходи безпеки.

В квітні OpenAI почала вимагати від організацій проходити верифікацію особистості для доступу до певних передових моделей. Процедура передбачає подачу державного посвідчення особи з країн, підтримуваних API OpenAI, серед яких немає Китаю.

Тим часом Google почав «підсумовувати» мисленнєві сліди моделей, доступних через платформу AI Studio, щоб ускладнити тренування конкурентних моделей на основі слідів Gemini. Компанія Anthropic у травні також оголосила, що починає підсумовувати сліди власних моделей, посилаючись на необхідність захисту своїх «конкурентних переваг».

Авторка: Дар’я Бровченко


Джерело





Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.