Сучасні системи штучного інтелекту здебільшого навчаються на англомовних даних — близько 90% тренувального контенту становить саме англійська мова. Проте ця «англійська» — це не жива, багатоголоса мова, якою послуговуються 1,5 мільярда людей у всьому світі. Це — стандартизований американський її варіант, який не відображає глобального мовного ландшафту.
Американська англійська домінує в інтернеті, на цифрових платформах і в технологіях. Саме її найчастіше використовують у документації, в інтерфейсах, у мовних моделях, а також у генеративному тексті. Ця форма мови закладена в системи автозаміни, голосового введення, алгоритми розпізнавання мови й генерації відповідей. Така гегемонія — результат історичних і технологічних чинників: технокомпанії США, такі як Google, Meta, OpenAI, Microsoft, були і залишаються лідерами цифрового середовища.
Це призводить до того, що всі інші варіанти англійської — від індійської до сінгапурської, від австралійської до африканської — сприймаються як відхилення. Їхні особливості ігноруються або автоматично виправляються як «помилки». Голоси, які не відповідають американському стандарту, стираються або редагуються до одноманітності. У користувачів складається враження, що ці системи створені для когось іншого, не для них.
Наслідки такої мовної уніфікації — не просто естетичні. Вони мають цілком практичні та навіть дискримінаційні прояви. Наприклад, дослідження в США показало: люди з неамериканським акцентом отримують менше відповідей від орендодавців. Так само й цифрові системи можуть не розпізнавати акцент.
Англійська мова — це не один стандарт. Це десятки варіантів, які сформувалися у різних країнах і культурах. У сінгапурській англійській є частки з малайської та китайських мов, в індійській — слово «prepone» як антонім до «postpone», в австралійській — структури з аборигенських мов. Усі ці форми не є помилками. Вони — жива частина мови, яку ШІ нині переважно ігнорує.
Більшість мовних моделей не навчаються на цих варіантах, бо вважають їх недостатньо «чистими» або не вартими представлення. У результаті ШІ може говорити десятками мов — але мислить лише однією.
Щоб змінити це, потрібно переосмислити мовну політику в технологіях. Не існує єдино правильної англійської. Є лише різні голоси, і кожен з них має право бути почутим. Необхідно залучати мовознавців, місцеві громади, носіїв нестандартних варіантів до створення і тестування моделей.
Штучний інтелект — потужний інструмент, але його якість напряму залежить від того, чиї інтереси і голоси в ньому враховані. Англійська була мовою імперій, але стала і мовою опору, креативу та ідентичності. Саме це багатство — і має відображатися в технологіях майбутнього.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.