Під час управління продуктом у сфері машинного навчання виникло важливе питання, яке стало основою для численних обговорень серед команди та керівників: «Як визначити, чи працює продукт?» Продукт мав на меті обслуговування як внутрішніх, так і зовнішніх клієнтів. Модель, яку розробили, допомагала внутрішнім командам виявляти проблеми, з якими стикаються клієнти, і визначати пріоритети для їх вирішення. Враховуючи складність цього процесу, важливо було визначити правильні метрики для оцінки ефективності продукту.
Невизначеність у тому, чи працює продукт правильно, може призвести до неправильних рішень. Якщо метрики не встановлені чітко, команда може почати використовувати різні варіанти, що призведе до плутанини та неправильних висновків. Це може спричинити ситуацію, коли команда працюватиме на різні цілі, що суперечить єдиному результату.
Наприклад, під час перегляду річних цілей і метрик серед членів команди виникло зауваження: «Це ж бізнес-метрика, ми вже відслідковуємо точність і відгуки.»
1. Визначення мети та запитань
Першим кроком у створенні правильних метрик є чітке розуміння того, що саме потрібно виміряти в продукті на базі ШІ. Управління такими продуктами часто включає різні типи клієнтів, тому метрики повинні враховувати цей фактор. Наприклад, вимірювання того, як внутрішні команди використовують модель, може бути занадто повільним і неефективним. Оцінка того, чи прийняли клієнти рішення, рекомендовані моделлю, може призвести до хибних висновків, якщо не враховувати інші фактори, як-от бажання клієнта звернутися за додатковою підтримкою.
З переходом до великих мовних моделей (LLM), які генерують не лише текст, але й зображення та музику, кількість аспектів продукту, які потребують метрик, значно збільшується. Ось кілька прикладів запитань, на які необхідно відповісти для визначення правильних метрик:
Чи отримав клієнт результат? → метрика покриття
Скільки часу знадобилося для отримання результату? → метрика латентності
Чи сподобався користувачу результат? → метрика відгуків, прийняття та утримання
Чи вказав користувач, що результат правильний або неправильний? → вихідні метрики
Чи був результат хорошим і справедливим? → вхідні метрики
2. Вхідні та вихідні метрики
Вихідні метрики відображають події, що вже сталися, і вимірюють результат, який можна оцінити після його появи. Вхідні метрики, навпаки, є провісними індикаторами, що дозволяють виявити тенденції або прогнозувати майбутні результати. Ось як ці два типи метрик можуть бути застосовані:
Чи отримав клієнт результат? → покриття
Скільки часу знадобилося для отримання результату? → латентність
Чи сподобався результат користувачу? → відгуки, прийняття та утримання
Чи вказав користувач, що результат правильний/неправильний? → вихідні метрики
Чи був результат хорошим/справедливим? → вхідні метрики
3. Як збирати метрики
Метрики зазвичай збираються на великому масштабі за допомогою сучасних інструментів для обробки даних. Однак є випадки, коли для оцінки, наприклад, того, чи був результат «хорошим» або «справедливим», необхідно використовувати як ручні, так і автоматизовані методи оцінки результатів моделей. Хоча автоматизовані оцінки зазвичай є найкращим варіантом, на початкових етапах можна застосовувати ручні оцінки та створювати чіткі стандарти для визначення, що є «добрим», «справедливим» або «неправильним». Це дозволить закласти основи для подальшої автоматизації процесу оцінки результатів.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.