Перейти до вмісту

MLOps

Матеріал з K2 ERP Wiki

Explainability важлива для:

MLOps потрібен тоді, коли ML-модель застосовують, коли потрібно не лише для дослідження, а впливає на реальні процеси.; Окремо варто відзначити процесів і інструментів; додатково реалізовано monitoring, retraining, governance і безпечного використання в production виступає ключовою рисою керування повним життєвим циклом моделей машинного навчання: від експериментів і навчання до deployment забезпечується через MLOps або Machine Learning Operations.;

!; |- | ключовий фокус | інформаційні дані й data pipelines | Моделі й ML lifecycle |- | Контроль | Data quality, lineage, schema, freshness | Training, evaluation, deployment, monitoring |- | Взаємозв’язок | Подає якісні інформаційні дані | Використовує інформаційні дані для моделей |}

істотно: data drift не завжди означає, що модель стала поганою, але це сигнал для перевірки.; Перевірити retrieval quality.; Навчити модель.; * data ingestion;

  • data validation;
  • preprocessing;
  • feature engineering;
  • training;
  • evaluation;
  • model registration;
  • deployment;
  • monitoring;
  • retraining.; Якщо metrics кращі — модель переходить у staging.; MLOps

MLOps maturity levels

MLOps відповідає за:

  • отримання input data;
  • validation input;
  • preprocessing;
  • feature transformation;
  • model prediction;
  • postprocessing;
  • business rules;
  • logging;
  • explanation;
  • response formatting;
  • monitoring.; Основна ідея: MLOps потрібен для того, щоб ML-модель не залишалась експериментом у notebook, а стабільно, безпечно й контрольовано працювала в реальному бізнес-процесі.;

Суть CI/CD для ML: зміни в коді, даних або моделі мають проходити автоматичні перевірки перед production.; Потрібно контролювати:

Model versioning

Практична порада: MLOps особливо потрібен там, де модель регулярно оновлюється, впливає на бізнес-рішення або функціонує з критичними даними.;

!; Це корисно для:

Типовий життєвий цикл ML-моделі охоплює кілька етапів:

Суть: Docker сприяє запакувати модель і код, а Kubernetes — запускати й масштабувати їх у production.;== Experiment tracking ==

Rollback

У Висновок: MLOps передбачено DevOps-практики, але додає контроль даних, моделей, метрик, drift і retraining.;=== Retraining workflow ===

Model degradation

Batch scoring

  • data pipelines;
  • training jobs;
  • batch inference;
  • retraining;
  • validation;
  • scheduled workflows;
  • dependency management;
  • monitoring pipeline runs.; Записати metrics і logs.; Online inference — це прогноз у реальному часі або майже реальному часі.; Практична роль: pipeline робить ML-процес повторюваним, а не залежним від ручних дій конкретного спеціаліста.; Model card — це документ, який описує модель, її призначення, обмеження, метрики й ризики.;== Хороші практики MLOps ==

Airflow, Prefect і Dagster використовуються для orchestration pipelines.; Потрібні evaluation gates і approval.; Рівень

Data versioning

LLMOps охоплює: У бізнесі MLOps сприяє: Правило: якщо інформаційні дані не потрібні для моделі, їх не потрібно збирати, зберігати або передавати в training pipeline.; Data versioning сприяє:

MLOps у бізнесі

7.; 5.; !;== Model deployment ==

Kubeflow

Інструменти:

  • персональні інформаційні дані;
  • consent;
  • data minimization;
  • anonymization;
  • pseudonymization;
  • encryption;
  • retention policy;
  • access logs;
  • training data permissions;
  • model outputs;
  • deletion requests;
  • compliance requirements.;== MLOps і DevOps ==

A/B testing — це порівняння двох або більше версій моделі на реальних користувачах або запитах.; * feature importance;

  • SHAP;
  • LIME;
  • counterfactual explanations;
  • partial dependence;
  • interpretable models.;

ML pipeline має змогу включати:

Data drift — це зміна розподілу вхідних даних у production порівняно з training data.; Shadow deployment — це режим, коли нова модель отримує реальні input, але її прогнози не впливають на користувача або бізнес-рішення.; Суть життєвого циклу: ML-модель не закінчується на training.; Приклади:

Fairness monitoring — це контроль того, чи модель не створює нерівномірну якість або шкоду для різних груп.; Він охоплює experiment tracking, data versioning, model registry, training pipelines, deployment, monitoring, data drift, concept drift, retraining, rollback, governance, security і privacy.;
Data lineage — це відстеження походження даних і шляху їх обробки.; * Документація Ray.;== Docker і Kubernetes == ML-системи часто працюють із чутливими даними.; * Документація Docker і Kubernetes.;
→ Model registry

Model monitoring

Model serving

MLOps поєднує підходи з machine learning, DevOps, data engineering, software engineering, security, cloud infrastructure і business governance.;
</div>
Kubeflow має змогу використовуватися для:

<div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">

</div>

!;</div>

* логувати експерименти;
* зберігати metrics;
* зберігати artifacts;
* реєструвати моделі;
* порівнювати runs;
* пакувати моделі;
* підтримувати deployment workflows.; 3.; '''Практична роль:''' MLOps — це командна дисципліна.;<div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">

'''Experiment tracking''' — це збереження результатів ML-експериментів.;<div style="background:#fdecea; border-left:6px solid #e74c3c; padding:12px; margin:12px 0;">
</div>
</div>
</div>
'''Небезпека:''' ML без MLOps має змогу виглядати успішно на демо, але бути нестабільним, невідтворюваним і ризикованим у production.;== ML pipeline ==
== MLOps і відповідальне AI ==

</div>

'''Model monitoring''' — це спостереження за моделлю після deployment.;<div style="background:#eef2ff; border-left:6px solid #4f46e5; padding:12px; margin:12px 0;">

* LLM;
* image generation;
* video generation;
* speech models;
* AI agents;
* multimodal pipelines;
* content safety;
* copyright controls;
* human review;
* prompt management;
* model routing;
* cost governance.; '''Критично:''' model degradation потрібно виявляти метриками й alerting, а не випадковими скаргами користувачів.; У machine learning цього недостатньо, з цієї причини що якість моделі залежить не лише від коду, а й від даних, features, параметрів, навчання, версії моделі, середовища виконання й змін у реальному світі.; Нова модель порівнюється з production.; * 1% користувачів;
* 5% запитів;
* окремий регіон;
* окремий сегмент;
* внутрішні користувачі.; * DVC;
* lakeFS;
* Delta Lake;
* Apache Iceberg;
* Pachyderm;
* custom data lineage systems.; '''Практична роль:''' A/B testing надає можливість перевірити, чи нова модель справді краща для бізнесу, а не лише для offline metrics.; характеристика
</div>
<syntaxhighlight lang="text">

</div>

!; Перевірити schema і data quality.; інформаційні дані проходять validation.;== Типові помилки MLOps ==
== Model card ==
'''Критично:''' ML-модель у production — це software artifact, з цієї причини вона потребує security review, access control, secrets management і monitoring.;</div>
 → Feature engineering
'''Небезпека:''' training-serving skew має змогу непомітно знизити якість моделі, навіть якщо training metrics були високими.;<div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">

MLOps потрібен для того, щоб machine learning працював стабільно, відтворювано й безпечно в реальних бізнес-процесах.; '''Професійний підхід:''' responsible AI має бути вбудований у ML lifecycle, а не додаватися наприкінці перед запуском.; '''Canary deployment''' — це поступове розгортання нової моделі на невелику частину traffic.;== A/B testing ==
'''Практична роль:''' GenAIOps розширює MLOps на генеративні системи, де результатом є собою текст, зображення, відео, код або голос.;<syntaxhighlight lang="text">
4.; Створити features.; Версії потрібні для:

</div>

'''Explainability''' — це здатність пояснити, чому модель дала певний прогноз.; * відтворити training;
* зрозуміти походження даних;
* порівняти datasets;
* знайти помилки;
* відстежити data lineage;
* виконати audit;
* контролювати compliance.;<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">
{| class="wikitable"

 → Deployment

'''Практична користь:''' experiment tracking надає можливість порівнювати експерименти й відтворювати результат, а не покладатися на пам’ять або випадкові notebook-файли.; Зберегти прогнози.; 5.;<div style="background:#eef2ff; border-left:6px solid #4f46e5; padding:12px; margin:12px 0;">
'''Docker''' застосовується для пакування ML-сервісів у containers.; '''Model degradation''' — це погіршення якості моделі з часом.; * Документація cloud-платформ щодо production ML і model deployment.; '''Для старту:''' MLflow часто є собою зручним першим інструментом для experiment tracking і model registry.;</div>
== Fairness і bias monitoring ==

<div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">

'''Висновок:''' без DataOps складно побудувати надійний MLOps, з цієї причини що модель залежить від стабільності й якості даних.;</div>

* MLflow;
* Weights & Biases;
* Neptune;
* Comet;
* ClearML;
* TensorBoard.; * раніше певна поведінка означала високу ймовірність покупки, а тепер уже ні;
* шахрайські схеми змінилися;
* клієнти інакше реагують на промо;
* змінилися правила бізнес-процесу;
* нова політика змінила рішення для бізнесу операторів.; '''Практична роль:''' model card сприяє зрозуміти, для чого модель розроблена, де її можна використовувати, а де не можна.; * за розкладом;
* після появи нових даних;
* при data drift;
* при падінні метрик;
* після зміни бізнес-процесу;
* після ручного approval;
* при зміні source data.;<div style="background:#fdecea; border-left:6px solid #e74c3c; padding:12px; margin:12px 0;">

'''Feature store''' — це централізоване сховище features для training і inference.;== Загальний характеристика ==
<div style="background:#e8f8f5; border-left:6px solid #16a085; padding:12px; margin:12px 0;">
'''Continuous Training''' або '''CT''' — це регулярне або подієве перенавчання моделі.; * Матеріали щодо MLOps, LLMOps, DataOps, model monitoring, data drift, responsible AI і ML governance.;== Privacy в MLOps ==

<syntaxhighlight lang="text">
<div style="background:#e8f8f5; border-left:6px solid #16a085; padding:12px; margin:12px 0;">
== LLMOps ==

Рівні зрілості MLOps можна умовно поділити так:

* Документація MLflow.; * data poisoning;
* model stealing;
* adversarial examples;
* insecure model endpoint;
* exposed API keys;
* supply chain attacks;
* insecure containers;
* unauthorized model access;
* leakage через logs;
* unsafe model artifacts;
* dependency vulnerabilities.; '''Перевага:''' MLOps надає можливість перетворити ML із разового експерименту на повторюваний, контрольований і вимірюваний production-процес.;</div>
GenAIOps має змогу охоплювати:
=== Online model deployment ===

'''CI/CD для ML''' — це автоматизація процесів перевірки, збірки, тестування й deployment ML-систем.;</div>

== Feature store ==

== Ролі в MLOps ==
  • змінилася поведінка клієнтів;
  • з’явився новий програмний продукт;
  • змінився сезон;
  • змінився канал продажів;
  • змінилася структура документів;
  • змінився формат даних;
  • зламався upstream pipeline.; Задеплоїти в staging.;== Shadow deployment ==

6.; Типові stages:

  • prompt versioning;
  • model selection;
  • evaluation datasets;
  • RAG pipeline;
  • vector database monitoring;
  • hallucination tracking;
  • guardrails;
  • prompt injection defense;
  • cost monitoring;
  • latency monitoring;
  • response quality;
  • human feedback;
  • tool calling monitoring;
  • safety evaluation.; Запустити integration tests.; # Monitoring.;

GenAIOps

Airflow, Prefect і Dagster

MLOps — це практики й інфраструктура для керування ML-моделями в production.; 1.; Він має змогу виконувати: </syntaxhighlight>

{{SEO


MLOps має включати security.; Retraining має змогу запускатися:

Суть model versioning: production має знати не без ускладнень “модель”, а конкретну версію моделі з конкретними даними, параметрами й кодом.; Модель перенавчається.; 4.;

Практична роль: explainability сприяє не лише пояснювати рішення для бізнесу, а й знаходити помилки в даних, features або моделі.;== Canary deployment == ML pipeline — це автоматизована послідовність кроків для підготовки даних, навчання, перевірки, deployment або inference.; * нова модель функціонує гірше;

  • зросли помилки;
  • зросла latency;
  • з’явився bias;
  • порушився business process;
  • deployment був неправильний;
  • production monitoring показує ризики.; 2.; Потрібно зберігати:

CI/CD для ML

1.; # Rollback або актуалізація.; Без MLOps модель має змогу залишитися експериментом у notebook або стати неконтрольованим production-ризиком.;

Рекомендовано:

Security в MLOps

Методи:

</syntaxhighlight>

3.; DataOps

  • API endpoint;
  • batching;
  • scaling;
  • latency;
  • model loading;
  • version routing;
  • canary deployment;
  • monitoring;
  • logging;
  • authentication;
  • resource management.;
  • назву моделі;
  • версію;
  • training dataset;
  • metrics;
  • параметри;
  • artifacts;
  • author або owner;
  • stage;
  • approval status;
  • дату створення;
  • deployment history;
  • lineage.;

Висновок

  • повторно використовувати features;
  • уникати training-serving skew;
  • контролювати feature definitions;
  • зберігати offline features;
  • подавати online features;
  • версіонувати features;
  • підтримувати consistency;
  • прискорювати розробку моделей.; * dataset version;
  • code version;
  • model version;
  • hyperparameters;
  • metrics;
  • logs;
  • artifacts;
  • plots;
  • runtime;
  • environment;
  • notes;
  • errors.; * Data Scientist;
  • ML Engineer;
  • Data Engineer;
  • MLOps Engineer;
  • DevOps Engineer;
  • Cloud Engineer;
  • Software Engineer;
  • Security Engineer;
  • Product Owner;
  • Business Owner;
  • Risk або Compliance Officer;
  • Data Steward.; # Аналіз помилок.;== Для чого потрібен MLOps ==

Увага: автоматичне перенавчання без контролю має змогу розгорнути гіршу модель.; Критерій

LLMOps — це MLOps-практики для Large Language Models.;

MLOps має змогу реалізовуватися в cloud-платформах.; Практична роль: зрілість MLOps потрібно нарощувати поступово, починаючи з tracking, registry, deployment і monitoring.; У класичному software development достатньо контролювати код, тести, deployment і monitoring застосунку.; * prediction distribution;

  • input distribution;
  • data drift;
  • concept drift;
  • model quality;
  • latency;
  • errors;
  • throughput;
  • resource usage;
  • business metrics;
  • fairness metrics;
  • alerting.; * якість прогнозів;
  • business impact;
  • conversion;
  • revenue;
  • user behavior;
  • fairness;
  • latency;
  • error rate.; # Збір даних.; * Документація Kubeflow.; Критерій

Приклади MLOps workflow

  • нічний скоринг клієнтів;
  • щоденний прогноз попиту;
  • класифікація документів;
  • генерація рекомендацій;
  • обробка логів;
  • створення embeddings;
  • прогноз відтоку.; 1.;

6.; Практична роль: inference pipeline гарантує, що модель у production отримує інформаційні дані в з цієї причини самому форматі, в якому вона очікує їх після training.;== Concept drift ==

  1. Постановка задачі.; Concept drift — це зміна зв’язку між input data і target.; Rollback — це повернення до попередньої стабільної версії моделі.; → Preprocessing
Небезпека: concept drift має змогу зруйнувати якість моделі навіть тоді, коли формат і розподіл даних здаються нормальними.;

Retraining — це повторне навчання моделі на нових або оновлених даних.; Training-serving skew — це ситуація, коли модель у production отримує features, які відрізняються від features під час навчання.; Перед retraining потрібно перевірити:

Вони можуть керувати:

Retraining

Retraining має змогу бути: істотно: що сильніше ML-модель впливає на людей, гроші або юридичні рішення для бізнесу, то важливіші governance і human review.; * фінансових рішень;

  • медицини;
  • HR;
  • fraud detection;
  • compliance;
  • юридичних процесів;
  • customer-facing decisions;
  • debugging;
  • довіри користувачів.;
істотно: без model registry важко зрозуміти, яка саме модель зараз функціонує в production і на яких даних вона була навчена.;

Приклади:

Training-serving skew

  • звідки прийшли інформаційні дані;
  • які transformations застосовувалися;
  • які pipeline їх обробляв;
  • яка реліз dataset використовувалася;
  • які features створені;
  • яка модель була навчена на цих даних.; → Data validation
  • manual;
  • scheduled;
  • trigger-based;
  • continuous;
  • approval-based;
  • automated with evaluation gates.; # Deployment.;== Model registry ==
завдяки наявності Практична роль: feature store користувачі можуть зробити features однаковими для навчання моделі й використання моделі в production.; MLOps залежить від DataOps, з цієї причини що ML-моделі потребують якісних даних.; # Реєстрація моделі.;

5.; Практична користь: shadow deployment надає можливість протестувати модель у реальних умовах без ризику для користувачів.; Інструменти:

істотно: модель, яка показує хороші метрики під час навчання, має змогу оперативно втратити якість у production, якщо зміняться інформаційні дані, поведінка користувачів або бізнес-процес.; Оцінити на validation і test set.; * distributed training;

  • hyperparameter tuning;
  • batch inference;
  • model serving;
  • reinforcement learning;
  • large-scale Python workloads;
  • LLM inference;
  • Ray Serve;
  • Ray Train;
  • Ray Tune.; MLOps підтримує роботу responsible AI через:
  • MLflow;
  • Kubeflow;
  • Airflow;
  • Prefect;
  • Dagster;
  • DVC;
  • lakeFS;
  • Feast;
  • TensorBoard;
  • Weights & Biases;
  • Neptune;
  • ClearML;
  • BentoML;
  • KServe;
  • Seldon;
  • Ray;
  • Docker;
  • Kubernetes;
  • Terraform;
  • Prometheus;
  • Grafana;
  • Evidently AI;
  • WhyLabs.;== Див.; додатково ==

Життєвий цикл ML-моделі

MLOps багато взяв із DevOps, але має додаткові складності.; Kubernetes застосовується для orchestration containers у production.;
Критично: ML-моделі, які впливають на людей, потрібно перевіряти не лише на середню якість, а й на справедливість для різних груп.;

Практична роль: Ray корисний, коли ML workload потрібно масштабувати на багато CPU, GPU або machines.; Задеплоїти нову версію prompt.; Перевірити hallucination rate.; Розгорнути на 100% або зробити rollback.; Приклади:

Data lineage показує:

</syntaxhighlight>

  • різний preprocessing;
  • різні джерела даних;
  • різний час актуалізація;
  • різні правила обчислення;
  • помилки в online features;
  • відсутність feature store;
  • зміни в business logic.;== Джерела ==

Cloud MLOps

Kubeflow — це платформа для ML workflows на Kubernetes.; Приклади напрямів:

як ілюстрація:

3.; Розгорнути canary на 5% traffic.;
Практична порада: кожен model deployment має мати план rollback до попередньої робочої версії.;

Training pipeline — це pipeline для навчання або перенавчання моделі.; Критично: якщо немає версії даних, неможливо чесно відтворити модель і пояснити, чому вона дала певний результат.; Її не можна в цілому покласти лише на data scientist або лише на DevOps.; Практична роль: model serving робить модель доступною для інших систем як стабільний сервіс.; * перевірки latency;

  • збору прогнозів;
  • порівняння з production model;
  • виявлення помилок;
  • безпечного тестування;
  • підготовки до rollout.;</syntaxhighlight>
GenAIOps — це ширший підхід до operational practices для генеративного AI.;
→ Monitoring

7.; 2.; * governance;

  • documentation;
  • model cards;
  • fairness checks;
  • explainability;
  • audit trail;
  • privacy controls;
  • human review;
  • monitoring;
  • incident response;
  • rollback;
  • risk classification.;

Практична роль: batch inference підходить, коли прогноз не потрібен миттєво, а має змогу бути підготовлений заздалегідь.; Потрібно контролювати:

Data lineage

Governance охоплює:

2.;
;
  • різницю в error rates;
  • bias у training data;
  • proxy variables;
  • fairness metrics;
  • segment performance;
  • adverse impact;
  • drift по групах;
  • explainability для чутливих рішень.; # Retraining.; Відправити alert, якщо розподіл прогнозів змінився.; Моніторити user feedback і safety events.;

Популярні інструменти MLOps:

  • завантаження даних;
  • перевірку schema;
  • очищення даних;
  • створення features;
  • розбиття на train/validation/test;
  • training;
  • hyperparameter tuning;
  • evaluation;
  • збереження моделі;
  • реєстрацію в model registry;
  • створення training report.; Pipeline збирає нові інформаційні дані.; Monitoring виявив data drift.;== Інструменти MLOps ==

Explainability

MLOps і DataOps

Суть data lineage: команда має знати, з яких даних і через які кроки була розроблена модель.; * recommendation system;

  • fraud detection;
  • churn prediction;
  • demand forecasting;
  • credit scoring;
  • dynamic pricing;
  • predictive maintenance;
  • document classification;
  • NLP-система;
  • computer vision model;
  • batch scoring;
  • real-time personalization;
  • LLM/RAG assistant;
  • AI-agent workflow;
  • anomaly detection.; Model serving відповідає за:

Ray у MLOps

Model card має змогу містити:

Причини:

  • модель залишається тільки в notebook;
  • немає experiment tracking;
  • немає data versioning;
  • немає model registry;
  • ручний deployment;
  • немає monitoring;
  • немає rollback;
  • відсутній owner моделі;
  • невідомо, яка модель у production;
  • немає retraining strategy;
  • не контролюється drift;
  • немає security review;
  • немає human approval для ризикових моделей;
  • немає model card;
  • business metrics не пов’язані з model metrics.; Зареєструвати модель у registry.; Model deployment — це розгортання моделі для використання.; 4.;

Практична роль: orchestration tools допомагають запускати ML-процеси за розкладом, подіями або залежностями.; # Inference.; Rollback потрібен, якщо:

→ Evaluation

Приклад:

MLflow

Потрібно перевіряти: Бізнес-цінність: MLOps робить ML не разовою ініціативою, а керованою частиною бізнес-системи.;== Batch inference ==

  • якість нових даних;
  • зміни schema;
  • leakage;
  • target availability;
  • metrics;
  • fairness;
  • comparison with current model;
  • rollback plan.;

Практична роль: retraining сприяє моделі адаптуватися до нових даних, але потребує контролю якості.; * рекомендація на сайті;

  • fraud scoring під час платежу;
  • персоналізація сторінки;
  • chatbot response;
  • real-time pricing;
  • moderation;
  • risk decision.;
3.;
ключовий артефакт Код застосунку Код, інформаційні дані, features, модель, metrics
Тестування Unit, integration, system tests Code tests, data tests, model evaluation, drift checks
Deployment реліз застосунку реліз моделі + inference pipeline
Monitoring Errors, latency, uptime Errors, latency, data drift, model quality, business metrics
Зміна якості Часто через зміну коду має змогу змінюватися навіть без зміни коду

7.; істотно: online inference має вимоги до latency, reliability, fallback і scaling.; Головне правило: MLOps має робити ML-процес відтворюваним, контрольованим, безпечним і вимірюваним.; # Документування й аудит.; 2.; # Навчання моделі.; → Training

істотно: Kubeflow потужний, але потребує Kubernetes-експертизи й не завжди потрібен для невеликих команд.;

  • development;
  • staging;
  • production;
  • archived.;

CT: Continuous Training

Model registry зберігає:

Inference pipeline — це pipeline для використання навченої моделі.; Типові задачі MLOps:

як ілюстрація:

<syntaxhighlight lang="text">

DataOps — це практики керування data pipelines, якістю даних і доставкою даних.; {| class="wikitable" Він має змогу включати: Популярні інструменти:

Суть LLMOps: для LLM істотно контролювати не лише модель, а й prompts, context, retrieval, tools, hallucinations, cost і safety.; Model versioning — це контроль версій моделей.; Щодня завантажити нові інформаційні дані.; ML governance — це керування правилами, відповідальністю, аудитом і контролем ML-систем.;== Inference pipeline ==

  • code tests;
  • data validation;
  • pipeline tests;
  • model evaluation;
  • security checks;
  • artifact build;
  • container build;
  • deployment to staging;
  • approval gate;
  • deployment to production;
  • rollback.; Це потрібно, з цієї причини що модель залежить від даних так само сильно, як від коду.; Ризики:

Feature store сприяє:

1.; # Підготовка dataset.; Data versioning — це контроль версій datasets.; Запустити модель.;

Критично: ML-модель у production без monitoring має змогу довго давати погані прогнози, поки це не помітить бізнес-середовище.; Суть canary deployment: нова модель перевіряється на малому обсязі реального traffic перед повним запуском.; Практична роль: MLOps-стек зазвичай складається з кількох інструментів: orchestration, tracking, registry, serving, monitoring і infrastructure.;== Training pipeline ==

CI/CD для ML має змогу включати:

  • rollback;
  • порівняння моделей;
  • audit;
  • A/B testing;
  • відтворення прогнозів;
  • аналізу помилок;
  • governance;
  • controlled deployment.; 4.;
  • KServe;
  • Seldon;
  • BentoML;
  • Ray Serve;
  • TensorFlow Serving;
  • TorchServe;
  • Triton Inference Server;
  • custom FastAPI service.; DevOps
!;

Тематичні мітки

Приклади:

У MLOps можуть брати участь різні ролі:

  • training pipelines;
  • experiment orchestration;
  • distributed training;
  • model serving;
  • notebooks;
  • Kubernetes-native ML;
  • production ML workflows.; MLOps застосовується у різних ML-сценаріях.; MLOps

Суть deployment: модель стає частиною реальної системи, яка отримує запити й повертає прогнози.; * керування datasets;

  • experiment tracking;
  • training pipelines;
  • feature engineering;
  • model versioning;
  • model registry;
  • validation;
  • deployment;
  • inference;
  • monitoring;
  • data drift detection;
  • concept drift detection;
  • retraining;
  • rollback;
  • governance;
  • security;
  • audit trail;
  • compliance;
  • cost control.; * Документація DVC, Feast і lakeFS.; 7.;== Типові сценарії використання ==

Raw data

  • відтворювати середовище;
  • ізолювати dependencies;
  • масштабувати сервіси;
  • керувати rollout;
  • запускати model serving;
  • контролювати resources;
  • інтегрувати monitoring;
  • автоматизувати deployment.; Batch inference — це запуск моделі на великій кількості даних за розкладом або подією.; # Оцінювання якості.; Головна думка: MLOps перетворює ML із разового експерименту на керований production-процес із версіями, перевірками, monitoring, retraining, rollback і відповідальністю.; * data drift;
  • concept drift;
  • зміна бізнес-процесу;
  • нові типи користувачів;
  • зміна джерел даних;
  • помилки upstream systems;
  • неправильне retraining;
  • seasonality;
  • зміни ринку.;

Ray має змогу допомагати з:

5.; Після запуску її потрібно спостерігати, оновлювати й контролювати.;
Підказка: MLOps workflow має описувати не лише “як навчити модель”, а й “як перевірити, запустити, спостерігати й відкотити”.;

8.;== Online inference ==

  • почати з experiment tracking;
  • версіонувати код, інформаційні дані й модель;
  • створити model registry;
  • автоматизувати training pipeline;
  • перевіряти інформаційні дані перед training;
  • використовувати validation gates;
  • запускати staging deployment;
  • додавати monitoring;
  • контролювати data drift;
  • мати retraining policy;
  • мати rollback;
  • документувати model card;
  • обмежувати доступи;
  • логувати прогнози;
  • пов’язувати model metrics із business metrics.; Після approval запускається deployment.;
!; * Документація Airflow, Prefect і Dagster.; Оновити prompt template.; 6.;
  • назву моделі;
  • призначення;
  • training data;
  • evaluation data;
  • metrics;
  • known limitations;
  • intended use;
  • out-of-scope use;
  • fairness analysis;
  • privacy considerations;
  • deployment details;
  • owner;
  • approval status.; * скоротити шлях від експерименту до production;
  • зменшити ризики помилок;
  • підвищити стабільність моделей;
  • забезпечити audit;
  • контролювати якість;
  • швидше оновлювати моделі;
  • підтримувати compliance;
  • зменшити ручні дії;
  • покращити collaboration між data scientists, engineers і business owners.;== Data drift ==

A/B testing сприяє оцінити:

  • автоматизувати навчання моделі;
  • зберігати версії моделей;
  • відтворювати експерименти;
  • оперативно розгортати модель;
  • контролювати якість після запуску;
  • виявляти деградацію;
  • відстежувати data drift;
  • запускати retraining;
  • робити rollback;
  • забезпечувати безпеку доступів;
  • логувати прогнози;
  • пояснювати рішення для бізнесу;
  • відповідати вимогам governance.; * Документація KServe, Seldon, BentoML і Ray Serve.; Вони допомагають:

MLflow має змогу допомагати:

  • model ownership;
  • approvals;
  • documentation;
  • risk classification;
  • audit trail;
  • access control;
  • compliance;
  • data lineage;
  • model lineage;
  • explainability;
  • fairness;
  • monitoring requirements;
  • incident response.; Model serving — це інфраструктура для обслуговування запитів до моделі.; # Feature engineering.; це набір практик.; Причини:

|- | Level 0 | Manual ML: notebook, ручний training, ручний deployment |- | Level 1 | Automated training pipeline і базовий model registry |- | Level 2 | CI/CD/CT, monitoring, retraining, governance, rollback |- | Level 3 | Platform MLOps: self-service, standardized workflows, full observability, policy automation |}

Ray застосовується для масштабування ML workloads.; Запустити evaluation dataset.;== Governance ==

Практична порада: managed cloud MLOps має змогу пришвидшити старт, але потрібно контролювати vendor lock-in, cost, security і governance.; Поширені помилки:

  • AWS SageMaker;
  • Google Vertex AI;
  • Azure Machine Learning;
  • Databricks Machine Learning;
  • Snowflake ML;
  • managed model registry;
  • managed feature store;
  • managed endpoints;
  • cloud monitoring;
  • cloud pipelines.; * REST API;
  • gRPC service;
  • batch inference;
  • streaming inference;
  • embedded model;
  • edge deployment;
  • mobile deployment;
  • database scoring;
  • cloud endpoint;
  • serverless function;
  • containerized service.; Перевірити monitoring.; Суть training pipeline: модель повинна навчатися відтворювано, з контрольованими даними, параметрами, метриками й версіями.; Model registry — це сховище версій моделей і їхніх metadata.; Перевірити latency і cost.; Форми deployment:

MLflow — це open-source платформа для experiment tracking, model packaging, model registry і ML lifecycle.;=== LLMOps workflow === 6.; * MLOps