Скоро ML-инженер: от первой модели до продакшена [Максим Крупчатников] [stepik.org]

RoBot · 13 Окт 2025

Чему вы научитесь
Понимать ключевые принципы машинного обучения и типы задач (регрессия, классификация, кластеризация).
Готовить данные: очистка, обработка выбросов, кодирование категорий, масштабирование.
Работать с NumPy, Pandas и визуализировать данные (Matplotlib, Seaborn, Plotly).
Разрабатывать модели на Scikit-learn: от линейной регрессии до бустингов (XGBoost, LightGBM, CatBoost).
Оценивать модели по метрикам (accuracy, precision, recall, F1, ROC-AUC) и проводить валидацию.
Оптимизировать гиперпараметры (GridSearchCV, Optuna, Hyperopt) и собирать ансамбли.
Строить нейронные сети в PyTorch и TensorFlow (CNN, RNN, Transfer Learning).
Решать задачи рекомендаций, временных рядов, кластеризации и детекции аномалий.
Интерпретировать модели (SHAP, LIME) и учитывать bias/fairness.
Версионировать эксперименты и модели (MLflow, DVC).
Собирать REST API для ML-моделей (FastAPI).
Упаковывать и деплоить модели (Docker, Streamlit, облачные сервисы).
Настраивать мониторинг и перезапуск моделей в продакшене (Evidently, Prometheus).
Разрабатывать end-to-end ML-проекты и оформлять GitHub-портфолио.
Готовиться к собеседованиям на позиции ML/DS/ML Engineer (алгоритмы, SQL, системный дизайн).
О курсе
Этот курс — про инженерную сборку ML-систем под реальные условия продакшена. Вы пройдёте путь от чистого ноутбука и базовой модели до полностью работающего сервиса: с пайплайном данных, API, CI/CD и мониторингом.

Внутри — не только «как обучить модель», но и то, что важно в эксплуатации: версионирование экспериментов (MLflow, DVC), контейнеризация и деплой (Docker, FastAPI), автоматизация пайплайнов (Airflow), контроль качества (Evidently), алерты, retraining и управление зависимостями. Отдельные блоки посвящены оптимизации гиперпараметров, интерпретации моделей и принципам надёжности ML-сервисов.

Ничего лишнего: каждое занятие завершается практическим артефактом — обученной моделью, пайплайном, Docker-образом или эндпоинтом. Все проекты запускаются «из коробки» и воспроизводятся по инструкциям.

Итог курса
На выходе вы соберёте и задеплоите end-to-end ML-продукт: подготовка данных, обучение модели, REST API, контейнеризация, деплой в облако и мониторинг метрик. Получившийся проект можно добавить в портфолио и использовать как базу для продакшн ML-систем.

Для кого этот курс
Для всех, кто хочет уверенно войти в машинное обучение и доводить модели до продакшена.
Подойдёт студентам, начинающим аналитикам, разработчикам и Data Scientist’ам, которые хотят системно понять, как строятся реальные ML-сервисы — от идеи и данных до готового API и мониторинга.
Курс не требует глубоких математических знаний — всё нужное разбирается по ходу практики.

Программа курса
1. Введение в ML:
Что такое машинное обучение и где оно применяется
История и современные тренды
Классы задач ML (регрессия, классификация, кластеризация, генера
Настройка окружения (Python, Jupyter, библиотеки)
Git основы для ML-проектов
2. Математические основы ML:
Линейная алгебра для ML
Основы статистики
Теория вероятностей
Оптимизация и градиенты
3. Python для машинного обучения:
Основы Python для DS/ML
Типы данных и коллекции в Python
Работа с NumPy
Pandas: анализ табличных данных
Визуализация: Matplotlib и Seaborn
Plotly: интерактивные графики
Scikit-learn: базовые возможности
Практикум: первая модель классификации
4. Сбор и подготовка данных:
Источники данных: CSV, SQL, API, web scraping
Парсинг данных (requests, BeautifulSoup, Scrapy)
Работа с JSON, XML, Parquet
Очистка данных и обработка пропусков
Выбросы и методы их обработки
Масштабирование данных
Кодирование категориальных переменных
Балансировка классов
Практикум: подготовка датасета
5.Классические алгоритмы ML:
Линейная и логистическая регрессия
KNN и методы ближайших соседей
Деревья решений и Random Forest
SVM
Наивный Байес
Метрики качества: accuracy, precision, recall, F1, ROC-AUC
Валидация моделей
Практикум: сравнение алгоритмов
6. Ансамбли и настройки моделей:
Bagging и Random Forest
Boosting: AdaBoost, Gradient Boosting
XGBoost, LightGBM, CatBoost
GridSearchCV и RandomizedSearchCV
Байесовская оптимизация
Hyperopt, Optuna
Ensemble Stacking
Отслеживание экспериментов (MLflow)
Практикум: подбор гиперпараметров
7. Глубокое обучение:
Что такое нейронные сети и как они устроены
Функции активации, loss-функции, оптимизаторы
Регуляризация: Dropout, BatchNorm
PyTorch основы
TensorFlow/Keras основы
CNN для изображений
RNN и LSTM
Attention и Seq2Seq
Transfer Learning
Практикум: классификация изображений
8. Специализированные задачи ML:
Кластеризация: KMeans, DBSCAN
Обнаружение аномалий
Рекомендательные системы
Анализ временных рядов: ARIMA, Prophet, LSTM
Интерпретируемость моделей: SHAP и LIME
Bias и fairness в ML
Практикум: рекомендательная система
9. MLops и продакшн:
Жизненный цикл ML-проекта
Версионирование моделей (MLflow, DVC)
Сериализация моделей
REST API для моделей (FastAPI)
Docker для ML
Деплой: Streamlit и облако
Мониторинг моделей
Best practices в ML в продакшне
Практикум: end-to-end проект
10. Подготовка к собеседованиям:
Типовые вопросы по ML и DL
Математика на собеседовании
Алгоритмы и структуры данных
SQL для ML-инженеров
Python coding challenges
Системный дизайн ML-систем
Разбор реальных кейсов
Как оформить портфолио и GitHub
Итоговый проект
На выходе вы получите:
системное понимание ML и MLOps
рабочее портфолио (5+ проектов)
финальный end-to-end ML-сервис с автообновлением модели и мониторингом

Скачать:

Для просмотра содержимого вам необходимо авторизоваться