ETL-пайплайны
ProПолный курс по построению ETL/ELT-пайплайнов для аналитики данных. Вы научитесь проектировать Extract-паттерны (full load, incremental, CDC), трансформировать данные (SCD Type 2, дедупликация, нормализация), строить DQ-проверки и мониторинг качества данных, оркестрировать пайплайны через Airflow-паттерны, обеспечивать идемпотентность и SLA-мониторинг, работать с потоковой обработкой (Kafka, Flink, Spark Streaming). 55 практических уроков на датасете реальной ETL-платформы.
Что вы научитесь
- Проектировать Full Load и Incremental Load пайплайны
- Реализовывать Watermark-паттерн и CDC
- Строить SCD Type 2 через LEAD и UPSERT
- Проверять качество данных: completeness, uniqueness, validity
- Реализовывать Data Contracts и threshold-алерты
- Строить идемпотентные пайплайны (DELETE+INSERT, UPSERT)
- Обнаруживать аномалии объёма через Z-score
- Мониторить SLA и freshness данных
- Понимать архитектуры Lambda, Kappa, Medallion
- Строить комплексные ETL-дашборды для всей платформы
Программа курса · 4 трека
Extract, Transform, Load
Изучите паттерны каждой фазы ETL: полная и инкрементальная выгрузка, трансформации данных, SCD-паттерны, загрузка в DWH.
Ещё не начат
Data Quality и валидация
Освойте паттерны проверки качества данных: completeness, uniqueness, validity, referential integrity. Научитесь строить DQ-пайплайны и мониторинг аномалий.
Ещё не начат
Оркестрация и Airflow-паттерны
Освойте паттерны оркестрации ETL-пайплайнов: DAG-зависимости, идемпотентность, backfill, параллелизация и управление состоянием.
Ещё не начат
Streaming ETL и итоговый проект
Изучите основы потоковой обработки данных (Kafka, Flink, Spark Streaming) и выполните итоговый проект — построение полного ETL-дашборда.
Ещё не начат
Получите полный доступ к курсу
Все уроки, практические задания и проверка запросов — навсегда.