OpenDataByModernStack

Общая информация

Создание пайплайна загрузки в открытых данных правительства Москвы для анализа зависимостей в BI на базе современного стека инструментов

Цели

Создать пайплайн загрузки открытых данных правительства Москвы
Использовать современный стек инструментов
Анализа зависимостей в BI

Что планировалось

Выбрать набор открытых данных правительства Москвы
Сделать контейнер сервисов
Создать слои данных (STG, ODS и DDS) в DWH
Создать аналитические витрины (DMT) в хранилище горячих данных
Настроить оркестрацию загрузки данных
Выполнить пайплан, прогрузить данные
Проанализировать загруженные данные

Используемые технологии

Конфигурация в Docker, разделение на отдельные самостоятельные сервисы
AirFlow – оркестратор
dbt – трансформации, тестирование данных
Cosmos – связка AirFlow и dbt
PostgreSQL – хранилище данных (DWH)
ClickHouse - аналитические витрины
Superset - BI

Версии

Docker - 25.0.3
AirFlow - 2.8.3
dbt - 1.7.10
dbt plugins postgres - 1.7.10
dbt plugins clickhouse - 1.7.3
Cosmos - 1.3.2
PostgreSQL - 16.2
ClickHouse - 24.2.2.71
Superset - 3.1.1

Что получилось

Исходный набор данных “Годовой пассажиропоток по всем видам общественного транспорта в городе Москве”

Структура проекта

Структура контейнеров, выделение отдельных сервисов

Код дага загрузки архива, распаковки json и загрузки данных в STG

Код дага трансформации в ODS и DDS загруженных данных из STG, а также структура соответствующего проекта dbt при использовании Cosmos для связки с Airflow

Даги пайплана загрузки открытых данных правительства Москвы

Граф дага трансформации загруженных данных в STG

Анализ зависимостей в BI

Схема потоков данных

Выводы и планы по развитию

Выбранный стек позволят построить пайплайн загрузки данных
Cosmos позволяет связать AirFlow c dbt, а это дает сделать оркестрация функционала dbt из "коробки", как, например, создание моделей данных, тестирование и инкрементальную загрузку протестированных данных
Дальнейшие планы по развитию:

вынести в настройку задание наборов загружаемых открытых данных
минимизировать количество операций по настройки созданных контейнеров (запустил "docker compose up" и перешел к анализу данных в Superset)
создание инфраструктуры сделать через Terraform
использовать облачные ресурсы
выстроить зависимость дагов загрузки данных
документирование проекта

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.devcontainer		.devcontainer
airflow/dags		airflow/dags
dwh		dwh
.env		.env
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
docker-compose.yml		docker-compose.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

OpenDataByModernStack

Общая информация

Цели

Что планировалось

Используемые технологии

Версии

Что получилось

Схема потоков данных

Выводы и планы по развитию

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

OpenDataByModernStack

Общая информация

Цели

Что планировалось

Используемые технологии

Версии

Что получилось

Схема потоков данных

Выводы и планы по развитию

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages