Skip to content

ericmartinezr/adf-censo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

📊 Censo 2024 - Azure Data Factory Pipeline

Azure Data Factory Azure Blob Storage

Este proyecto tiene como propósito demostrar el diseño, configuración y ejecución de un pipeline de datos end-to-end utilizando Azure Data Factory (ADF). El flujo principal se encarga de ingerir, transformar y disponibilizar datos correspondientes al Censo 2024 de Chile, implementando transformaciones complejas a través de Data Flows.

🚀 Arquitectura y Flujo de Trabajo

El flujo de trabajo se divide en los siguientes componentes principales:

  1. Extracción y Carga Inicial (Ingesta): Descarga de datos fuente y almacenamiento en Azure Blob Storage.
  2. Procesamiento de Datos: Transformación estructural de los datos mediante Data Flows escalables en ADF.
  3. Persistencia (Sink): Almacenamiento de los resultados optimizados y transformados para su posterior análisis.

🛠️ Requisitos Previos

Para implementar y probar este entorno, necesitarás:

  • Una suscripción activa de Microsoft Azure.
  • Un Azure Storage Account (Blob Storage) aprovisionado.
  • Una instancia de Azure Data Factory V2 desplegada.
  • Un repositorio asociado (Git/GitHub) en el Data Factory para conservar la definición del pipeline y metadatos.

📂 Organización del Proyecto

El código fuente exportado de ADF se encuentra estructurado bajo el directorio src/:

  • src/linkedService/: Servicios enlazados y conectores hacia componentes u orígenes de datos remotos (ej. Base de datos o Storage).
  • src/dataset/: Definiciones lógicas de entrada y salida de los datos.
  • src/dataflow/: Componentes con la lógica de transformación visual y su esquema subyacente (ej. Censo Dataflow.json).
  • src/pipeline/: Entidades de orquestación que encadenan y ejecutan nuestras actividades.
  • img/: Evidencia en imágenes sobre el flujo de desarrollo.

📖 Paso a Paso de la Implementación

1. Obtención de Datos (Archivos Parquet)

El primer paso es asegurar las fuentes de datos correctas. Se deben descargar los archivos en formato *.parquet para su posterior carga al entorno de Azure. 🔗 Fuente Oficial: Resultados Censo 2024 - INE

2. Configuración del Storage Account

Se requiere aprovisionar o reciclar un servicio existente de Azure Blob Storage y generar uno o varios contenedores para persistir tanto la materia prima (arquitectura Bronze) como el resultado final.

Blob Storage

Figura 1: Creación y revisión del contenedor dentro de clúster Blob Storage.

3. Creación y Configuración del Azure Data Factory (ADF)

Desde el Portal de Azure, se despliega Data Factory. Al lanzar la aplicación "Data Factory Studio", es posible integrarlo con GitHub para un correcto versionamiento de los recursos creados.

3.1 Linked Service al Blob Storage

El Linked Service actúa como credencial y autenticador (cadena de conexión) para un servicio externo, en este caso, el servidor Storage.

Linked Service

Figura 2: Prueba de conexión satisfactoria hacia Blob Storage.

3.2 Datasets para Origen y Destino

Los datasets operan como encapsuladores de vista (tablas o archivos). Una vez el servicio enlazado esté creado, se estructuran los datasets que representan los archivos parquet entrantes.

Datasets

Figura 3: Lista de Datasets en la plataforma ADF referenciando componentes Blob.

3.3 Construcción del Data Flow

El core del proyecto descansa en su capa semántica de transformación de datos. Data Flow levanta un clúster Spark nativo permitiendo el diseño lógico sin código. Todos los mappings generados en esta fase se conservan y pueden ser consultados en: Censo Dataflow.json

Data flow

Figura 4: Transformaciones de Join, Select, Aggregate, derivadas, etc... dentro del Data Flow.

3.4 Armado del Pipeline

Para iniciar un Data Flow, es requisito ser llamado por una actividad dentro de un Pipeline. Esto facilita ejecutar múltiples dependencias e integrar sistemas robustos o alarmas.

ADF Pipeline

Figura 5: Tarea simple contenida dentro del Pipeline principal asignado al Data Flow.


✅ Ejecución y Resultados Finales

Ejecución Exitosa

Validado el código y subido al control de versiones (Publish All), corremos el entorno en modalidad Debug. Desde el tablero de monitoreo podemos atestiguar visualmente su comportamiento asíncrono.

ADF Pipeline OK

Figura 6: Evidencia de validación de estado exitoso de la ejecución.

Resultados Disponibles

Los archivos modelados terminan persistiéndose de la forma requerida sobre Azure, estando disponibles para integración con Synapse Analytics o Power BI.

ADF Pipeline results

Figura 7: Comprobación de que la red local o Blob generó e insertó los artefactos procesados.


📚 Referencias Oficiales (Consultas y Documentación)

Para profundizar en la funcionalidad de Data Factory desplegada en esta prueba de concepto:



Nota: La documentación de este proyecto fue redactada originalmente por el autor y posteriormente revisada, estructurada y potenciada con asistencia de Inteligencia Artificial.

About

Censo 2024 con Azure Data Factory

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors