📊 Censo 2024 - Azure Data Factory Pipeline

Este proyecto tiene como propósito demostrar el diseño, configuración y ejecución de un pipeline de datos end-to-end utilizando Azure Data Factory (ADF). El flujo principal se encarga de ingerir, transformar y disponibilizar datos correspondientes al Censo 2024 de Chile, implementando transformaciones complejas a través de Data Flows.

🚀 Arquitectura y Flujo de Trabajo

El flujo de trabajo se divide en los siguientes componentes principales:

Extracción y Carga Inicial (Ingesta): Descarga de datos fuente y almacenamiento en Azure Blob Storage.
Procesamiento de Datos: Transformación estructural de los datos mediante Data Flows escalables en ADF.
Persistencia (Sink): Almacenamiento de los resultados optimizados y transformados para su posterior análisis.

🛠️ Requisitos Previos

Para implementar y probar este entorno, necesitarás:

Una suscripción activa de Microsoft Azure.
Un Azure Storage Account (Blob Storage) aprovisionado.
Una instancia de Azure Data Factory V2 desplegada.
Un repositorio asociado (Git/GitHub) en el Data Factory para conservar la definición del pipeline y metadatos.

📂 Organización del Proyecto

El código fuente exportado de ADF se encuentra estructurado bajo el directorio src/:

src/linkedService/: Servicios enlazados y conectores hacia componentes u orígenes de datos remotos (ej. Base de datos o Storage).
src/dataset/: Definiciones lógicas de entrada y salida de los datos.
src/dataflow/: Componentes con la lógica de transformación visual y su esquema subyacente (ej. Censo Dataflow.json).
src/pipeline/: Entidades de orquestación que encadenan y ejecutan nuestras actividades.
img/: Evidencia en imágenes sobre el flujo de desarrollo.

📖 Paso a Paso de la Implementación

1. Obtención de Datos (Archivos Parquet)

El primer paso es asegurar las fuentes de datos correctas. Se deben descargar los archivos en formato *.parquet para su posterior carga al entorno de Azure. 🔗 Fuente Oficial: Resultados Censo 2024 - INE

2. Configuración del Storage Account

Se requiere aprovisionar o reciclar un servicio existente de Azure Blob Storage y generar uno o varios contenedores para persistir tanto la materia prima (arquitectura Bronze) como el resultado final.

Figura 1: Creación y revisión del contenedor dentro de clúster Blob Storage.

3. Creación y Configuración del Azure Data Factory (ADF)

Desde el Portal de Azure, se despliega Data Factory. Al lanzar la aplicación "Data Factory Studio", es posible integrarlo con GitHub para un correcto versionamiento de los recursos creados.

3.1 Linked Service al Blob Storage

El Linked Service actúa como credencial y autenticador (cadena de conexión) para un servicio externo, en este caso, el servidor Storage.

Figura 2: Prueba de conexión satisfactoria hacia Blob Storage.

3.2 Datasets para Origen y Destino

Los datasets operan como encapsuladores de vista (tablas o archivos). Una vez el servicio enlazado esté creado, se estructuran los datasets que representan los archivos parquet entrantes.

Figura 3: Lista de Datasets en la plataforma ADF referenciando componentes Blob.

3.3 Construcción del Data Flow

El core del proyecto descansa en su capa semántica de transformación de datos. Data Flow levanta un clúster Spark nativo permitiendo el diseño lógico sin código. Todos los mappings generados en esta fase se conservan y pueden ser consultados en: Censo Dataflow.json

Figura 4: Transformaciones de Join, Select, Aggregate, derivadas, etc... dentro del Data Flow.

3.4 Armado del Pipeline

Para iniciar un Data Flow, es requisito ser llamado por una actividad dentro de un Pipeline. Esto facilita ejecutar múltiples dependencias e integrar sistemas robustos o alarmas.

Figura 5: Tarea simple contenida dentro del Pipeline principal asignado al Data Flow.

✅ Ejecución y Resultados Finales

Ejecución Exitosa

Validado el código y subido al control de versiones (Publish All), corremos el entorno en modalidad Debug. Desde el tablero de monitoreo podemos atestiguar visualmente su comportamiento asíncrono.

Figura 6: Evidencia de validación de estado exitoso de la ejecución.

Resultados Disponibles

Los archivos modelados terminan persistiéndose de la forma requerida sobre Azure, estando disponibles para integración con Synapse Analytics o Power BI.

Figura 7: Comprobación de que la red local o Blob generó e insertó los artefactos procesados.

📚 Referencias Oficiales (Consultas y Documentación)

Para profundizar en la funcionalidad de Data Factory desplegada en esta prueba de concepto:

Nota: La documentación de este proyecto fue redactada originalmente por el autor y posteriormente revisada, estructurada y potenciada con asistencia de Inteligencia Artificial.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
adf-censo-df		adf-censo-df
img		img
input		input
src		src
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

📊 Censo 2024 - Azure Data Factory Pipeline

🚀 Arquitectura y Flujo de Trabajo

🛠️ Requisitos Previos

📂 Organización del Proyecto