Este proyecto tiene como propósito demostrar el diseño, configuración y ejecución de un pipeline de datos end-to-end utilizando Azure Data Factory (ADF). El flujo principal se encarga de ingerir, transformar y disponibilizar datos correspondientes al Censo 2024 de Chile, implementando transformaciones complejas a través de Data Flows.
El flujo de trabajo se divide en los siguientes componentes principales:
- Extracción y Carga Inicial (Ingesta): Descarga de datos fuente y almacenamiento en Azure Blob Storage.
- Procesamiento de Datos: Transformación estructural de los datos mediante Data Flows escalables en ADF.
- Persistencia (Sink): Almacenamiento de los resultados optimizados y transformados para su posterior análisis.
Para implementar y probar este entorno, necesitarás:
- Una suscripción activa de Microsoft Azure.
- Un Azure Storage Account (Blob Storage) aprovisionado.
- Una instancia de Azure Data Factory V2 desplegada.
- Un repositorio asociado (Git/GitHub) en el Data Factory para conservar la definición del pipeline y metadatos.
El código fuente exportado de ADF se encuentra estructurado bajo el directorio src/:
src/linkedService/: Servicios enlazados y conectores hacia componentes u orígenes de datos remotos (ej. Base de datos o Storage).src/dataset/: Definiciones lógicas de entrada y salida de los datos.src/dataflow/: Componentes con la lógica de transformación visual y su esquema subyacente (ej.Censo Dataflow.json).src/pipeline/: Entidades de orquestación que encadenan y ejecutan nuestras actividades.img/: Evidencia en imágenes sobre el flujo de desarrollo.
El primer paso es asegurar las fuentes de datos correctas. Se deben descargar los archivos en formato *.parquet para su posterior carga al entorno de Azure.
🔗 Fuente Oficial: Resultados Censo 2024 - INE
Se requiere aprovisionar o reciclar un servicio existente de Azure Blob Storage y generar uno o varios contenedores para persistir tanto la materia prima (arquitectura Bronze) como el resultado final.
Desde el Portal de Azure, se despliega Data Factory. Al lanzar la aplicación "Data Factory Studio", es posible integrarlo con GitHub para un correcto versionamiento de los recursos creados.
El Linked Service actúa como credencial y autenticador (cadena de conexión) para un servicio externo, en este caso, el servidor Storage.
Los datasets operan como encapsuladores de vista (tablas o archivos). Una vez el servicio enlazado esté creado, se estructuran los datasets que representan los archivos parquet entrantes.
El core del proyecto descansa en su capa semántica de transformación de datos. Data Flow levanta un clúster Spark nativo permitiendo el diseño lógico sin código. Todos los mappings generados en esta fase se conservan y pueden ser consultados en: Censo Dataflow.json
Para iniciar un Data Flow, es requisito ser llamado por una actividad dentro de un Pipeline. Esto facilita ejecutar múltiples dependencias e integrar sistemas robustos o alarmas.
Validado el código y subido al control de versiones (Publish All), corremos el entorno en modalidad Debug. Desde el tablero de monitoreo podemos atestiguar visualmente su comportamiento asíncrono.
Los archivos modelados terminan persistiéndose de la forma requerida sobre Azure, estando disponibles para integración con Synapse Analytics o Power BI.
Para profundizar en la funcionalidad de Data Factory desplegada en esta prueba de concepto:
- Data Flow Column Pattern
- Data Flow Cached Lookup Functions
- Data Flow Expression Builder Functions
- Data Flow IN Expression Usage
Nota: La documentación de este proyecto fue redactada originalmente por el autor y posteriormente revisada, estructurada y potenciada con asistencia de Inteligencia Artificial.






