Skip to content
View JohnnyHyytiainen's full-sized avatar
🦄
Amor fati
🦄
Amor fati

Block or report JohnnyHyytiainen

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don’t include any personal information such as legal names or email addresses. Markdown is supported. This note will only be visible to you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
johnnyhyytiainen/README.md

👋 Hej, jag är Johnny! | Data Engineering Student @ STI

Click here for English version
Jag bygger robusta, skalbara datapipelines och drivs av att lösa verkliga problem från rådata till affärsvärde. Jag är för närvarande under utbildning till Data Engineer vid Stockholms Tekniska Institut (STI) och letar efter en LIA-plats (praktik) inför våren 2027.

Min filosofi är enkel: Lämna tutorial-datan, bygga system som hanterar verklighetens stökiga kantfall, och var alltid redo att anpassa tech-stacken efter affärens behov.


🚀 Utvalda Projekt (Flaggskepp)

Pågående projekt

Stack: Kafka (KRaft), Python, Pandas, PySpark, dbt, Docker, Parquet

  • Designade en end-to-end strömmande datapipeline som drar live-events från GitHub API.
  • Hanterar data från Ingestion (Bronze) via Kafka, deduplicering och validering av nästlad JSON (Silver), redo för analytiska vyer (Gold).
  • Löste komplexa schema-utmaningar (schema inference bugs) vid konvertering av stökiga API-svar till optimerad kolumnbaserad lagring (Parquet).

Pågående projekt

Stack: Python, Vector Databases, LLMs, RAG-arkitektur

  • Utvecklade en AI-driven sökapplikation (Retrieval-Augmented Generation) för att effektivt lagra och hämta Data Engineering-koncept.
  • Demonstrerar förståelse för moderna AI/MLOps-mönster och hur man integrerar språkmodeller med egna databaser.

🛠️ Tech Stack & Verktyg

  • Data Engineering & Pipelines: Apache Kafka, dbt, PySpark, Pandas
  • Databaser & Lagring: DuckDB (OLAP), PostgreSQL (OLTP), Parquet, Dimensional Modeling
  • Infrastruktur & DevOps: Docker, GitHub Actions (CI/CD), Pytest
  • BI & Visualisering: PowerBI, Streamlit, Matplotlib
  • Kommande / Pågående: AWS/Azure (Molnplattformar), Terraform

📫 Låt oss ta en kaffe!

Jag pratar gärna arkitektur, data-livscykler eller hur man hanterar oväntade null-värden i schemalösa API:er.
Fler projekt t.ex labbar/examinationsuppgifter ifrån tidigare kurser går att hitta under mina repositorys.

Pinned Loading

  1. glossary_db glossary_db Public

    Personal Glossary Database to help keep track on terms and theory for school and future work

    Python 3

  2. data-lake-project data-lake-project Public

    Personal project - Build my own data lake to further deepen understanding and knowledge about data lakes, data lifecycle and data engineering.

    Python 1

  3. group_project_dataplatform group_project_dataplatform Public

    Group project for Dataplatform course

    Python 1

  4. lab_data_modeling_DE25_johnny_hyytiainen lab_data_modeling_DE25_johnny_hyytiainen Public

    Lab for Data modeling course. Data Engineer class of 2025

    PLpgSQL