Skip to content

gabrierys/modelo-risco-incendio-ceara-ml

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 

Repository files navigation

Modelos de Machine Learning – Previsão de Risco de Incêndio (Ceará)

Projeto de ciência de dados e GeoAI para estimar o risco estrutural de incêndios (Nulo, Baixo, Moderado, Alto) em células de 5x5 km no estado do Ceará, combinando históricos de focos de calor, uso e cobertura do solo, topografia e climatologia.

Índice

Geoespacial Fire Risk Flow-2026-02-10-012833

Contexto e Objetivo

O projeto responde à pergunta:

“Dado um local específico no Ceará, qual a sua propensão (Nulo, Baixo, Moderado ou Alto) de registrar focos de calor/incêndio ao longo do tempo, com base em características estáticas da paisagem e histórico de queimadas?”

Principais objetivos:

  • Estimar um risco estrutural (não instantâneo) por célula geográfica.
  • Apoiar Defesa Civil, Bombeiros e órgãos ambientais na priorização de ações preventivas e alocação de recursos.
  • Produzir um modelo estático e robusto, com necessidade de re‑treinamento apenas quando novas coleções de dados (ex.: MapBiomas) estiverem disponíveis.

Arquitetura do Projeto

O projeto segue uma visão de engenharia de software orientada a pipeline:

  • Camada de Fontes de Dados (INPE, MapBiomas, Topodata/SRTM, CHIRPS/ERA5).
  • Camada de ETL / Pré‑processamento geoespacial.
  • Camada de Feature Store geoespacial (painel anual por célula).
  • Camada de Engenharia de Atributos.
  • Camada de Definição de alvo e splits (estratégia espacial + temporal).
  • Camada de Modelagem e Ensemble (árvores de decisão/gradient boosting).
  • Camada de Visualização (mapa interativo de risco por célula 5x5 km).

Dados Utilizados

Principais artefatos de dados:

  • queimadascearahistorico.csv
    • Histórico de focos de calor (TerraBrasilis/INPE) com latitude, longitude, data, município, bioma etc.
  • gradeceara5km.shp
    • Grade geoespacial de células 5x5 km com identificador IDCelula e geometria.
  • gradeceara5kmfeaturesmapbiomas.gpkg
    • Proporções de classes de uso e cobertura do solo (MapBiomas) por célula.
  • aggtopodatagradeceara.parquet
    • Estatísticas agregadas de relevo (altitude, declividade, curvaturas, aspecto).
  • featuresclimapadraocearaclean.csv
    • Climatologia histórica por célula (chuva média anual, chuva na estação seca, variabilidade, umidade relativa, dias secos).

Cada registro do painel final representa uma célula (IDCelula) em um ano específico (ano), com dezenas de atributos ambientais e climáticos.

Pipeline de Processamento

Etapas principais:

  1. Ingestão dos dados brutos

    • Leitura de CSV, SHP, GPKG e PARQUET.
    • Padronização de tipos, tratamentos de valores ausentes e checagens de qualidade.
  2. Construção do painel anual

    • Junção espacial entre focos de calor e grade 5x5 km.
    • Agregação por IDCelula e ano:
      • nqueimadas (contagem anual de focos).
      • hasfire (indicador binário de ocorrência).
    • Junção com:
      • Uso do solo (proporções de classes).
      • Topografia (ZN, SN, VN, HN, aspecto).
      • Clima (chuva, umidade, dias secos).
  3. Engenharia de atributos

    • Transformações como:
      • nqueimadaslog (transformação logarítmica).
      • Diferença de umidade relativa (climarhdiff).
      • Razão chuva seca (climaprecipsecaratioano).
      • Intensidade média por dia seco (climammpordiaseco).
      • Soma de proporções de vegetação (usovegtotal).
  4. Definição do alvo estrutural

    • Cálculo do total histórico de queimadas por célula até um ano de corte.
    • Definição de dois limiares (T1, T2) a partir de quantis de distribuição.
    • Função que converte o total em quatro classes:
      • 0 – Risco Nulo
      • 1 – Risco Baixo
      • 2 – Risco Moderado
      • 3 – Risco Alto
  5. Separação de conjuntos (splits)

    • Split espacial por célula (GroupShuffleSplit):
      • Conjuntos mutuamente exclusivos de IDCelula para treino, validação e teste.
    • Split temporal:
      • Treino: anos 2003–2018
      • Validação: anos 2019–2022
      • Teste: anos 2023–2024

Modelagem de Machine Learning

Características da modelagem:

  • Problema de classificação multiclasse ordinal (0–3).
  • Modelos principais:
    • Algoritmos baseados em árvores (ex.: Random Forest, LightGBM, XGBoost).
  • Estratégia:
    • Treinamento de modelos individuais com tuning de hiperparâmetros.
    • Avaliação considerando o caráter ordinal das classes (métricas como QWK, F1 por classe, etc.).
    • Construção de um ensemble a partir das probabilidades dos modelos:
      • Média ou combinação ponderada de probabilidades.
      • Classe final nivelriscopred obtida a partir da maior probabilidade.

Resultados e Produto Final

Saídas principais:

  • Tabela geoespacial de teste enriquecida:

    • Geometria da célula.
    • nivelriscostruct (risco estrutural verdadeiro).
    • nivelriscopred (risco predito pelo ensemble).
    • Contagem de queimadas recentes e principais features ambientais.
  • Mapa interativo de risco:

    • Células 5x5 km coloridas por nível de risco predito.
    • Base de mapa (ex.: Carto, Mapbox) com possibilidade de zoom, pan e inspeção via hover.
    • Foco em anos mais recentes (2023–2024) para servir como painel de apoio à decisão.

Trabalhos Futuros

Algumas extensões possíveis:

  • Incorporar dados dinâmicos (meteorologia de curto prazo, umidade de combustível fino).
  • Explorar modelos específicos para dados espaciais (ex.: GNNs em grades ou grafos).
  • Publicar o mapa como um dashboard web interativo (Streamlit, Dash, etc.).
  • Avaliar diferentes estratégias de definição de alvo (ex.: janelas deslizantes).

Autores

  • Gabriela Ferreira Coutinho – Matrícula 2418581
    GitHub: @gabrierys

  • João Paulo Barbosa Amorim Leitão – Matrícula 2418549
    GitHub: @joaopaulobarbosa

Licença

Este projeto está licenciado sob a MIT License – consulte o arquivo LICENSE para mais detalhes.

A licença MIT permite uso, cópia, modificação, fusão, publicação, distribuição, sublicenciamento e/ou venda de cópias do software, com as seguintes condições:

  • O aviso de copyright e esta permissão devem ser incluídos em todas as cópias ou partes substanciais do software.
  • O software é fornecido "como está", sem garantias de qualquer tipo.

About

Modelagem geoespacial de risco estrutural de incêndios em grade 5×5 km: Random Forest, LightGBM, XGBoost e Ensemble (QWK=0.65). Pipeline completo com INPE/Queimadas, MapBiomas C8, Topodata/SRTM, CHIRPS/ERA5-Land (2001-2024).

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors