Projeto de ciência de dados e GeoAI para estimar o risco estrutural de incêndios (Nulo, Baixo, Moderado, Alto) em células de 5x5 km no estado do Ceará, combinando históricos de focos de calor, uso e cobertura do solo, topografia e climatologia.
- Contexto e Objetivo
- Arquitetura do Projeto
- Dados Utilizados
- Pipeline de Processamento
- Modelagem de Machine Learning
- Resultados e Produto Final
- Trabalhos Futuros
- Autores
- Licença
O projeto responde à pergunta:
“Dado um local específico no Ceará, qual a sua propensão (Nulo, Baixo, Moderado ou Alto) de registrar focos de calor/incêndio ao longo do tempo, com base em características estáticas da paisagem e histórico de queimadas?”
Principais objetivos:
- Estimar um risco estrutural (não instantâneo) por célula geográfica.
- Apoiar Defesa Civil, Bombeiros e órgãos ambientais na priorização de ações preventivas e alocação de recursos.
- Produzir um modelo estático e robusto, com necessidade de re‑treinamento apenas quando novas coleções de dados (ex.: MapBiomas) estiverem disponíveis.
O projeto segue uma visão de engenharia de software orientada a pipeline:
- Camada de Fontes de Dados (INPE, MapBiomas, Topodata/SRTM, CHIRPS/ERA5).
- Camada de ETL / Pré‑processamento geoespacial.
- Camada de Feature Store geoespacial (painel anual por célula).
- Camada de Engenharia de Atributos.
- Camada de Definição de alvo e splits (estratégia espacial + temporal).
- Camada de Modelagem e Ensemble (árvores de decisão/gradient boosting).
- Camada de Visualização (mapa interativo de risco por célula 5x5 km).
Principais artefatos de dados:
queimadascearahistorico.csv- Histórico de focos de calor (TerraBrasilis/INPE) com latitude, longitude, data, município, bioma etc.
gradeceara5km.shp- Grade geoespacial de células 5x5 km com identificador
IDCelulae geometria.
- Grade geoespacial de células 5x5 km com identificador
gradeceara5kmfeaturesmapbiomas.gpkg- Proporções de classes de uso e cobertura do solo (MapBiomas) por célula.
aggtopodatagradeceara.parquet- Estatísticas agregadas de relevo (altitude, declividade, curvaturas, aspecto).
featuresclimapadraocearaclean.csv- Climatologia histórica por célula (chuva média anual, chuva na estação seca, variabilidade, umidade relativa, dias secos).
Cada registro do painel final representa uma célula (IDCelula) em um ano específico (ano), com dezenas de atributos ambientais e climáticos.
Etapas principais:
-
Ingestão dos dados brutos
- Leitura de CSV, SHP, GPKG e PARQUET.
- Padronização de tipos, tratamentos de valores ausentes e checagens de qualidade.
-
Construção do painel anual
- Junção espacial entre focos de calor e grade 5x5 km.
- Agregação por
IDCelulaeano:nqueimadas(contagem anual de focos).hasfire(indicador binário de ocorrência).
- Junção com:
- Uso do solo (proporções de classes).
- Topografia (ZN, SN, VN, HN, aspecto).
- Clima (chuva, umidade, dias secos).
-
Engenharia de atributos
- Transformações como:
nqueimadaslog(transformação logarítmica).- Diferença de umidade relativa (
climarhdiff). - Razão chuva seca (
climaprecipsecaratioano). - Intensidade média por dia seco (
climammpordiaseco). - Soma de proporções de vegetação (
usovegtotal).
- Transformações como:
-
Definição do alvo estrutural
- Cálculo do total histórico de queimadas por célula até um ano de corte.
- Definição de dois limiares (
T1,T2) a partir de quantis de distribuição. - Função que converte o total em quatro classes:
- 0 – Risco Nulo
- 1 – Risco Baixo
- 2 – Risco Moderado
- 3 – Risco Alto
-
Separação de conjuntos (splits)
- Split espacial por célula (GroupShuffleSplit):
- Conjuntos mutuamente exclusivos de
IDCelulapara treino, validação e teste.
- Conjuntos mutuamente exclusivos de
- Split temporal:
- Treino: anos 2003–2018
- Validação: anos 2019–2022
- Teste: anos 2023–2024
- Split espacial por célula (GroupShuffleSplit):
Características da modelagem:
- Problema de classificação multiclasse ordinal (0–3).
- Modelos principais:
- Algoritmos baseados em árvores (ex.: Random Forest, LightGBM, XGBoost).
- Estratégia:
- Treinamento de modelos individuais com tuning de hiperparâmetros.
- Avaliação considerando o caráter ordinal das classes (métricas como QWK, F1 por classe, etc.).
- Construção de um ensemble a partir das probabilidades dos modelos:
- Média ou combinação ponderada de probabilidades.
- Classe final
nivelriscopredobtida a partir da maior probabilidade.
Saídas principais:
-
Tabela geoespacial de teste enriquecida:
- Geometria da célula.
nivelriscostruct(risco estrutural verdadeiro).nivelriscopred(risco predito pelo ensemble).- Contagem de queimadas recentes e principais features ambientais.
-
Mapa interativo de risco:
- Células 5x5 km coloridas por nível de risco predito.
- Base de mapa (ex.: Carto, Mapbox) com possibilidade de zoom, pan e inspeção via hover.
- Foco em anos mais recentes (2023–2024) para servir como painel de apoio à decisão.
Algumas extensões possíveis:
- Incorporar dados dinâmicos (meteorologia de curto prazo, umidade de combustível fino).
- Explorar modelos específicos para dados espaciais (ex.: GNNs em grades ou grafos).
- Publicar o mapa como um dashboard web interativo (Streamlit, Dash, etc.).
- Avaliar diferentes estratégias de definição de alvo (ex.: janelas deslizantes).
-
Gabriela Ferreira Coutinho – Matrícula 2418581
GitHub: @gabrierys -
João Paulo Barbosa Amorim Leitão – Matrícula 2418549
GitHub: @joaopaulobarbosa
Este projeto está licenciado sob a MIT License – consulte o arquivo LICENSE para mais detalhes.
A licença MIT permite uso, cópia, modificação, fusão, publicação, distribuição, sublicenciamento e/ou venda de cópias do software, com as seguintes condições:
- O aviso de copyright e esta permissão devem ser incluídos em todas as cópias ou partes substanciais do software.
- O software é fornecido "como está", sem garantias de qualquer tipo.