Sistema de clasificación de audio que identifica sonidos ambientales usando un modelo CNN ResNet.
Qué hace?
- Clasifica archivos de audio en 50 categorías del dataset ESC-50 (ladridos de perro, lluvia, bocinas de auto, etc).
Cómo funciona?
- Convierte audio a espectrogramas mel
- Usa red neuronal ResNet para clasificación
- Retorna predicciones principales con puntajes de confianza
- Instalar dependencias con uv:
uv sync- Entrenar el modelo en Modal cloud:
make train- Desplegar servidor de inferencia:
make deploy- Probar el endpoint:
make testsrc/- Código principal del modelo y entrenamientoops/- Scripts de despliegue en Modaltests/- Archivos de pruebasdata/- Dataset ESC-50