Inspiration

En la propuesta de Merlin Software

What it does

ExcaliSearch es un sistema de gestión documental inteligente. Permite subir archivos (PDF, Word, Excel, etc.), los indexa mediante búsqueda tradicional y semántica, usando datos vectoriales, y ofrece un chat interactivo para interrogar a tus documentos, así como obtener resúmenes automáticos sin leerlos por completo.

How we built it

  • Frontend: Interfaz reactiva con React y Vite.
  • Backend: API con FastAPI (Python).
  • Búsqueda: Motor híbrido usando Whoosh (palabras clave) y ChromaDB (vectores).
  • IA: Integración de Ollama para LLMs locales y modelos de transformers multilingües para el embedding de los datos.

Challenges we ran into

El mayor reto fue el procesamiento heterogéneo de archivos: normalizar tablas de Excel, texto de Word y metadatos de PDFs para que la búsqueda semántica fuera precisa en todos los formatos.

Accomplishments that we're proud of

Lograr una búsqueda híbrida funcional: el sistema entiende conceptos (búsqueda semántica) pero no olvida términos exactos (búsqueda tradicional), todo corriendo de forma local. A su vez, se dispone de librerías que nos ofrecen el resumen del contenido de los archivos y el chatbot generado con Ollama que nos permite realizar consultas sobre el contenido de los mismos.

What we learned

Profundizamos en el desarrollo de interfaces y aprendimos sobre OCR y IA.

What's next for ExcaliSearch

  • Sistema de usuarios y permisos por carpetas.
  • Conectores directos con Google Drive y Dropbox.
  • Mejora del rendimiento.

Built With

Share this project:

Updates