Inspiration
En la propuesta de Merlin Software
What it does
ExcaliSearch es un sistema de gestión documental inteligente. Permite subir archivos (PDF, Word, Excel, etc.), los indexa mediante búsqueda tradicional y semántica, usando datos vectoriales, y ofrece un chat interactivo para interrogar a tus documentos, así como obtener resúmenes automáticos sin leerlos por completo.
How we built it
- Frontend: Interfaz reactiva con React y Vite.
- Backend: API con FastAPI (Python).
- Búsqueda: Motor híbrido usando Whoosh (palabras clave) y ChromaDB (vectores).
- IA: Integración de Ollama para LLMs locales y modelos de transformers multilingües para el embedding de los datos.
Challenges we ran into
El mayor reto fue el procesamiento heterogéneo de archivos: normalizar tablas de Excel, texto de Word y metadatos de PDFs para que la búsqueda semántica fuera precisa en todos los formatos.
Accomplishments that we're proud of
Lograr una búsqueda híbrida funcional: el sistema entiende conceptos (búsqueda semántica) pero no olvida términos exactos (búsqueda tradicional), todo corriendo de forma local. A su vez, se dispone de librerías que nos ofrecen el resumen del contenido de los archivos y el chatbot generado con Ollama que nos permite realizar consultas sobre el contenido de los mismos.
What we learned
Profundizamos en el desarrollo de interfaces y aprendimos sobre OCR y IA.
What's next for ExcaliSearch
- Sistema de usuarios y permisos por carpetas.
- Conectores directos con Google Drive y Dropbox.
- Mejora del rendimiento.
Built With
- chromadb
- fastapi
- javascript
- node.js
- ollama
- python
- react
- sumy
- tesseract
- vite
- whoosh
Log in or sign up for Devpost to join the conversation.