Este proyecto está orientado a extraer referencias bilbiográficas de archivos PDF.
El archivo main.py ejecuta una búsqueda de palabras, ingresadas por el usuario, en un conjunto de PDFs ubicados en una carpeta.
Ejemplo de ejecución:
- main.py Referencias
Donde 'Referencias' es la carpeta que tiene los PDFs donde se buscarán las palabras clave.
La interfaz gráfica se puede usar ejecutando el archivo mainGui.py.
- python mainGui.py
-
Poppler para el manejo de PDFs: https://anaconda.org/conda-forge/poppler
-
Tesseract para el funcionamiento del OCR: https://github.com/UB-Mannheim/tesseract/wiki
-
Se debe configurar el path de tesseract. Por defecto la configuración es: pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
- Almacenar los archivos txt del OCR, página por página, de un libro ya buscado para no tener que usar el OCR una y otra vez, ahorrando tiempo.