PDF references extractor

Este proyecto está orientado a extraer referencias bilbiográficas de archivos PDF.

Funcionamiento

El archivo main.py ejecuta una búsqueda de palabras, ingresadas por el usuario, en un conjunto de PDFs ubicados en una carpeta.

Ejemplo de ejecución:

main.py Referencias

Donde 'Referencias' es la carpeta que tiene los PDFs donde se buscarán las palabras clave.

Interfaz gráfica

La interfaz gráfica se puede usar ejecutando el archivo mainGui.py.

python mainGui.py

OCR

Requisitos de funcionamiento

Poppler para el manejo de PDFs: https://anaconda.org/conda-forge/poppler
Tesseract para el funcionamiento del OCR: https://github.com/UB-Mannheim/tesseract/wiki
Se debe configurar el path de tesseract. Por defecto la configuración es: pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

Lista de tareas

Almacenar los archivos txt del OCR, página por página, de un libro ya buscado para no tener que usar el OCR una y otra vez, ahorrando tiempo.

Name		Name	Last commit message	Last commit date
Latest commit History 33 Commits
Referencias		Referencias
book_imgs		book_imgs
imgs		imgs
searching		searching
utils		utils
.gitignore		.gitignore
LICENSE		LICENSE
Readme.md		Readme.md
main.py		main.py
mainGui.py		mainGui.py
mainOCR.py		mainOCR.py
requirements.txt		requirements.txt
testing.py		testing.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PDF references extractor

Funcionamiento

Interfaz gráfica

OCR

Requisitos de funcionamiento

Lista de tareas

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

PDF references extractor

Funcionamiento

Interfaz gráfica

OCR

Requisitos de funcionamiento

Lista de tareas

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages