Codigo do prototipo do TCC "Um Protótipo de Software para Mineração de Dados de Contas de Prestadoras de Serviços de Telefonia" para a Universidade Presbiteriana Mackenzie, com intuito de extrair dados chave de contas telefonicas utilizando Pytesseract e Regex
Antes de começar, verifique se você atendeu aos seguintes requisitos:
- Você instalou a versão mais recente do
<tesseract-ocr> - Você tem uma máquina
<Windows / Linux / Mac>. - Você leu
<guia / link / documentação_relacionada_ao_projeto>.
Para executar o <main.py>, siga estas etapas:
pip install opencv-python
pip install setuptools
pip install pytesseract
pip install regex
pip install pandas
pip install openpyxl
pip install alive_progress
Instalar os binarios do tesseract-ocr
sudo apt install tesseract-ocr
sudo apt install libtesseract-dev
pip install opencv-python
pip install setuptools
pip install pytesseract
pip install regex
pip install pandas
pip install openpyxl
pip install alive_progress
Baixar os binarios do tesseract-ocr nesse repositorio.
Para usar <main.py>, siga estas etapas:
1 - Crie uma pasta e insira todos os documentos previamente convertidos para ".png"
2 - Copiar o endereço da pasta que contem as imagens
3 - Executar o "main.py"
4 - Quando o programa pedir, insira o endereço da pasta
5 - Aguarde
6 - O programa ira perguntar o nome do arquivo ".xlsx"
7 - Ao finalizar a extração o programa ira pedir para o usuario pressionar qualquer tecla.
Agradecemos às seguintes pessoas que contribuíram para este projeto:
![]() Filipe Fontes |
![]() Gabriel Diniz |
![]() Johnathan Vitor |
![]() Ana Julia |
Esse projeto está sob licença. Veja o arquivo LICENÇA para mais detalhes.



