O P.U.L.S.E. é uma solução de RAG (Retrieval-Augmented Generation) Local desenvolvida especificamente para o nicho de Saúde Pública. O sistema permite a ingestão, vetorização e consulta inteligente de documentos clínicos e epidemiológicos com total privacidade e segurança.
No setor de saúde, a precisão e a privacidade são inegociáveis. Profissionais enfrentam desafios significativos:
- ❌ Dificuldade em consultar diretrizes clínicas de centenas de páginas em tempo real
- ❌ Dependência de soluções cloud que comprometem a privacidade dos dados
- ❌ Falta de ferramentas que combinem IA com segurança local
O P.U.L.S.E. resolve esses problemas oferecendo uma solução de IA local, segura e eficiente.
A aplicação segue uma adaptação da Medallion Architecture para fluxos de IA:
| Camada | Etapa | Descrição |
|---|---|---|
| Bronze | Ingestão | Monitoramento automático de diretórios para novos PDFs e CSVs |
| Silver | Processamento | Limpeza de dados com Pandas e segmentação semântica (Chunking) com LangChain |
| Gold | Vetorização | Geração de embeddings via HuggingFace e persistência em banco vetorial local ChromaDB |
| API | Recuperação & Resposta | Pipeline RAG orquestrado pelo LangChain consultando o modelo Phi-3 (Microsoft) via Ollama |
- Python 3.x
- Pandas
- Pathlib
- PDFPlumber
- LangChain (Chains & Retrieval)
- HuggingFace Embeddings
- Ollama (Llama 3 / Phi-3)
- ChromaDB (Vector Store Local)
- Streamlit com CSS customizado (UI estilo Claude)
- Python 3.8+
- Git
git clone https://github.com/seu-usuario/P.U.L.S.E.gitpython -m venv venv
# Windows
.\venv\Scripts\activate
# macOS/Linux
source venv/bin/activatepip install -r requirements.txt- Baixe o Ollama em ollama.com
- No terminal, execute:
ollama run phi3- Coloque seus PDFs em
data/raw/ - Execute o pipeline principal:
python main_pipeline.py- Inicie a aplicação Streamlit:
python -m streamlit run src/app/chat.pyA aplicação estará disponível em http://localhost:8501
P.U.L.S.E/
├── data/
│ ├── raw/ # PDFs e CSVs para ingestão
│ ├── processed/ # Dados processados
│ └── vectors/ # Banco de vetores (ChromaDB)
├── src/
│ ├── pipeline/ # Pipeline de ETL
│ ├── rag/ # Lógica RAG
│ └── app/ # Interface Streamlit
├── main_pipeline.py # Script principal
├── requirements.txt # Dependências
└── README.md
- Adicionar Documentos: Coloque PDFs na pasta
data/raw/ - Processar: Execute
python main_pipeline.py - Consultar: Use a interface Streamlit para fazer perguntas
- Obter Respostas: O sistema retorna respostas baseadas nos seus documentos
- ✅ Toda a IA roda localmente (sem envio de dados à nuvem)
- ✅ Dados armazenados em banco de dados vetorial local
- ✅ Compatível com LGPD e regulamentações de saúde
Nicolas - @NicolasDev-web
Contribuições são bem-vindas! Sinta-se livre para abrir issues e pull requests.
Desenvolvido com ❤️ para Saúde Pública
O chatbot foi desenvolvido com base no documento "Protocolo Clínico e Diretrizes Terapêuticas para Atenção Integral às Pessoas com Infecções Sexualmente Transmissíveis (IST)". Este documento orienta a prática clínica e oferece diretrizes terapêuticas essenciais para o tratamento de ISTs.