Repositório destinado à prova 4 (projeto) da disciplina Processamento de Línguas Naturais(GCC151)
Este projeto consiste na elaboração de uma biblioteca de sumarização de textos de propósito geral, ou seja, dado um texto qualquer de entrada, a rotina gerar_sumario produzirá um novo texto curto(uma sentença) que sintetiza as idéias do texto inicial.
Tarefas na construção do nosso sumarizador abstrativo:
- Carregar dados de um dataset de treinamento
- Obter uma lista de todos os tokens lidos anteriormente e processá-la adequadamente para:
- Converter os tokens para representações vetoriais(usando o word2vec, glove, etc.)
- Usar uma arquitetura neural codificador-decodificador para gerar uma sequência de palavras a partir de outra sequência de palavras(Provavelmente usaremos LSTM RNNs)
- Adicionar um mecanismo de atenção para identificar os tokens mais relevantes na geração dos resumos
Para utilizar a biblioteca SUMMAR_lib leia.