Om Sumarizacao Automatica Textual Independente de Idioma
A Sumarização Automática de Textos é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar, ou gerar sentenças relevantes a partir de documentos textuais. O uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento, em sua maioria suportando o idioma inglês, com poucas variações de suporte a mais um idioma. Esta tese propõe uma plataforma de sumarização multi-idioma na qual, fornece 17 opções de algoritmos de sumarização, além da possibilidade de combinação dentre eles. A plataforma é 100% não-supervisionada, o que significa que não depende do ser humano em nenhuma parte de seu processamento. Os resultados obtidos nos experimentos sugerem que a plataforma apresenta bons níveis de sumarização com corpora relacionados com textos jornalísticos (CNN e Temário) em diferentes idiomas (Inglês, Espanhol e Português).
Visa mer