Entrar | Contactos | Dicionário | FLiP.pt | LegiX.pt | Blogue | Loja

Sumarização de notícias

Objectivos

Desenvolver um sistema de sumarização de notícias em texto escrito utilizando aprendizagem estatística.

Descrição

Neste trabalho, pretende-se desenvolver um sistema de sumarização de notícias inspirado no Google News.

Pretende-se agrupar notícias relacionadas (de várias fontes) e construir um breve sumário a partir de excertos.

Numa primeira fase, o sistema deve ser capaz de, dado um conjunto de notícias em texto escrito, detectar e agrupar notícias semelhantes (por exemplo, o mesmo facto relatado por várias fontes), o que envolve definir uma medida de semelhança e utilizar algoritmos de aprendizagem não supervisionada. Numa segunda fase, são extraídas frases de cada grupo de modo a compor um sumário. A decisão sobre que frases devem ser extraídas procura optimizar uma função objectivo que premeia a relevância de cada frase e penaliza a redundância. O projecto consiste no desenvolvimento de algoritmos para cada uma das fases (a interface não é importante). Dependendo da preferência do estudante, pode-se dar mais ênfase à primeira ou a segunda fase.

Requisitos

Boa formação base em probabilidades e estatística.
Experiência em programação (C/C++, Java e/ou MatLab).

Resultado esperado

Um sistema de sumarização de notícias.

Referências

Carbonell, J. and Goldstein, J. (1998). The use of MMR, diversity-based reranking for reordering documents and producing summaries. In Proceedings of SIGIR '98, pages 335-336, New York, NY, USA.
D. R. Radev, H. Jing, M. Stys', D. Tam (2004). "Centroid-based summarization of multiple documents." Information Processing and Management, 40-6, pages 919-938.
 

 
Sistema de Recomendação
Análise de Sentimentos
Sumarização de notícias
Algoritmos de Classificação Estruturada

Instituto Superior Técnico


Priberam.pt