Objectivos
Desenvolver um sistema de sumarização de notícias em texto escrito utilizando aprendizagem estatística.
Descrição
Neste trabalho, pretende-se desenvolver um sistema de sumarização de notícias inspirado no Google News.
Pretende-se agrupar notícias relacionadas (de várias fontes) e construir um breve sumário a partir de excertos.
Numa primeira fase, o sistema deve ser capaz de, dado um conjunto de notícias em texto escrito, detectar e agrupar notícias semelhantes (por exemplo, o mesmo facto relatado por várias fontes), o que envolve definir uma medida de semelhança e utilizar algoritmos de aprendizagem não supervisionada. Numa segunda fase, são extraídas frases de cada grupo de modo a compor um sumário. A decisão sobre que frases devem ser extraídas procura optimizar uma função objectivo que premeia a relevância de cada frase e penaliza a redundância. O projecto consiste no desenvolvimento de algoritmos para cada uma das fases (a interface não é importante). Dependendo da preferência do estudante, pode-se dar mais ênfase à primeira ou a segunda fase.
Requisitos
Boa formação base em probabilidades e estatística.
Experiência em programação (C/C++, Java e/ou MatLab).
Resultado esperado
Um sistema de sumarização de notícias.
Referências
Carbonell, J. and Goldstein, J. (1998). The use of MMR, diversity-based reranking for reordering documents and producing summaries. In Proceedings of SIGIR '98, pages 335-336, New York, NY, USA.
D. R. Radev, H. Jing, M. Stys', D. Tam (2004). "Centroid-based summarization of multiple documents." Information Processing and Management, 40-6, pages 919-938.