Objectivos
Implementar algoritmos capazes de interpretar comentários acerca de um produto (em texto escrito), classificando-os como favoráveis ou desfavoráveis.
Descrição
Neste trabalho, pretende-se implementar algoritmos de aprendizagem estatística (supervisionada) que permitam detectar se um comentário acerca de determinado produto (em texto escrito) é favorável ou desfavorável. Em muitos sítios de venda de produtos on-line (como a Amazon) os utilizadores emitem opiniões acerca de câmaras de vídeo, filmes, livros, etc., muitas vezes acompanhado de uma pontuação (por exemplo, de uma a cinco estrelas). A partir de um conjunto de treino consistindo em textos opinativos e respectiva pontuação, pretende-se treinar um modelo estatístico capaz de determinar, apenas a partir de texto, se a opinião nele expressa é positiva ou negativa. Não obstante tratar-se de um problema de classificação binária, o desafio é maior do que problemas conceptualmente semelhantes como categorização em tópicos ou atribuição de autores. Este problema tem motivado o desenvolvimento recente de novas técnicas de aprendizagem semi-supervisionada que tentam cruzar informação em vários domínios (ver referências); esta pode ser uma direcção opcional do projecto.
Requisitos
Boa formação base em probabilidades e estatística.
Experiência em programação (C/C++, Java e/ou MatLab).
Resultado esperado
Algoritmos estatísticos que classifiquem a polaridade de comentários em texto escrito.
Referências
Bo Pang; Lillian Lee; Shivakumar Vaithyanathan, "Thumbs up? Sentiment Classification using Machine Learning Techniques." Proceedings of EMNLP, 2002
John Blitzer, Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification.
Association for Computational Linguistics (ACL), 2007.