quinta-feira, 6 de agosto de 2015

Doutorando do ICMC ganha prêmio internacional por novo método que classifica textos

Técnica desenvolvida por estudante foi premiada em uma das maiores conferências de linguística do mundo


Rafael Rossi e Solange Rezende receberam prêmio por artigo científico 


Imagine que você é dono de uma empresa e quer medir o grau de satisfação dos seus clientes nas redes sociais. Como filtrar rapidamente, entre milhares de publicações, os comentários positivos e negativos sobre sua marca? Uma técnica desenvolvida por um aluno de doutorado do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, promete facilitar esse trabalho. 

O criador do modelo, Rafael Rossi, escreveu um artigo científico mostrando os resultados obtidos e foi um dos dois premiados na 16th International Conference on Intelligent Text Processing and Computational Linguistics, uma das principais conferências de linguística e mineração de textos do mundo, realizada em abril, no Egito. Foram 62 países participantes e 329 artigos enviados à conferência. Apenas 95 deles foram aceitos e destes, dois premiados. 

Para identificar quantas pessoas estão elogiando ou criticando um produto em uma rede social, por exemplo, basta o empresário selecionar alguns comentários bons e outros ruins sobre sua empresa. Com a técnica criada por Rossi, é possível identificar os termos utilizados pelos usuários nesses comentários e classificar, automaticamente, todos os demais depoimentos em positivos ou negativos. 

Para tornar essa classificação viável, o doutorando desenvolveu um algoritmo, uma sequência de comandos que é passada para o computador a fim de definir uma tarefa. Nesse caso, a tarefa é classificar textos baseando-se em uma rede de termos. Com esse algoritmo, é possível rotular e organizar uma grande quantidade de textos a partir de poucas unidades previamente classificadas. “Hoje em dia, com a grande quantidade de textos encontrados em diversos tipos de plataformas, é humanamente impossível organizar, processar e extrair conhecimento de todos eles”, conta o estudante, que é bolsista da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP).

Foco no que interessa – A grande quantidade de informações a que um leitor está exposto quando realiza uma simples pesquisa na internet muitas vezes atrapalha e desvia seu foco. O modelo proposto por Rossi contribui para agilizar e facilitar esse processo.

“O diferencial do trabalho é que ele não considera apenas a frequência dos termos nos documentos, que é o mais comum nesse tipo de pesquisa. Leva-se em conta também a relação entre termos para realizar a classificação dos textos”, explica a orientadora do projeto, Solange Rezende, do ICMC. A professora diz ainda que, dessa forma, o que não é de interesse do leitor é automaticamente descartado. No trabalho, Solange e Rossi contam ainda com o apoio do professor Alneu Lopes, também do ICMC.

Outra possível aplicação do método é na organização de uma biblioteca virtual. O algoritmo consegue identificar e organizar os gêneros de uma grande quantidade de livros através de termos retirados de alguns exemplares anteriormente classificados. Assim, a separação dos livros por temas é facilitada.

O doutorando, que recebeu o prêmio pelo artigo Term Network Approach for Transductive Classification, defenderá sua tese nos próximos meses no ICMC.

Texto: Henrique Fontes – Assessoria de Comunicação ICMC/USP

Mais informações
Assessoria de comunicação do ICMC: (16) 3373.9666
E-mail: comunica@icmc.usp.br