Mostrando postagens com marcador linguística. Mostrar todas as postagens
Mostrando postagens com marcador linguística. Mostrar todas as postagens

quinta-feira, 6 de agosto de 2015

Doutorando do ICMC ganha prêmio internacional por novo método que classifica textos

Técnica desenvolvida por estudante foi premiada em uma das maiores conferências de linguística do mundo


Rafael Rossi e Solange Rezende receberam prêmio por artigo científico 


Imagine que você é dono de uma empresa e quer medir o grau de satisfação dos seus clientes nas redes sociais. Como filtrar rapidamente, entre milhares de publicações, os comentários positivos e negativos sobre sua marca? Uma técnica desenvolvida por um aluno de doutorado do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, promete facilitar esse trabalho. 

O criador do modelo, Rafael Rossi, escreveu um artigo científico mostrando os resultados obtidos e foi um dos dois premiados na 16th International Conference on Intelligent Text Processing and Computational Linguistics, uma das principais conferências de linguística e mineração de textos do mundo, realizada em abril, no Egito. Foram 62 países participantes e 329 artigos enviados à conferência. Apenas 95 deles foram aceitos e destes, dois premiados. 

Para identificar quantas pessoas estão elogiando ou criticando um produto em uma rede social, por exemplo, basta o empresário selecionar alguns comentários bons e outros ruins sobre sua empresa. Com a técnica criada por Rossi, é possível identificar os termos utilizados pelos usuários nesses comentários e classificar, automaticamente, todos os demais depoimentos em positivos ou negativos. 

Para tornar essa classificação viável, o doutorando desenvolveu um algoritmo, uma sequência de comandos que é passada para o computador a fim de definir uma tarefa. Nesse caso, a tarefa é classificar textos baseando-se em uma rede de termos. Com esse algoritmo, é possível rotular e organizar uma grande quantidade de textos a partir de poucas unidades previamente classificadas. “Hoje em dia, com a grande quantidade de textos encontrados em diversos tipos de plataformas, é humanamente impossível organizar, processar e extrair conhecimento de todos eles”, conta o estudante, que é bolsista da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP).

Foco no que interessa – A grande quantidade de informações a que um leitor está exposto quando realiza uma simples pesquisa na internet muitas vezes atrapalha e desvia seu foco. O modelo proposto por Rossi contribui para agilizar e facilitar esse processo.

“O diferencial do trabalho é que ele não considera apenas a frequência dos termos nos documentos, que é o mais comum nesse tipo de pesquisa. Leva-se em conta também a relação entre termos para realizar a classificação dos textos”, explica a orientadora do projeto, Solange Rezende, do ICMC. A professora diz ainda que, dessa forma, o que não é de interesse do leitor é automaticamente descartado. No trabalho, Solange e Rossi contam ainda com o apoio do professor Alneu Lopes, também do ICMC.

Outra possível aplicação do método é na organização de uma biblioteca virtual. O algoritmo consegue identificar e organizar os gêneros de uma grande quantidade de livros através de termos retirados de alguns exemplares anteriormente classificados. Assim, a separação dos livros por temas é facilitada.

O doutorando, que recebeu o prêmio pelo artigo Term Network Approach for Transductive Classification, defenderá sua tese nos próximos meses no ICMC.

Texto: Henrique Fontes – Assessoria de Comunicação ICMC/USP

Mais informações
Assessoria de comunicação do ICMC: (16) 3373.9666
E-mail: comunica@icmc.usp.br

segunda-feira, 15 de julho de 2013

Pesquisa em linguística computacional promove inclusão digital

Projeto cria ferramentas para auxiliar quem tem dificuldade na leitura e na recuperação de informações de textos

Simplifica é destinado a autores que pretendem tornar suas produções mais acessíveis



Segundo dados do Indicador Nacional de Alfabetismo Funcional (INAF) de 2011/2012, 68% da população brasileira possui um nível de alfabetização rudimentar e básico. O relatório de 2012 ainda destaca que 59% dos que completaram, no mínimo, um ano/série do segundo ciclo do ensino fundamental atinge o nível básico de alfabetismo. Um projeto de pesquisa coordenado pela professora Sandra Aluísio, do Departamento de Ciências de Computação do ICMC, tem como objetivo auxiliar esse público na leitura e interpretação de textos básicos. Chamado de "PorSimples", o projeto contou com o trabalho de 37 pesquisadores, entre alunos e professores da USP e de instituições parceiras.

“O PorSimples foi financiado pela FAPESP e pela Microsoft Research de 2007 a 2010, e teve como objetivo prover recursos e sistemas para tornar textos mais acessíveis a leitores com baixo nível de letramento”, explicou o doutor em Ciências de Computação e Matemática Computacional pelo ICMC, Arnaldo Candido Júnior, que recentemente defendeu a tese Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital.

O PorSimples já produziu alguns frutos, como os sistemas Simplifica e Facilita, bem como a ferramenta Coh-Metrix-Port. Disponível em http://nilc.icmc.usp.br/porsimples/simplifica/, o sistema Simplifica é um editor de textos destinado a autores que pretendem tornar suas produções mais acessíveis para leitores menos letrados, via avaliação da complexidade de um dado texto, seguida de simplificação léxica e sintática. 

Já o sistema Facilita funciona como uma extensão para navegadores, destinado a leitores com baixo nível de letramento, resume o texto principal da página e simplifica-o sintaticamente, além de realizar a eliminação de propagandas e links das páginas web. “O Facilita está passando por uma reformulação para aumentar a precisão da tarefa de simplificação, o que é crucial para os leitores que já sofrem com problemas de leitura e compreensão dos textos”, ressaltou.

Quanto ao Coh-Metrix-Port, trata-se de uma ferramenta que disponibiliza 48 métricas para avaliar a coerência e a complexidade de um texto usando vários níveis de análise linguística: léxico, sintático, discursivo e conceitual. Foram adaptadas para o português as várias métricas em inglês do Coh-Metrix (http://cohmetrix.memphis.edu).

“Utilizando essas métricas, treinamos um classificador inserido no Simplifica para distinguir textos em três classes: rudimentar, básico e pleno - que correspondem aos níveis de alfabetismos apresentados pelo INAF", explicou Candido Junior. O alfabetismo em nível rudimentar corresponde à capacidade de localizar informações explícitas em textos curtos, um anúncio ou pequena carta; o nível básico corresponde à capacidade de localizar informações em textos um pouco mais extensos, realizando pequenas inferências; e o alfabetismo nível pleno corresponde à capacidade de ler textos longos, orientando-se por subtítulos, localizando mais de uma informação, de acordo com condições estabelecidas, relacionando partes de um texto, comparando dois textos, efetuando inferências e sínteses.

Tela do sistema Facilita

Aplicação
Os objetivos do projeto PorSimples somam esforços com iniciativas em diversas frentes para aumentar a inclusão digital, em particular por meio de acessibilidade digital. “A acessibilidade é o processo de tornar softwares e conteúdos acessíveis ao maior número de usuários possível, o que inclui usuários com necessidades especiais. O PorSimples tenta alcançar usuários com dificuldade de leitura”, ressaltou.

Além de analfabetos funcionais, os resultados do PorSimples podem ser utilizados por pessoas com problemas cognitivos como afasia - causada por demências e acidentes vasculares - e dislexia, além de ser relevante para adultos e crianças em fase de aprendizado da leitura e escrita.

Atualmente, o Coh-Metrix-Port está sendo adaptado por um mestrando do ICMC para avaliar demências, em colaboração com a Faculdade de Medicina da USP, e o Simplifica vem sendo utilizado pela EMBRAPA de Juiz de Fora em projetos de facilitação da leitura de cartilhas para produtores de leite.

Recentemente, o PorSimples foi tema de reportagem da EPTV. Para assistir, acesse aqui: icmc.usp.br/e/7f38e

----------------
Mais informações
Assessoria de Comunicação do ICMC
Neylor Fabiano e/ou Denise Casatti
Tel. (16) 3373-9666
(11) 9.9125.9459
comunica@icmc.usp.br