terça-feira, 21 de junho de 2011

Sucinto - geração de resumos a partir de muitos documentos

Grupo de pesquisa do ICMC estuda como gerar sumários multidocumento através de análise semântico-discursiva.
Por: Sarah Mascarenhas 

Hoje é comum ver as pessoas dizendo que estamos vivendo a sociedade da informação, submersos num oceano de conteúdo informativo. A pergunta que surge é: como filtrar as boas informações? No Brasil, um grupo de pesquisadores se dedica a desenvolver uma ferramenta que gera automaticamente resumo das notícias ao pesquisarmos um assunto nos buscadores da internet. 

O Núcleo Interinstitucional de Linguística Computacional (NILC) está desenvolvendo o projeto Sucinto, que tem como objetivo desenvolver um sistema amigável que gere automaticamente um resumo sobre um determinado tema pesquisado. O projeto é realizado no Instituto de Ciências Matemáticas e Computação (ICMC), da USP São Carlos, com colaboração de pesquisadores de outras instituições e países. O NILC foi formado em 1993 e já desenvolveu grandes pesquisas como o plug-in do Office da Microsoft, um sistema de revisão gramatical do português, além de diversos outros aplicativos. Em nosso país, são pioneiros nessa linha de pesquisa e o Sucinto é mais audacioso do que parece, como explicou o coordenador do projeto, Prof. Dr. Thiago A. S. Pardo. 

Digamos que se queira saber sobre a eleição da presidente Dilma: ao acessar a internet e utilizar um buscador de notícias, como o Google ou Yahoo, quando se digita um assunto como este é bem provável que o resultado encontre milhares de notícias e documentos falando sobre isso. Como acessar a informação mais relevante, mais completa? Esse é o desafio para qualquer internauta e também para os pesquisadores, conforme explica o professor Thiago: como gerar automaticamente um resumo sem conter redundância, tratando-se as contradições, respeitando a cronologia dos fatos e ainda construir uma síntese que seja coesa e coerente, adequada as regras gramaticais? 

Prof. Thiago Pardo
foto: Silvio Pomin
Para resolver todos os desafios que são apresentados ao longo do projeto, o pesquisador conta com uma equipe de vários alunos: “Tenho 10 alunos envolvidos nisso, desde a iniciação científica até o mestrado e doutorado”. Desta forma o Sucinto será composto de diversos sistemas complementares para que, quando pronto, seu manuseio seja simples para qualquer usuário da internet. Cada aluno é responsável por solucionar um problema para que o sistema funcione. O diferencial deste sistema é trabalhar com textos em português aliando técnicas estatísticas a análises semântico-discursivas, as quais tentam interpretar em certo nível o conteúdo dos textos. 

O ideal deste sistema é que na página dos buscadores haja um botão gerar resumo que, ao ser clicado, traz o resumo de um apanhado de documentos. Maria Lucia Castro já tem seu sistema quase pronto e conta que ele esta sendo desenvolvido para gerar resumos a partir do interesse do usuário, até a etapa em que o internauta vai para a página do buscador e seleciona o assunto de seu interesse. 

Para o disponibilização do sistema online ainda há necessidade de tornar a interface do software mais amigável. Outro sistema quase pronto é o de Érick Maziero que complementará o sistema da estudante Maria Lucia, permitindo que o usuário navegue nas análises realizadas pelo sistema através de grafos, uma representação visual destas. “No meu trabalho eu idealizo fazer uma interface gráfica em que o usuário possa navegar nessa análise”, conta o estudante. 

Essa é uma ferramenta que vai agradar grande parte dos usuários na internet, e também a começar a desbravar um caminho para vivermos mais bem informados neste oceano de conteúdo informativo.

Informações:
Tel: (16) 3373-8170