Conhecimento gerado poderá
ser aplicado a projetos relacionados a zoneamento agrícola, auxílio ao
gerenciamento de recursos naturais e organização da informação, entre outros
Pesquisas desenvolvidas em parceria entre o Instituto de Ciências
Matemáticas e de Computação (ICMC) da USP São Carlos e a Embrapa Informática
Agropecuária, de Campinas, estão empregando técnicas de mineração de textos (text mining) com o objetivo de organizar
e analisar a informação técnico-científica disponível para apoio à gestão do
conhecimento e da inovação. Os resultados obtidos por meio dessas pesquisas poderão
ser aplicados a vários projetos relacionados a zoneamento agrícola, auxílio ao
gerenciamento de recursos naturais e organização da informação, entre outros.
As técnicas de mineração de textos visam auxiliar especialistas na
organização, análise e descoberta de conhecimento em grandes coleções de
documentos, segundo a professora do ICMC Solange Rezende. “A pesquisa em
mineração de textos contribui para o avanço de todas as áreas do conhecimento,
pois torna possível o acesso rápido à informação mais relevante de acordo com
as necessidades dos usuários, e o acesso ao conhecimento, em geral, escondido
nesses dados”, afirmou Rezende.
“Com os resultados da aplicação das técnicas de mineração de textos, os
especialistas serão capazes de encontrar documentos relevantes para uma
determinada região e/ou temática, obtendo uma visão geral do conhecimento
produzido até o momento sobre aquele assunto, o que facilita a seleção de
informações específicas e relevantes, como dados socioeconômicos ou o impacto
ambiental das culturas relacionadas àquela região e/ou temática”, explicou
Rezende.
Segundo Rezende, pesquisa em mineração de texto contribui para avanços em todas as áreas do conhecimento |
De acordo com a pesquisadora Maria Fernanda Moura, da Embrapa
Informática Agropecuária – que fez doutorado no ICMC –, a equipe vem
trabalhando com ferramentas capazes de identificar e classificar, de forma
automática, tópicos textuais, cobertura geográfica dos textos e tópicos, além
da cobertura temporal. As tecnologias envolvem métodos e ferramentas de análise
de dados, como classificadores e técnicas de extração de informações e de
desambiguação de termos e a produção de softwares adaptados para a língua
portuguesa.
A desambiguação textual permite que um sistema computacional reconheça,
de forma automática, palavras extraídas de uma publicação em seu contexto de
abrangência. Um exemplo é a identificação correta de determinada cidade ainda
que existam outras com o mesmo nome. Com o método criado pelos pesquisadores, o
sistema consegue reconhecer as localidades mais próximas e indicar aquela que
está sendo referida em um texto.
Um exemplo da aplicação dessas técnicas de mineração de textos é o projeto
Tecnologias Inovadoras em mineração de
textos para apoio à Espacialização de Notícias Agrícolas - piloto
cana-de-açúcar (Tiena). Para validar as tecnologias em desenvolvimento, foi
construído um protótipo de software que permitiu consultar uma base de dados de
notícias agrícolas e observá-las de acordo com a região de abrangência, com
classificação hierárquica dos temas abordados.
“Os resultados obtidos até agora foram muito bons, com um grau de
precisão bastante elevado se compararmos com outros métodos existentes”, disse
Moura. As informações extraídas são inseridas em uma base de dados para
consulta. A ideia é usar esse conhecimento para aprimorar a metodologia usada e
aplicar em publicações científicas. “Se tivermos bases históricas, podemos
construir cenários que servirão para orientar a criação de políticas públicas,
por exemplo”, complementou.
Outro exemplo é o projeto Compilação
e Recuperação de Informações Técnico-científicas e Indução ao Conhecimento de
Forma Ágil na Rede AgroHidro (Critic@). Resultado de uma parceria entre o
ICMC, a Embrapa Informática Agropecuária, a Embrapa Monitoramento por Satélite
(Campinas) e o Instituto de Engenharia de Sistemas e Computadores do Porto
(Portugal), o projeto visa analisar a produção científica de uma rede de
pesquisa para identificar temas e tendências tecnológicas.
A equipe que atua no Critic@ pretende aprofundar as pesquisas com a
aplicação de classificadores, ou seja, recursos computacionais que vão permitir
classificar os textos em tópicos, de forma hierárquica, conforme a sua
relevância no contexto estudado. “São estratégias de business intelligence”,
contou Moura. “De posse dessas informações, é possível definir cenários e
inclusive estabelecer parcerias mais focadas”, finalizou.
Texto e foto: Denise Casatti - Assessoria de Comunicação ICMC
Com informações da Assessoria de Comunicação da Embrapa (http://www.embrapa.br/embrapa/imprensa/noticias/2013/agosto/2a-semana/pesquisadores-criam-tecnologias-com-mineracao-de-textos#)
Com informações da Assessoria de Comunicação da Embrapa (http://www.embrapa.br/embrapa/imprensa/noticias/2013/agosto/2a-semana/pesquisadores-criam-tecnologias-com-mineracao-de-textos#)