Mostrando postagens com marcador data scientist. Mostrar todas as postagens
Mostrando postagens com marcador data scientist. Mostrar todas as postagens

quarta-feira, 25 de abril de 2018

E se todos nós fôssemos cientistas de dados?


Construir um mundo em que toda a humanidade possa acessar as ferramentas da inteligência artificial é um desafio que mobiliza diversas pesquisadores da área de computação; uma escola sobre ciências de dados será realizada na USP, em São Carlos, especialmente para preparar os estudantes para construírem o futuro da inteligência artificial de forma democrática e inclusiva

Capacitar estudantes para o futuro da inteligência artificial é um dos objetivos da Escola de Aprendizado de Máquina Automático em Ciência de Dados, que acontecerá dias 15 e 16 de maio no ICMC

Cada vez que você vai a um posto médico, faz um curso online, escolhe um produto em uma loja virtual ou leva lixo para reciclar, sem perceber, está gerando uma grande quantidade de dados. Será que se pudesse reunir todos esses dados em uma plataforma computacional e, automaticamente, extrair conhecimentos úteis, você poderia gerar mais impactos positivos no mundo?

Esse exemplo ajuda a vislumbrar o potencial transformador oferecido pelo amplo acesso às ferramentas da inteligência artificial. Hoje, uma parte da humanidade consegue acessar conjuntos de dados e, por meio do aprendizado de máquina, pode processar e analisar esses dados, extraindo conhecimentos valiosos que resultarão, desde a elaboração de novos modelos para tornar as cidades mais inteligentes até a ampliação de resultados financeiros e o apoio a diagnósticos médicos, entre outras infinitas aplicações. 

A questão é que, atualmente, o acesso às ferramentas que possibilitam extrair conhecimentos de grandes conjuntos de dados (Big Data) está restrito a um grupo de pessoas, os engenheiros e cientistas de computação que atuam no campo da ciência de dados. São profissionais disputados no mercado por empresas e instituições de pesquisa, tão raros e caros quanto metais preciosos. Se hoje já está difícil capacitar esses profissionais no ritmo adequado para atender às demandas existentes, imagine no futuro próximo, em que mais e mais dados estarão disponíveis. Corremos o risco de perder a chance de obter informações valiosas e de enriquecer a humanidade com aplicações que nos fariam viver mais e melhor. 

É claro que pode soar bastante utópica, à primeira vista, a ideia de ampliar o acesso às ferramentas da inteligência artificial e possibilitar que uma parcela muito maior da humanidade se torne cientista de dados. O fato é que há pesquisadores, em todo o planeta, buscando construir essa utopia. 

Ensinando uma máquina a aprender – Para ensinar uma máquina a extrair conhecimento útil a partir de um conjunto de dados, é preciso realizar três etapas fundamentais. A primeira é o pré-processamento dos dados: é o momento de limpar, normalizar e selecionar os dados, descartando, por exemplo, tudo o que não é relevante. Lembre-se de que os dados podem ser obtidos de diferentes fontes, em diversos formatos como textos, imagens, vídeos e até da mistura desses vários tipos. Depois, vem a etapa da modelagem, que é quando se deve escolher o método (algoritmo) e os parâmetros mais adequados para ensinar o computador a analisar os dados selecionados. São os modelos criados nessa fase que possibilitam extrair padrões e características dos dados, a fim de agrupá-los, classificá-los ou realizar previsões, entre outras possibilidades. Por último, está a fase de pós-processamento, em que o modelo criado é avaliado, após a realização de testes, e o usuário pode julgar os resultados gerados pelo sistema e sugerir alterações a fim de aprimorá-lo. 

Com essa descrição sobre as três etapas que compõe um sistema de aprendizado de máquina, você percebe o trabalho que dá ensinar os computadores a extraírem conhecimento dos dados. São inúmeras decisões que devem ser tomadas ao longo do processo: desde julgar quais dados são relevantes até verificar qual algoritmo deve ser usado para otimizar os resultados com o menor custo computacional possível. Além disso, a partir dessas escolhas, é preciso, ainda, fazer testes e validações experimentais. 

Imagine, então, o trabalhão que esses profissionais têm hoje porque precisam desenvolver cada uma dessas três etapas toda vez que são chamados para analisar um conjunto de dados. Eles têm que construir uma ferramenta de aprendizado de máquina para a pessoa que quer otimizar o uso dos recursos da casa, uma outra para o médico que quer agilizar a análise de mamografias, e uma outra para o padeiro que quer potencializar os ganhos de seu negócios, etc. e tal. Não tem como eles darem conta de criar tanta ferramenta, concorda? 

Otimizando o ensino das máquinas – É por isso que está se tornando um passo evolutivo fundamental da área de computação a criação de sistemas de auto-aprendizado de máquina ou aprendizado de máquina automatizado (em inglês, o termo empregado é automated machine learning, ou simplesmente AutoML). Provavelmente, é a primeira vez que você está lendo esses termos, mas é quase certo que os reencontrará muitas vezes, talvez tantas quanto hoje você se depara com palavras como internet e smartphone

Segundo o professor André de Carvalho, do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, essa nova área de AutoML é destinada à pesquisa e ao desenvolvimento de sistemas capazes de realizar automaticamente aquelas três etapas fundamentais do aprendizado de máquina. Isso possibilitaria, em suma, otimizar a extração de conhecimento útil a partir de quaisquer dados. 

Conforme explica André, por meio do AutoML, os cientistas de dados não precisarão mais desenvolver uma ferramenta para cada tipo de aplicação e deixarão de executar tarefas repetitivas e demoradas, podendo alocar o tempo em atividades mais difíceis e prioritárias, como analisar novas soluções para um problema e criar novas técnicas computacionais (como algoritmos mais eficientes, por exemplo).  “O objetivo do AutoML é apoiar os cientistas de dados em seu trabalho, não substituí-los”, explica o professor, que está empenhado em preparar estudantes de graduação e de pós-graduação para construírem esse futuro da inteligência artificial. 

Ele é o coordenador da Escola de Aprendizado de Máquina Automático em Ciência de Dados, que será realizada nos dias 15 e 16 de maio no ICMC. Quem se inscrever no evento até 30 de abril terá um desconto no valor da taxa de inscrição. A Escola tem o apoio do Centro de Ciências Matemáticas Aplicadas à Indústria e do Centro de Pesquisa de Aprendizado de Máquina em Análise de Dados. Para se inscrever, basta acessar o site www.cemeai.icmc.usp.br/AutoMLSchool

Para André, o AutoML contribuirá para otimizar o trabalho de um cientista de dados
(crédito: Assessoria de Comunicação do CeMEAI)
Um "pajé" pra chamar de seu – Investir no ensino das novas gerações é apenas uma das facetas de atuação do professor André. Ele coordena um grupo de pesquisadores da USP que está focado na busca por construir uma plataforma aberta e livre de AutoML que já tem até nome: Pajé. Empregada para designar quem se destaca em uma tribo indígena por ter poderes ocultos ou capacidade de orientar espiritualmente a comunidade, a palavra "pajé" foi transposta propositadamente para o contexto nada primitivo da inteligência artificial. Tal como um “curandeiro”, a plataforma de AutoML Pajé vislumbrada por André consegue identificar o que está escondido no plano terreno dos dados. 

A expectativa do professor é de que uma versão inicial da plataforma seja colocada à disposição da população em meados de agosto. Assim, qualquer pessoa – tal como você com os dados do que consome em sua casa e do quanto investe em educação, saúde e transporte – poderá usar o Pajé: ao inserir os dados brutos, o “curandeiro” fará recomendações sobre como fazer o pré-processamento e a modelagem. “A ideia é que qualquer pessoa possa usar essa ferramenta, quer seja o dono de um bar, de um consultório médico, de um hospital, de uma organização não-governamental ou um funcionário do poder público”, completa. 

André dá um exemplo para ilustrar as aplicações do Pajé a partir dos dados que temos à disposição nas Unidades Básicas de Saúde brasileiras. É viável criar um modelo de previsão que seja capaz de recomendar ao médico qual o tipo de parto mais indicado para as mulheres que hoje estão realizando pré-natal por meio da análise dos dados clínicos prévios daquelas que efetuaram o mesmo acompanhamento nessas unidades e dos dados referentes aos tipos de parto realizados. “Note que o Pajé apenas recomenda o procedimento, de acordo com os dados previamente existentes na plataforma. Quem tomará a decisão é o médico”, ressalta André. 

Apesar de ainda existir um longo caminho de pesquisa e desenvolvimento para ampliar o acesso às ferramentas da inteligência artificial, o professor conta que várias empresas, como Google, Facebook e Microsoft, estão contribuindo para a construção dessa estrada. Quem quiser se aventurar por esse mundo ainda inexplorado, pode fazer uma experiência com os “pajés” disponibilizados em plataformas como Google Cloud AutoML, Serviço Personalizado de Visão da Microsoft e por startups como a DataRobot

Na grande tribo conectada do século 21, os próximos passos vão além de fazer o aprendizado de máquina se tornar automático. A ideia é ensinar as próprias máquinas a aprenderem a aprender (meta-aprendizado de máquina). Ou seja, ao executarem milhares de vezes as três etapas de aprendizado de máquina, os equipamentos podem ser ensinados a aprimorar as próprias técnicas utilizadas e passar esse conhecimento adiante para outras máquinas. 

Em novembro do ano passado, o Google anunciou o primeiro “bebê” criado nesse contexto: a NASNet. Capaz de identificar imagens com um aproveitamento melhor do que os modelos desenvolvidos por seres humanos, com acerto de cerca de 82%, a NASNet mostra que, em um futuro próximo, vamos assistir ao surgimento de muitos “pajés” e também de muitas ovelhas Dolly cibernéticas. 

Imagem exemplifica os resultados obtidos pela NASNet na detecção automática de objetos
(crédito: Google Research Blog)

Texto: Denise Casatti – Assessoria de Comunicação do ICMC 


Mais informações
Escola de Aprendizado de Máquina Automático em Ciência de Dados: www.cemeai.icmc.usp.br/AutoMLSchool
Assessoria de Comunicação do ICMC: (16) 3373.9666 

segunda-feira, 22 de julho de 2013

A era da navegação no Big Data

Cerca de 120 pesquisadores se reuniram no ICMC para participar da segunda escola de aprendizado de máquina e descoberta de conhecimento em base de dados

Ana Appel, da IBM Research: aproximação com a universidade

Eles ancoraram no Instituto de Ciências Matemáticas e de Computação (ICMC), na USP São Carlos, para aprender a arte de extrair informações valiosas a partir da navegação em grandes bases de dados. Esses navegadores do século XXI precisam ter a habilidade de mesclar conhecimentos que vêm de áreas como computação, tecnologia da informação, análise de dados, estatística, além de doses elevadas de curiosidade, capacidade de relacionamento interpessoal e tino para negócios. Uma combinação bastante difícil de encontrar.

Durante a segunda escola de aprendizado de máquina e descoberta de conhecimento em base de dados (em inglês Machine Learning and Knowledge Discovery in Databases ou simplesmente MLKDD), a ideia foi trazer especialistas do mundo inteiro  conhecidos como data scientists  para ministrarem workshops capazes de complementar a formação tradicional dos profissionais da área de ciências exatas. O evento aconteceu de 15 a 17 de julho no ICMC e foi financiado pelo Núcleo de Apoio à Pesquisa em Aprendizado de Máquina e Análise de Dados (NAP-AMDA).

“Hoje em dia, as empresas e instituições de pesquisa dispõem de muitos dados e sabem que isso tem valor. Elas precisam de um profissional capaz de analisar esses dados, incluindo o que está sendo postado nas redes sociais, e levar essas informações ao pessoal que desenvolve os produtos ou que trabalha com marketing”, explicou o professor Carlos Soares, da Faculdade de Engenharia da Universidade do Porto, em Portugal.

Segundo Soares, a multidisciplinaridade é uma característica essencial na formação de um data scientist, sendo difícil até mesmo posicionar o curso no contexto universitário, já que é um profissional que se encaixa tanto no campo das ciências sociais quanto no da tecnologia. “Como se trata de uma área muito nova e dinâmica, o curso precisa manter uma forte ligação com as empresas”, ressaltou o professor.

IBM Research Brasil

Com o objetivo de realizar essa aproximação entre empresa e universidade, pesquisadores do IBM Research Brasil foram convidados a analisar trabalhos submetidos ao Symposium on Knowledge Discovery, Mining and Learning (KDMiLe), que aconteceu de 17 a 19 de julho, também no ICMC, logo após o MLKDD. “Nosso objetivo é levar o aluno a avaliar sua ideia levando em conta não apenas se o trabalho resultará em publicação ou é algo novo, mas também questionando de que forma aquela ideia poderá agregar valor para o cliente”, afirmou a pesquisadora Ana Paula Appel, egressa do ICMC que atua na área de mineração de dados e grafos no IBM Research Brasil. 

Segundo Sandra de Amo, docente da Universidade Federal de Uberlândia e membro da comissão organizadora do evento, o KDMiLe é o primeiro simpósio da área, criado para reunir profissionais que atuam com mineração de dados, descoberta de conhecimento e aprendizado de máquina. Além de ser um fórum para a apresentação de pesquisas, o simpósio visa promover a discussão de idéias e o intercâmbio de técnicas, ferramentas e experiências relacionadas a essas áreas.

O evento foi organizado pela Sociedade Brasileira de Computação (SBC), com apoio financeiro do CNPq, da FAPESP e da IBM Research Brasil.


Por: Denise Casatti

Mais informações nos sites dos eventos:
- MLKDD: www.amda.icmc.usp.br/mlkdd2013
- KDMiLe: kdmile.linkedej.com.br