Sala de Imprensa ICMC-USP: E se todos nós fôssemos cientistas de dados?

Construir um mundo em que toda a humanidade possa acessar as ferramentas da inteligência artificial é um desafio que mobiliza diversas pesquisadores da área de computação; uma escola sobre ciências de dados será realizada na USP, em São Carlos, especialmente para preparar os estudantes para construírem o futuro da inteligência artificial de forma democrática e inclusiva

Capacitar estudantes para o futuro da inteligência artificial é um dos objetivos da Escola de Aprendizado de Máquina Automático em Ciência de Dados, que acontecerá dias 15 e 16 de maio no ICMC

Cada vez que você vai a um posto médico, faz um curso online, escolhe um produto em uma loja virtual ou leva lixo para reciclar, sem perceber, está gerando uma grande quantidade de dados. Será que se pudesse reunir todos esses dados em uma plataforma computacional e, automaticamente, extrair conhecimentos úteis, você poderia gerar mais impactos positivos no mundo?

Esse exemplo ajuda a vislumbrar o potencial transformador oferecido pelo amplo acesso às ferramentas da inteligência artificial. Hoje, uma parte da humanidade consegue acessar conjuntos de dados e, por meio do aprendizado de máquina, pode processar e analisar esses dados, extraindo conhecimentos valiosos que resultarão, desde a elaboração de novos modelos para tornar as cidades mais inteligentes até a ampliação de resultados financeiros e o apoio a diagnósticos médicos, entre outras infinitas aplicações.

A questão é que, atualmente, o acesso às ferramentas que possibilitam extrair conhecimentos de grandes conjuntos de dados (Big Data) está restrito a um grupo de pessoas, os engenheiros e cientistas de computação que atuam no campo da ciência de dados. São profissionais disputados no mercado por empresas e instituições de pesquisa, tão raros e caros quanto metais preciosos. Se hoje já está difícil capacitar esses profissionais no ritmo adequado para atender às demandas existentes, imagine no futuro próximo, em que mais e mais dados estarão disponíveis. Corremos o risco de perder a chance de obter informações valiosas e de enriquecer a humanidade com aplicações que nos fariam viver mais e melhor.

É claro que pode soar bastante utópica, à primeira vista, a ideia de ampliar o acesso às ferramentas da inteligência artificial e possibilitar que uma parcela muito maior da humanidade se torne cientista de dados. O fato é que há pesquisadores, em todo o planeta, buscando construir essa utopia.

Ensinando uma máquina a aprender – Para ensinar uma máquina a extrair conhecimento útil a partir de um conjunto de dados, é preciso realizar três etapas fundamentais. A primeira é o pré-processamento dos dados: é o momento de limpar, normalizar e selecionar os dados, descartando, por exemplo, tudo o que não é relevante. Lembre-se de que os dados podem ser obtidos de diferentes fontes, em diversos formatos como textos, imagens, vídeos e até da mistura desses vários tipos. Depois, vem a etapa da modelagem, que é quando se deve escolher o método (algoritmo) e os parâmetros mais adequados para ensinar o computador a analisar os dados selecionados. São os modelos criados nessa fase que possibilitam extrair padrões e características dos dados, a fim de agrupá-los, classificá-los ou realizar previsões, entre outras possibilidades. Por último, está a fase de pós-processamento, em que o modelo criado é avaliado, após a realização de testes, e o usuário pode julgar os resultados gerados pelo sistema e sugerir alterações a fim de aprimorá-lo.

Com essa descrição sobre as três etapas que compõe um sistema de aprendizado de máquina, você percebe o trabalho que dá ensinar os computadores a extraírem conhecimento dos dados. São inúmeras decisões que devem ser tomadas ao longo do processo: desde julgar quais dados são relevantes até verificar qual algoritmo deve ser usado para otimizar os resultados com o menor custo computacional possível. Além disso, a partir dessas escolhas, é preciso, ainda, fazer testes e validações experimentais.

Imagine, então, o trabalhão que esses profissionais têm hoje porque precisam desenvolver cada uma dessas três etapas toda vez que são chamados para analisar um conjunto de dados. Eles têm que construir uma ferramenta de aprendizado de máquina para a pessoa que quer otimizar o uso dos recursos da casa, uma outra para o médico que quer agilizar a análise de mamografias, e uma outra para o padeiro que quer potencializar os ganhos de seu negócios, etc. e tal. Não tem como eles darem conta de criar tanta ferramenta, concorda?

Otimizando o ensino das máquinas – É por isso que está se tornando um passo evolutivo fundamental da área de computação a criação de sistemas de auto-aprendizado de máquina ou aprendizado de máquina automatizado (em inglês, o termo empregado é automated machine learning, ou simplesmente AutoML). Provavelmente, é a primeira vez que você está lendo esses termos, mas é quase certo que os reencontrará muitas vezes, talvez tantas quanto hoje você se depara com palavras como internet e smartphone.

Segundo o professor André de Carvalho, do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, essa nova área de AutoML é destinada à pesquisa e ao desenvolvimento de sistemas capazes de realizar automaticamente aquelas três etapas fundamentais do aprendizado de máquina. Isso possibilitaria, em suma, otimizar a extração de conhecimento útil a partir de quaisquer dados.

Conforme explica André, por meio do AutoML, os cientistas de dados não precisarão mais desenvolver uma ferramenta para cada tipo de aplicação e deixarão de executar tarefas repetitivas e demoradas, podendo alocar o tempo em atividades mais difíceis e prioritárias, como analisar novas soluções para um problema e criar novas técnicas computacionais (como algoritmos mais eficientes, por exemplo). “O objetivo do AutoML é apoiar os cientistas de dados em seu trabalho, não substituí-los”, explica o professor, que está empenhado em preparar estudantes de graduação e de pós-graduação para construírem esse futuro da inteligência artificial.

Ele é o coordenador da Escola de Aprendizado de Máquina Automático em Ciência de Dados, que será realizada nos dias 15 e 16 de maio no ICMC. Quem se inscrever no evento até 30 de abril terá um desconto no valor da taxa de inscrição. A Escola tem o apoio do Centro de Ciências Matemáticas Aplicadas à Indústria e do Centro de Pesquisa de Aprendizado de Máquina em Análise de Dados. Para se inscrever, basta acessar o site www.cemeai.icmc.usp.br/AutoMLSchool.

Para André, o AutoML contribuirá para otimizar o trabalho de um cientista de dados
(crédito: Assessoria de Comunicação do CeMEAI)

Um "pajé" pra chamar de seu – Investir no ensino das novas gerações é apenas uma das facetas de atuação do professor André. Ele coordena um grupo de pesquisadores da USP que está focado na busca por construir uma plataforma aberta e livre de AutoML que já tem até nome: Pajé. Empregada para designar quem se destaca em uma tribo indígena por ter poderes ocultos ou capacidade de orientar espiritualmente a comunidade, a palavra "pajé" foi transposta propositadamente para o contexto nada primitivo da inteligência artificial. Tal como um “curandeiro”, a plataforma de AutoML Pajé vislumbrada por André consegue identificar o que está escondido no plano terreno dos dados.

A expectativa do professor é de que uma versão inicial da plataforma seja colocada à disposição da população em meados de agosto. Assim, qualquer pessoa – tal como você com os dados do que consome em sua casa e do quanto investe em educação, saúde e transporte – poderá usar o Pajé: ao inserir os dados brutos, o “curandeiro” fará recomendações sobre como fazer o pré-processamento e a modelagem. “A ideia é que qualquer pessoa possa usar essa ferramenta, quer seja o dono de um bar, de um consultório médico, de um hospital, de uma organização não-governamental ou um funcionário do poder público”, completa.

André dá um exemplo para ilustrar as aplicações do Pajé a partir dos dados que temos à disposição nas Unidades Básicas de Saúde brasileiras. É viável criar um modelo de previsão que seja capaz de recomendar ao médico qual o tipo de parto mais indicado para as mulheres que hoje estão realizando pré-natal por meio da análise dos dados clínicos prévios daquelas que efetuaram o mesmo acompanhamento nessas unidades e dos dados referentes aos tipos de parto realizados. “Note que o Pajé apenas recomenda o procedimento, de acordo com os dados previamente existentes na plataforma. Quem tomará a decisão é o médico”, ressalta André.

Apesar de ainda existir um longo caminho de pesquisa e desenvolvimento para ampliar o acesso às ferramentas da inteligência artificial, o professor conta que várias empresas, como Google, Facebook e Microsoft, estão contribuindo para a construção dessa estrada. Quem quiser se aventurar por esse mundo ainda inexplorado, pode fazer uma experiência com os “pajés” disponibilizados em plataformas como Google Cloud AutoML, Serviço Personalizado de Visão da Microsoft e por startups como a DataRobot.

Na grande tribo conectada do século 21, os próximos passos vão além de fazer o aprendizado de máquina se tornar automático. A ideia é ensinar as próprias máquinas a aprenderem a aprender (meta-aprendizado de máquina). Ou seja, ao executarem milhares de vezes as três etapas de aprendizado de máquina, os equipamentos podem ser ensinados a aprimorar as próprias técnicas utilizadas e passar esse conhecimento adiante para outras máquinas.

Em novembro do ano passado, o Google anunciou o primeiro “bebê” criado nesse contexto: a NASNet. Capaz de identificar imagens com um aproveitamento melhor do que os modelos desenvolvidos por seres humanos, com acerto de cerca de 82%, a NASNet mostra que, em um futuro próximo, vamos assistir ao surgimento de muitos “pajés” e também de muitas ovelhas Dolly cibernéticas.

Imagem exemplifica os resultados obtidos pela NASNet na detecção automática de objetos
(crédito: Google Research Blog)

Texto: Denise Casatti – Assessoria de Comunicação do ICMC

Mais informações

Escola de Aprendizado de Máquina Automático em Ciência de Dados: www.cemeai.icmc.usp.br/AutoMLSchool

Assessoria de Comunicação do ICMC: (16) 3373.9666

E-mail: comunica@icmc.usp.br

Páginas

quarta-feira, 25 de abril de 2018

E se todos nós fôssemos cientistas de dados?