Mostrando postagens com marcador dados. Mostrar todas as postagens
Mostrando postagens com marcador dados. Mostrar todas as postagens

sexta-feira, 18 de outubro de 2019

A estatística está em toda parte, mas nem sempre a gente vê

Entenda um pouco mais sobre essa ciência às vésperas do Dia Mundial da Estatística, que é celebrado no próximo domingo, 20 de outubro



Não é apenas quando você pensa nas chances de ganhar na loteria que a estatística invade a sua vida. Apesar de, muitas vezes, essa ciência permanecer invisível, a estatística está presente em quase todas as esferas do nosso cotidiano. Popularizar o papel dessa ciência é o objetivo do Dia Mundial da Estatística. A data, que foi instituída pela Organização das Nações Unidas em 2010, é celebrada no próximo domingo, 20 de outubro. 

A área tem ganhado destaque nos últimos anos, especialmente porque vivemos em um mundo cada vez mais cheio de dados. Hoje, cada ser humano com um dispositivo móvel em mãos é um produtor de dados. Em entrevista para a Rádio USP, a professora Mariana Cúri, do Instituto de Ciências Matemáticas e de Computação da USP, em São Carlos, explica que, normalmente, a estatística fica mais evidente para a sociedade durante as eleições, quando ganham destaque as pesquisas eleitorais. Mas ressalta que as ferramentas estatísticas permeiam nosso dia a dia, inclusive quando compramos remédios e quando fazemos uma busca na internet ou utilizamos serviços de streaming como Spotify e Netflix. 

Na entrevista, Mariana destaca que a evolução tecnológica possibilitou coletar e analisar uma enorme quantidade de dados, aproximando, cada vez mais, a estatística e a computação. Essas mudanças impactaram até um dos cursos de graduação oferecidos pelo ICMC: a partir do próximo ano, o Bacharelado em Estatística estará de cara nova e passará a se chamar Bacharelado em Estatística e Ciência de Dados, evidenciando a sintonia com o atual cenário em que vivemos. “O curso de Estatística do ICMC está fazendo 10 anos este ano e foi modificado para incluir essas técnicas modificadas por causa da computação”, diz a professora. 

Mariana concluiu o Bacharelado em Estatística no Instituto de Matemática e Estatística (IME) da USP, em São Paulo

Ao abarcar o campo da ciência de dados (data science), o curso busca atender à crescente demanda por profissionais capazes de extrair conhecimentos úteis a partir de imensos bancos de dados. “Eu acho que a estatística, já há alguns anos, vem sendo uma ótima profissão e uma área muito importante no nosso dia a dia, na ciência, na indústria. A partir dessa aproximação com a computação, a estatística ampliou ainda mais a sua atuação. As áreas da estatística tradicionais – a estatística teórica ou a estatística aplicada a pequenas amostras – vão continuar sendo importantes. Mas com essa ampliação, a estatística vai permanecer por ainda mais tempo como uma profissão bastante interessante e relevante”, completa Mariana. 

É muito provável que as previsões e análises estatísticas tornem-se cada vez mais presentes na nossa vida. O que os estatísticos sabem é que, na tarefa de encontrar respostas a partir de dados, a incerteza estará sempre presente. 

Clique e escute a entrevista: icmc.usp.br/e/7f34b

A reportagem foi ao ar na edição de 16 de outubro do Jornal da USP no Ar, Edição Regional, que está disponível neste link: http://ribeirao.usp.br/?p=22731
Texto: Denise Casatti - Assessoria de Comunicação do ICMC/USP
Crédito da imagem: Instituto Nacional de Estatística - Moçambique

Mais informaçõesSobre os dez anos do curso de Estatística: www.icmc.usp.br/e/ac6b3
Site do Bacharelado em Estatística e Ciência de Dados do ICMC: www.icmc.usp.br/graduacao/estatistica-bacharelado

Contato com a imprensaAssessoria de Comunicação do ICMC: (16) 3373.9666
E-mail: comunica@icmc.usp.br

quarta-feira, 9 de outubro de 2019

Workshop Intel: aprenda a criar uma solução com inteligência artificial na USP São Carlos

Em evento no ICMC, empresa mostrará como desenvolver uma solução de ponta a ponta para detectar os dez carros mais roubados nos Estados Unidos 



Se você é um estudante universitário de computação ou de áreas correlatas – tais como sistemas de informação ou matemática aplicada, por exemplo – pode se inscrever em um workshop gratuito que a Intel oferecerá dia 17 de outubro, quinta-feira, das 13 às 17 horas, no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos. 

Para participar, basta fazer sua inscrição até o dia do evento, ou enquanto houver vagas, neste link: icmc.usp.br/e/d66a0. O objetivo do workshop é mostrar aos estudantes como se desenvolve uma solução com inteligência artificial, explicando todas as etapas desse processo a partir de um exemplo específico: a detecção dos dez carros mais roubados nos Estados Unidos. 

Como o campo da inteligência artificial está em franca expansão, saber criar uma solução como essa é uma habilidade fundamental para todos os profissionais que pretendem atuar nesse ramo. Além disso, a cada dia, novas plataformas são criadas, possibilitando as mais diversas aplicações na vida real. 

Os conteúdos que serão abordados no workshop abarcam desde a análise do problema proposto, a definição do conjunto de dados a ser utilizado para o treinamento da rede neural e o pré-processamento do conjunto de dados, até a definição e a análise das topologias de redes neurais mais adequadas ao projeto. Também será mostrado como avaliar, testar e exportar o modelo treinado e como usar esse modelo (inferência) empregando aceleração de hardware e suporte para computação heterogênea (CPU, VPU, GPU integrada e FPGA). 

Todos os conteúdos do workshop serão disponibilizados on-line, para que os participantes possam fazer os exercícios em seus computadores ou na nuvem Intel AI. A atividade será ministrada pelo especialista Jomar Silva, que é technical evangelist da Intel para a América Latina e todos os presentes no evento receberão certificado de participação. 

Texto: Denise Casatti – Assessoria de Comunicação do ICMC/USP 

Workshop Intel de Inteligência Artificial no ICMC 
Quando: quinta-feira, 17 de outubro, das 13 às 17 horas 
Inscrições: icmc.usp.br/e/d66a0
Local: auditório Fernão Stella de Rodrigues Germano, no bloco 6 do ICMC 
Endereço: avenida Trabalhador São-carlense, 400 - Parque Arnold Schimidt 
Mais informações: (16) 3373.9622 ou eventos@icmc.usp.br

terça-feira, 1 de outubro de 2019

MBA em ciências de dados na USP: inscreva-se na nova pós-graduação a distância

Curso, que começa em janeiro do próximo ano, terá disciplinas como aprendizado de máquina, estatística, programação, redes neurais e processamento em paralelo

Inscrições terminam em 31 de outubro ou podem ser encerradas antes, caso seja atingido o limite de 600 inscritos

Preparar profissionais para enfrentarem o desafio de obter informações úteis a partir dos enormes bancos de dados que empresas e instituições têm hoje à disposição. Esse é o principal objetivo do primeiro curso de pós-graduação a distância em ciência de dados lançado pelo Instituto de Ciência Matemáticas e de Computação (ICMC) da USP, em São Carlos. 

“O curso vem para suprir uma demanda de vários segmentos do mercado perante a nova era da informação digital, com bancos de dados imensos e complexos”, explica o coordenador do MBA em ciências de dados, Francisco Louzada, que é professor do ICMC e também diretor do Centro de Matemática e Estatística Aplicadas à Indústria (CeMEAI). 

Planejado para atender às necessidades de quem atua em diferentes empresas e instituições, o curso de um ano é uma pós-graduação lato sensu. Pode se inscrever na especialização qualquer pessoa que queira obter mais conhecimentos em ciência de dados e tenha formação universitária em administração, economia, engenharia, estatística, ciências de computação, sistemas de informação e áreas correlatas. 

“Trata-se de um novo campo de atuação, que demanda profissionais com formação interdisciplinar, capazes de solucionar os diversos problemas com os quais precisarão lidar no universo da ciência de dados”, acrescenta Louzada. Composto por módulos de disciplinas teóricas e práticas que se integram, o curso propicia aos alunos aprenderem os fundamentos da ciência de dados bem como ter contato com tópicos específicos referentes, por exemplo, à captura e tratamento de grandes bancos de dados, a metodologias estatísticas e matemáticas para análise de dados, a técnicas básicas e avançadas em aprendizados de máquina e deep learning

“Além disso, o MBA oferece a oportunidade para os alunos trazerem um problema real da empresa ou instituição em que atuam a fim de que possam solucioná-lo no decorrer do curso. Para isso, contarão, desde o início, com o apoio de tutores com experiência em projetos que aproximam a academia do mercado”, revela o professor. 

Invista em você – Para se inscrever na especialização, basta preencher o formulário e pagar a taxa de inscrição, que é de R$ 501,20, a qual não será devolvida, exceto no caso de concessão de bolsas de estudo. As inscrições terminam em 31 de outubro ou podem ser encerradas antes, caso seja atingido o limite de 600 inscritos. 

Serão selecionados, no máximo, 167 participantes. O processo seletivo consistirá na análise dos documentos enviados e o resultado final será informado via e-mail. Após a divulgação, o candidato aprovado deverá manifestar interesse na vaga, também via e-mail, e efetuar o pagamento da taxa de matrícula e das mensalidades, em até 12 vezes. Os valores variam dependendo se é individual a participação no curso ou em grupo (empresas) e, se o pagamento é à vista, há um desconto de 7,5%. A mensalidade, por exemplo, varia de R$ 1.307,59 a R$ 1.499,90. Para receber a tabela, basta preencher a ficha disponível em: http://cemeai.icmc.usp.br/MBA/#investimento

Serão oferecidas, ainda, bolsas de estudos para alguns alunos matriculados, os quais terão isenção total no pagamento da matrícula e das mensalidades. Todas as informações referentes ao acesso ao ambiente online de aprendizagem serão enviadas aos alunos logo após a confirmação da matrícula. As aulas no ambiente online começarão em janeiro e terminarão em dezembro. Ao final do curso, acontecerão dois encontros presenciais para realização de provas e defesa de monografia. 



Com informações da Assessoria de Comunicação do CeMEAI/USP 

Mais informações 
Telefone: (16) 3373-8159 

sexta-feira, 20 de setembro de 2019

Redes sociais: aprenda a coletar e analisar dados em curso na USP São Carlos

Ministrado por professor da University College London, curso é destinado a alunos de graduação, pós-graduação e profissionais da área de computação; inscrições vão até 15 de outubro

Aulas serão ministradas em português e acontecerão de 21 a 26 de outubro no ICMC

Imagine quantos dados são disponibilizados diariamente nas redes sociais. Se pudéssemos coletá-los e analisá-los adequadamente, provavelmente seríamos capazes de solucionar muitos problemas que atormentam a humanidade em esferas como mobilidade urbana, violência e saúde pública. São dados que também podem se transformar em informações valiosas para que empresas e instituições se relacionem melhor com seus diferentes públicos. 

O problema é que a coleta e a análise dessa imensidão de dados é um desafio para muitos especialistas da área de computação. Por isso, o Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, oferecerá um curso com a finalidade de identificar e discutir questões teóricas e metodológicas associadas às pesquisas em redes sociais, apresentando ferramentas e conceitos. 

O curso, de 18 horas de aula, é presencial e acontecerá na semana de 21 a 26 de outubro, de segunda a sexta-feira, das 19 às 22 horas, e, no sábado dia 26, das 9 às 12 horas. Sob coordenação do professor André de Carvalho, do ICMC, a iniciativa será ministrada em português pelo professor Soong Moon Kang, da School of Management da University College London

“O professor Soong é um um dos principais pesquisadores da área de análise de redes sociais e já ministrou esse curso várias vezes”, explica André. “A análise de redes sociais pode ser aplicada a diferentes contextos e tem gerado uma demanda e um interesse crescentes. Apesar disso, são raras as ofertas de cursos e disciplinas sobre o assunto”, completa o professor, que é vice-diretor do ICMC. 

Há 40 vagas no total e as inscrições para o curso podem ser realizadas até 15 de outubro, ou enquanto houver vagas, via Sistema Apolo da USP: icmc.usp.br/e/236cc. A taxa de inscrição varia de R$ 300 (alunos de graduação ou pós-graduação do ICMC) até R$1.500 (profissionais) e deve ser paga via depósito bancário, de acordo com as informações disponibilizadas neste link: icmc.usp.br/e/0a7e9. Para concluir o processo de inscrição, o interessando precisa enviar, para o e-mail ccex@icmc.usp.br, o comprovante de pagamento e de vínculo com a instituição a que pertence. Quem não puder fazer o curso presencialmente deve consultar sobre a possibilidade de participação via videoconferência. 

Doutor em Ciências Administrativas e Engenharia, Soong é mestre em Sociologia e também em Sistemas Econômicos e de Engenharia pela Universidade de Stanford, além de ter concluído a graduação em Engenharia Mecânica pela Technische Universität Berlin

Texto – Denise Casatti - Assessoria de Comunicação do ICMC/USP 

Mais informações 
Consulte o programa do curso: icmc.usp.br/e/0a7e9
Link para inscrições: icmc.usp.br/e/236cc
Saiba mais sobre Soon Moon Kang: www.mgmt.ucl.ac.uk/people/soongkangÁrea de comunicação e eventos do ICMC: (16) 3373-9146 ou ccex@icmc.usp.br

segunda-feira, 19 de agosto de 2019

ICMC oferece curso de programação Python para ciência de dados

Voltado a profissionais da computação como analistas e programadores, iniciativa recebe inscrições até 18 de setembro

Nos rankings internacionais que apresentam as melhores carreiras, os cientistas de dados sempre estão em destaque

Qualificar profissionais da área de computação e programação para que sejam capazes de manipular e processar bases de dados em diferentes formatos, projetar soluções para capturar informações disponíveis na web e executar procedimentos básicos de estatística e aprendizado de máquina. Esses são os objetivos do curso Programação Python para Ciência de Dados, que será oferecido pelo Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos.

Dividido em cinco módulos, com exercícios práticos voltados à solução de problemas, o curso acontecerá durante cinco sábados, de 21 de setembro a 23 de novembro, das 9 às 13h20, no auditório Fernão Stella Rodrigues Germano, no bloco 6 do ICMC. A atividade é direcionada a pós-graduandos e profissionais graduados na área de TI como programadores, analistas, gerentes de projeto e demais interessados com conhecimento em computação, que desejam se capacitar para atuar com ciência de dados. O pré-requisito para participar é ter graduação em Ciência da Computação ou áreas correlatas.

“Os cientistas de dados buscam utilizar, de modo eficiente, ferramentas matemáticas e computacionais para auxiliar no processo de extração de conhecimentos a partir de dados, auxiliando principalmente a tomada de decisões”, explica o professor Gustavo Nonato, coordenador do curso e do grupo de extensão DATA do ICMC. Ele acabou de voltar à USP depois de passar um período como professor visitante no Center for Data Science da Universidade de Nova Iorque: “a experiência lá foi muito útil para ter uma visão mais clara do que é a ciência de dados, uma área ainda muito nova”.

O Brasil e os demais países do mundo não estão conseguindo formar a quantidade necessária de pessoas para lidar com os desafios desse novo campo do conhecimento. A escassez de cientistas de dados nos Estados Unidos oscilava em torno de 140 a 190 mil profissionais, em 2018, um número que só tende a crescer. No Brasil, embora não exista um levantamento que mostre o tamanho da demanda não atendida, quem atua no ensino e na pesquisa na área de ciência de dados tem se surpreendido com a constante peregrinação realizada pelas empresas a institutos especializados buscando mão-de-obra qualificada e o estabelecimento de parcerias.

Oferecer o curso Programação Python para Ciência de Dados é uma das estratégias para suprir parte dessa demanda reprimida. Há 150 vagas disponíveis e as inscrições podem ser realizadas até 18 de setembro, ou enquanto houver vagas, pelo Sistema Apolo, neste link: icmc.usp.br/e/1a3b5. A taxa de inscrição é de R$ 550,00, que deve ser paga via boleto bancário a ser gerado pelo Sistema. O comprovante de pagamento deverá ser encaminhado para o e-mail ccex@icmc.usp.br.

Além disso, até a próxima sexta-feira, 23 de agosto, serão recebidas solicitações de isenção da taxa. O procedimento, nesse caso, é realizar a inscrição on-line e enviar uma justificativa do pedido de isenção para o e-mail ccex@icmc.usp.brAs solicitações serão atendidas por ordem de chegada até o limite de 15 vagas, e os contemplados serão informados por e-mail.


Texto – Assessoria de Comunicação do ICMC/USP
Crédito de imagem: Python Logo e Insight-Rec (montagem)

Mais informações
Consulte o programa do curso: icmc.usp.br/e/6a5d8
Link para inscrições: icmc.usp.br/e/1a3b5
Sobre a iniciativa: https://python4ds-icmc.github.io/
Área de comunicação e eventos do ICMC: (16) 3373-9146 ou ccex@icmc.usp.br

segunda-feira, 13 de agosto de 2018

Inscrições com desconto para Escola Avançada em Big Data são prorrogadas até dia 17

Evento é voltado para pós-graduandos e profissionais de diversas áreas do conhecimento


Apresentar as mais avançadas e promissoras técnicas e ferramentas para análise de grandes volumes de dados. Este é o principal objetivo da segunda edição da Escola Avançada em Big Data Analysis, que acontecerá de 2 a 6 de setembro no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos. O prazo para fazer inscrição com desconto foi prorrogado até 17 de agosto.

O evento é composto por 10 minicursos, que serão apresentados por renomados pesquisadores do Brasil e do exterior. O público-alvo são alunos de pós-graduação e profissionais graduados em computação, estatística, engenharias, economia e áreas afins. Alunos de graduação serão aceitos, desde que estejam no último ano do curso. As inscrições estão abertas e podem ser realizadas por meio do site do evento

Realização e apoio – A Escola é organizada pelo departamento de Ciências da Computação do ICMC e conta com apoio do Centro de Ciências Matemáticas Aplicadas à Indústria (CeMEAI), do Centro de Robótica de São Carlos (CRob) e da Pró-Reitoria de Pesquisa da USP.

Texto: Assessoria de Comunicação do ICMC com informações da Assessoria de Comunicação do CeMEAI

Mais informações
Seção de Eventos do ICMC: (16) 3373-9622
E-mail: eventos@icmc.usp.br

terça-feira, 19 de junho de 2018

Pesquisadores da USP desenvolvem técnica de monitoramento de enchentes por meio do Twitter

O objetivo é que, no futuro, esse mecanismo possa prever alagamentos e alertar moradores 

 Palavras relacionadas (à esquerda) e não relacionadas (à  direita) encontradas com frequência na análise dos tweets


As redes sociais estão cada vez mais presentes na vida das pessoas, mas já imaginou que elas também podem ajudar a monitorar e até mesmo prever catástrofes ambientais? Foi com esse propósito que uma equipe de cinco pesquisadores do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, criou uma técnica computacional capaz de entender como publicações no Twitter conseguem representar fenômenos naturais, no caso chuvas e enchentes. Liderada pelo professor João Porto de Albuquerque, o principal objetivo da equipe é amplificar as áreas de monitoramento, para assim, no futuro, conseguir prever acidentes.

Ao todo, foram analisados quase 16 milhões de tweets que possibilitaram descobrir que esse tipo de análise de dados pode ser usada como método de prevenção e melhorar os sistemas de alertas já existentes, como é o caso das notificações do Centro Nacional de Monitoramento e Alertas de Desastres Naturais (Cemaden) e do Climatempo. As análises de dados foram feitas em dois momentos, em relação à cidade de São Paulo. Inicialmente, houve a publicação do artigo científico que analisava tweets referentes ao mês de janeiro de 2016. Em um segundo artigo, foi analisado o mesmo período acrescido de informações de novembro do mesmo ano até fevereiro de 2017.

Cidade de São Paulo durante o período analisado. Tweets relacionados às chuvas identificados com pontos pretos, pluviômetros com triângulos azuis e a bacia de Aricanduva sombreada em cinza 

De acordo com Sidgley, doutorando do ICMC e um dos pesquisadores do projeto, o monitoramento das chuvas é feito por pluviômetros, radares meteorológicos e satélites. Por serem de alto custo, esses instrumentos possuem limitações em sua cobertura espacial. Além disso, a manutenção desses sensores físicos tem de ser regular. “Hoje em dia, existem cerca de cinco mil desses sensores no Brasil. Em São Carlos, existem três, mas só um funciona. Se chover forte em alguns desses pontos onde os sensores estão quebrados, não há informação a ser registrada. Então, a vantagem de monitorar dados de publicações do Twitter é muito maior se comparada aos sensores físicos”, esclarece Sidgley. Ele também explica que as pessoas publicam de vários lugares, portanto, esse monitoramento humano é feito de forma distribuída e tudo isso com um custo baixíssimo.

Um dos desafios do projeto é encontrar uma correlação de dados entre os sensores físicos e os sensores humanos, já que eles são estimulados de formas diferentes, ou seja, a principal dificuldade da pesquisa é conseguir transformar os dados qualitativos de um tweet em dados quantitativos e, para isso, os pesquisadores tiveram que criar critérios de avaliação. Um dos critérios utilizados é a frequência de palavras-chaves como chuva e tempestade. Um outro critério é ponderações de regiões. Ou seja, notou-se que regiões centrais tweetavam mais do que regiões periféricas, o que aumentava o número de dados.

Com os estudos dessa relação entres os dados dos sensores, pôde-se descobrir também que existe um tempo de reação de ambos em relação ao fenômeno, que pode variar de 10 minutos antes do acontecimento até 10 minutos depois. “As pessoas costumam publicar suas expectativas em relação ao clima, então, elas podem postar que o tempo está fechando, por exemplo, e esse mecanismo ajuda a identificar possíveis indícios de que algo vai acontecer em relação à chuva”, explica Sidgley.

Por que o Twitter?
De acordo com os autores, o Twitter é a melhor rede social para esse tipo de análise. Segundo eles, a coleta de dados da rede é mais simples do que a do Facebook, por exemplo. A principal função do Twitter é publicar mensagens curtas, o que facilita esse recolhimento de informações. Além disso, a rede possibilita que as contas de outras redes sociais sejam sincronizadas e essa ferramenta não é possível no Facebook.

Reconhecimento
O estudo é fruto da colaboração multidisciplinar de cinco pesquisadores. Além do professor João Porto e Sidgley, a pesquisa também foi realizada por Camilo Restrepo Estrada, doutorando da Escola de Engenharia de São Carlos (EESC), Alexandre Delbem, professor do ICMC, e por Eduardo Mario Mendiondo, professor do Departamento de Engenharia Hidráulica e Saneamento da EESC.

O estudo começou a ser desenvolvido há cinco anos dentro de um projeto maior, chamado “Ágora”, que também é coordenado pelo Professor João Porto, e tem como foco desenvolver pesquisas e soluções tecnológicas que apoiem o suporte às comunidades vulneráveis na construção de propostas contra desastres naturais e eventos extremos. O primeiro artigo resultante do estudo foi publicado no início de 2017, pela Conferência Internacional Anual de Ciência da Informação Geográfica e teve foco na análise temporal das mensagens. Em fevereiro de 2018, um segundo artigo foi publicado na renomada revista científica Computers and Geosciences, explorando o uso das mensagens para alimentar modelos de monitoramento e previsão de inundações.

O sucesso das pesquisas foi tanto que já se solidificou em um projeto de larga escala. Os resultados desses dois artigos serão utilizados em um novo projeto de pesquisa internacional chamado Waterproofing Data, que tem como objetivo desenvolver métodos práticos para o engajamento de comunidades ameaçadas por enchentes em São Paulo e também no Acre, em parceria com o Cemaden. Ou seja, as atividades de monitoramento e alertas de desastres naturais, que são realizadas em regime contínuo no Cemaden, serão integradas às informações disponíveis de tempo e clima para as áreas de risco de ocorrência de desastres, no caso São Paulo e Acre. A partir da análise desses dados, será feita uma avaliação para emissão de alertas.

Atualmente, João Porto é professor visitante no grupo de Geoinformática do Instituto de Geografia da Universität Heidelberg, na Alemanha, e está afastado do ICMC


O novo projeto também está sob coordenação do professor João Porto e recebeu um financiamento de aproximadamente 1 milhão de euros do Belmont Forum, da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) e do Economics and Social Science Research Council (ESRC) do Reino Unido, que envolve a University of Warwick (Reino Unido). A pesquisa será realizada em parceria pelo ICMC, Heidelberg University (Alemanha), Escola de Administração de Empresas de São Paulo da Fundação Getúlio Vargas (EAESP-FGV) além das seguintes organizações: Cemaden, Companhia de Pesquisa de Recursos Minerais (CPRM), British Geological Survey (BGS), Prefeitura de São Paulo, Secretaria do Meio Ambiente do Estado do Acre e cidade de Eberbach, na Alemanha.

Texto: Talissa Fávero - Assessoria de Comunicação do ICMC/USP
Crédito das imagens: divulgação


Mais informações
Site do projeto Agora: http://www.agora.icmc.usp.br/site/language/pt/
Artigo Mining Rainfall Spatio-Temporal Patterns in Twitter: A Temporal Approach: https://link.springer.com/chapter/10.1007%2F978-3-319-56759-4_2
Artigo Geo-social media as a proxy for hydrometeorological data for streamflow estimation and to improve flood monitoring:
https://www.sciencedirect.com/science/article/pii/S0098300417306118?via%3Dihub

Contato para esta pauta
Assessoria de Comunicação do ICMC: (16) 3373.9666
E-mail: comunica@icmc.usp.br

quarta-feira, 25 de abril de 2018

E se todos nós fôssemos cientistas de dados?


Construir um mundo em que toda a humanidade possa acessar as ferramentas da inteligência artificial é um desafio que mobiliza diversas pesquisadores da área de computação; uma escola sobre ciências de dados será realizada na USP, em São Carlos, especialmente para preparar os estudantes para construírem o futuro da inteligência artificial de forma democrática e inclusiva

Capacitar estudantes para o futuro da inteligência artificial é um dos objetivos da Escola de Aprendizado de Máquina Automático em Ciência de Dados, que acontecerá dias 15 e 16 de maio no ICMC

Cada vez que você vai a um posto médico, faz um curso online, escolhe um produto em uma loja virtual ou leva lixo para reciclar, sem perceber, está gerando uma grande quantidade de dados. Será que se pudesse reunir todos esses dados em uma plataforma computacional e, automaticamente, extrair conhecimentos úteis, você poderia gerar mais impactos positivos no mundo?

Esse exemplo ajuda a vislumbrar o potencial transformador oferecido pelo amplo acesso às ferramentas da inteligência artificial. Hoje, uma parte da humanidade consegue acessar conjuntos de dados e, por meio do aprendizado de máquina, pode processar e analisar esses dados, extraindo conhecimentos valiosos que resultarão, desde a elaboração de novos modelos para tornar as cidades mais inteligentes até a ampliação de resultados financeiros e o apoio a diagnósticos médicos, entre outras infinitas aplicações. 

A questão é que, atualmente, o acesso às ferramentas que possibilitam extrair conhecimentos de grandes conjuntos de dados (Big Data) está restrito a um grupo de pessoas, os engenheiros e cientistas de computação que atuam no campo da ciência de dados. São profissionais disputados no mercado por empresas e instituições de pesquisa, tão raros e caros quanto metais preciosos. Se hoje já está difícil capacitar esses profissionais no ritmo adequado para atender às demandas existentes, imagine no futuro próximo, em que mais e mais dados estarão disponíveis. Corremos o risco de perder a chance de obter informações valiosas e de enriquecer a humanidade com aplicações que nos fariam viver mais e melhor. 

É claro que pode soar bastante utópica, à primeira vista, a ideia de ampliar o acesso às ferramentas da inteligência artificial e possibilitar que uma parcela muito maior da humanidade se torne cientista de dados. O fato é que há pesquisadores, em todo o planeta, buscando construir essa utopia. 

Ensinando uma máquina a aprender – Para ensinar uma máquina a extrair conhecimento útil a partir de um conjunto de dados, é preciso realizar três etapas fundamentais. A primeira é o pré-processamento dos dados: é o momento de limpar, normalizar e selecionar os dados, descartando, por exemplo, tudo o que não é relevante. Lembre-se de que os dados podem ser obtidos de diferentes fontes, em diversos formatos como textos, imagens, vídeos e até da mistura desses vários tipos. Depois, vem a etapa da modelagem, que é quando se deve escolher o método (algoritmo) e os parâmetros mais adequados para ensinar o computador a analisar os dados selecionados. São os modelos criados nessa fase que possibilitam extrair padrões e características dos dados, a fim de agrupá-los, classificá-los ou realizar previsões, entre outras possibilidades. Por último, está a fase de pós-processamento, em que o modelo criado é avaliado, após a realização de testes, e o usuário pode julgar os resultados gerados pelo sistema e sugerir alterações a fim de aprimorá-lo. 

Com essa descrição sobre as três etapas que compõe um sistema de aprendizado de máquina, você percebe o trabalho que dá ensinar os computadores a extraírem conhecimento dos dados. São inúmeras decisões que devem ser tomadas ao longo do processo: desde julgar quais dados são relevantes até verificar qual algoritmo deve ser usado para otimizar os resultados com o menor custo computacional possível. Além disso, a partir dessas escolhas, é preciso, ainda, fazer testes e validações experimentais. 

Imagine, então, o trabalhão que esses profissionais têm hoje porque precisam desenvolver cada uma dessas três etapas toda vez que são chamados para analisar um conjunto de dados. Eles têm que construir uma ferramenta de aprendizado de máquina para a pessoa que quer otimizar o uso dos recursos da casa, uma outra para o médico que quer agilizar a análise de mamografias, e uma outra para o padeiro que quer potencializar os ganhos de seu negócios, etc. e tal. Não tem como eles darem conta de criar tanta ferramenta, concorda? 

Otimizando o ensino das máquinas – É por isso que está se tornando um passo evolutivo fundamental da área de computação a criação de sistemas de auto-aprendizado de máquina ou aprendizado de máquina automatizado (em inglês, o termo empregado é automated machine learning, ou simplesmente AutoML). Provavelmente, é a primeira vez que você está lendo esses termos, mas é quase certo que os reencontrará muitas vezes, talvez tantas quanto hoje você se depara com palavras como internet e smartphone

Segundo o professor André de Carvalho, do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, essa nova área de AutoML é destinada à pesquisa e ao desenvolvimento de sistemas capazes de realizar automaticamente aquelas três etapas fundamentais do aprendizado de máquina. Isso possibilitaria, em suma, otimizar a extração de conhecimento útil a partir de quaisquer dados. 

Conforme explica André, por meio do AutoML, os cientistas de dados não precisarão mais desenvolver uma ferramenta para cada tipo de aplicação e deixarão de executar tarefas repetitivas e demoradas, podendo alocar o tempo em atividades mais difíceis e prioritárias, como analisar novas soluções para um problema e criar novas técnicas computacionais (como algoritmos mais eficientes, por exemplo).  “O objetivo do AutoML é apoiar os cientistas de dados em seu trabalho, não substituí-los”, explica o professor, que está empenhado em preparar estudantes de graduação e de pós-graduação para construírem esse futuro da inteligência artificial. 

Ele é o coordenador da Escola de Aprendizado de Máquina Automático em Ciência de Dados, que será realizada nos dias 15 e 16 de maio no ICMC. Quem se inscrever no evento até 30 de abril terá um desconto no valor da taxa de inscrição. A Escola tem o apoio do Centro de Ciências Matemáticas Aplicadas à Indústria e do Centro de Pesquisa de Aprendizado de Máquina em Análise de Dados. Para se inscrever, basta acessar o site www.cemeai.icmc.usp.br/AutoMLSchool

Para André, o AutoML contribuirá para otimizar o trabalho de um cientista de dados
(crédito: Assessoria de Comunicação do CeMEAI)
Um "pajé" pra chamar de seu – Investir no ensino das novas gerações é apenas uma das facetas de atuação do professor André. Ele coordena um grupo de pesquisadores da USP que está focado na busca por construir uma plataforma aberta e livre de AutoML que já tem até nome: Pajé. Empregada para designar quem se destaca em uma tribo indígena por ter poderes ocultos ou capacidade de orientar espiritualmente a comunidade, a palavra "pajé" foi transposta propositadamente para o contexto nada primitivo da inteligência artificial. Tal como um “curandeiro”, a plataforma de AutoML Pajé vislumbrada por André consegue identificar o que está escondido no plano terreno dos dados. 

A expectativa do professor é de que uma versão inicial da plataforma seja colocada à disposição da população em meados de agosto. Assim, qualquer pessoa – tal como você com os dados do que consome em sua casa e do quanto investe em educação, saúde e transporte – poderá usar o Pajé: ao inserir os dados brutos, o “curandeiro” fará recomendações sobre como fazer o pré-processamento e a modelagem. “A ideia é que qualquer pessoa possa usar essa ferramenta, quer seja o dono de um bar, de um consultório médico, de um hospital, de uma organização não-governamental ou um funcionário do poder público”, completa. 

André dá um exemplo para ilustrar as aplicações do Pajé a partir dos dados que temos à disposição nas Unidades Básicas de Saúde brasileiras. É viável criar um modelo de previsão que seja capaz de recomendar ao médico qual o tipo de parto mais indicado para as mulheres que hoje estão realizando pré-natal por meio da análise dos dados clínicos prévios daquelas que efetuaram o mesmo acompanhamento nessas unidades e dos dados referentes aos tipos de parto realizados. “Note que o Pajé apenas recomenda o procedimento, de acordo com os dados previamente existentes na plataforma. Quem tomará a decisão é o médico”, ressalta André. 

Apesar de ainda existir um longo caminho de pesquisa e desenvolvimento para ampliar o acesso às ferramentas da inteligência artificial, o professor conta que várias empresas, como Google, Facebook e Microsoft, estão contribuindo para a construção dessa estrada. Quem quiser se aventurar por esse mundo ainda inexplorado, pode fazer uma experiência com os “pajés” disponibilizados em plataformas como Google Cloud AutoML, Serviço Personalizado de Visão da Microsoft e por startups como a DataRobot

Na grande tribo conectada do século 21, os próximos passos vão além de fazer o aprendizado de máquina se tornar automático. A ideia é ensinar as próprias máquinas a aprenderem a aprender (meta-aprendizado de máquina). Ou seja, ao executarem milhares de vezes as três etapas de aprendizado de máquina, os equipamentos podem ser ensinados a aprimorar as próprias técnicas utilizadas e passar esse conhecimento adiante para outras máquinas. 

Em novembro do ano passado, o Google anunciou o primeiro “bebê” criado nesse contexto: a NASNet. Capaz de identificar imagens com um aproveitamento melhor do que os modelos desenvolvidos por seres humanos, com acerto de cerca de 82%, a NASNet mostra que, em um futuro próximo, vamos assistir ao surgimento de muitos “pajés” e também de muitas ovelhas Dolly cibernéticas. 

Imagem exemplifica os resultados obtidos pela NASNet na detecção automática de objetos
(crédito: Google Research Blog)

Texto: Denise Casatti – Assessoria de Comunicação do ICMC 


Mais informações
Escola de Aprendizado de Máquina Automático em Ciência de Dados: www.cemeai.icmc.usp.br/AutoMLSchool
Assessoria de Comunicação do ICMC: (16) 3373.9666 

terça-feira, 19 de dezembro de 2017

Que presente seu computador deseja para garantir um futuro de alto desempenho?

Não é só você que está vivendo em ritmo acelerado, quase sem dar conta de lidar com o constante aumento no volume de informações. Os computadores também têm demandas cada vez mais complexas e, se pudessem falar, com certeza teriam muitos pedidos para fazer ao Papai Noel...

Não basta ter um supercomputador, desenvolvedores precisam avaliar como os dados
estão sendo processados e prestar atenção no desempenho

Uma placa de processamento com capacidade para lidar com 12 trilhões de operações de ponto flutuante por segundo. Com certeza, se os computadores pudessem falar, esse dispositivo estaria no topo de suas listas de desejos natalinos. Tal como a maioria dos brasileiros que sonham com smartphones de última geração para poder lidar com um mundo cada dia mais conectado e com mais informações circulando, os computadores também necessitam de novos recursos tecnológicos para se adaptar a esse contexto. 

Mas pense no tempo que você leva para aprender a usar todas as funcionalidades de um smartphone recém-adquirido ou de qualquer outro brinquedinho tecnológico. No caso dos computadores, são os seres humanos que precisam ensinar as máquinas a empregar esses dispositivos tecnologicamente mais evoluídos a fim de que executem tarefas cada vez mais complexas.

Para imaginar como um computador funciona, pense que cada linha de programação – o famoso código – é como se fosse uma pequena receita de bolo: ensinamos a máquina a misturar determinados ingredientes, de certo modo, com a finalidade de chegar ao resultado desejado. Dependendo dos ingredientes que usamos e do modo como os misturamos, teremos diferentes tipos de bolo. Nos primórdios da computação, os programas de computador faziam bolos misturando cada ingrediente em sequência. É como pegar a batedeira, depois quebrar os ovos, reservar as gemas, bater as claras em neve e seguir esse processo adicionando cada ingrediente passo a passo. 

No entanto, com a evolução tecnológica dos equipamentos e o surgimento de demandas mais complexas, como a análise de grandes bancos de dados (Big Data), foi preciso otimizar as tarefas e realizar vários processos computacionais simultaneamente: enquanto uma batedeira está fazendo as claras em neve, outra mistura farinha, açúcar e leite e um dispositivo já vai untando a assadeira. É assim que os computadores funcionam atualmente para alcançarem um alto desempenho: uma série de processadores atuam simultaneamente para otimizar os resultados.

Mas lembre-se: quem precisa ensinar o computador a fazer tudo isso ao mesmo tempo são os desenvolvedores. Então, eles já não podem escrever os programas de computador como se fossem receitas de bolo sequenciais. Eles devem pensar em como alcançar o máximo de desempenho dos equipamentos na hora de construir os códigos e, às vezes, simples alterações podem ocasionar significativos ganhos.

“Hoje, todos que atuam na área de computação precisam aprender a programar usando multiprocessadores”, explica o professor Paulo de Souza, do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos. Ele foi o coordenador da 8ª Escola Regional de Alto Desempenho de São Paulo (ERAD-SP), uma realização da Sociedade Brasileira de Computação (SBC) que, este ano, aconteceu pela primeira vez na USP em São Carlos. 

“Pensamos nas necessidades que os alunos têm em aprender computação de alto desempenho e como podemos colaborar com esse aprendizado. Por isso, o eixo central do evento é o saber e a aplicação desse saber”, adiciona o professor. Segundo ele, a principal finalidade da iniciativa é apresentar um panorama da área, mostrando sua importância, os desafios e as perspectivas futuras, estimulando a aplicação do conhecimento adquirido na Escola para encontrar novas soluções. Dessa forma, os estudantes ficam mais preparados para ingressar no mercado de trabalho ou fazer uma pós-graduação.

Professor Paulo durante a abertura da ERAD-SP

Desafio em equipe – Este ano, a ERAD-SP contabilizou mais de 200 participantes e contou com 17 especialistas convidados. Depois de participar dos minicursos oferecidos, os estudantes formaram times e encararam um desafio de programação paralela. “O desafio vem colocar à prova, de uma forma muito lúdica, o conhecimento que o pessoal adquiriu durante os minicursos. Não dá para propor a solução de um problema da vida real no tempo que temos disponível, mas podemos desafiá-los com o pedacinho de um problema”, revela Calebe Bianchini, professor da Universidade Presbiteriana Mackenzie, que coordenou o desafio junto com o professor Júlio Estrella, do ICMC.

Ao se deparar com o primeiro problema proposto no desafio, os participantes liam: “Ah, o π (Pi)! Não tem como fugir desse lindo número cabalístico! Desde a antiguidade, seja no Egito, na China, na Babilônia, esse número vem sendo estudado pelos principais matemáticos”. A seguir, era apresentada uma das diversas fórmulas que existem para se encontrar o tal número: 3,141592653587. 

Com a estratégia de solução apresentada pelos coordenadores do desafio, um computador demoraria cerca de cinco minutos para fazer a operação. “É inaceitável uma máquina demorar esse tempo todo para realizar esse cálculo”, diz Calebe. Então, os estudantes deveriam buscar formas de otimizar o processo, com o objetivo de alcançar um alto desempenho por meio da maximização do uso de recursos como a memória, a unidade central de processamento (CPU) e os demais componentes internos, bem como minimizar a comunicação entre os dispositivos periféricos. Isso tudo poderia reduzir o tempo de processamento e, consequentemente, diminuir o tempo gasto nas operações computacionais. “Com soluções de otimização bem simples, os alunos conseguem chegar a um tempo de processamento de um minuto. Se atacarem o problema de forma mais otimizada, conseguem diminuir ainda mais”, explica Calebe. 

De acordo com o professor, ao ter acesso a esse modelo matemático usado para calcular o π (Pi), os estudantes entendem alguns princípios que regem diversos outros modelos matemáticos aplicados a várias áreas do conhecimento. Ele cita como exemplo os modelos que são utilizados para compreender as ligações químicas em um determinado composto e que precisam ser analisados quando se está produzindo um novo fármaco.

“O programador deve avaliar sempre como os dados estão sendo processados e prestar atenção no desempenho do computador. Quanto mais difícil o processamento, maior o custo computacional. Se conseguimos programar de forma distribuída, temos como resultado um melhor processamento. Nesse caso, milissegundos fazem muita diferença”, explica o desenvolvedor Diego Menescal. Ele apresentou algumas ferramentas desenvolvidas pela Intel durante um workshop sobre inteligência artificial realizado no ICMC dia 30 de setembro.

Diego ressaltou importância da computação de alto
desempenho durante workshop da Intel

Aliás, os especialistas concordam que, com a crescente demanda por cientistas de dados capazes de lidar com Big Data e recursos de inteligência artificial, a demanda pela computação de alto desempenho tendo a ser cada vez maior. A questão é bastante crítica, pois Big Data envolve altos custos e quanto mais as empresas conseguirem reduzir as demandas de horas de processamento em um data center, melhor. 

No ICMC, um dos desejos natalinos já foi atendido com a chegada de uma placa de processamento com capacidade para lidar com 12 trilhões de operações de ponto flutuante por segundo. O equipamento será usado para o processamento de grandes volumes de dados que são usados nos diversos projetos de pesquisas realizados no Instituto, provenientes de redes sociais, comércio eletrônico e hospitais. A placa foi doada pela empresa NVIDIA por meio do NVIDIA’s Academic Program. “Para se ter uma ideia da capacidade de processamento dessa placa, o supercomputador mais poderoso do mundo do ano de 2001 tinha apenas metade dessa capacidade. A placa foi especialmente projetada para processamento gráfico, simulações e, principalmente, para aplicações em inteligência artificial via técnicas que estão revolucionando o que se denomina mais amplamente por inteligência computacional”, finaliza o professor José Rodrigues Júnior, do ICMC.

Evento contabilizou mais de 200 participantes
Texto: Denise Casatti – Assessoria de Comunicação ICMC/USP
Fotos: Reinaldo Mizutani - Assessoria de Comunicação ICMC/USP


Mais informações
Assessoria de Comunicação do ICMC: (16) 3373.9666
E-mail: comunica@icmc.usp.br

quarta-feira, 12 de julho de 2017

Como a era do Big Data impacta a carreira dos estatísticos

Se antes eles eram chamados para estimar a quantidade de peixes que havia em um lago, agora precisam enfrentar um desafio bem maior, comparável à imensidão dos oceanos


Para Marcos, você está sempre sujeito ao erro quando trabalha com estatísticas

“Na estatística, as conclusões envolvem sempre uma incerteza”, diz o professor Marcos Magalhães para uma plateia atenta de cerca de 180 estudantes que assistem a sua palestra na tarde desta quarta-feira, em São Carlos. Para exemplificar, ele conta a história de uma de suas filhas, que, aos 5 anos, enquanto passeavam no lago, perguntou onde ele trabalhava. O pai respondeu: no Departamento de Estatística. A filha logo emendou: “É como descobrir quantos peixes têm no lago, né?”. 

Para Marcos, essa imagem do estatístico diante do lago, tentando contar os peixes, é capaz de sintetizar o papel de um estatístico: buscar técnicas e procedimentos para obter as respostas desejadas. Professor do Instituto de Matemática e Estatística da USP, ele ressalta que contar os peixes de um lago é mais complicado do que contar os que estão no aquário de uma casa. Imagine, então, estimar a quantidade de animais que existem em todos os oceanos da Terra? “Nesse novo cenário dos grandes bancos de dados, do Big Data, o estatístico precisa ter mais cautela. Como a massa de dados é imensa, quando ele tira suas conclusões, ninguém tem a possibilidade de checá-las. Isso requer que esse profissional aprimore cada vez mais suas possibilidades de reflexão, de analisar as hipóteses e avaliar o que, de fato, pode concluir”, pondera o professor, tomando um café depois do fim de sua palestra, ao lado do anfiteatro Bento Prado Júnior, na Universidade Federal de São Carlos (UFSCar). 

Foi nesse anfiteatro que aconteceram as palestras da VII Semana de Estatística, realizada em parceria por estudantes de estatística do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP e da UFSCar, de 6 a 9 de junho. No último dia do evento, o estatístico Raniere Ramos compartilhou sua trajetória e explicou que sua vida mudou com o sucesso alcançado por meio do blog O Estatístico, destinado a discutir assuntos dessa área do conhecimento de um jeito simples e divertido. 

Quando o papo é Big Data, Raniere concorda com o professor Marcos: “ao analisar bancos de dados pequenos, com algumas mil linhas e poucas colunas, eu me dou a oportunidade de me preocupar menos porque é mais fácil encontrar erros e alguém pode checar minhas análises. Já em bancos de dados muito grandes, em que há correlações entre as variáveis, esse trabalho é muito mais complexo e a chance de ter algo errado é bem maior.” Ele explica que, neste limiar da era do Big Data, os estatísticos investem de 70 a 80% do tempo limpando, organizando e validando as grandes bases de dados. 

Para compreender a complexidade do problema, pense em tudo o que é postado nas redes sociais e imagine a quantidade de lixo que existe misturado às palavras, números, sons e imagens que realmente podem ser valiosos. Assim, as instituições que querem usar os dados disponíveis nas redes sociais, por exemplo, precisam jogar todo o lixo fora para, só depois, enfrentar o desafio de analisar esse oceano e extrair informações que realmente poderão nortear suas futuras decisões.

Semana da Estatística foi realizada por alunos da UFSCar e do ICMC; ao centro, Raniere segura o mascote do evento

Perspectivas promissoras – Se é ponto pacífico que a era do Big Data lança novos desafios aos profissionais que se dedicam a investigar informações em meio aos dados, por outro lado, há controvérsias sobre quem tem mais capacidade para desempenhar esse trabalho. O cargo de cientista de dados pode ser ocupado tanto por um estatístico quanto por profissionais da computação, da engenharia, da matemática, do marketing, entre outros. 

“É claro que o estatístico tem uma vocação natural para analisar esse oceano de dados”, afirma o professor Marcos. “O estatístico é o profissional mais direcionando para trabalhar com dados e tecnologia. Um estatístico aprender tecnologia é muito mais fácil do que um cara de tecnologia aprender estatística”, assegura Raniere, que é estatístico sênior da Unimed de Santa Catarina.

Talvez seja esse um dos motivos que levam os estatísticos a aparecem sempre nas primeiras posições dos diversos rankings que tentam prever as profissões mais promissoras no futuro. Apenas para citar um exemplo: em ranking divulgado recentemente pelo CareerCast.com, portal norte-americano especializado em empregos, a profissão alcançou o topo entre as 200 carreiras avaliadas. Divulgado anualmente, o ranking leva em conta demandas físicas, ambiente de trabalho, renda, estresse e perspectivas de contratação. 

No entanto, há quem discorde dessa opinião, como o estatístico Guilherme Fernandes, que trabalha na Serasa: “Uma pessoa da área de computação caminha muito bem nesse mundo. Os estatísticos não”. Segundo ele, para processar os grandes bancos de dados é imprescindível ter conhecimento sobre a computação e suas linguagens de programação. “Ninguém é dono de uma área de conhecimento. Mas dentro da computação, os estudantes já adquirem conhecimentos de aprendizado de máquina, inteligência artificial, redes neurais, algoritmos genéticos. Eles têm esses métodos para extrair conhecimento dos dados. Podem não usar todo o ferramental de teoria estatística, mas chegam a resultados similares aos dos estatísticos. Esse é o ponto: você vai por caminhos diferentes, mas quem chegar mais rápido será mais valorizado.”

Guilherme, da Serasa, ministrou um dos quatro minicursos oferecidos durante a Semana da Estatística

De volta ao lago – Marcos conta que uma técnica frequentemente empregada para a contagem de peixes no lago é a captura e recaptura. É um método bem simples: alguns peixes são capturados, marcados e colocados de volta no lago. Aguarda-se certo tempo e captura-se novamente uma amostra de peixes no mesmo local. Por meio da análise do número de animais marcados recapturados, os estatísticos conseguem estimar a quantidade de peixes que há no lago: “Observe que, por conta da aleatoriedade, você está sempre sujeito ao erro”.

Considerando a escala de um lago, a técnica da captura e recaptura alcançará resultados com um nível aceitável de precisão. No entanto, se pensarmos em quantos peixes existem em todos os oceanos da Terra, é evidente que não será possível empregar a mesma técnica estatística. É por isso que, no universo de grandeza dos oceanos, que pode ser comparado ao mundo do Big Data, os estatísticos precisam das ferramentas computacionais para desenvolver novas técnicas e métodos a fim de obter respostas satisfatórias a perguntas como: em qual série a Netflix deve continuar investindo? Como podemos melhorar os serviços públicos de transporte, de saúde e de justiça?

Um caso de sucesso nesse sentido foi o trabalho realizado por Anne Milgram nos Estados Unidos. Quando ela se tornou procuradora geral de Nova Jersey, descobriu que sua equipe não sabia quem estavam colocando na prisão e não possuíam meios para entender se suas decisões estavam realmente deixando a população mais segura. Na palestra Por que as estatísticas inteligentes são a chave para combater o crime, realizada no TED@BCG em São Francisco (disponível neste link), Anne relata sua jornada para tornar o sistema de justiça criminal dos norte-americanos mais eficiente por meio da utilização de dados e análises estatísticas rigorosas. 

De acordo com Anne, dos 12 milhões de detenções realizadas por ano nos Estados Unidos, menos de 5% correspondem a crimes violentos e 67% das pessoas que saem da cadeia voltam a ser presas. “Decidi buscar uma ferramenta de dados e análises para avaliação de risco, algo que permitiria aos juízes entenderem, com base científica e objetiva, qual é o risco apresentado pelo réu a sua frente”, diz na palestra. Para possibilitar que os crimes violentos sejam punidos e evitar que as cadeias norte-americanas fiquem abarrotadas por pessoas que não precisariam estar lá já que não oferecem risco à sociedade, Anne tem uma solução: “Devíamos pegar essas avaliações de risco por dados e combiná-las com o instinto e a experiência dos juízes para nos guiar a tomar decisões melhores”.



O trabalho de Anne é citado em um dos muitos textos que Raniere disponibiliza no blog O Estatístico. Recentemente, Raniere participou de uma reunião para discutir como os dados abertos da cidade de Joinville poderiam ser utilizados para melhorar a gestão na área de saúde: “será que os recursos estão sendo destinados de forma correta? Verificando a demanda na saúde, quais são os lugares mais indicados para instalar um novo posto de saúde? Não conseguiremos achar as respostas para essas perguntas se não olharmos os dados.”

Segundo ele, só agora as instituições e empresas brasileiras estão começando a acordar para a era do Big Data. “Os dados brutos são o novo dinheiro das empresas. Se elas não souberem o que esses dados significam, não saberão para onde ir e vão quebrar”, profetiza Raniere. Ele cita exemplos de empresas que estão coletando dados em tempo real como o metrô de Santiago, em que a tarifa não é fixa, mas se altera de acordo com a demanda. O Uber também segue essa política do preço dinâmico, nos momentos do dia em que a população mais solicita o serviço, o custo da locomoção aumenta: “Tem que existir uma boa tecnologia para analisar dados não estruturados em tempo real e não são todas as empresas que têm condições de fazer isso hoje. Mas é algo cada vez mais comum, até aeroportos já estão usando esses dados para controlar o fluxo aéreo”.

Raniere diz que as principais questões que as empresas estão tentando responder ao olhar para a imensidão de dados existentes em seus sistemas e nas redes sociais é: quem são meus clientes? Como eles se comportam? Será que o produto oferecido é adequado? Essas perguntas aparentemente simples têm feito muitos pesquisadores perderem noites de sono para respondê-las estatisticamente. “Fundamental nessa área é a construção de modelos estatísticos que possam refletir com maior precisão a história e o perfil dos clientes. Esses modelos não são triviais devido ao tamanho dos bancos de dados”, explica Josemar Rodrigues, professor aposentado do ICMC.

Na apresentação que ele fez durante o 5º Workshop de Métodos Estatísticos e Probabilísticos, realizado em fevereiro no Instituto, Josemar abordou os desafios metodológicos que há para as empresas conhecerem quem são seus clientes e o que eles vão fazer no futuro. “A maioria dos modelos que existem nessa área supõe que o número de vendas de um produto para cada cliente segue uma lógica pré-determinada, que não leva em conta o padrão real de dispersão de compras ao longo do tempo. Nesses modelos tradicionais, só se considera o instante em que o cliente faz a compra”. Josemar explica que a informação sobre o instante da compra não é suficiente para avaliar quanto tempo o cliente ficou interessado por um produto ou serviço e muito menos para identificar a probabilidade desse cliente realizar futuras compras. Durante sua apresentação, o professor evidenciou que os pesquisadores têm buscado construir modelos mais flexíveis e citou como exemplo o trabalho Bridging the Gap: A Generalized Stochastic Process for Count Data.

Josemar falou sobre o desafio de desenvolver modelos estatísticos mais flexíveis

Partindo para florestas e oceanos – Será que esses novos modelos estatísticos permitirão à humanidade escutar o som da extinção surgindo no interior de uma floresta? Soa como uma questão típica dos filmes de ficção científica, mas esse é o objeto de estudo de Diego Carvalho do Nascimento, doutorando do Programa Interinstitucional de Programa Interinstitucional de Pós-Graduação em Estatística (PIPGEs). Orientado pelo professor Francisco Louzada, do ICMC, Diego está trabalhando em conjunto com pesquisadores da área de computação nas gravações realizadas na estação de pesquisa biológica La Selva, na Costa Rica. Durante o 5º Workshop de Métodos Estatísticos e Probabilísticos, Diego apresentou o projeto Wilcoxon test for transformation on soundscape: a feature extraction task no formato de pôster.

O trabalho analisou gravações que foram realizadas de 6 de março a 20 de abril de 2015 na selva. A cada 15 minutos, os pesquisadores da Costa Rica gravaram um minuto dos sons de La Selva, o que gerou 3.061 gravações, totalizando mais de 8 mil minutos. “Em 30 segundos de gravação podemos escutar pássaros, grilos e até um cachorro. Porém, quando começa a chover, não conseguimos ouvir mais nada. Então, antes de analisar, precisamos fazer uma limpeza nos sons, pré-processar os dados, tirar o som da chuva e separar o que é o som de cada animal.”

Se os pesquisadores obtiverem sucesso nessa verdadeira limpeza sonora, a técnica estatística desenvolvida poderá ser aplicada tanto para sondar o possível desaparecimento de uma espécie quanto, por exemplo, para aprimorar a segurança pública. Imagine se o disparo de uma arma de fogo em uma cidade pudesse ser ouvido em tempo real pelas forças de segurança? Isso seria viável se o som pudesse ser identificado automaticamente a partir da exclusão de outros barulhos do ambiente urbano (carros, motos, vozes, etc.). “A ideia é usar essa técnica também para estudar sons subaquáticos que estão sendo captados na Bacia de Santos. Por meio desses áudios, queremos avaliar a quantidade de baleias que habitam a região e reconhecer quantas são machos, fêmeas, jovens e adultos”.

Nesse momento, até parece que os oceanos da realidade se aproximam dos filmes de ficção. Não é difícil imaginar esse novo modelo estatístico identificando a existência de vida em outros planetas a partir da captação de sons. Porém, antes que isso aconteça, caro leitor, há muitos dados na Terra que precisarão ser estudados. “O mundo está se tornando um mundo de dados. Acredito que todos nós, no futuro, seremos pessoas capazes de analisar dados. Se o mundo está se tornando digital, por que você não vai se tornar analítico?”, finaliza Raniere.

Duas sessões de pôsteres aconteceram no Workshop

Confira o álbum de fotos da Semana da Estatística: https://flic.kr/s/aHskYuSx9y

Confira o álbum de fotos do Workshop de Métodos Estatísticos e Probabilísticos: https://flic.kr/s/aHsm4o1pCk


Texto e fotos: Denise Casatti – Assessoria de Comunicação do ICMC/USP

Mais informações
Blog O Estatístico: www.oestatistico.com.br
Portal para auxiliar no ensino de estatística: www.ime.usp.br/ativestat
Assessoria de Comunicação do ICMC: (16) 3373.9666
E-mail: comunica@icmc.usp.br