“Fique tranquilo, eu sou um cientista de dados”: a frase na camiseta de Bruno Coelho, aluno do ICMC, traduz quanto esses profissionais têm se tornado cada vez mais fundamentais no mundo em que vivemos
(crédito da imagem: Reinaldo Mizutani)
O foodtruck que fornece sua comida favorita, o laboratório onde você fez seus últimos exames médicos, o banco em que você é correntista, a seguradora do seu carro e a prefeitura da cidade onde você mora. Há um elo unindo essa lista aparentemente desconectada: os dados valiosos que cada um tem sobre você. São como sementes que, se adequadamente germinadas, podem revelar qual tipo de culinária mais agrada seu paladar, o prognóstico do seu tratamento, suas futuras movimentações financeiras, a provável data em que seu carro precisará de conserto ou de um guincho e qual será o consumo de água, luz e energia da sua residência nos próximos meses.
À primeira vista, parece o início do roteiro de mais uma série futurista de ficção científica, mas pare e pense: todos esses dados estão à disposição das instituições públicas e privadas com as quais você se relaciona e boa parte da tecnologia para analisá-los já foi criada. O que falta então para o futuro se tornar presente? Profissionais capacitados para gerar valor a partir da captura, do tratamento e da obtenção de novos conhecimentos, úteis e relevantes, com base em todos esses dados.
É fato que o Brasil e os demais países do mundo não estão conseguindo formar a quantidade necessária de pessoas para lidar com esse desafio. A escassez de cientistas de dados nos Estados Unidos oscilava em torno de 140 a 190 mil profissionais, em 2018, um número que só tende a crescer. No Brasil, embora não exista um levantamento que mostre o tamanho da demanda não atendida, quem atua no ensino e na pesquisa na área de ciência de dados tem se surpreendido com a constante peregrinação realizada pelas empresas a institutos especializados buscando mão-de-obra qualificada e o estabelecimento de parcerias.
Essa efervescente demanda é evidente no Instituto de Ciências Matemáticas e de Computação da USP, em São Carlos, a cerca de 240 quilômetros da capital do Estado de São Paulo. Conhecida como capital da tecnologia, a cidade está se transformando na “meca” brasileira da ciência de dados, um campo que se constrói na interseção de conhecimentos computacionais, estatísticos e matemáticos.
“São Carlos está no olho do furacão”, declara o professor André de Carvalho, vice-diretor do ICMC e do Centro de Ciências Matemáticas Aplicadas à Indústria da USP. Ele revela que grandes corporações visitam constantemente o ICMC para efetuar processos seletivos e buscar parcerias científicas para lidar com seus bancos de dados. Recentemente, por exemplo, Serasa Experian, Intel e Magazine Luiza anunciaram que vão instalar centros de pesquisa na cidade.
Para André de Carvalho, São Carlos já é referência na área de ciência de dados
(crédito da imagem: Reinaldo Mizutani)
Eles valem ouro – Mas por que tantas empresas estão desesperadas pela ajuda dos cientistas de dados? Ora, hoje, cada ser humano com um dispositivo móvel em mãos é um produtor de dados, os quais são gerados em velocidade, volume e variedade cada vez maiores. Esses bancos de dados, quando não são utilizados adequadamente pelas instituições, acabam se tornando verdadeiros elefantes brancos.
São elefantes que consumem recursos valiosos – pense em quanto espaço físico e virtual é preciso para armazená-los – e não são poucos os gestores que se assustam diante desse cenário complexo de números, nomes, datas, telefones, e-mails, endereços, comentários, curtidas, imagens, vídeos… É um amontoado heterogêneo que costuma conter informações preciosas, capazes de levar à solução de vários problemas e permitir avanços significativos às instituições, contribuindo para a tomada de melhores decisões. Há potencial para aumentar receitas, reduzir custos, aprimorar experiências de clientes e promover inovações. Não saber o que fazer diante dessa riqueza de dados é, no mínimo, desesperador.
Não é à toa que, nos rankings internacionais que apresentam as melhores carreiras, os cientistas de dados sempre estão em destaque. Na avaliação sobre os melhores empregos do site carreercast.com, eles aparecem na 7ª colocação; no glassdoor.com, surge como a profissão número 1 dos Estados Unidos.
“Os cientistas de dados buscam utilizar, de modo eficiente, ferramentas matemáticas e computacionais para auxiliar no processo de extração de conhecimentos a partir de dados, auxiliando principalmente a tomada de decisões”, explica o professor Gustavo Nonato, do ICMC. Ele acabou de voltar à USP depois de passar um período como professor visitante no Center for Data Science da Universidade de Nova Iorque: “a experiência lá foi muito útil para ter uma visão mais clara do que é a ciência de dados, uma área ainda muito nova”.
Diante da ausência de profissionais com formação específica, as instituições têm recrutado graduados e pós-graduados em computação, matemática e estatística para ocupar cargos com nomenclaturas que vão desde o clássico “cientista de dados” até engenheiro/analista/arquiteto de dados, seguindo por variações como analista de inteligência de negócios entre outras. Segundo Nonato, os alunos recém-formados do ICMC têm sido recrutados a preço de ouro para trabalhar com ciência de dados. Outro professor do ICMC, Marinho de Andrade Filho, explica que os egressos do curso de estatística têm entrado no mercado com salários iniciais variando entre R$ 4 e R$ 6 mil, chegando a R$ 10 mil após cerca de um ano de atuação.
Depois de uma experiência como professor visitante no Center for Data Science, em Nova Iorque, Gustavo Nonato (último à direita em pé) coordena, atualmente, o grupo de extensão DATA, no ICMC (crédito da imagem: Reinaldo Mizutani)
Pensando com dados – Será que a Universidade está em sintonia com a revolução da ciência de dados? No ICMC, já é oferecida uma ênfase em ciência de dados, opção disponível para os alunos dos cursos de graduação em computação e em matemática (exceto Licenciatura), e também existe uma especialização em ciência de dados no Mestrado Profissional em Matemática, Estatística e Computação Aplicadas à Indústria (MECAI). Além disso, em breve, serão efetuadas alterações significativas no Bacharelado em Estatística – que passará a se chamar Bacharelado em Estatística e Ciência de Dados – e dois novos cursos serão criados: uma especialização do tipo Master Business Administration (MBA), destinada a quem já está inserido no mercado de trabalho; e uma nova graduação surgirá, o Bacharelado em Ciência de Dados.
No momento, as propostas dos novos cursos estão sendo avaliadas por diversas instâncias da USP. Quando o Bacharelado em Ciências de Dados for oficialmente lançado, vai se tornar o primeiro curso desse tipo a ser oferecido no país. No mundo, há apenas 57 cursos de graduação em ciência de dados, sendo que nenhum deles é brasileiro, de acordo com informações disponíveis em abril no website http://datascience.community/colleges. Ao serem levadas em conta as opções de pós-graduação (especialização, mestrado e doutorado), chega-se a um total de 545 programas espalhados pelo globo e somente um deles é oferecido no Brasil por uma instituição particular.
Como não há diretrizes curriculares nacionais específicas para o Bacharelado em Ciências de Dados, o grupo de professores que elaborou a proposta foi buscar inspiração em diretrizes internacionais. Um dos documentos que fundamentam a proposta – Diretrizes Curriculares para Programas de Graduação em Ciência de Dados – apresenta o resultado de um trabalho realizado por representantes de 25 instituições de ensino, que se reuniram durante três semanas nos Estados Unidos para discutir as habilidades essenciais na formação desse profissional.
O professor Thiago Pardo, que preside a Comissão de Graduação do Instituto, explica que o Bacharelado em Ciência de Dados do ICMC seguirá essas diretrizes internacionais, propondo um currículo interdisciplinar, que integre conhecimentos provenientes da computação, da estatística e da matemática. Ele afirma que a ideia é formar um profissional capaz de “pensar com dados”, que tenha competência e experiência prática para lidar com as mais variadas situações e domínios de aplicação da área.
Mas, afinal, quais são exatamente as habilidades que esse novo profissional precisa ter? No documento com a proposta de criação do curso, destaca-se que o Bacharel em Ciência de Dados será capaz de: entender, formular e refinar questões apropriadas; obter, modelar e explorar os dados relacionados; processar os dados e realizar as análises necessárias; obter e comunicar o conhecimento relevante e, se necessário, apoiar o desenvolvimento e implantação de soluções com base nos resultados atingidos.
Para se tornar apto a realizar tudo isso, há várias habilidades que precisam ser desenvolvidas. Em primeiro lugar, está o aprendizado de técnicas de coleta, armazenamento e gerenciamento de dados, envolvendo os processos de limpeza, transformação e estruturação dos dados, os quais podem ser provenientes de fontes variadas e ter formatos e tamanhos diversos. Depois, é necessário processar esses dados e realizar análises por meio de técnicas computacionais e estatísticas. São essas técnicas que possibilitarão extrair conhecimentos desses dados, empregando estratégias que podem incluir a utilização de modelagem estatística/matemática, visualização, mineração e aprendizado de máquina.
Porém, para que todo esse conhecimento ligado ao raciocínio lógico e à abstração resulte, de fato, em soluções, o profissional precisa desenvolver também as chamadas soft skills – aquelas habilidades não-técnicas que o permitirão se comunicar adequadamente, ser criativo, trabalhar em equipe e ter uma visão ampla e crítica sobre os processos que ocorrem dentro e fora das instituições. Note que formar um profissional assim é um desafio e tanto.
A fim de possibilitar que os alunos formados em Estatística no ICMC também possam ter acesso a essa formação mais ampla, atendendo à crescente demanda do mercado, outra iniciativa em andamento propõe uma atualização na grade curricular do curso. A proposta também está passando pela aprovação de diversas instâncias da USP e a expectativa é de que os ingressantes da Universidade em 2020 já tenham acesso à novidade, que prevê até uma alteração no nome do curso, que passará a se chamar Bacharelado em Estatística e Ciência de Dados.
O professor Marinho explica que a espinha dorsal do curso continua sendo a estatística, que é uma profissão regulamentada no Brasil, o que se propõe é uma ampliação no escopo de algumas disciplinas a fim de associar o ensino de técnicas computacionais ao ensino das técnicas estatísticas, as quais já eram abarcadas pela grade curricular do curso. “Não existe uma competição entre a estatística e a computação pela fatia da ciência de dados. O que há é uma necessidade de unir os dois campos para tratar dos problemas que surgem a partir dos dados. É claro que existem diferenças nas abordagens, mas são conhecimentos que se completam”, diz Marinho.
Com as alterações nas disciplinas oferecidas, houve uma vantagem adicional: a redução no tempo de formação no curso de Estatística. Em vez dos atuais 4,5 anos, a graduação poderá ser concluída em 4 anos. “Assim, o recém-formado poderá planejar mais facilmente o início das atividades do ano seguinte, quer seja no mercado de trabalho ou em um programa de pós-graduação”, completa o professor Marinho.
Quando o Bacharelado em Ciências de Dados for oficialmente lançado pelo ICMC, vai se tornar o primeiro curso desse tipo a ser oferecido no país
(crédito da imagem: Reinaldo Mizutani)
Nasce o DATA – A demanda por capacitação é tão grande que quatro estudantes do ICMC se mobilizaram para criar o DATA, um grupo de extensão que surgiu oficialmente no início deste ano especialmente para difundir os conhecimentos sobre ciência de dados. A ideia nasceu depois que os quatro alunos do curso de Ciências de Computação foram selecionados para a final de um concurso internacional de ciência de dados, o Data Science Game, que aconteceu em outubro do ano passado. O time – formado por Bruno Coelho, Gustavo Sutter, Marcello Pagano e Tobias Veiga – conquistou o 12º lugar entre as 20 melhores equipes do mundo e, considerando-se as três equipes brasileiras que concorreram à final, ficou em 2º lugar.
O encanto pela ciência de dados floresceu nos quatro estudantes depois que se envolveram em projetos de iniciação científica e estabeleceram contato com novos conhecimentos da área, o que levou à formação do time. Bruno conta que participar da competição foi um processo intenso e enriquecedor: “Mesmo tendo que fazer tudo em um curto período de tempo, a experiência foi fantástica. Saímos muito motivados a estudar ainda mais sobre ciência de dados.” Então, os quatro decidiram criar um novo grupo de extensão, a partir do estímulo do professor Thiago Pardo e da inspiração de outros grupos bem-sucedidos criados no ICMC, como o Grupo de Estudos para a Maratona de Programação (GEMA) e o grupo de desenvolvimento de jogos Fellowship of the Game (FoG). O passo seguinte foi contatar o professor Gustavo Nonato, que aceitou assumir o papel de tutor da iniciativa.
Atualmente, o DATA está oferecendo um curso de introdução a ciência de dados, de 12 semanas, para cerca de 40 estudantes do ICMC, às quartas-feiras, das 14 às 16 horas. O que o grupo ensina? “Introdução à linguagem de programação Python, aos principais algoritmos, a aprendizado de máquina e a técnicas de pré-processamento de dados. A ideia é incentivar essa turma a participar de competições e prepará-los para futuros processos seletivos”, conta Gustavo.
Também às quartas, das 17 às 18 horas, o DATA reúne os alunos que já têm conhecimentos mais avançados na área para promover discussões e aprimorarem, colaborativamente, o know-how que já possuem. “Além de tornar a área de ciência de dados mais conhecida, outro objetivo do grupo é oferecer, futuramente, treinamento para a população em geral, por meio de cursos de extensão”, conta Nonato. “É claro que, para você se tornar um cientista de dados, é preciso ter uma formação sólida. Mas é fato que uma pessoa que possua alguma noção de programação, se fizer bons cursos sobre Python e sobre aprendizado de máquina, pode desenvolver interessantes soluções a partir de dados já disponíveis”, acrescenta o professor.
Bruno Coelho, Gustavo Sutter, Marcello Pagano e Tobias Veiga participaram da final do Data Science Game, que aconteceu no ano passado, de 27 a 29 de setembro, na França
(crédito da imagem: Data Science Game)
De volta ao futuro – Você é capaz de imaginar as soluções interessantes que podem ser criadas por quem faz ciência com dados? O professor André de Carvalho enumera uma série de possibilidades: melhorar o ensino identificando o perfil de cada aluno para disponibilizar conteúdos e avaliações particularizados; localizar trechos de processos jurídicos e sentenças que podem ser úteis para argumentações futuras; predizer quais clientes estão insatisfeitos com uma empresa e o porquê, buscando reduzir o problema; prever o resultado de reações químicas a partir das condições experimentais e das substâncias utilizadas; prever falhas em linhas de transmissão de energia elétrica; diagnosticar fadiga em estruturas como pontes e barragens; classificar objetos em imagens obtidas por telescópios espaciais; criar modelos capazes de dar suporte ao diagnóstico médico; prevenir a queda de idosos; melhorar o desempenho de equipes em práticas de esportes olímpicos e profissionais; prever a ocorrência de doenças e pragas; classificar automaticamente a qualidade de frutas; melhorar as políticas públicas; reduzir danos ao meio ambiente e aos seres humanos.
Todas essas possibilidades e outras mais estão descritas no artigo “Interdisciplinaridade da ciência de dados”, publicado por André na Revista da Sociedade Brasileira de Computação, edição de fevereiro de 2016. O que era futuro há três anos está se tornado cada vez mais presente. Não falta muito para que os cientistas de dados descubram a culinária que mais agrada seu paladar, o prognóstico do seu tratamento médico, suas próximas movimentações financeiras, o defeito que seu carro terá e quanta água, luz e energia a residência em que você mora consumirá. Resta saber quais decisões serão tomadas a partir desses novos conhecimentos. Há quem vislumbre o surgimento de um mundo mais humano e justo a partir de tantos dados; e há quem tema pela vulnerabilidade que o acesso a esses dados pode nos trazer. O fato é que as consequências de qualquer tipo de novo conhecimento depende do comportamento ético da humanidade. Isso vale também para ciência que brota dos dados.
Estudantes do ICMC que participam da primeira edição do curso de introdução a ciência de dados, oferecido pelo DATA
(crédito da imagem: Reinaldo Mizutani)
Texto: Denise Casatti – Assessoria de Comunicação do ICMC/USP
Saiba mais
Cursos e programas em ciência de dados no mundo: http://datascience.community/colleges
Curriculum Guidelines for Undergraduate Programs in Data Science:
www.annualreviews.org/doi/full/10.1146/annurev-statistics-060116-053930Artigo “Interdisciplinaridade da ciência de dados” (páginas 62 a 65):
www.sbc.org.br/images/flippingbook/computacaobrasil/computa_31/Comp_Brasil_02_2016.pdf