icmcmjoomlabiosensores Notícias
Pesquisadores da USP testam ferramentas de mineração de dados para prever a evolução da pandemia, método já foi explorado em aplicações nas áreas de agronegócio e educação
Data da publicação: 25/03/2020

 

Acesse a interface web do Websensors Analytics (Covid-19) neste link: http://websensors.net.br/projects/covid19.

Enquanto o novo coronavírus continua se espalhando pelo mundo, assistimos à proliferação de uma série de gráficos mostrando a evolução da Covid-19 e curvas ilustrando o que poderá acontecer no futuro. Além de assustador, o cenário traz uma série de desafios adicionais para os cientistas da computação: como extrair conhecimentos úteis a partir dessa quantidade gigantesca de informações que circulam na internet sobre a pandemia, aproveitando os recursos tecnológicos que temos à disposição?

Esse é um desafio que já vem sendo enfrentado pelos pesquisadores do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos. Eles têm obtido bons resultados utilizando técnicas de inteligência artificial aplicadas à mineração de dados nas áreas de agronegócio e educação, por exemplo. Para isso, desenvolvem desde 2014 uma ferramenta chamada Websensors, que usa inteligência artificial para analisar eventos extraídos de textos de notícias, tais como informações sobre o que aconteceu, como, quando, onde e quem está envolvido.

Agora, estão empenhados em coletar eventos mencionando o novo coronavírus ou a doença Covid-19. A meta é usar essas informações como conhecimento complementar para ser incorporado em modelos de previsão já existentes. Um exemplo é a previsão da curva de contaminação da pandemia, que pode ser ajustada considerando eventos sobre esse assunto. Além disso, esse conhecimento adicional será importante para apoiar especialistas na identificação futura de iniciativas bem-sucedidas e mal-sucedidas no combate ao vírus, o que terá grande utilidade nas próximas epidemias que enfrentaremos.

Imagem mostra uma das notícias cadastradas na plataforma. Nesse caso, a informação se refere a São Paulo.

 

“Quando olhamos para a evolução futura da curva de contaminação de uma doença e levamos em conta apenas dados sobre contágios que aconteceram no passado, temos uma visão limitada do problema. Se for possível enriquecer essa visão, adicionando à previsão informações extraídas de fontes confiáveis, acreditamos que poderemos incrementar nosso olhar e, quem sabe, construir modelos preditivos mais próximos da realidade”, explica Solange Rezende, que coordena o projeto junto com o professor Ricardo Marcacini, ambos do Laboratório de Inteligência Computacional do ICMC. A iniciativa conta, ainda, com a participação de dois doutorandos, quatro mestrandos e três pesquisadores colaboradores, como Rafael Geraldeli Rossi, ex-aluno do ICMC que é professor na Universidade Federal de Mato Grosso do Sul.

Web, um poderoso sensor – Vamos imaginar que você encontrasse um viajante do tempo hoje que lhe perguntasse: qual a maneira mais rápida e confiável de compreender o que está acontecendo no mundo em tempo real? É provável que sua resposta fosse: entre na internet. Sim, de fato, é pela web que temos acesso a fontes de informações confiáveis e seguras de todo o mundo, em várias línguas. É por isso que muitos pesquisadores começaram a usar as informações da web da mesma maneira que já utilizamos sensores para medir, por exemplo, a temperatura, a umidade, a quantidade de chuva, a velocidade e a direção dos ventos em um lugar. São os dados captados por esses sensores ao longo do tempo – a variação da temperatura, umidade, chuva e vento – que possibilitaram aos cientistas construírem os modelos para prever o clima no futuro.

Ora, pense que as informações que circulam na web também podem funcionar como esses sensores e ajudar não apenas um viajante do tempo a compreender nossa realidade, mas também permitir que os pesquisadores desenvolvam novos modelos de previsão de futuro. “Isso acontece porque os computadores conseguem processar uma grande quantidade de informações e encontrar padrões no que aconteceu no passado e que poderá se repetir no futuro”, explica Marcacini.

No caso da Covid-19, os links da web são captados por meio de uma plataforma internacional chamada GDELT. A seguir, os pesquisadores do ICMC coletam as notícias que se referem especificamente à doença ou ao coronavírus, desde que sejam provenientes de fontes confiáveis, e fazem um pré-processamento. Nessa etapa, utilizando várias técnicas, como as de processamento de linguagem natural, os textos são transformados em um conjunto de sinais. É como se houvesse uma tradução da linguagem humana para uma linguagem que as máquinas conseguem compreender.

Na sequência, esses sinais são inseridos no circuito de uma rede neural. Tal como no cérebro humano, em que os sinais que captamos por meio dos nossos sentidos vão sendo processados, a rede neural analisa as características extraídas dos textos coletados e dá um peso diferente a cada uma, de acordo com a maior ou menor frequência em que a característica surge na coletânea. É comparável ao trabalho que nossos neurônios realizam depois que os olhos captam várias imagens diferentes e vamos identificar o que há em comum entre elas. Mas, lembre-se de que, nesse caso, estamos falando de encontrar padrões em uma gigantesca quantidade de textos, um trabalho impossível de ser realizado manualmente e que pode resultar em valiosos conhecimentos, como já demonstrado em vários estudos.

Em todo o globo, de 19 a 24 de março, a plataforma criada pelo grupo de pesquisadores do ICMC (http://websensors.net.br/projects/covid19) capturou um total de 26.713 eventos georreferenciados extraídos de notícias que citam a Covid-19 ou o coronavírus. Esse processo de coleta é contínuo. Unindo essas informações aos dados de contaminação oficiais (coletados pelo Data Repository by Johns Hopkins CSSE), os cientistas elaboraram um modelo de previsão da curva de contaminação para os próximos sete dias (veja a seguir, em amarelo). Note que essa curva é mais acentuada do que a observada nos modelos epidemiológicos que consideram apenas os dados de contaminação (em verde). “Acrescentando os eventos, de fato há um ajuste para cima, com a previsão de mais casos, embora a gente precise fazer a ressalva de que ainda temos poucos dados no Brasil para validar estatisticamente essa análise preditiva”, pondera Ricardo.

Comparação de 10 diferentes execuções do modelo de predição adicionando eventos (linha amarelo) e excluindo eventos (verde) em 24 de março

Aplicação na agricultura – Desde 2014, os pesquisadores do ICMC têm trabalhado para desenvolver o conhecimento e a tecnologia denominada Websensors que, hoje, está sendo utilizada no projeto da Covid-19. Ao longo dos anos, vários estudos foram realizados com o apoio das principais agências de fomento à pesquisa do país, como a Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP), a Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) e o Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq).

Solange afirma que um dos desafios que mobilizam a equipe é explicar o comportamento passado e predizer o comportamento futuro da produtividade em agricultura e agropecuária no Brasil. Segundo ela, essa será uma das frentes de atuação do novo Centro de Pesquisa em Engenharia em Inteligência Artificial. Com recursos que virão da IBM, da FAPESP e da USP, o novo Centro terá um de seus núcleos no ICMC.

O grupo já tem um repositório impressionante: uma base histórica de 18 anos de milhões de notícias. A ideia é, em parceria com a EMBRAPA, construir um modelo computacional para utilizar o conhecimento implícito que há nessa base e, a partir da identificação de padrões, explicar o comportamento passado e predizer o comportamento futuro.

“A análise da produtividade no domínio de agronegócios tradicionalmente é realizada com base em imagens aéreas, informações climáticas e séries temporais históricas. Com o uso de websensors, poderemos adicionar um novo componente e disponibilizar as análises em uma plataforma web, que poderá ser acessada por outros pesquisadores interessados”, destaca Marcacini. A professora Solange ressalta que, embora o Brasil tenha relativo destaque internacional em relação à agricultura e agropecuária, ainda há pouca inovação tecnológica relacionada a grandes bancos de dados (big data) aplicada em agronegócios.

 

Ricardo Marcacini se tornou professor no ICMC no ano passado, antes, ele dava aulas na Universidade Federal de Mato Grosso do Sul. Macacini fez graduação, mestrado, doutorado e pós-doutorado no ICMC.

Combate à evasão – A educação é outra área em que os pesquisadores do ICMC já desenvolveram aplicações premiadas usando conhecimentos e tecnologias sobre mineração de eventos. Em 2018, os pesquisadores criaram uma plataforma para analisar informações históricas sobre o comportamento virtual de estudantes com o objetivo de evitar o abandono dos cursos a distância.

A partir de uma análise personalizada, de acordo com as características de cada curso, e do encontro de padrões de comportamento, a plataforma separa os alunos em grupos de acordo com diferentes riscos de evasão (baixo, médio, alto e crítico). Assim, periodicamente, os gestores são notificados sobre a atuação dos estudantes. O projeto foi desenvolvido quando Marcacini era professor na Universidade Federal de Mato Grosso do Sul, em parceria com a professora Solange, e conquistou o segundo lugar no 1º Workshop de Inovação da Diretoria de Educação a Distância da CAPES.

Outra aplicação foi desenvolvida com o objetivo de identificar pareceristas, pesquisadores, especialistas e consultores para avaliar projetos, artigos, dissertações e teses ou problemas de empresas interessadas na contratação de profissionais especializados. A solução foi criada para permitir que as instituições identifiquem especialistas competentes para lidar com um determinado problema. O projeto conquistou a quarta colocação na exposição de aplicações institucionais da base Lattes, organizada pelo CNPq e pelo Centro de Gestão e Estudos Estratégicos em setembro de 2018.

A professora Solange Rezende é uma das coordenadoras do projeto e realiza pesquisas na área de mineração de eventos desde 2014. 

 

Texto: Denise Casatti – Assessoria de Comunicação do ICMC/USP

Mais informações
Acesse a interface web do Websensors Analytics (Covid-19), que foi desenvolvida pelo mestrando Luan Martins, do ICMC: http://websensors.net.br/projects/covid19
Assista ao TED Talk em que a pesquisadora Kira Radinsky explica sua jornada de predição do futuro usando a técnica de mineração de eventos: https://youtu.be/gAifa_CVGCY
Assessoria de Comunicação do ICMC: (11) 9.9125.9459
E-mail: Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

CONÉCTATE CON NOSOTROS
 

© 2024 Instituto de Ciências Matemáticas e de Computação