Estudo da USP São Carlos propõe sistemas de IA transparentes para detecção de discurso de ódio e fake news

estudo-da-usp-sao-carlos-propoe-sistemas-de-ia-transparentes-para-deteccao-de-discurso-de-odio-e-fake-news

Notícias

Métodos desenvolvidos contrastam com os modelos ‘caixas-pretas’ recentemente banidos por Mark Zuckerberg, CEO da Meta

Data da publicação: 10/01/2025

Durante a defesa do trabalho, os membros da banca destacaram o desempenho excepcional de Francielle, afirmando nunca terem visto alguém trabalhar tanto em um doutorado. ‘Fazer um doutorado não é trivial, mas tive o privilégio de ser apaixonada pelo que faço’, reflete a pesquisadora | Foto: Reprodução

Imagine uma ferramenta que, em poucos segundos, analisa comentários suspeitos na internet e revela se eles são falsos ou promovem discurso de ódio, explicando os critérios para a classificação. Esse foi o objetivo que inspirou Francielle Vargas a desenvolver sua tese, intitulada Socially Responsible and Explainable Automated Fact-Checking and Hate Speech Detection, defendida em novembro de 2024 no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos.

A pesquisadora conta que suas próprias experiências com discriminação, sendo uma mulher em uma área majoritariamente masculina, despertaram não apenas interesse científico, mas também motivação para usar seu conhecimento como ferramenta de transformação social. “Minha intenção foi contribuir de alguma forma para mitigar esse problema, criando soluções que pudessem identificar e combater a desinformação e o discurso de ódio. Trabalhar com isso é, de alguma forma, proteger grupos vulneráveis e construir um ambiente online mais seguro e justo”, defende.

Apesar de serem capazes de identificar fake news e discursos de ódio, os sistemas atuais de verificação de fatos carecem de transparência, pois não revelam os critérios usados para as classificações. Essa falta de transparência, característica de muitos modelos de inteligência artificial (IA) que funcionam como “caixas-pretas”, levou Mark Zuckerberg, fundador do Facebook, a justificar a suspensão do sistema de checagem de fatos da Meta em janeiro deste ano, em uma decisão amplamente criticada pela imprensa. A resolução para este entrave – necessidade de verificação x falta de imparcialidade das checagens, seria justamente a adoção de métodos transparentes e eficazes tal como propõe Francielle em sua tese. A pesquisadora criou 3 modelos que classificam e explicam porque uma notícia ou comentário foi classificado como verdadeiro/falso ou ofensivo/não ofensivo. Essa proposta auxilia o público a compreender o processo de tomada de decisão dos modelos de IA e contribui para mitigar os riscos de vieses, evitando que esses modelos reforcem ou perpetuem problemas sociais.

Fake news e discurso de ódio – Para desenvolver sistemas de verificação de fatos e detecção de discurso de ódio, é essencial dispor de grandes conjuntos de dados organizados e rotulados, ou seja, bases que indiquem claramente quais conteúdos são factuais, enviesados (que apresentam alguma parcialidade ou opinião) ou falsos (compostos por informações inverídicas ou manipuladas). Até então, essas bases existiam principalmente em inglês, o que dificultava a adaptação de modelos para o contexto brasileiro.

“Criar uma base de dados é algo custoso, demorado e exige conhecimento especializado”, explica Francielle.

Apesar do desafio, a pesquisadora não se intimidou e contou com o apoio de duas colegas doutoras na área de Ciência de Dados e IA: Isabelle Carvalho e Fabiana Góes. Juntas, elas rotularam manualmente 7 mil comentários do Instagram ao longo de seis meses, resultando no HateBR: primeiro banco de dados brasileiro criado exclusivamente para a detecção de discurso de ódio.

Para reduzir o risco de viés de anotação — que ocorre quando as interpretações ou crenças dos anotadores influenciam os resultados —, Francielle adotou uma estratégia de diversidade. Ela selecionou pesquisadoras com perfis variados, incluindo mulheres brancas e negras, provenientes das regiões Norte e Sudeste do Brasil, e com diferentes orientações políticas. Essa abordagem garantiu uma análise mais equilibrada e representativa, minimizando possíveis influências prejudiciais nas anotações dos dados.

Para construir o FactNews - base de dados do sistema explicável de checagem de fatos -, Francielle selecionou notícias dos mesmos assuntos e do mesmo dia publicadas por três veículos de mídia amplamente reconhecidos no Brasil — Folha de São Paulo, Estadão e O Globo. No total, foram coletadas 300 notícias, sendo 100 de cada veículo, que foram segmentadas em sentenças, totalizando 6.191 dados rotulados, com base na factualidade, ou seja, se condiziam com fatos reais e se estes eram parciais (contendo interpretações ou julgamentos). Se a sentença fosse objetiva, ela era classificada como conteúdo factualmente correto. Caso fosse parcial, ela passava para uma segunda classificação, baseada em definições propostas por jornalistas do AllSides, empresa americana que avalia o viés político de agências de notícias. Entre as 12 categorias de viés da notícia, se destacam alegações infundadas, distorção da informação e sensacionalismo.

“Essa categorização foi crucial porque lidamos com estratégias sofisticadas de desinformação, que são elaboradas para manipular a percepção das pessoas”.

Sistema utilizada para a classificação | Imagem: Reprodução

Como exemplo desse tipo de sensacionalismo, Francielle cita a frase de uma notícia, que apesar de conter elementos factuais, traz uma linguagem alarmista e faz apelo ao medo: “Se esses políticos concorrerem no Rio de Janeiro em novembro, vai ser um banho de sangue”.

Francielle também aplicou métodos estatísticos para calcular a pontuação de concordância entre as classificações das três pesquisadoras. Essa abordagem garantiu que as análises fossem consistentes e minimamente subjetivas, aumentando a confiabilidade dos dados.

Raízes do discurso de ódio – Francielle também mergulhou nos aspectos sociais e emocionais da desinformação e do discurso de ódio. Durante três meses como pesquisadora visitante na Universidade do Sul da Califórnia, em 2024, ela se aprofundou nas origens desse tipo de comportamento.

Segundo a pesquisadora, os conteúdos odiosos podem ser divididos em duas categorias principais:

Discurso Ofensivo: É motivado por frustrações cotidianas, que não é direcionado ou intencionalmente voltado a um alvo específico, como alguém que acorda de mau humor e desconta suas emoções em tudo e todos.
Discurso de Ódio – direcionado a um alvo baseado na sua identidade social: Esse tipo de discurso é mais profundo e perigoso, pois é motivado por estereótipos baseados na identidade social da vítima, como gênero, raça, ou orientação sexual. Ele também é frequentemente o precursor de crimes de ódio. Exemplos incluem frases como “Eu odeio mulheres”, “Eu odeio imigrantes” ou “Eu odeio pessoas da esquerda/direita”.

A pesquisadora relata que um especialista e pesquisador da Universidade do Sul da Califórnia explicou que essas formas de ódio têm raízes antropológicas e históricas. “Há crenças enraizadas na sociedade que geram ameaças percebidas. Por exemplo, quando um homem vê uma mulher em uma posição de poder, ele pode sentir que sua própria posição está ameaçada. Esse tipo de crença, alimenta o discurso de ódio contra determinados grupos”, contextualiza.

Soluções inovadoras – Após desenvolver bases de dados robustas, Francielle criou três novos métodos explicáveis para verificação de fatos e detecção de discurso de ódio:

Sentence-Level Factual Reasoning (SELFAR): Método criado para a construção de sistema de checagem de fatos explicáveis. O SELFAR é baseado em grandes modelos de linguagem, também conhecidas por LLMs (Large Language Models, em inglês), que classifica a confiabilidade e a factualidade de artigos de notícias ou postagem na web no nível da sentença, gerando explicações para as classificações. Por exemplo, na postulação “Vacina causa autismo”, além de classificar como conteúdo falso, o método explica que a ideia é baseada em um estudo fraudulento de 1998 liderado por Andrew Wakefield que sugeriu uma ligação entre a vacina tríplice viral (sarampo, caxumba e rubéola) e autismo. Além disso, o método também atribui uma nota de credibilidade para cada sentença e explica porque determinada sentença foi classificada como imparcial ou enviesada. “Isso torna a ferramenta transparente, ética e educativa, que além de mitigar os riscos de propagarem viés, também permite ao usuário entender como as decisões foram tomadas”, reforça a pesquisadora. Nos experimentos, Francielle demonstrou que notícias não confiáveis são compostas principalmente de palavras subjetivas, em contraste com as confiáveis.
Social Stereotype Analysis (SSA): O método usa explicações contrafactuais para identificar estereótipos sociais em classificadores de IA, comparando frases com e sem viés social. Ela descreve estereótipos como estruturas cognitivas que contêm o conhecimento, crenças e expectativas do observador sobre grupos humanos, podendo desencadear viés social positivo ou negativo, dependendo da identidade social envolvida. Além disso, são apresentados exemplos que contrastam estereótipos e contra-estereótipos para evidenciar vieses nos classificadores de discurso de ódio, como “Mulheres são sempre sensíveis demais” (estereótipo) versus “Homens são sempre sensíveis demais” (contra-estereótipo).
Bag-of-Words Contextualizado com Feature Saliency (B+M): Criado para detecção de discurso de ódio explicável, este método combina abordagem tradicional, que contabiliza a frequência das palavras em um texto, com a análise contextual, que considera o significado das palavras no contexto em que estão inseridas. O objetivo é identificar as palavras mais relevantes para a classificação de um texto, como discurso de ódio. A diferença em relação aos métodos tradicionais está na inclusão da análise de saliência, que atribui pesos às palavras com base em sua importância no contexto específico, em vez de apenas contar sua ocorrência. Exemplo de funcionamento: Em uma frase como “Mulheres são inferiores e burras”, o método tradicional simplesmente identificaria as palavras “mulheres”, “inferiores” e “burras” como frequentes. No entanto, o B+M destacaria que as palavras “inferiores” e “burras” têm um peso maior no contexto, por ser crucial para entender o viés discriminatório da frase. Isso permite que o modelo identifique com mais precisão e livre de vieses, padrões de discurso ofensivo ou discriminatório. Dessa forma, esses métodos conseguem classificar cada comentário e explicar o porquê ele foi classificado como ofensivo ou discurso de ódio. Isso além de aumentar a transparência do sistema, permite que o usuário entenda as decisões tomadas pelos modelos de aprendizado, mitigando os riscos deles estarem enviesados ou reforçarem em escala estereótipos prejudiciais normativos sociais, explica a pesquisadora.

Além dos três métodos, a pesquisadora também criou o Brasil#SemÓdio, um sistema web que se utiliza de conhecimento estatístico e de especialistas para classificar comentários ofensivos. O site, que é simples e de fácil utilização, possibilita a classificação de um ou vários comentários em redes sociais ao mesmo tempo. “Basta acessar a página, incluir um comentário no local indicado e dar enter. A ferramenta fará a classificação, que pode ser: ‘não ofensivo’ ou ‘ofensivo’. Os comentários ofensivos são subdivididos em três categorias: ‘altamente ofensivo’, ‘moderadamente ofensivo’ e ‘ligeiramente ofensivo’. Além disso, esses comentários podem ser classificados como discursos de ódio caso estejam direcionados a um grupo com base em sua identidade social, como, por exemplo, pessoas pretas, imigrantes, mulheres, etc”.

“Ao desenvolver esse tipo de sistema e criar esses conjuntos de dados, o objetivo principal é proteger grupos historicamente marginalizados, como mulheres e a comunidade LGBT+”, afirma a pesquisadora | Foto: Reprodução

Desafios e colaborações – O orientador da pesquisa, professor Thiago Pardo, do ICMC, enfatiza a complexidade e relevância do trabalho. “Detecção de discurso de ódio e checagem de fatos são temas desafiadores. Além das questões técnicas e científicas, há dilemas éticos e legais, como os limites entre censura, liberdade de expressão e crimes”, revela.

Durante o desenvolvimento da pesquisa, Francielle enfrentou desafios comuns a muitas pesquisadoras brasileiras, entre eles o fato de muitas vezes ser a única mulher em sala de aula, e a necessidade de muita organização financeira para que o valor que recebia como bolsa de estudo cobrisse todas as despesas. Esses desafios, apesar de grandes, foram superados com muita persistência e o apoio da colega Isabelle Carvalho e do seu co-orientador, o professor Fabrício Benevenuto, da Universidade Federal de Minas Gerais (UFMG), que trouxe sua expertise nessa área de pesquisa para co-orientar o projeto. “Foi sem dúvida um trabalho intenso, que exigiu muito esforço, produção de vários artigos, além de insistência e resiliência. Às vezes, encontramos obstáculos, mas o importante é focar em ser ainda mais forte e competente e seguir em frente para avançar”, diz Francielle.

Para Thiago Pardo, os resultados conquistados pela pesquisadora, refletem suas qualidades: “Ela tem uma sensibilidade única para questões sociais e uma força de trabalho impressionante, que garantiu resultados de grande impacto. Sua pesquisa avança o conhecimento científico e tem aplicações práticas fundamentais, como checagem de fatos em eleições e moderação de discursos de ódio”.

Demonstrando seu desempenho, a pesquisadora desenvolveu uma ferramenta para auxiliar profissionais de redes sociais na identificação de comentários odiosos | Imagem: Reprodução

Impacto e sonhos futuros – Francielle conta que a paixão por essa área de pesquisa surgiu logo após concluir sua segunda graduação, em Linguística. Foi nessa época que ela descobriu a área de processamento de linguagem natural (PLN), um subcampo da IA que conecta duas paixões da pesquisadora: computação e linguística. “Sempre gostei de estudar, e cursar Linguística depois de ter me formado em Sistemas da Informação me trouxe uma perspectiva única. De fato, quando temos uma formação multidisciplinar, conseguimos enxergar soluções inovadoras e abordagens distintas que, talvez, não fossem perceptíveis em uma visão mais tradicional. Isso fez toda a diferença”, comenta.

A pesquisadora diz que sonha em ver seu projeto, cujo código está disponível em um servidor experimental da USP, ser disponibilizado em larga escala, ajudando especialmente grupos vulneráveis, como pessoas idosas e com menos acesso à educação. “Meu desejo é que todos os brasileiros possam usar essas ferramentas para checar notícias falsas e entender os mecanismos por trás das decisões dos modelos de IA. A transparência, além de gerar aumento de confiabilidade, também tem um papel educativo, criando uma sociedade mais crítica e consciente”, declara.

Embora ainda necessite de investimento e recursos para ampliar seu alcance, a pesquisa representa um avanço essencial para o uso ético e responsável da IA. “Vivemos dilemas diários com o poder das big techs, a epidemia de desinformação e os discursos de ódio. Trabalhos como o de Francielle são fundamentais para promover uma sociedade mais justa, transparente e democrática”, conclui o professor Thiago Pardo.

Francielle está organizando, junto com a professora Roseli Romero da USP e um colega da Universidade do Sul da Califórnia, um evento internacional, que acontecerá neste ano na Itália, entre os dias 30 de junho e 5 de julho. O workshop intitulado, Explainable Deep Neural Networks for Responsible AI: Post-Hoc and Self-Explaining Approaches (DeepXplain 2025), tem como objetivo expandir a proposta desenvolvida em sua pesquisa de doutorado.

Ao longo do doutorado, a pesquisadora produziu diversos artigos científicos apresentados em diferentes países. Além disso, foi convidada a mostrar sua pesquisa em uma universidade alemã, o que, segundo ela, representou uma validação importante do impacto do trabalho | Foto: Reprodução

Texto: Gabriele Maciel, da Fontes Comunicação Científica

Mais informações
Conheça os artigos publicados pela pesquisadora em: https://franciellevargas.github.io/
Acesse o HateBR: https://github.com/franciellevargas/HateBR
Acesse o FactNews: https://github.com/franciellevargas/FactNews
Acesse o sistema Brasil sem ódio: http://143.107.183.175:14581/
Acesso a cartilha da Unesco sobre desinformação e fake news: UNESCO_Manual_Jornalismo_FakeNews.pdf

Veja também

Estudo da USP São Carlos propõe sistemas de IA transparentes para detecção de discurso de ódio e fake news

CONECTE-SE COM A GENTE

Para melhor experiência de navegação neste website, utilizamos cookies.