Notícias

Pesquisadores paraibanos montaram base de dados inédita em português a partir de postagens do Twitter

Computador é "ensinado" a identificar sentimentos em textos

publicado: 02/09/2019 14h00, última modificação: 03/09/2019 14h51
Inteligência artificial; machine learning
Rpof. Yuri Malheiros - Arquivo Pessoal 800x600.jpg

 

Na Paraíba, pesquisadores começam a treinar o computador a identificar o sentimento expresso em um texto e mostram que é possível extrair de uma grande quantidade de dados qual sentimento as mensagens carregam. O experimento foi testado e comprovado em mais de 2,5 mil mensagens de Twitter usando inteligência artificial. O trabalho resultou na formação de uma grande base de dados, inédita em português, e servirá para novas pesquisas como detectar discursos nocivos para comunidades digitais como os temas de ódio, homofobia ou até preconceitos dos mais variados.

Muito se fala sobre a influência que determinado conteúdo propagado pelas redes sociais pode causar em um indivíduo. Com o celular na palma da mão, a atenção se volta completamente para o que está “rolando” na linha do tempo, a fim de interagir e “entrar na conversa”. Assim, foram enviados 500 milhões de tweets por dia, em 2018 - são 6 mil tweets a cada segundo (blog.statusbrew.com), para mencionar apenas uma rede social dentre tantas existentes.

Aqui está um campo praticamente ilimitado para pesquisas das mais diversas áreas que envolvem o comportamento humano como psicologia, sociologia, filosofia, antropologia, jornalismo e tantas outras. Mas o desafio de aplicar a pesquisa é tão grande ou maior que o próprio campo. São milhões de dados a serem tratados. O único meio de executar uma tarefa desse quilate é através das máquinas – treinar máquinas para trazerem respostas com mais velocidade, com maior exatidão e analisarem um grande número de dados – um “big data”.

A inteligência artificial é o campo da ciência da computação que está se desenvolvendo nos últimos cinco ou sete anos, com uma intensidade maior, alcançando resultados que uma pessoa (ou milhares de pessoas!) jamais conseguiria obter se trabalhasse manualmente.

Os pesquisadores do Departamento de Ciências Exatas da Universidade Federal da Paraíba (Campus IV) e do Centro de Informática (Campus V), Ewerton Paulo da Silva, Yuri Malheiros, Rodolffo Teles Araujo Nunes, Igor Leal Antunes e Thaís Gaudêncio do Rêgo, se uniram em torno do desafio de fazer um computador entender qual o tipo de sentimento que um texto expressa – se é de felicidade, ou raiva, tristeza, excitação: fazer uma análise de sentimentos. Um texto por vez, analisando milhares de mensagens do Twitter.

“Nós temos o conceito de que o sentimento é um fator humano. Mas será que a máquina conseguirá identificar e classificar esses sentimentos expressados por humanos? Nós pensamos esse problema de uma forma diferente e muito adequado às técnicas da inteligência artificial”, explica Yuri Malheiros.

O trabalho fez a coleta de milhares de mensagens do Twitter para a análise de sentimentos e contribui para ampliar o conjunto de dados disponíveis para aplicação na língua portuguesa, o que é escasso no Brasil, até o momento.

Os pesquisadores encontraram outros trabalhos semelhantes a esse, criando conjuntos de dados em português para análise de sentimentos, mas limitados a determinados momentos como mensagens transmitidas durante uma partida de futebol, ou um programa de TV, ou um conjunto de dados de notícias extraídas de jornais brasileiros. “O nosso objetivo era fazer uma coisa diferente, era identificar os sentimentos nas frases aleatórias e saber se eram positivos ou negativos.

 

Método para treinar inteligência

O método usado pelos pesquisadores é conhecido como machine learning - aprendizagem de máquina. Yuri Malheiros esclarece que o procedimento implica em mostrar muitos exemplos ao computar e ensinar-lhe que aquele exemplo significa determinado sentimento positivo – negativo – neutro. Apresenta-se uma frase e diz: “essa frase é positiva”. E outra: “essa é negativa”. “Essa é neutra”.

Essa classificação inicial é feita manualmente por pessoas. No caso dessa experiência, primeiro foram coletadas mensagens aleatórias e públicas compartilhadas no Twitter. Diante das milhões de mensagens twittadas diariamente em português, os pesquisadores “mandaram” a máquina selecionar mensagens que continham determinadas palavras-chave. Eles concluíram que as mensagens com mais chance de terem algum sentimento expresso eram as que continham adjetivos. Foram coletados 641.471 tweets, entre entre os dias 24 de setembro e 06 de dezembro de 2018.

Uma parte dessas mensagens foi classificada por humanos, determinando se o conteúdo da frase era “positivo”, “negativo”, ou “neutro”. A tarefa foi feita por alunos e professores voluntários dos cursos de Bacharelado em Sistemas de Informação e Licenciatura em Ciência da Computação da Universidade Federal da Paraíba, via Internet. No final, o conjunto de dados possui 2.787 mensagens, sendo 888 positivas, 881 negativas e 1.018 neutras e está disponível para outras pesquisas.

Os pesquisadores usaram 80% das mensagens classificadas pelos universitários para “treinar” o algoritmo (2.229 exemplos). Aprendida essa “cartilha”, os pesquisadores “mandaram” o algoritmo analisar as 20% mensagens restantes (558 exemplos).

Entre os positivos e negativos, o índice de acertos do algoritmo foi de 60%. Incluindo os neutros, o índice ficou em torno de 45%. Esse é considerado um resultado muito bom, levando-se em conta que foi a primeira aplicação desse algoritmo. “O algoritmo pode melhorar com mais dados e ter maior número de acertos. Ele vai aumentando e refinando a própria base de dados e apresenta melhor desempenho”, explica Yuri Malheiros.

Esse resultado é um primeiro patamar para novos lances de pesquisa, como detectar os mais diversos discursos propagados pelas mensagens – ódio, terror, homofobia, etc. A pesquisa feita na Paraíba será apresentada no “Brazilian Symposium in Information and Human Language Technology”, em outubro, na Bahia.

 

O caso do urso polar

O cientista da computação Yuri Malheiros fala que, depois de “ensinado”, o algoritmo pode encontrar sozinho outros padrões, que nem mesmo os programadores esperavam e talvez não identifiquem. Mas, nem sempre as máquinas acertam, como no exemplo que ele conta:

“Em certo experimento, pesquisadores estavam ensinando a máquina a reconhecer animais. O trabalho era tentar entender como o algoritmo reconhecia os animais; o que o algoritmo usava para saber que um cachorro era um cachorro e um cavalho era um cavalo, e não um boi. Um dos animais era o urso polar. Eles descobriram que, no caso do urso polar, ele estava sempre na neve. O que o algoritmo entendeu, sozinho, foi que, tendo neve, tratava-se de um urso polar. Ele dava importância pra neve. Nesse caso, o algoritmo não foi muito inteligente!”

“Por mais que esses algoritmos sejam extremamente poderosos, que encontrem padrões que, muitas vezes, nem sabemos que existem, ele está trabalhando com dados que são passados por serem humanos. O algoritmo é neutro. Mas os dados não são. Por isso, temos que ter cuidado com o que se passa para a máquina.”