Cientistas desenvolvem simulador de mídias sociais

O poder de difusão e a velocidade de propagação das informações nas mídias sociais têm despertado o interesse de empresas e organizações em realizar ações de comunicação em plataformas como Twitter
e Facebook.

Um dos desafios com os quais se deparam ao tomar essa decisão, no entanto, é prever o impacto que as campanhas terão nessas mídias sociais, uma vez que elas apresentam um efeito altamente “viral” – as informações se propagam nelas muito rapidamente e é difícil estimar a repercussão que terão.

“Se antes uma pessoa divulgava uma informação no boca-a-boca para mais três ou quatro pessoas, agora ela possui uma audiência que pode chegar aos milhares de seguidores por meio da internet. Daí a dificuldade de prever o impacto de uma ação em uma mídia social”, disse Claudio Pinhanez, líder do grupo de pesquisa em sistemas de serviços da IBM Research – Brazil – o laboratório brasileiro de pesquisa da empresa norte-americana de tecnologia da informação – à Agência Fapesp (Fundação de Amparo à Pesquisa no Estado de São Paulo).

Para tentar encontrar uma resposta a esse desafio, o grupo iniciou um projeto em parceria com pesquisadores do Departamento de Computação do Instituto de Matemática e Estatística (IME) da Universidade de São Paulo (USP) a fim de desenvolver um simulador capaz de prever o impacto das ações de comunicação em mídias sociais com base nos padrões de comportamento dos usuários.

Segundo Pinhanez, para desenvolver um método inicial para modelar e simular as interações entre os usuários de redes sociais, foram coletadas mensagens publicadas por 25 mil pessoas nas redes no Twitter do presidente dos Estados Unidos, Barack Obama, e de seu adversário político, Mitt Romney, em outubro de 2012, último mês da recente campanha eleitoral presidencial norte-americana.

Os pesquisadores analisaram o conteúdo das mensagens e o comportamento dos usuários nas redes de Obama e Romney, de modo a identificar padrões de ações, a frequência com que postavam mensagens, se eram mais positivas ou negativas e qual a influência dessas mensagens sobre outros usuários.

Com base nesse conjunto de dados, desenvolveram um modelo de simulação de agentes – um sistema por meio do qual cada usuário avaliado é representado por programas individuais de computador que rodam integrados e ao mesmo tempo – que indica as probabilidades de ação na rede de cada uma dessas pessoas, apontando qual o momento do dia mais provável para publicar uma mensagem positiva ou negativa com base em seu histórico de comportamento.

Uma das constatações nos experimentos com o simulador foi que a retirada dos dez usuários mais engajados nas discussões realizadas no Twitter do presidente teria mais impacto na rede social do que se o próprio Obama fosse excluído.

“Esses resultados são preliminares e ainda não temos como dizer que são válidos, porque o modelo ainda é inicial e muito simples. Servem, contudo, para demonstrar que o modelo é capaz de mostrar situações interessantes e que, quando estiver pronto, será muito útil para testar hipóteses e responder a perguntas do tipo ‘será que a frequência com que o presidente Obama publica uma mensagem afeta sua rede social?’”, disse Pinhanez.

A IBM já possuía um sistema que permite a análise de “sentimento” – como é denominada a classificação do tom de uma mensagem – de grandes volumes de textos em inglês e em fluxo contínuo (em tempo real de informação), que a empresa pretende aprimorar para disponibilizá-la no Brasil.

“Estamos trabalhando para trazer uma série de tecnologias e adaptá-las para a língua portuguesa e à cultura brasileira, uma vez que o Brasil é o segundo país mais engajado em redes sociais no mundo, atrás apenas dos Estados Unidos”, afirmou Pinhanez.

Desafios em português

Segundo os pesquisadores, um dos principais desafios para a análise de sentimento de mensagens publicadas nas redes sociais no Brasil é que o português usado nessas novas mídias costuma não seguir as normas cultas da língua portuguesa, e isso não se deve, necessariamente, ao fato de o usuário não dominar o idioma.

“Existem convenções de como se escrever de maneira cool nas redes sociais”, disse Pinhanez. Por causa disso, um dos desafios no Brasil será o de incorporar o novo vocabulário surgido nesses fóruns.

Além disso, os textos são mais curtos e informais do que os publicados em sites de avaliações de filmes, por exemplo, como o do Internet Movie Database, em que os comentários são mais longos, mais bem formatados e rotulados.

“Com base nesse tipo de critério, podemos saber, de antemão, qual o sentimento do texto: se o usuário deu muitas estrelas para o filme é que ele está falando bem. E se deu poucas estrelas é porque sua avaliação foi negativa”, disse Samuel Martins Barbosa Neto, doutorando do IME e participante do projeto.

“A linguagem usada no Twitter é muito mais natural. Há muita expressão e variações de palavras, o que torna muito mais complicada a classificação das mensagens. Às vezes não se tem informação suficiente para assegurar que, de fato, um determinado tweet é positivo ou negativo, uma vez que ele não tem um rótulo que permita compará-lo com outros. Por isso, muitas dessas mensagens precisam ser rotuladas manualmente”, explicou Barbosa Neto.

Outro desafio é extrair dados das redes sociais. No início, o acesso aos dados das mensagens de redes, como o Twitter, era totalmente aberto. Hoje, é limitado. Além disso, o número de informações geradas por redes sociais cresceu exponencialmente, impondo aos pesquisadores o desafio de extrair mostras significativas de grandes volumes de dados para validar suas pesquisas.

“A rede do Obama no Twitter deve ter chegado aos 25 milhões de seguidores. Como podemos apenas extrair uma pequena parte desses dados, o desafio é garantir que eles não sejam enviesados – representando, por exemplo, apenas um nicho de seguidores – para gerar um resultado válido”, explicou Barbosa Neto.

Fonte: Agência Fapesp