IA é boa em muitas coisas, menos em decodificar o comportamento humano

Novo estudo revela por que a inteligência artificial ainda tem dificuldade para interpretar dinâmicas sociais que os humanos percebem em um piscar de olhos

Créditos: guirong hao/ Getty Images/ Freepik

Joe Berkowitz 4 minutos de leitura

O escritor Ernest Hemingway tinha uma teoria famosa sobre literatura que ajuda a explicar uma das maiores limitações da inteligência artificial.

Segundo ele, as melhores histórias são como icebergs: a parte visível – o que os personagens dizem e fazem – é apenas uma pequena fração do que realmente está acontecendo. O restante – os sentimentos, as motivações e visões de mundo – permanece oculto, formando um subtexto que dá profundidade à narrativa.

Talvez essa ideia faça tanto sentido porque também funcionamos assim. Nossas palavras e ações são só a ponta do iceberg. Há um grande volume de contexto não verbal sob a superfície – sinais sutis que comunicam muito mais do que fatos aparentes.

Como percebemos quando duas pessoas estão desconfortáveis? Ou quando estão à vontade uma com a outra? Qual é a expressão de alguém tentando encerrar uma conversa? Essas são leituras que fazemos de forma quase automática. Já a inteligência artificial, segundo um novo estudo da Universidade Johns Hopkins, nos EUA, ainda está longe de entender essas sutilezas.

“Nem nós, humanos, sabemos exatamente como captamos esses sinais não verbais”, diz Leyla Isik, autora principal do estudo. “Mas a maioria dos sistemas de IA parte do pressuposto de que, com dados suficientes, consegue aprender.”

A IA não conseguiu interpretar nuances de subtexto não verbal.

Isik é cientista cognitiva e pesquisa a maneira como enxergamos o mundo e compreendemos interações sociais. Ela vinha acompanhando estudos que sugerem que a inteligência artificial consegue interpretar o comportamento humano analisando imagens estáticas.

Mas, como as aplicações futuras da IA tendem a lidar cada vez mais com ações em tempo real, Isik resolveu investigar se esses sistemas conseguem interpretar corretamente vídeos curtos com interações sociais.

HUMANO x MÁQUINA

Sua equipe pediu a um grupo de voluntários que assistissem a clipes de três segundos mostrando pessoas interagindo ou apenas dividindo o mesmo espaço sem se comunicar – situações do dia a dia como dirigir, cozinhar ou dançar — e descrevessem o que viam. 

Mais tarde, os mesmos vídeos – todos sem som – foram analisados por 350 modelos de IA especializados em linguagem, imagem e vídeo. A ideia era comparar as interpretações humanas com as previsões das máquinas.

O resultado foi claro: enquanto os humanos tinham percepções muito parecidas sobre o que estava acontecendo, os modelos de inteligência artificial apresentaram grande variação nas respostas.

Crédito: WangXiNa/ Freepik

A IA até se saiu bem com perguntas mais objetivas – como identificar se a cena se passava em um ambiente interno ou externo, ou se era um espaço pequeno ou amplo. Nessas questões, os resultados foram parecidos com os dos humanos. Mas, ao tentar ir além da superfície, o desempenho da IA caía drasticamente.

“Praticamente em todas as outras questões, a maioria dos modelos teve dificuldades”, diz Isik. “Desde coisas simples, como ‘essas pessoas estão se olhando?’, até questões mais complexas, como ‘elas estão se comunicando?’ ou ‘a interação parece positiva ou negativa?’”

Os pesquisadores também perguntaram sobre o tom emocional das cenas – se pareciam positivos ou negativos – e seu grau de intensidade. Mesmo quando os participantes humanos não conseguiam dizer exatamente o que estava sendo comunicado, geralmente captavam se o clima era muito positivo ou apenas levemente negativo.

A inteligência artificial, no entanto, não conseguia interpretar essas nuances de subtexto não verbal.

NADA SUPERA A EXPERIÊNCIA HUMANA

O estudo sugere que essa limitação pode estar no fato de que a maioria dos modelos é baseada em redes neurais inspiradas na parte do cérebro que processa imagens estáticas, e não em regiões ligadas à percepção social. Em geral, essas IAs foram treinadas para reconhecer objetos e rostos, mas não relações humanas ou contextos sociais.

Eles podem ser treinados com conjuntos de dados que incluem filmes, clipes do YouTube ou chamadas no Zoom, e podem ter encontrado rótulos que explicam o que significam sorrisos, braços cruzados ou sobrancelhas franzidas.

Mas não têm a experiência acumulada por anos e décadas de constante exposição a esses dados, nem desenvolveram uma compreensão intuitiva de como interpretá-los em tempo real.,

A IA se saiu bem com perguntas objetivas, mas, ao tentar ir além, seu desempenho da IA caiu muito.

Como uma das linhas de pesquisa do laboratório de Isik é justamente criar sistemas de inteligência artificial mais centrados no comportamento humano, é possível que, no futuro, seus estudos ajudem a superar essas limitações.

Se for assim, isso não acontecerá um segundo antes do necessário, já que a onda da inteligência artificial continua se expandindo para áreas como terapia e companheiros virtuais, além de outros campos que dependem de sinais não verbais e de tudo o que se esconde sob a superfície.

“Sempre que você quiser uma inteligência artificial assistiva – ou robôs assistivos no trabalho ou em casa –, vai querer que ela seja capaz de captar esses sinais não verbais sutis”, diz Isik. “Mas, de forma mais básica, você também quer que ela saiba o que as pessoas estão fazendo entre si. Acho que este estudo mostra que ainda estamos bem longe dessa realidade.”


SOBRE O AUTOR

Joe Berkowitz é colunista de opinião da Fast Company. saiba mais