A IA consegue “reviver” os entes queridos que se foram. Mas será que devemos?

Até que se consiga reunir grandes volumes de vídeos com ações corriqueiras do dia a dia, os geradores continuarão tendo dificuldades para imitá-las

fotos antigas de família
Crédito: Jacob Wackerhausen/ Getty Images

Thomas Smith 4 minutos de leitura

Ao dar upload em uma foto dos anos 1940 do meu avô Max e apertar alguns botões no gerador de vídeo Veo 3, do Google, vi uma imagem familiar passar de preto e branco para colorida.

Em seguida, meu avô saiu da foto e caminhou confiante em direção à câmera, o uniforme militar impecavelmente passado enquanto seus braços balançavam ao lado do corpo magro. É o tipo de coisa que a IA permite fazer hoje – trazer de volta os mortos, virtualmente.

Mas, como destacou de forma hilária um esquete do "Saturday Night Live" (programa de humor da rede de TV norte-americana NBC), o fato de podermos reanimar nossos entes queridos não significa necessariamente que devamos fazê-lo.

No esquete, a atriz e comediante Ashley Padilla representa uma avó idosa em um asilo. Seus familiares a visitam no Dia de Ação de Graças e usam um aplicativo de fotos com IA para transformar antigos álbuns de família em pequenos vídeos.

A princípio, tudo corre bem. A vovó se encanta com uma imagem em preto e branco do pai acenando enquanto posa diante de uma roda-gigante em movimento.

A partir daí, tudo começa a desandar, de forma previsível e cômica. Uma foto de parentes em um churrasco vira uma cena de horror quando o aplicativo fictício faz o pai de Padilla assar o cachorro da família, que aparece sem cabeça.

À medida que outras fotos ganham vida, o pai da personagem paga a um colega de boliche para realizar um ato obsceno e, em uma foto de bebê, o torso da mãe se separa do corpo e flutua pelo quadro enquanto uma bomba nuclear explode ao fundo.

O esquete é engraçado porque é não é difícil se identificar com a situação. Qualquer um que já tenha brincado com geradores de vídeo por IA sabe que eles podem fazer suposições malucas sobre as leis da física – frequentemente, com resultados que são uma piada.

A FALTAM QUE FAZEM OS VÍDEOS DE ATIVIDADES COMUNS

Os geradores de vídeo cometem esses erros por causa da forma como são treinados. Enquanto um modelo baseado em texto pode aprender lendo praticamente todos os livros, sites e outros conteúdos já publicados, a quantidade de vídeos prontos para treinamento é muito mais limitada.

A maioria desses sistemas aprende com vídeos de plataformas como YouTube. Isso significa que eles são ótimos em criar o tipo de conteúdo que costuma aparecer ali.

Geradores de imagem melhoraram muito à medida que seu treinamento foi sendo aprimorado.

A maior parte dos vídeos online, por exemplo, mostra algo interessante acontecendo. As pessoas raramente postam gravações de uma hora andando casualmente por aí (ou, como no exemplo do programa, segurando um bebê ou fazendo um cachorro-quente) no YouTube ou no Instagram.

Esses vídeos seriam tão entediantes que ninguém iria querer assisti-los. No entanto, são justamente grandes quantidades desses momentos da vida cotidiana que as empresas de IA precisam para treinar seus modelos adequadamente.

Isso criou um mercado curioso para esse tipo de conteúdo. Empresas como a Waffle Video surgem para atender à demanda, pagando criadores para filmarem atividades como picar legumes ou escrever palavras específicas em pedaços de papel para uso em treinamento.

Até que as empresas de IA consigam reunir grandes volumes de vídeos com essas ações corriqueiras, os geradores continuarão tendo dificuldades para imitá-las.

Ironicamente, esses modelos hoje são excelentes em mostrar ações fantasiosas e dramáticas. Peça para recriar coisas banais, como um vídeo do seu gatinho ou cenas de uma velha foto de família, porém, e você corre o risco de ver o antigo pet no espeto.

VALE A PENA REANIMAR A VOVÓ?

Tudo isso nos leva à pergunta: vale a pena usar as ferramentas atuais para reanimar seus entes queridos mortos? Meu conselho: espere um pouco.

A tecnologia de vídeo por IA avança de forma impressionante. As primeiras ferramentas que adicionavam movimento a fotos de família usavam aprendizado de máquina para fazer o “truque” e pareciam revolucionárias na época. Hoje, parecem primitivas perto de cenas completas, como a que Veo criou do meu avô.

E mesmo com esses avanços, Veo e seus semelhantes ainda estão no início de sua jornada.

No caso dos geradores de vídeo, a quantidade de vídeos de ações comuns para treinamento é muito mais limitada.

Geradores de imagem melhoraram muito à medida que seu treinamento foi sendo aprimorado. Os de vídeo seguirão o mesmo caminho, especialmente conforme as empresas investem milhões na compra de dados de treinamento feitos sob medida, com registros de movimentos cotidianos.

Fotos de família são coisas íntimas. É reconfortante ver alguém querido sorrir e acenar. Mas vê-los se dividir ao meio ou explodir em uma bola de fogo nuclear seria perturbador – e algo impossível de “desver” depois que você evocou isso das profundezas digitais do cérebro do Sora ou do Veo.

Até que esses modelos possam ser confiáveis para evitar esses desvios visuais inesperados e inquietantes, não deveríamos confiar a eles nossas memórias mais preciosas.


SOBRE O(A) AUTOR(A)

Thomas Smith é especialista em inteligência artificial treinado na Universidade Johns Hopkins e jornalista com mais de 15 anos de expe... saiba mais