2026: o ano em que vídeos falsos vão falar com você em tempo real

Os deepfakes estão caminhando para a síntese em tempo real, capaz de produzir vídeos falsos que reproduzem fielmente as nuances da aparência humana

deepfakes de vídeo
Crédito: Mininyx Doodle/ Getty Images

Siwei Lyu 3 minutos de leitura

Ao longo de 2025, os deepfakes evoluíram de forma dramática. Rostos, vozes e performances corporais completas geradas por IA – capazes de imitar pessoas reais – avançaram em qualidade muito além do que muitos especialistas imaginavam há poucos anos. E passaram a ser usados, cada vez mais, para enganar pessoas.

Em muitos cenários cotidianos – especialmente em videochamadas de baixa resolução e em conteúdos compartilhados nas redes sociais –, o nível de realismo já é alto o suficiente para enganar com facilidade pessoas sem conhecimento técnico.

Na prática, mídias sintéticas se tornaram indistinguíveis de gravações autênticas para o público em geral e, em alguns casos, até para organizações.

E não foi só a qualidade que explodiu. O volume de deepfakes cresceu de forma exponencial: a empresa de cibersegurança DeepStrike estima que o número saltou de cerca de 500 mil em 2023 para aproximadamente oito milhões em 2025, com crescimento anual próximo de 900%.

Tudo indica que a situação deve piorar em 2026, à medida que os deepfakes evoluem para “performers sintéticos” capazes de reagir às pessoas em tempo real. Hoje, praticamente qualquer um pode criar vídeos falsos.

AVANÇOS DRAMÁTICOS NA TECNOLOGIA

Diversas mudanças técnicas explicam essa escalada. Primeiro, o realismo em vídeo deu um salto considerável graças a modelos de geração projetados especificamente para manter consistência temporal. Esses modelos produzem vídeos com movimento coerente, identidades consistentes das pessoas retratadas e conteúdo que faz sentido de um quadro para o outro.

Eles separam as informações ligadas à identidade de uma pessoa das informações sobre movimento, permitindo que o mesmo movimento seja aplicado a identidades diferentes, ou que a mesma identidade apresente vários tipos de movimento.

O resultado são rostos estáveis e coerentes, sem o tremor, as distorções ou as falhas ao redor dos olhos e da mandíbula que antes funcionavam como provas forenses confiáveis de um vídeo falso.

computador usado para criar vídeos falsos e imagens deepfake

Em segundo lugar, a clonagem de voz ultrapassou o que podemos chamar de “limiar da indistinção”. Hoje, bastam poucos segundos de áudio para gerar um clone convincente, com entonação natural, ritmo, ênfase, emoção, pausas e até ruídos de respiração.

Essa capacidade já alimenta fraudes em larga escala. Grandes varejistas relatam receber mais de mil chamadas fraudulentas geradas por IA por dia. Os sinais perceptíveis que antes denunciavam vozes sintéticas praticamente desapareceram.

Estima-se que o número de deepfakes saltou de cerca de 500 mil em 2023 para algo em torno de 8 milhões em 2025.

Em terceiro lugar, ferramentas voltadas ao consumidor reduziram a barreira técnica quase a zero. Atualizações de modelos como o Sora 2, da OpenAI, e o Veo 3, do Google, além de uma onda de startups, permitem que qualquer pessoa descreva uma ideia, deixe que um grande modelo de linguagem escreva um roteiro e gere um conteúdo audiovisual bem acabado em poucos minutos.

Agentes de IA conseguem automatizar todo o processo. A capacidade de criar vídeos falsos coerentes, com narrativa e em escala, foi efetivamente democratizada.

Essa combinação de volume crescente e personagens quase indistinguíveis de seres humanos reais cria desafios enormes para a detecção de deepfakes, especialmente em um ambiente midiático no qual a atenção das pessoas é fragmentada e o conteúdo circula mais rápido do que pode ser verificado.

O FUTURO É EM TEMPO REAL

Olhando para frente, a trajetória para 2026 é clara: os deepfakes estão caminhando para a síntese em tempo real, capaz de produzir vídeos falsos que reproduzem de forma cada vez mais fiel as nuances da aparência humana, facilitando a driblagem de sistemas de detecção.

A fronteira está migrando do realismo visual estático para a coerência temporal e comportamental – modelos que geram conteúdo ao vivo ou quase ao vivo, em vez de clipes pré-renderizados.

inteligência artificial para criar vídeos falsos

A modelagem de identidade está convergindo para sistemas unificados que capturam não apenas como uma pessoa se parece, mas como ela se move, soa e se comunica em diferentes contextos. O resultado vai além de “isso se parece com a pessoa X” para algo como “isso se comporta como a pessoa X ao longo do tempo”.

À medida que essas capacidades amadurecem, a diferença perceptível entre mídias sintéticas e humanas autênticas vai continuar diminuindo. A principal linha de defesa deixará de ser o julgamento humano e passará a depender de proteções em nível de infraestrutura.

Apenas “olhar com mais atenção para os pixels” já não será suficiente.

Este artigo foi republicado de "The Conversation" sob licença Creative Commons. Leia o artigo original.


SOBRE O AUTOR

Siwei Lyu é professor de ciência da computação e engenharia e diretor do Laboratório Forense de Mídia UB na Universidade de Buffalo. saiba mais