Um exército de deepfakes está chegando ao seu feed

Crédito: Fast Company Brasil

Fast Company Brasil 8 minutos de leitura

Uma mulher chamada Hepburn aparece na minha tela, falando meu texto de forma amigável e profissional, sorrindo em um elegante blazer azul, como uma repórter de TV ou uma criadora de conteúdo para o YouTube. Mas há algo estranho: ela pronuncia incorretamente a palavra “COVID”. A verdade é que Hepburn é parte de uma tecnologia e foi selecionada poucos minutos antes por Oren Aharon, o CEO e cofundador da Hour One, uma startup sediada em Tel Aviv que cria avatares que se parecem com humanos reais, cada um capaz de falar cerca de 20 línguas. Ao vê-la, deixo escapar uma leve risada.

A Hour One apelidou esses avatares de “reals”, e não há nada de irônico nisso, já que são baseados em pessoas reais. Dezenas desses deepfakes já aparecem em tutoriais, atendimento a clientes, apresentações, comunicações entre escritórios e até em vídeos bobos no Cameo. Imagine uma reunião com toda a empresa, sugere Aharon: Por que o CEO gravaria uma apresentação em vídeo se seu avatar pode fazer isso? “Você consegue produzir um vídeo incrível em apenas dois minutos, pode enviá-lo para todos e ninguém precisa perder tempo”, acrescenta.

(Crédito: Hour One)

“É claro, os deepfakes não está substituem a conexão pessoal”, o cofundador e CTO Lior Hakim esclarece rapidamente. “Mas [as interações no mundo real] não são replicáveis, já que estão diretamente relacionadas e limitadas ao nosso tempo e nosso aspecto físico.”

Em 2017, os dois empresários viram pela primeira vez um deepfake do Obama gerado por I.A. e testemunharam ali o início de uma nova era em que o vídeo pode ser automatizado através de códigos. No mesmo ano, o trabalho de um usuário anônimo do Reddit, chamado Deepfakes, rapidamente demonstrou todas as ameaças à democracia que essa tecnologia representa. Tudo começou com produção de pornografia não consensual, mas, desde então, tem sido utilizada para atacar inimigos políticos ou desavenças e, até mesmo, para aplicar golpes. Já neste ano, os clones de voz de Anthony Boirdain e Val Kilmer trouxeram novas preocupações éticas e econômicas, principalmente entre dubladores preocupados com seus empregos. Um ator processou o TikTok por usar sua voz sem consentimento ou contrapartida no recurso que transforma texto em fala da plataforma.

A Hour One está tentando transformar o uso de deepfakes em algo positivo, focando no uso comercial e priorizando as pessoas por trás dos avatares. E agora que a pandemia mudou a forma como trabalhamos e a maneira como nos relacionamos com o trabalho – à medida em que empresas investem bilhões de dólares em blockchains e no “metaverso” – a startup está surfando na crescente onda da “mídia sintética”. “A impossibilidade de acessar alguns lugares quando precisamos que veio com a pandemia fez com que tentássemos uma nova tecnologia’- algo que criou o cenário ideal para darmos esse passo além”, diz Aharon.

A empresa arrecadou US$ 5 milhões em financiamento no ano passado e afirma que já conquistou dezenas de clientes. O Berlitz agora está utilizando o serviço da Hour One para criar avatares de professores de línguas, enquanto a AliceReceptionist a utiliza para receber visitantes em seus lobbies, seja em inglês, espanhol, árabe ou francês. Uma rede de TV alemã contratou seus avatares para informes esportivos e a Cameo e a DreamWorks trabalharam recentemente com a Hour One e a startup de voz Lovo para lançar seu primeiro “deepfake”: por 20 dólares, você agora pode receber uma saudação engraçada e semipersonalizada do Poderoso Chefinho, o personagem da animação dublado pelo Alec Baldwin. A Cameo sugere que mais e mais celebridades podem emprestar suas vozes para projetos similares no futuro.

Hepburn e a maioria dos avatares da Hour One são baseados em um grupo diverso de aproximadamente 100 pessoas reais, muitas das redondezas de Tel Aviv, que recebem pagamentos cada vez que sua imagem é usada. Fazer a captura de um rosto com uma câmera de alta resolução agora leva apenas cerca de meia hora. (Já gravar vozes, como alguns escolhem fazer, ainda é um processo mais demorado).

Para fazer com que a Hepburn lesse minha história, Aharon abriu uma janela, colou meu artigo, carregou algumas imagens, selecionou o avatar em uma galeria e, por fim, adicionou uma voz. (O artigo era sobre desinformação.) Enquanto o vídeo estava sendo processado, ele percorria pelos ajustes: lá podemos mudar planos de fundo, selecionar novos movimentos de câmera, mudar cores, texto ou imagens, ou até mesmo pedir que a Hepburn lesse meu artigo em mandarim.

(Crédito: Hour One)

Podemos prever aonde isso vai chegar: vozes artificiais já estão tomando conta do TikTok e do YouTube, graças a um software de conversão de texto em áudio que permite aos criadores “narrar” vídeos sem usar sua própria voz. A Hour One estende essa capacidade de conversão ao vídeo.

“Nem todos nós somos YouTubers ou podcasters e tampouco necessariamente queremos passar o dia todo gravando”, diz Hakim. “Mas queremos criar conexões pessoais.”

Ver rostos fotorrealistas “cria algum tipo de efeito psicológico em que você basicamente sente uma conexão”, diz ele. E ver um avatar “também pode despertar a vontade em algumas pessoas de também criarem o seu próprio, já que agora há uma forma de fazê-lo”.

Aharon imagina isso abrindo o caminho para o que ele chama de “economia do personagem”. Em algum momento, todos nós poderíamos nos tornar Reals.

“Este é um bem que todos nós temos: o nosso jeito, nossa voz, nosso rosto. Tudo isso são bens que as pessoas poderão usar e personalizar, uma vez que já tenham a captura de imagem e voz”, diz Aharon. “Cerca de 600 milhões de pessoas estão no LinkedIn. Todas elas são potencialmente personagens ou apresentadores.”

Os avanços nos processadores e GANs, ou Redes Adversárias Generativas, estão reduzindo o tempo de captura e renderização de avatares. Eles também tornaram possível renderizar rostos instantaneamente e até mesmo torná-los interativos. Em testes feitos com o sistema de gravação de I.A. GPT-3, Hakim diz que com apenas algumas palavras-chave “a máquina basicamente cria a cena inteira”.

CRIANDO PROFESSORES SUBSTITUTOS

O avatar da minha professora de espanhol era bastante realista, pelo menos o suficiente para fazer com que eu me concentrasse na minha pronúncia e não em sua articulação computadorizada. A Hour One produziu para o Berlitz 13.000 vídeos de professores artificiais, falando inglês, espanhol e alemão, em cerca de 15 horas. A empresa de idiomas ainda oferece aulas online com professores humanos, mas os digitais fazem com que ela possa reduzir drasticamente os custos (possivelmente resultando na redução da mensalidade), enquanto ainda fornece o que seu CEO Curt Uehlein chamou de “uma experiência centrada no ser humano.”

Ainda assim, não está claro se esses avatares, mesmo os muito realistas, podem fazer o trabalho de um professor real: a pesquisa mostrou que mesmo professores humanos se comunicando através de uma tela não ativam as mesmas partes do cérebro associadas a contextos sociais. Além de ser difícil entender essa “experiência centrada no ser humano” como uma boa notícia para professores de verdade. Ainda assim, Hakim insiste: “Não estamos tentando substituir trabalhadores. Na verdade, estamos colocando as ferramentas nas mãos das pessoas para que elas possam verdadeiramente focar no processo criativo.”

Os fundadores da startup dizem que também estão cientes de outros perigos. Embora a Hour One não permita que as pessoas escolham como e onde os avatares serão usados, sua política de ética e seu compromisso com clientes proíbem qualquer uso para o que Aharon chama de situações “extremas”, como: entretenimento adulto, palavrões, política, anúncios impróprios, automutilação ou “qualquer opinião que possa incitar polêmica”. Já em relação a personalidades “conhecidas” como o fundador do XPrize, Peter Diamandis, ou a celebridade do YouTube Taryn Southern, o uso apenas se dará quando aprovado por eles.

A empresa também informa em seus vídeos que se trata de avatares para que o público não seja enganado. Minha professora de espanhol, por exemplo, tinha uma pequena marca d’água no canto do vídeo – com as letras “AV” – mas não vi nenhuma explicação clara de que isso significa “visual alterado”. Um projeto de lei proposto no Congresso dos EUA determina a presença dessas marcas d’água, embora especialistas afirmem que mais medidas de proteções são necessárias.

Porém há um ponto importante aqui: embora indique que seus personagens são falsos, a Hour One tenta torná-los realistas o suficiente para nos induzir a sentir uma conexão humana. Amir Konigsberg, um empresário de tecnologia que faz parte do conselho da Hour One sugere que isso é exatamente o que torna seus avatares tão atraentes: não porque são humanos, mas porque são obviamente falsos – apesar de parecem humanos. “O fato de serem muito realistas, com uma altíssima qualidade, porém também vistos como artificiais, é o motivo de serem tão fascinantes”, diz ele.

Pode ser por isso que não pude me conter e ri um pouco quando vi a Hepburn. É uma situação esquisita, onde nossos cérebros captam a estranheza do que estamos vendo. Acabamos rindo de nervoso.


SOBRE O(A) AUTOR(A)

Fast Company é a marca líder mundial em mídia de negócios, com foco editorial em inovação, tecnologia, liderança, ideias para mudar o ... saiba mais