Estamos prontos para um mundo povoado por humanos sintéticos?

Como reagiremos a avatares criados por inteligência artificial que falam e expressam emoções?

Crédito: Istock

Jesus Diaz 4 minutos de leitura

Quando a empresa israelense D-ID foi lançada, em 2017, tinha como propósito dar ao mundo ferramentas para impedir que governos e corporações nos monitorassem por meio de reconhecimento facial. Hoje, ela quer criar humanos sintéticos tão perfeitos que seria difícil distingui-los de um ser humano real.

Para fazer isso, a empresa está mesclando tecnologias de inteligência artificial de geração de imagem, animação, texto e fala. Da mesma forma que o aplicativo Lensa – mas com movimento e voz.

A versão atual dessa tecnologia (lançada por meio do Creative Reality Studio, da D-ID) ainda está muito longe de atingir esse ambicioso objetivo, mas é uma prévia de um mundo no qual humanos sintéticos estarão por toda parte, das redes sociais ao atendimento ao cliente.

UNINDO TODAS AS PEÇAS

Assim como o Lensa, o novo aplicativo web da D-ID também usa o software Stable Diffusion para gerar humanos sintéticos. Só que, em vez de produzir avatares estáticos, ele cria cabeças e torsos animados a partir de prompts, como “mulher loira com orelhas de elfo e pele verde”, por exemplo.

Depois de escolher uma das imagens produzidas pelo Stable Diffusion, há um campo na interface da D-ID que permite que você escreva um script ou gere um usando o GPT3, da Open AI, para que seu avatar reproduza.

Você pode inserir “cinco razões pelas quais nunca se deve colocar chouriço na paella”, por exemplo, e a IA vai gerar um script na mesma hora. O aplicativo permite que você escolha o idioma, a voz e até a entonação do seu avatar.

Depois, basta clicar em "criar". O sistema usa a IA de conversão de texto em fala da Amazon e o algoritmo de animação da D-ID para produzir um resultado incrível: uma fotografia animada, como aquelas de Harry Potter, que pode dizer o que você quiser.

Crédito: D-ID

UMA PRÉVIA DO QUE ESTÁ POR VIR

Os avatares gerados pela D-ID são representações artísticas, não réplicas perfeitas. Quando não estão reproduzindo uma fala, a qualidade da animação é razoável, embora o resultado seja um pouco assustador. Certamente, ainda não ultrapassou o chamado “vale da estranheza”, aquele ponto em que uma tecnologia é parecida com um humano de verdade, mas ainda dá a sensação de que não é real.

Para criar um avatar mais realista, a empresa oferece uma opção de ponta chamada Premium Presenter, que não utiliza o Stable Diffusion ou fotos para gerar a animação. O co-fundador da D-ID, Gil Perry, conta que diversas empresas já estão usando este recurso para produzir uma variedade de coisas, como materiais de marketing e vídeos de treinamento.

Ele me mostrou um exemplo prático de uma empresa que planeja enviar milhões de mensagens durante as festas de fim de ano, cada uma delas com um CEO gerado por IA que chama os clientes pelo nome e segue um script personalizado.

Crédito: D-ID

A tecnologia de animação é basicamente a mesma, mas aqui eles utilizaram um modelo biométrico customizado do rosto do CEO, o que exigiu a captura de vários minutos de vídeo. Além disso, optaram por usar uma voz clonada, em vez do modelo padrão de conversão de texto em fala.

O resultado é muito mais realista, talvez bom o suficiente para convencer algumas pessoas, especialmente em uma tela pequena de celular. Mas dá para ver que a tecnologia ainda está a um ou dois anos de realmente ser convincente o suficiente.

Outra coisa que a D-ID ainda não conseguiu é fazer com que os avatares falem em tempo real. Este é um passo essencial para criar assistentes sintéticos, representantes de clientes, vendedores e – por que não? – amigos ou amantes. No entanto, existem alguns obstáculos que ainda precisam ser superados para que isso aconteça. Mas, segundo Perry, a animação não é um deles.

“Somos capazes de produzir uma animação na metade do tempo do vídeo, ou seja, mais rápido do que em tempo real”, explica. Os obstáculos parecem estar na geração de texto e conversão em fala e na maneira como todas as peças interagem juntas. Para criar seres sintéticos verdadeiramente verossímeis, todos esses componentes terão que funcionar muito mais rápido e estar bem integrados.

Quando isso vai acontecer? Perry está confiante de que será em breve. “Em cinco meses, será em tempo real”, acredita. Depois disso, é apenas uma questão de aperfeiçoar essas tecnologias para fazer com que os resultados sejam o mais próximo possível do real. “Em dois anos, estará perfeito”, aposta.

Quando isso acontecer, co-fundador da D-ID acredita que vai mudar totalmente a forma como interagimos com os computadores e com o mundo. A única pergunta – que devemos nos fazer antes que esse momento chegue – é como reagiremos a esses seres como sociedade.

Perry considera esse intervalo de espera positivo. “O mundo vai precisar de tempo para se acostumar com essa tecnologia”.


SOBRE O AUTOR

Jesus Diaz fundou o novo Sploid para a Gawker Media depois de sete anos trabalhando no Gizmodo. É diretor criativo, roteirista e produ... saiba mais