Alexa com “voz de vovó” é só o começo da nova era da clonagem de voz

Evolução da tecnologia de texto para fala está nos aproximando de vozes artificiais cada vez mais “humanas”

Crédito: Brandon Romanchuk/ Matthew Ball/ Unsplash/ PNG Tree

Adam Bluestein 5 minutos de leitura

Em junho passado, na edição 2022 da conferência re:MARS – evento global organizado pela Amazon com foco em aprendizado de máquina, automação, robótica e espaço – Rohit Prasad, cientista-chefe e vice-presidente da Alexa AI, resolveu impressionar o público com um truque paranormal: falar com os mortos.

“Embora uma inteligência artificial não seja capaz de eliminar a dor de uma perda, ela com certeza pode fazer as memórias durarem mais”, disse ele, antes de exibir um vídeo curto que começa com um menininho fofo perguntando à Alexa: “Vovó, pode terminar de ler ‘O Mágico de Oz’ pra mim?”

A voz da senhora que lê algumas frases do livro parece bastante com a de uma avó. Mas sem conhecer a avó do menino, é impossível avaliar a semelhança. Muitos espectadores ficaram assustados com a coisa toda – o site de notícias Ars Technica chegou a chamar o vídeo de “mórbido”.

O que de fato arrancou suspiros foi a explicação de Prasad sobre como esse “truque” foi feito: cientistas da Amazon conseguiram replicar a tal voz da vovó com base em uma amostra de áudio de apenas um minuto. Eles conseguiriam fazer o mesmo com praticamente qualquer voz, possibilidade que alguns podem achar emocionante, outros aterrorizante e outros ainda, uma combinação de ambos.

O medo de vozes deepfake ou de tecnologias de reconhecimento de voz capazes de enganar humanos não é infundado. Em um caso ocorrido em 2020, ladrões usaram uma voz gerada artificialmente para convencer o gerente de um banco de Hong Kong a liberar US$ 400 mil em fundos antes que o golpe fosse descoberto.

Ao mesmo tempo, conforme as interações de voz com a tecnologia vão se tornando mais comuns, as marcas ficam ansiosas para serem representadas por vozes únicas. E os consumidores parecem desejar que a tecnologia soe mais humana.

O medo de vozes deepfake ou de tecnologias de reconhecimento de voz capazes de enganar humanos não é infundado.

Isso tem impulsionado uma onda de inovação e de investimento em tecnologia texto-para fala (text-to-speech ou TTS, na sigla em inglês) mediada por inteligência artificial. Globalmente, o mercado para tecnologias de conversão de texto em voz deve atingir US$ 7 bilhões em 2028, acima dos cerca de US$ 2,3 bilhões registrados em 2020, de acordo com a Emergen Research.

INTERAÇÃO E ACESSIBILIDADE

Hoje, o uso mais difundido dos conversores de texto em voz é em assistentes digitais e chatbots. Mas é muito fácil imaginar os futuros aplicativos de identidade de voz para jogos, mídia e comunicação pessoal. Haverá vozes personalizadas para suas personas virtuais, mensagens de texto lidas com a sua voz, dublagens nas vozes atores ausentes (ou falecidos).

“Haverá muito mais dessas experiências virtualizadas, onde a interação é cada vez menos feita por meio de um teclado e mais centrada na fala”, prevê Frank Chang, sócio fundador do fundo de risco Flying Fish, em Seattle, focado em inteligência artificial.

A chance de dar acessibilidade a pessoas com problemas de visão, função motora limitada e outros problemas cognitivos é outro fator que impulsiona o desenvolvimento da tecnologia de voz, principalmente no setor de educação online. 

Quer você goste ou não da ideia da “vovó Alexa”, a demonstração feita pela Amazon exemplifica como a IA tem acelerado a conversão de texto em voz, além de indicar que vozes falsas, porém convincentemente humanas, podem estar muito mais próximas de existir do que pensamos.

As primeiras versões da Alexa usavam um tipo de conversão de texto em fala “concatenativa”, que funcionava compilando uma grande biblioteca de fragmentos de fala gravados de um único falante, e que podem ser recombinados para produzir palavras e sons completos.

vozes falsas, porém convincentemente humanas, podem estar muito mais próximas de existir do que pensamos.

Essa abordagem gera áudios compreensíveis e com um timbre autêntico, mas requer muitas horas de dados de voz gravados e muitos ajustes finos. Além disso, a dependência de uma biblioteca de sons gravados dificulta a modificação das vozes.

Outra técnica, conhecida como TTS paramétrico, não utiliza falas gravadas. Começa com modelos estatísticos de sons de fala individuais que podem ser reunidos em uma sequência de palavras e frases e processados ​​por meio de um sintetizador chamado vocoder. Ela permite um controle maior sobre o discurso final que será emitido, mas tem um som robótico abafado.

TTS NEURAL

No esforço para criar vozes novas, mais expressivas e com som natural, Amazon, Google, Microsoft, Baidu e outros grandes players da conversão de texto em voz adotaram diferentes formas de “TTS neural” nos últimos anos.

Esses sistemas usam redes neurais de aprendizado profundo, treinadas na fala humana, para modelar formas de onda de áudio do zero, convertendo dinamicamente qualquer entrada de texto em fala com som fluido. Os sistemas neurais são capazes de aprender não apenas a pronúncia, mas também os padrões de ritmo, acento e entonação.

A tecnologia subjacente à demonstração da voz da vovó foi desenvolvida por cientistas do laboratório de conversão de texto em fala da Amazon, em Gdansk, na Polônia. Em vez de construir um novo modelo de conversão de texto em fala para cada nova voz, essa abordagem modular substitui o processo de criação de uma nova identidade pelo processo de transformar uma voz em outra – que é computacionalmente mais fácil.

Os sistemas neurais são capazes de aprender não apenas a pronúncia, mas também os padrões de ritmo, acento e entonação.

Em medidas objetivas e subjetivas, a qualidade da fala sintética gerada dessa forma foi comparável à fala de modelos que haviam sido treinados com 30 vezes mais dados. Apesar disso, essa abordagem ainda não consegue imitar totalmente o estilo de fala de uma pessoa específica.

A Amazon não revela quando os novos recursos de clonagem de voz estarão disponíveis para desenvolvedores e para o público geral. “Estamos trabalhando para melhorar o conhecimento fundamental que demonstramos na re:MARS e explorando casos de uso que vão encantar nossos clientes, mas com as proteções necessárias para evitar qualquer potencial uso indevido”, esclareceu um porta-voz da empresa.

As vozes de celebridades atualmente usadas na Alexa – Shaquille O’Neal, Melissa McCarthy e Samuel L. Jackson – exigiram cerca de 60 horas de gravações em estúdio para serem produzidas, e são limitadas naquilo que conseguem fazer.

Elas respondem a perguntas sobre o clima, contam piadas e histórias e respondem a certas perguntas, mas deixam de usar a voz padrão da Alexa para solicitações fora da zona de conforto do sistema.

À medida que as grandes empresas de tecnologia continuarem investindo em conversão de texto em voz, uma coisa é certa: será cada vez mais difícil dizer se a voz que você está ouvindo é de uma pessoa de verdade ou de um algoritmo criado por humanos.


SOBRE O AUTOR

Adam Bluestein escreve sobre pessoas e empresas na vanguarda da inovação em negócios e tecnologia, ciências da vida e medicina, alimen... saiba mais