Mesmo os robôs mais parecidos com humanos carecem desta qualidade
Robôs não precisam ser mais inteligentes, eles precisam ser mais rápidos
Mesmo antes de o escritor tcheco Karel Čapek cunhar o termo “robô” em seu romance de 1920, “RUR: Robôs Universais de Rossum”, os seres humanos já eram obcecados com a ideia de criar vida a partir de objetos inanimados. Nossas histórias há muito tempo envolvem seres de metal, argila ou protoplasma “vivos” como nós.
Ao assistir ao vídeo do robô Figure 01, com seu cérebro alimentado pelo ChatGPT, interagindo com uma pessoa, parece claro que estamos prestes a nos tornarmos deuses. Falta apenas um elemento.
Este elemento não é a inteligência artificial geral (IAG). Tampouco é a aparência humana. Certamente, ter um cérebro de IAG capaz de compreender e se adaptar ao mundo físico será fundamental para tornar a vida sintética mais próxima da vida real.
E, sim, em algum momento chegaremos ao ponto em que seremos capazes de criar “replicantes” como em “Blade Runner”, “Westworld” e “O Homem Bicentenário”.
Mas isso não importa agora.
No vídeo divulgado pela Figure – empresa fundada por Brett Adcock com o apoio financeiro da OpenAI, Nvidia, Microsoft, Intel e Jeff Bezos –, um robô que não possui um cérebro de IAG ou aparência humana faz com que pensemos, por alguns breves segundos, que está vivo.
Ele conversa com um homem, dá a ele uma maçã, recolhe o lixo enquanto explica por que deu a fruta e, em seguida, organiza o balcão, colocando o prato em um escorredor.
Durante esses breves segundos, a voz e a interação parecem tão reais que cheguei a pensar que talvez fosse uma daquelas danças e acrobacias pré-coreografadas que a Boston Dynamics faz com seu robô Atlas. Ao ouvir a hesitação em sua voz, a cadência natural dos “hmms” e “eers”, até pensei que talvez um humano estivesse dublando o robô nos bastidores.
Mas não, era de verdade. E nos momentos em que o Figure 01 está falando, acreditei que era um ser real. Este humanoide conseguiu romper a barreira e fui capaz de me conectar com ele como faria com qualquer outra pessoa.
No entanto, a breve ilusão foi quebrada pelas longas pausas entre as respostas. Foi quando percebi que já temos tudo o que precisamos para fazer um robô que possa se conectar conosco da mesma forma que os seres artificiais da ficção científica, como HAL 9000, de “2001: Uma Odisseia no Espaço”, e o exterminador do futuro fazem nos filmes. Tudo se resume ao timing – à velocidade. É isso que está faltando.
Ao longo de milhões de anos de evolução, nossos cérebros foram condicionados a esperar uma resposta dos seres vivos que nos cercam. Esta é uma expectativa codificada na nossa estrutura cerebral que influencia a nossa percepção do mundo.
o próximo grande desafio é acertar o timing para que nossas conversas com máquinas pareçam naturais.
Quando não a recebemos, automaticamente pensamos que algo está errado. É por isso que, quando estamos mantendo uma conversa e não recebemos uma resposta instantânea – que não precisa ser verbal, mas precisa ser imediata –, nossos cérebros simplesmente não conseguem acreditar.
Não importa se é a coisa mais inteligente e esclarecedora que alguém já disse. Tudo simplesmente cai por terra, assim como acontece na comédia, onde o timing é talvez mais importante do que em qualquer outro tipo de comunicação.
Velocidade e timing são as principais razões pelas quais vemos os vídeos acrobáticos do robô Atlas, da Boston Dynamics, e pensamos: “se parece exatamente com um humano”. É o mesmo com as respostas do HAL 9000: sua fluidez natural na conversa é o que o torna tão ameaçador quanto um sociopata humano no filme.
Também vemos isso com o C-3PO, sendo insuportável para Han Solo, em “Star Wars”. Ou Rachael fazendo Deckard se apaixonar por ela em “Blade Runner”. Tudo se resume à fluidez nas conversas. Mas, é claro, isso funciona porque tudo é roteirizado, coreografado e realizado por humanos.
Aqui, no mundo real, o próximo grande desafio não é alcançar IAs mais inteligentes ou aparências humanas, mas acertar o timing para que nossas conversas pareçam naturais.
Talvez a maior prova disso seja a popularidade dos chatbots de inteligência artificial, que funcionam muito bem porque já esperamos uma certa demora nas respostas em conversas em texto com outros humanos. A pausa é normal.
Mas, quando se trata de comunicação direta e ao vivo – nos momentos em que pedimos um café no balcão, damos instruções ou perguntamos qual é o melhor restaurante para ter um encontro –, é aí que o timing se torna essencial para a experiência.
Talvez seja por isso que a Nvidia esteja trabalhando em um hardware que será capaz de fazer com que os robôs se movam e se comuniquem com a mesma fluidez que os humanos. Com a velocidade dos avanços recentes, não ficaria surpreso se cruzássemos essa barreira em menos de um ano.