O que os anúncios da OpenAI e do Google nos dizem sobre o avanço da IA generativa

Sora, da OpenAI, e Gemini 1.5, do Google, colocam a capacidade da IA generativa em outro patamar

Crédito: iantfoto/ iStock

Camila de Lira 5 minutos de leitura

As grandes empresas de tecnologia seguiram a lógica do folião brasileiro e deixaram grandes novidades para depois do carnaval. Na última quinta-feira (15de fevereiro), OpenAI e Google lançaram novos modelos de inteligência artificial generativa que marcam um avanço importante da tecnologia. 

A OpenAI lançou a Sora, ferramenta de criação de vídeo a partir de comandos de texto. Já o Google fez uma demonstração do Gemini 1.5, atualização do modelo de linguagem de IA generativa. 

O anúncio que chamou mais a atenção do público foi, sem dúvidas, o da Sora, ferramenta de criação de vídeo da OpenAI. O sistema é capaz de criar vídeos hiperrealistas de até 60 segundos a partir de comandos de texto.

O CEO da OpenAI, Sam Altman, passou a quinta-feira inteira no seu perfil do X/ Twitter recebendo prompts diferentes e mostrando os resultados da Sora.

As imagens impressionam e são apenas a ponta do iceberg de um modelo de IA generativa robusto, treinado para entender não só a linguagem textual, como também a complexa linguagem audiovisual.

A partir de deep learning, o modelo da OpenAI aprende os contextos que estão por trás do vídeo, como os estilos, os enquadramentos e os gêneros. Para tal sistema operar, ele precisou de profunda compreensão da linguagem, percepção visual e dinâmica física de uma imagem em movimento.

A Sora não chega a ser uma surpresa para o mercado, mas mostra a força da OpenAI em mudar setores, avalia a vice-presidente de estratégia e impacto da Box 1824, Laura Kroeff.

"É impressionante o que eles conseguiram. E mais ainda o impacto que isso terá sobre toda a indústria de entretenimento, canais de mídia e sobre a nossa capacidade de distinguir o que é real do que é falso", afirma.

REDEFININDO OS LIMITES DA TECNOLOGIA

Para Silvio Meira, cientista-chefe da TDS Company e um dos fundadores do Porto Digital, no entanto, não foi a OpenAI que brilhou no “carnaval dos modelos de IA generativa” da semana, mas sim o Google. 

A big tech anunciou o Gemini 1.5. Mas o que parecia ser apenas uma atualização do seu atual grande modelo de linguagem (LLM, na sigla em inglês), foi, na verdade, um salto na capacidade de entendimento de dados para muito além do que existe atualmente – um milhão de tokens por vez. 

Em um modelo como o do Chat GPT-4, de 128 mil tokens, o usuário pode mandar um documento de até 100 mil palavras que a IA consegue ler, analisar e responder. No modelo anunciado pelo Google, a capacidade é para analisar 750 mil palavras.

“A Constituição do Brasil tem aproximadamente 76 mil palavras. É um sistema que conseguirá ler livros 10 vezes maiores do que isso”, compara André Alves, professor da Universidade Federal de Pernambuco.

Segundo Meira, o Gemini 1.5 redefine o limite para a IA generativa: o de centenas de milhares de palavras. Com uma “janela de contexto” maior, as IAs generativas poderão responder de forma cada vez mais rápida, enquanto aprendem com os dados lançados no sistema.

“Isso deve tornar obsoletos boa parte dos trabalhadores que realizam processos cognitivos repetitivos, como advogados, por exemplo. Os profissionais terão grande dificuldade de fazer algo no mínimo comparável a um LLM desse porte”, diz Meira. 

A Sora não chega a ser uma surpresa para o mercado, mas mostra a força da OpenAI em mudar setores.

Segundo postagem oficial do Google, o Gemini 1.5 também terá capacidade de analisar dados de uma hora de vídeo, 11 horas de áudio e de mais de 30 mil linhas de código em poucos segundos. Em tese, seria possível transformar relatórios em vídeos, vídeos em documentos escritos e comparar obras de autores, em um único espaço de chat.

Na demonstração feita pela empresa, o filme "Sherlock Jr.", de Buster Keaton, foi analisado e compreendido pelo Gemini 1.5 em segundos. O sistema transformou a película de 45 minutos em pouco menos de 700 mil tokens e conseguiu, em apenas um chat, responder questões e encontrar referências do filme em desenhos.

O mais contundente desta operação é o tempo: o Google havia lançado a versão 1.0 do Gemini em dezembro do ano passado.

Alves diz que, seguindo a lei de Moore e o andamento atual das redes, os LLMs tendem a ser atualizados em “ciclos trimestrais”. Meira não descarta a possibilidade de, até o final do ano, os LLMs serem capazes de lidar com milhões de tokens. 

MUITA CALMA NESSA HORA 

Nem o Sora, nem o Gemini 1.5 estão abertos ao público – ainda. Segundo a OpenAI, a ferramenta de vídeo ainda passa por uma fase de feedbacks com acadêmicos e pesquisadores para entender quais podem ser os usos danosos ou tóxicos da ferramenta.

"O resultado que a OpenAI conseguiu com a nova ferramenta é tão espantoso que está fazendo todos se preocuparem muito com as eleições de 2024. Por isso, assim como o Google, eles estão lançando para grupos controlados, ainda", explica Laura.

o Google havia lançado a versão 1.0 do Gemini em dezembro do ano passado.

O Google liberou o uso do Gemini 1.5 só para alguns assinantes do Gemini Pro e do Gemini Ultra. Para Meira, a tendência é que os sistemas mais refinados de AI sejam acessíveis nos sistemas pagos, voltados para empresas.

O cientista-chefe da TDS Company lembra que o Google ainda não integrou a IA generativa nas ferramentas de busca. Outro "detalhe", segundo o "The Information": a OpenAI está desenvolvendo a sua própria ferramenta de busca.

“Ainda estamos na pedra lascada da inteligência artificial. Ainda nem começou”, diz Meira.


SOBRE A AUTORA

Camila de Lira é jornalista formada pela ECA-USP, early adopter de tecnologias (e curiosa nata) e especializada em storytelling para n... saiba mais