Próxima “corrida armamentista” da IA deverá ser sobre vídeos generativos

Runway AI e Sora dominaram as manchetes, mas um grupo de startups menores também está explorando os limites dos modelos de geração de vídeo

Crédito: Google DeepMind

Mark Sullivan 2 minutos de leitura

Atualmente, de 20 a 30 empresas estão trabalhando no desenvolvimento de modelos de geração de vídeo. Há apenas 18 meses, estas mesmas empresas tinham dificuldade em obter financiamento porque, na época, os chatbots ainda estavam em estágio inicial e a ideia de produzir vídeos realistas parecia um sonho distante.

No entanto, ferramentas como Runway AI e Sora, da OpenAI, mudaram totalmente esse cenário – e chamaram a atenção do Vale do Silício.

“Estamos presenciando um ponto de virada”, afirma Robert Nishihara, cofundador e CEO da Anyscale, cuja plataforma ajuda os desenvolvedores a treinar, executar e escalar modelos e aplicativos de IA de forma eficiente. “Há uma corrida para construir o melhor modelo.”

Nesta corrida, temos gigantes da inteligência artificial – como a OpenAI – competindo com empresas como veed.io, Pika Labs, Loom, Captions e Descript.

Empresas no setor de vídeo, assim como os desenvolvedores de grandes modelos de linguagem, estão vendo melhorias em seus resultados à medida que alimentam seus modelos com mais dados de treinamento e mais poder de computação.

Crédito: Reprodução/ YouTube

Mas ainda há muito trabalho pela frente. “Estamos começando a ver algumas demonstrações realmente impressionantes”, diz Nishihara. “O Sora é incrível, mas ainda estamos engatinhando nessa área. Nenhum dos modelos chegou ao ponto de ser amplamente útil.”

De fato, os casos de uso ainda são relativamente limitados. Por exemplo, o Hey Gen permite que você faça o upload de um vídeo de si mesmo falando e então gera um vídeo seu dizendo a mesma coisa em vários idiomas diferentes, com movimentos apropriados e realistas.

No geral, os modelos de geração de vídeo ainda não avançaram ao ponto de poder recriar fielmente uma cena imaginada pelo usuário. “Eles acabam gerando algo diferente”, diz Nishihara.

Crédito: HeyGen

Além disso, as ferramentas atuais não possuem os recursos de edição necessários para modificar o vídeo. “Falta controle”, acrescenta o executivo. “Ainda há muito trabalho a ser feito nesse aspecto.”

Desenvolver modelos de geração de vídeo é um negócio caro. Conforme o tamanho dos modelos aumenta, também aumentam os custos de treinamento e mais poder de computação em nuvem é necessário.

As startups do setor também precisam atrair talentos para desenvolver seus modelos e construir infraestrutura. “Há uma grande demanda por pessoas que já fizeram isso antes”, destaca Nishihara. “Mas não existem tantas assim.”

os modelos de geração de vídeo ainda não avançaram ao ponto de recriar fielmente uma cena imaginada pelo usuário.

Adquirir e usar os tipos certos de dados de treinamento, que geralmente envolvem grandes quantidades de vídeos, também é um processo caro.

Nishihara acredita que, à medida que a competição aumenta e os custos associados sobem, é provável que ocorra uma consolidação no setor. Algumas empresas podem ficar para trás na pesquisa e decidir vender seus projetos.

E, como já vimos, empresas maiores, como Microsoft e Google, estão sempre de olho, prontas para pagar caro por grandes talentos e pesquisas promissoras.


SOBRE O AUTOR

Mark Sullivan é redator sênior da Fast Company e escreve sobre tecnologia emergente, política, inteligência artificial, grandes empres... saiba mais