Pesquisa em profundidade é a jogada do Google para ganhar a corrida da IA
O Deep Research é como uma versão em IA de um assistente de pesquisa humano, que responde perguntas difíceis com explicações detalhadas
Muita gente estranhou a lentidão do Google para entrar na onda da IA generativa. Mas isso ficou para trás. Com os modelos de linguagem (LLMs) Gemini e nos novos serviços baseados neles, o Google alcançou – e, em alguns casos, superou – a concorrência.
O sucesso da empresa se deve, em grande parte, à disposição de usar seus próprios pontos fortes. O sistema de pesquisa em profundidade Gemini Deep Research é um bom exemplo dessa estratégia.
Disponível para usuários do Gemini Advanced, o Deep Research é um tipo de versão em IA de um assistente de pesquisa humano. Funciona melhor para perguntas mais difíceis e multifacetadas, que exigem explicação. Por exemplo, fiz a seguinte pergunta: "quais são os desafios de criar robôs humanoides que possam realizar tarefas que não foram executadas em seu treinamento?".
Primeiro, o Deep Research reformulou a pergunta da seguinte forma: “encontre trabalhos de pesquisa e artigos sobre o tema ‘aprendizagem zero-shot’ em robótica”, com base em uma busca superficial de pesquisas relevantes na web.
Em seguida, gerou um plano com várias etapas, que era uma lista dos principais aspectos da pergunta de pesquisa, junto com os locais onde as informações poderiam ser encontradas.
Depois que concordei com o plano, o agente ficou ocupado. “Estou trabalhando nisso. Avisarei quando sua pesquisa estiver concluída. Enquanto isso, você pode sair deste bate-papo” (há algo de muito satisfatório em assistir a um agente de IA fazendo meu trabalho enquanto tomo café).
Observei enquanto ele varria a internet e começava a compilar uma lista de fontes. Cerca de três minutos depois, ele havia compilado uma lista de 60 itens de artigos e publicações de referência, incluindo trabalhos de pesquisa, artigos de periódicos, publicações no Medium e discussões no Reddit.
A partir de todas essas fontes, o agente sintetizou um ensaio de 2,1 mil palavras, repleto de citações, que respondia à minha pergunta. Impressionante!
Para encontrar todas essas fontes, é necessário um índice muito completo e profundo da web, e ninguém faria isso melhor do que o Google.
Para selecionar e compilar os blocos de informações mais relevantes de cada artigo, é necessário que o modelo Gemini 1.5 Pro, que alimenta o Deep Research, mantenha muitas informações em sua memória ao mesmo tempo. O Gemini 1.5 Pro tem uma janela de contexto de um milhão de tokens (mais de 770 mil palavras) – maior do que qualquer outro LLM voltado para o público.
Sintetizar todos os dados relevantes em uma resposta completa requer algum planejamento e raciocínio. O Gemini 1.5 Pro faz parte de um pequeno grupo de LLMs com pontuação superior a 85% no benchmark MMLU, que avalia o desempenho dos modelos de aprendizado de máquina. E você pode enviar as respostas do Deep Research diretamente para um Google Doc.
Continuo achando que o Google se encontra agora na melhor posição para se tornar o líder em IA para o público em geral no longo prazo. O volume de usuários a experiência e os dados que acumulou ao longo dos anos pode lhe conferir uma boa vantagem.