De pets a bots: como o aprendizado por reforço está ajudando a treinar IAs
O desafio do aprendizado por reforço na inteligência artificial é criar agentes que consigam atingir seus objetivos observando e interagindo com o ambiente

Compreender o que é inteligência – e como reproduzi-la em máquinas – é um dos grandes desafios científicos do nosso tempo. A capacidade de aprender com a experiência é um pilar fundamental da inteligência, seja em humanos, animais ou máquinas.
Em um relatório surpreendentemente visionário publicado em 1948, Alan Turing – considerado o pai da computação moderna – propôs a criação de máquinas capazes de exibir comportamentos inteligentes. Ele chegou a sugerir que essas máquinas poderiam ser “educadas” com base em recompensas e punições.
Essa ideia acabou se tornando a base do que hoje chamamos de aprendizado por reforço, um ramo da inteligência artificial voltado para o treinamento de agentes que interagem com o ambiente em busca de maximizar recompensas.
Adestradores de animais sabem que comportamentos podem ser moldados com recompensas. Quando um cachorro ganha um petisco por fazer um truque corretamente, ele entende que aquela ação é positiva – e tende a repeti-la. O aprendizado por reforço se inspirou exatamente nesse princípio da psicologia animal.
A diferença é que, nesse caso, os “alunos” são agentes computacionais. Eles podem ser programas de computador, como um software que joga xadrez, ou robôs físicos, como aqueles que aprendem a realizar tarefas domésticas.
O ambiente também pode variar: pode ser totalmente digital – como um tabuleiro de xadrez virtual ou o mundo de um game – ou físico, como uma casa de verdade onde um robô precisa operar.
a ideia ficou conhecida como a “hipótese da recompensa”.
Assim como os animais, esses agentes conseguem perceber o ambiente à sua volta e agir com base nessas informações. Um programa de xadrez “enxerga” a disposição das peças e escolhe seu próximo movimento. Um robô pode usar câmeras, microfones e sensores para entender o que acontece ao redor e, com a ajuda de motores, se movimentar ou manipular objetos no mundo físico.
Esses agentes funcionam com metas bem definidas, que são programadas por seus criadores. O objetivo de um software de xadrez, por exemplo, é vencer a partida. Já um robô doméstico pode ter como missão ajudar o dono com as tarefas da casa.
OS DESAFIOS DO APRENDIZADO POR REFORÇO
O grande desafio do aprendizado por reforço é justamente projetar agentes capazes de alcançar esses objetivos, a partir da observação e da ação. A proposta por trás dessa abordagem é ousada: qualquer objetivo pode ser atingido se for possível criar um sinal numérico – a chamada recompensa – e treinar o agente para maximizar a soma desses sinais ao longo do tempo.
Ainda não se sabe se essa hipótese se aplica a qualquer tipo de meta, dado o número quase infinito de possíveis objetivos. Por isso, a ideia ficou conhecida como a “hipótese da recompensa”.

Em algumas situações, é relativamente simples definir o que será recompensado. No xadrez, por exemplo, a recompensa pode ser +1 por uma vitória, 0 por um empate e -1 por uma derrota.
Já em tarefas do dia a dia, como as de um robô doméstico, essa definição é bem mais difícil. Ainda assim, o número de aplicações em que foi possível criar sinais de recompensa eficazes só tem aumentado.

Um dos maiores marcos dessa área foi alcançado no jogo de tabuleiro Go. Por muito tempo, acreditava-se que esse jogo era mais complexo que o xadrez e, por isso, mais difícil para uma máquina dominar.
Mas, em 2016, a empresa DeepMind (hoje Google DeepMind) usou o aprendizado por reforço para desenvolver o AlphaGo, que derrotou o campeão mundial Lee Sedol em uma série de cinco partidas.
Mais recentemente, essa técnica também tem sido usada para tornar chatbots – como o próprio ChatGPT – mais úteis e para aprimorar sua capacidade de raciocínio.
TEORIA BASEADA NA PSICOLOGIA ANIMAL
Nada disso era previsível na década de 1980, quando Richard Sutton e seu orientador Andrew Barto propuseram o aprendizado por reforço como uma estrutura geral para a resolução de problemas.
Eles se basearam não apenas na psicologia animal, mas também em áreas como a teoria de controle – que usa feedback para ajustar o comportamento de sistemas – e a otimização, um campo da matemática que busca as melhores soluções possíveis em um conjunto de opções.
reproduzir a inteligência em máquinas é um dos grandes desafios científicos do nosso tempo.
A dupla ofereceu à comunidade científica fundamentos matemáticos sólidos, que continuam relevantes até hoje. Além disso, desenvolveram algoritmos que se tornaram referência na área.
De forma inesperada, o aprendizado por reforço também teve impacto na neurociência. A dopamina – um neurotransmissor ligado ao sistema de recompensa no cérebro de humanos e animais – apresentou padrões que coincidem com os algoritmos dessa área, ajudando a explicar resultados experimentais relacionados ao comportamento.
O trabalho de Sutton e Barto abriu caminho para uma vasta produção acadêmica, trouxe avanços práticos e atraiu investimentos milionários de grandes empresas de tecnologia.
Este artigo foi republicado do “The Conversation” sob licença Creative Commons. Leia o artigo original.