Dados tendenciosos podem fazer muita diferença para pessoas negras

Dados projetados por IA podem ajudar a criar softwares menos preconceituosos, mais seguros e equitativos

Crédito: Markus Spiske/ Uriel SC/ Lucas Gouvêa/ Unsplash

Wilson Pang 5 minutos de leitura

A inteligência artificial (IA) continua confirmando sua importância, inovando nas operações e otimizando a carga de trabalho para empresas de todos os setores. No entanto, conforme mais indústrias implementam sistemas de IA, é preciso aumentar o cuidado com os dados usados para treinar essa tecnologia. Se não ficarmos atentos, corremos o risco de retroceder nos avanços recentes em relação ao preconceito estrutural contra negros e indígenas, por exemplo. 

A ASCENSÃO DOS DADOS SINTÉTICOS

As empresas têm aproveitado a inteligência artificial para se aventurar em territórios antes inexplorados. A aprendizagem de máquina que segue o modelo human-in-the-loop (HITL) – no qual o treinamento de dados requer a interação humana – resolve muitos problemas.

Mas, e quanto aos casos em que não temos dados anteriores em quantidade suficiente? Como podemos ensinar um modelo de IA a fazer algo se nós mesmos ainda não temos ferramentas ou dados para fazer isso?

Originalmente, para treinar com precisão modelos de IA bem-sucedidos, os desenvolvedores precisavam obter dados que cobrissem todos os cenários possíveis. Se algum não tivesse ocorrido e sido capturado antes, então faltariam dados. Essa lacuna afetaria a capacidade da máquina de entender aquela situação específica quando ocorresse.

Como podemos ensinar um modelo de IA a fazer algo se nós mesmos ainda não temos ferramentas ou dados para fazer isso?

Existem cenários do mundo real que acontecem, mas muitas vezes não são documentados o suficiente para oferecer a quantidade mínima de dados necessários para treinar uma máquina a fim de reconhecê-los. Por exemplo, não temos dados suficientes para treinar um sistema de alarme para reconhecer um intruso invadindo uma casa.

Outro exemplo é quando tentamos treinar um veículo autônomo para reconhecer uma criança correndo na frente do carro. Se nos ativermos aos dados humanos disponíveis sobre essas situações na vida real, não conseguimos treinar uma máquina para reconhecer e reagir a elas.

No entanto, onde há vontade, há um caminho – e o caminho aponta para os dados sintéticos.

O QUE SÃO DADOS SINTÉTICOS?

Os dados sintéticos são aqueles criados por softwares, em oposição aos dados humanos, capturados a partir de situações do mundo real. Eles permitem que os programas de computador preencham as lacunas, projetando circunstâncias raras e cenários específicos do mundo real que os dados comuns, coletados por humanos, simplesmente não podem preencher. Essas circunstâncias e cenários são conhecidos como “casos extremos”.

Os casos extremos são situações raras e desesperadoras com as quais a IA pode não estar pronta para lidar. Por exemplo, catástrofes ou crimes são situações sobre as quais é muito difícil coletar dados. Embora elas possam ser simuladas sem riscos, dados sintéticos precisam ser usados ​​em combinação com o máximo possível de dados do mundo real para garantir conjuntos de dados holísticos e inclusivos para todos os cenários possíveis.

Até 2024, espera-se que 60% de todos os dados de IA sejam sintéticos. Embora a ideia de dados gerados sinteticamente já exista há algum tempo, seu crescimento recente pode ser atribuído, em grande parte, à indústria de veículos autônomos. No entanto, esses dados podem ser aplicados em praticamente qualquer visão computacional, como drones, câmeras de segurança e vários equipamentos eletrônicos de consumo.

QUANTO MENOS HUMANOS, MENOS ERROS  

Quando usados ​​em conjunto com dados coletados por pessoas, os dados sintéticos podem oferecer benefícios substanciais para as empresas, incluindo custo reduzido de dados e mão de obra, maior velocidade de coleta, acesso a casos extremos e conjuntos de dados mais inclusivos e menos tendenciosos.

carros autônomos são mais propensos a reconhecer pedestres brancos do que negros.

Assim como é uma presença constante na sociedade, o preconceito também ocupa espaço nos conjuntos de dados de inteligência artificial. Como a curadoria desses conjuntos é feita por seres humanos, eles geralmente refletem os mesmos preconceitos das pessoas que os criam.

Não chegam a ser vieses gritantes, mas já são o bastante para distorcer as aplicações com base em sexo e raça. Por exemplo, carros autônomos são mais propensos a reconhecer pedestres brancos do que negros, o que pode resultar em grandes problemas de segurança.

O que diferencia os dados sintéticos é que eles não são criados por humanos, mas por por softwares. Embora ainda possam herdar algum viés do conjunto original, eles tendem a carregar muito menos visões tendenciosas (ou até nenhuma). 

QUESTÃO DE SEGURANÇA

Para que um conjunto de dados seja verdadeiramente inclusivo, ele precisa cobrir todos os cenários possíveis e todas as pessoas que possam usá-lo. Para que o reconhecimento facial de um celular funcione para todos, ele precisa ser treinado para identificar a cor da pele, a cor e o tipo do cabelo, as diferentes características faciais, além de acessórios, como óculos, ou brincos. Para garantir a inclusão, todas essas variáveis ​​precisam ser adicionadas ao conjunto de dados de treinamento.

Com o aumento da popularidade dos dados sintéticos, o futuro da IA promete ser brilhante.

Além disso, um veículo autônomo precisa ser treinado em todas as situações de rodagem, incluindo diferentes tipos de estradas, de sinalização de rua, diferentes situações extremas e qualquer outra coisa que possa surgir no caminho.

Embora os dados do mundo real estejam sendo coletados ativamente para treinar esses modelos, geralmente há cenários muito imprevisíveis ou muito infrequentes mas que, mesmo assim, o modelo precisa ser capaz de reconhecer para manter todos os envolvidos em segurança.

Digamos que uma escada cai do porta-malas de um veículo na frente de outro: o sensor precisa identificar o objeto e se movimentar em função desse reconhecimento. Essas situações não acontecem com tanta frequência para que tenhamos dados suficientes para treinar um modelo, mas podem ser criadas artificialmente, com uso de dados sintéticos.

Com o aumento da popularidade dos dados sintéticos, o futuro da IA promete ser brilhante. À medida que mais e mais empresas adotam o conceito de complementar conjuntos de dados coletados por humanos, podemos sonhar com bases de dados muito mais inclusivas e representativas, que levarão a softwares mais seguros e equitativos para todos os gêneros e raças.


SOBRE O AUTOR

Wilson Pang é CTO da Appen e coautor de Real World AI: A Practical Guide to Responsible Machine Learning (Inteligência Artificial no M... saiba mais