Como os vieses na linguagem se tornam perpetuados pela tecnologia

Explorando um conjunto de dados de word embeddings

Sathvik Nair Blocked Unblock Seguir Seguindo 7 de janeiro Foto de Markus Spiske no Unsplash

Especialmente ao longo deste ano, a indústria de tecnologia tem sido amplamente criticada por sua busca incansável pela pesquisa e desenvolvimento da inteligência artificial (IA). Isso ocorre porque o paradigma dominante no campo é chamado de aprendizado de máquina, no qual um computador se baseia no reconhecimento de padrões em dados existentes para executar uma tarefa específica. No aprendizado de máquina, muitos algoritmos trabalham tomando um conjunto de dados, criando um modelo e gerando uma previsão.

No entanto, o que acontece quando os dados em que esses métodos são baseados são tendenciosos? De vez em quando, vemos histórias nos noticiários sobre o fracasso de tecnologias de reconhecimento facial em populações minoritárias, ou bots do Twitter fazendo comentários racistas . Mas a verdade é que continuamos ouvindo sobre preconceito e inteligência artificial sem aprender muito sobre como exatamente esses vieses são codificados nas tecnologias que usamos.

Como resultado, explicarei algumas das deficiências de uma ferramenta conhecida como incorporação de palavras, porque elas são usadas para uma ampla variedade de tarefas que envolvem computadores e linguagem humana, ou processamento de linguagem natural (NLP), e porque é relativamente fácil de explorar e explicar como essas ferramentas podem ser problemáticas sem usar muitos jargões técnicos complicados. Primeiro, vamos aprender mais sobre PNL e como se encaixa o Word Embedding e, em seguida, aprenderemos sobre como as próprias inserções contribuem para a criação de resultados tendenciosos.