Quebrando a ilusão da IA baseada em dados

Observe os dados em aplicações de ponta e seu poder se dissipa, revelando uma nova perspectiva sobre como competir.

Peter Sweeney Blocked Desbloquear Seguir Seguindo 2 de janeiro

De acordo com Sam Harris , o eu desaparece . O eu , a sensação de ser um sujeito, desaparece quando você se concentra nele. É uma afirmação empírica chocante, uma afronta à obviedade, que algo tão primordial como o eu pode evaporar sob escrutínio.

Os dados são para a inteligência artificial, pois o eu é para a consciência. Algoritmos e arquiteturas, como a consciência, parecem inescrutáveis. Mas os dados apenas seja, um recurso fungível como o petróleo, eletricidade ou dinheiro. Para muitos, os dados são o I no AI, a fonte de conhecimento e inteligência, as coisas que faz a coisa toda vai .

“O que não sobrevive ao escrutínio não pode ser real.” Sam Harris

Talvez devêssemos apenas abraçar a ilusão. Quando perguntado, “Por que uma experiência relativamente rara – e deliberadamente cultivada – de não-eu superaria esse sentimento quase constante de um eu?” Harris oferece: “Porque o que não sobrevive ao escrutínio não pode ser real.” Fazemos um esforço para ver passado a ilusão porque a realidade é importante. Uma visão clara da realidade é capacitar.

A verdadeira natureza dos dados

Para Harris, o eu “é o que parece ser pensar sem saber que você está pensando”. Da mesma forma com os dados. Observações são o que parece observar. Nós impropriamente impregnam dados e observações com os atributos do conhecimento, enquanto a inteligência que produz observações trabalha na obscuridade.

“O mundo não nos diz o que é relevante. Em vez disso, responde a perguntas. ”Teppo Felin

Quando os dados "nos falam" ou "nos surpreendem", é apenas no contexto de nossas expectativas, nossas explicações. Em seu excelente ensaio sobre a falácia da obviedade , Teppo Felin torna esse argumento vívido. Ele se lembra de um famoso experimento de psicologia em que os participantes não conseguem ver um gorila no meio deles. Mas eles só não conseguem ver o gorila, entre muitos outros aspectos, porque estão ocupados demais contando quantas vezes os jogadores passam a bola de basquete.

O experimento 'Gorillas in Our Midst', Daniel Simons e Christopher Chabris (1999)

Felin nos conduz por uma galeria de observações convincentes sobre observações, reunindo testemunhos de Charles Darwin, Albert Einstein, Arthur Conan Doyle, Karl Popper e muitos outros. Felin resume: “O mundo não nos diz o que é relevante. Em vez disso, responde a perguntas. Quando olhamos e observamos, geralmente somos direcionados para algo, para responder a perguntas específicas ou para satisfazer algumas curiosidades ou problemas ”.

E, no entanto, essa qualidade definidora de dados orientados por teoria é frequentemente negligenciada. Felin conclui: “A atual ortodoxia da IA negligencia a natureza da observação e da percepção, orientada à questão e à teoria”.

Por que a ilusão persiste?

É claro que, como o eu, a ilusão de dados persiste porque é útil. Esta caracterização de leite torna os dados fáceis de falar, uma figura natural na IA. Ele recebe tecnólogos, gerentes e especialistas em política. Ele escala de coquetéis para movimentos políticos. Dados, como informação, devem ser gratuitos!

Ele persiste porque é inerentemente otimista. Se o conhecimento deriva de dados como a água de uma nascente glacial, nós simplesmente temos que tocá-lo e deixar o novo conhecimento fluir. Mais dados, mais conhecimento. Grande parte da hipérbole na IA é levada por essa ilusão.

É difícil abandonar algo tão intuitivo, tão grandioso em suas promessas. Mas as ilusões impõem uma dívida, um obstáculo ao progresso. Eles enganam os legisladores em políticas de dados de tamanho único para todos os fungíveis. Eles enganam as organizações à inação, acreditando que os dados trazem vantagens competitivas impenetráveis. E mais seriamente, eles distraem os tecnólogos dos processos de observação e correção de erros que levam a soluções inspiradas.

Aqui, quero me concentrar nos dados. Eu quero deixar de lado a noção de que os dados são um recurso fungível. Eu quero observar dados no serviço de aplicativos específicos. Se apenas momentaneamente, eu quero que essa ilusão popular de dados desapareça como o gorila em nosso meio. No processo, espero esclarecer onde as vantagens competitivas realmente residem.

Observando dados em estado selvagem

Os exemplos que se seguem são retirados da medicina. Na maior parte, o otimismo para a IA na medicina é levado por novos dados . Os dados não estruturados enterrados nos registros médicos. A recém-quantificada quantificação de sistemas biológicos em dados ômicos. Algoritmos novos que derivam dados de imagens de tecnologias antigas. A integração de várias fontes de dados populacionais e ambientais, como nutrição, fatores de estilo de vida e dados demográficos. Visto à distância, essa imensa paisagem de dados é de tirar o fôlego.

Mas aumente o zoom e você descobrirá que essas fontes de novos dados escondem um segredo. O conhecimento existente fornece o contexto observacional essencial que torna os dados úteis . E isso turva a água consideravelmente.

Alguns exemplos ilustram essas contingências.

Síntese de imagem

Vamos começar com um exemplo particularmente dramático de novos dados em imagens médicas. Imagens médicas procuram exames anormais, que por definição são raros. Para resolver este problema de dispersão de dados, os pesquisadores estão usando a síntese de imagens , modelos geradores para criar imagens médicas artificiais (veja o vídeo abaixo). De acordo com Hoo-Chang Shin, da NVIDIA e seus colegas, “refletindo a tendência geral da comunidade de aprendizado de máquina, o uso de GANs (redes antagônicas geradoras) em imagens médicas aumentou dramaticamente no último ano.”

NVIDIA: Síntese de imagens médicas para aumento de dados e anonimização usando GANs

Para criar esses dados sintéticos, as técnicas tradicionais de aumento de dados na manipulação de imagens são insuficientes. Novas técnicas alavancam o conhecimento médico básico , como a anatomia neural do cérebro e as características esperadas dos tumores. As explicações fornecem o catalisador essencial para novas observações.

Viés nos registros de saúde

Registros de saúde são outra fonte frequentemente citada de novos dados, apenas esperando para serem analisados. Denis Agniel, de Harvard, e seus colegas nos desanimam dessa ideia. Eles descrevem os vieses inerentes aos registros eletrônicos de saúde (EHR) . "Os dados do EHR, sem considerar o contexto, podem facilmente levar a vieses ou achados sem sentido, tornando-o inadequado para muitas questões de pesquisa."

Os autores sustentam que somente modelando explicitamente os processos que tornam os dados tão complexos, é possível obter novos insights. O conhecimento médico , como a fisiopatologia do paciente e as variáveis do processo de saúde, fornece o contexto essencial. Sem a influência orientadora das explicações, os dados enganam.

Avaliações de risco poligênico

Mesmo fontes aparentemente objetivas, como dados genéticos, estão profundamente entrelaçadas no complexo médico mais amplo. Na Nature , Matthew Warren recentemente revisou as avaliações de risco poligênico , chamando-o de um dos desenvolvimentos mais promissores e controversos na medicina preditiva. "Os escores poligênicos somam as pequenas – às vezes infinitesimais – contribuições de dezenas a milhões de pontos no genoma, para criar alguns dos mais poderosos diagnósticos genéticos até hoje".

Preocupações de viés algorítmico são generalizadas. Mas mais relevante para nossa discussão é a profunda dependência do conhecimento médico existente . “Sem entender as diferenças biológicas representadas pela pontuação – ou os fatores ambientais e sociais ligados a interagir com essas diferenças – é impossível saber como intervir.” As explicações impedem que intervenções eficazes sejam realizadas.

Randomização mendeliana

Outro exemplo particularmente importante de pensamento baseado em dados é a randomização mendeliana (veja o vídeo abaixo), onde a genética é usada para imitar os ensaios clínicos . Como relata Gary Taubes , os pesquisadores usam as diferenças genéticas naturais para realizar experimentos virtuais em medicina, ciências sociais, psicologia e economia. Por exemplo, variantes genéticas que aumentam o nível de colesterol HDL "bom" na corrente sanguínea de uma pessoa podem ser usadas como base para comparar as taxas de ataques cardíacos entre populações. Como experimentos virtuais podem ser realizados sem coletar novos dados, o resultado é "uma explosão de estudos".

Uma cartilha de dois minutos sobre randomização mendeliana

Enquanto explosões de novos estudos, como explosões de dados, são universalmente expressas em termos otimistas, os pioneiros da randomização mendeliana "agora parecem tão preocupados sobre como a técnica será mal utilizada como eles estão empolgados com sua promessa." Enquanto aleatorização mendeliana pode iluminar o impacto ao longo da vida dos genes, ele não pode determinar se os tratamentos ligados a essa informação afetarão positivamente os pacientes no presente. Para ser útil, os dados devem estar situados em estruturas explicativas muito mais amplas.

Ao revisar esses exemplos, você está, sem dúvida, impressionado com a variedade e o volume dos dados. Mas o que o anima , o que lhe dá vida? Os dados são adquiridos com base nas expectativas do que é necessário e no que é ignorado. Os dados são gerados com base em explicações de como o mundo funciona. Os dados são interpretados e aplicados dentro de um edifício de apoio ao conhecimento.

O poder dos dados se dissipa à luz das explicações. A IA amplia dramaticamente nossa capacidade de observação, assim como os telescópios amplificam nossa visão do cosmos. Mas as explicações ditam onde o telescópio deve apontar, e as explicações dão sentido ao que encontramos.

Último suporte dos dados

Por fim, recuamos para a última posição dos dados : os dados devem ser bons. Esvaziado de explicações, os dados são uma casca. E assim, adicionamos continuamente novos qualificadores para sustentar a ilusão. Os dados estão no volume, na variedade, na velocidade, na variabilidade, na veracidade e assim por diante. Fazemos isso porque dados fungíveis não têm significado. Fazemos isso porque dados fungíveis são uma afronta à realidade.

Megan Beck e Barry Libert descrevem uma percepção chocante que viaja com o pensamento baseado em dados. “As empresas que competem para definir e implementar simultaneamente o aprendizado de máquina estão descobrindo, para sua surpresa, que a implementação dos algoritmos usados para tornar as máquinas inteligentes sobre um conjunto de dados ou problema é a parte fácil.”

Então, onde está o valor? Em bons dados. “O que não está se tornando comoditizado, no entanto, são dados. Em vez disso, os dados estão surgindo como o principal diferencial na corrida de aprendizado de máquina . Isso ocorre porque dados bons são incomuns. ”O mundo lança dados incessantemente, mas dados bons são incomuns.

Beck e Libert acrescentam essa observação crítica: as organizações estão desatentas às explicações. “O passo que muitas organizações omitem é criar uma hipótese sobre o que importa”. Eles sentem falta do gorila no meio deles porque estão ocupados demais contando basquete.

Uma nova perspectiva

Quando mudamos nossa perspectiva para explicações, fica claro por que bons dados são incomuns. Bons dados são incomuns porque boas explicações são incomuns. Explicações são as coisas raras que fazem a coisa toda ir.

Os dados são inúteis sem um processo inteligente de observação , um processo começa antes que a IA seja construída e continue por muito tempo após o término do trabalho da IA. Esse fluxo de conhecimento depende das pessoas que contribuem com todos os elementos criativos mais associados à inteligência. Essa é a verdadeira fonte de vantagem competitiva duradoura. E, ao contrário dos dados, a criatividade é um recurso difícil de monopolizar.

Quando a ilusão de dados é quebrada, mudanças de perspectiva e oportunidades se tornam mais nítidas. Ao contrário do petróleo, os dados não parecem mais um recurso escasso. O mundo produz uma quantidade esmagadora disso. Mesmo os dados antigos, continuamente explorados por insights, são revelados como um recurso renovável. É renovado por novas perspectivas e novas explicações.

Como a consciência, essas coisas estão longe de serem compreendidas. Nós realmente não temos ideia de como o conhecimento conjectural é criado. É o bloco criativo que fica entre nós e a inteligência geral artificial. Mas colocar ilusões em seu lugar, como a ideia de que o conhecimento é derivado de dados, não nos aproxima.

Concentrando-se na natureza das explicações só poderia.