AI em Radiologia: a busca pelo aplicativo assassino

Amine Korchi MD Seg , 1 de Julho · 10 min ler

Acabamos de encerrar nossa reunião anual do SIIM de 2019 em Denver, durante a qual a IA esteve no centro das discussões.

Eu gostaria de refletir sobre dois painéis de discussão com os quais eu interagi na quarta-feira 26 e quinta-feira 27 de junho no Teatro do Pavilhão de Exposições. O primeiro foi sobre a economia da IA e o segundo sobre seu estado atual na prática. Eu também tive muitos intercâmbios interessantes com os principais interessados do ecossistema de IA e Radiologia, desde a Academia até as Corporações.

O painel incluiu um grupo diversificado de faculdades acadêmicas, empreendedores e partes interessadas do setor, incluindo startups (Infervision, Ai.doc, Qure.ai …) e empresas estabelecidas (Nuance, Blackford Analysis, Intelerad, Theracon, GE, Philips …). O público era composto por médicos (principalmente radiologistas) e HealthIT e Imaging Informatics Professionals.

A economia da AI – SIIM 2019 Denver, EUA

Durante o debate, pulei o microfone e contei sobre minha experiência como investidor. Durante os últimos anos, tive várias oportunidades de investir em startups que desenvolviam software baseado em aprendizado profundo para imagens médicas, mas até agora não havia feito nenhum investimento…

Apesar de equipes confiáveis, tecnologias promissoras, um grande mercado e conselhos consultivos sólidos de domínio, eu não estava confiante o suficiente para embarcar nesses empreendimentos. A peça que faltava era a falta de um caso de negócios sólido e de defensibilidade a longo prazo.

A maioria, senão a maioria das startups que operam neste campo, está focada na solução de problemas clínicos muito restritos, baseados em conjuntos de dados de treinamento limitado e tendencioso, e estão fortemente focados em pixels de imagem, e não no panorama geral da área de saúde; isso evitará que eles desenvolvam produtos escalonáveis e clinicamente úteis e construam empresas lucrativas e bem-sucedidas.

As empresas que estão construindo algoritmos para detectar uma ou poucas anormalidades radiológicas em uma modalidade de geração de imagens médicas estão construindo recursos em vez de produtos . O delineamento entre um recurso e um produto pode ser difícil de definir no mundo digital.

Por exemplo, como radiologista, um software que me permite destacar nódulos ou um pneumotórax em uma radiografia de tórax, que analisarei de forma abrangente de qualquer maneira, é uma característica, uma boa ideia, mas que não é de nenhuma maneira obrigatória. -ter. Além disso, e da minha experiência pessoal, provavelmente o meu fluxo de trabalho será mais lento, induzindo cliques adicionais e esforços de análise visual, e poderá desviar minha atenção de outra descoberta sutil.

Outro exemplo é um software que prioriza a lista de casos de pacientes de acordo com a emergência dos achados de imagem; também é um recurso interessante, mas não um produto. Eu até tenho dúvidas sobre sua utilidade clínica! Por quê? Porque uma TC da cabeça com um achado emergente, como um grande hematoma com efeito de massa, é imediatamente vista pelo técnico de radiologia que realizou o exame, que por sua vez alerta imediatamente o médico responsável pelo paciente. Sem mencionar a condição clínica do paciente que alerta sobre a urgência de olhar para as imagens… Além disso, não é o relato radiológico emergente de tal tomografia computadorizada do cérebro que terá impacto no manejo do paciente… é a disponibilidade de um neurocirurgião e anestesista capaz de realizar uma craniectomia descompressiva emergente. Você realmente acha que o neurocirurgião vai esperar pela confirmação do radiologista de uma hérnia cerebral aguda antes de correr para a sala de cirurgia? Dados esses processos estabelecidos, o ecossistema e a equipe (que é o caso, pelo menos, no mundo ocidental), não há necessidade central de tal solução.

Birenbaum, Dale & Bancroft, Laura & Felsberg, Gary. (2011). Imaging em Acute Stroke. O jornal ocidental de medicina de emergência. 12. 67–76.

No entanto, a priorização da lista de trabalho pode trazer um valor adicional em centros de alto volume com leitura remota e diferente, permitindo uma redução do tempo de retorno de pequenas hemorragias intracranianas, fraturas ósseas, tumores ou acidentes vasculares isquêmicos perdidos que, de outra forma, permaneceriam no final do estudo. lista de leitura.

E mesmo que os estudos clínicos tenham mostrado uma redução no tempo de retorno e no relato de um sangramento intracraniano, não é suficiente concluir que este é um produto indispensável. O que precisa ser comprovado é que os usos das ferramentas de priorização de IA ou de apoio à decisão clínica levam a um melhor resultado clínico para o paciente e a uma redução dos custos de assistência médica.

De outra perspectiva, o maior problema é, na verdade, não sinalizar o sangramento intracraniano quando a TC é realizada; O problema mais premente e sério é marcar os pacientes que têm um sangramento intracraniano enquanto estão em casa ou esperando na sala de emergência.

O que estamos vendo no espaço empresarial hoje é a FNAC; “Recurso, não uma empresa”

Embora as empresas de recursos possam evoluir para empresas de produtos de sucesso, como o Twitter e o Dropbox, ainda sou cético em relação a esse potencial para empresas de AI em estágio inicial em Radiologia.

Não é improvável que algumas dessas startups, que eu categorizo como um não-para um investimento, possam rir do meu post em 10 anos. De fato, os humanos são ótimos em explicar e analisar eventos do passado, mas são muito fracos em prever o futuro. Note que é por isso que eu não comprei Homo Deus: Uma Breve História de Amanhã de Yuval Noah Harari, mesmo que eu tenha vorazmente lido Sapiens: Uma Breve História da Humanidade estando convencido de que é uma obra-prima do século.

Portanto, vamos ver agora o que é um produto, em oposição a um recurso: um produto é um software (ou um conjunto de software) que fornece múltiplas soluções (recursos) para uma série de situações clínicas e não clínicas para concluir um trabalho e não apenas uma tarefa. O trabalho do radiologista é muito diversificado e vai desde a supervisão da realização de um exame até a análise e o relatório dos resultados. Uma tarefa é apenas uma parte do trabalho que contribui para a execução do trabalho. As tarefas são, por exemplo, elaborar um protocolo personalizado para um exame, abrindo o estudo, exibindo imagens nas telas, procurando nódulos nos pulmões, relatando, adicionando imagens-chave ao relatório, comunicando os resultados…

Um sistema de informações radiológicas (RIS) é um produto, a sinalização automática de exames que não foram lidos uma hora depois de sua conclusão é um recurso.

Produtos de sucesso resolvem um problema e dependendo de como você define o problema que você pretende resolver, sua receita potencial pode ser 10 a 50 vezes maior e o impacto na saúde pode ser transformador, em vez de levemente incremental…

Vejamos alguns problemas que os médicos podem resolver:

– O longo tempo de resposta antes de um radiologista analisar uma tomografia computadorizada da cabeça com um sangramento intracraniano que tenha sido esquecido pelo tecnólogo e pelo médico responsável

– A oclusão da artéria cerebral perdida por um residente queimado em radiologia

– O longo tempo de espera na sala de emergência antes de um paciente com uma hemorragia intracraniana ser submetido a uma TC da cabeça

– O número absurdamente alto de TC de cabeça normal realizado em um cenário de emergência para excluir hemorragia intracraniana e liberar o paciente

ou

– A ocorrência imprevisível de um acidente vascular cerebral em um indivíduo saudável?

Eu ordenei estes problemas propositalmente, com um aumento gradual do impacto nos cuidados de saúde, redução de custos e tamanho do mercado e, ao mesmo tempo, uma distância gradual da análise radiológica de pixels.

Para resolver esses problemas inquestionáveis e tornar os cuidados com a saúde de novo, não se deve trancar seus pensamentos dentro das paredes do departamento de radiologia e, em vez disso, procurar implacavelmente o problema mais significativo a ser resolvido: o Killer App!

Esta não é uma tarefa fácil e a IA não é a primeira tecnologia a atingir um muro de tijolos.

Durante outro painel de discussão no SIIM 2019, levantei a voz para traçar um paralelo entre a IA e a cirurgia robótica. A cirurgia robótica como uma tecnologia inovadora está presente há 3 décadas e, embora pareça intuitivo e óbvio que poderia substituir cirurgiões humanos por ser mais precisa e menos invasiva, não sofre fadiga, faz com que o cirurgião trabalhe menos e mais ergonomicamente e pode até mesmo permitir cirurgias remotas, ainda não foram substituídas e ainda mais surpreendentemente muitas, se não a maioria das empresas de cirurgia robótica falharam … Apenas uma chegou ao mercado com uma adoção global e sustentável (pelo menos até hoje ): Intuitivo Surgical Inc. Por quê?

Porque a Intuitive Surgical com seu sistema cirúrgico da Vinci encontrou o Killer App para intervenções robóticas; prostatectomia radical para câncer de próstata. Estudos mostraram que a prostatectomia radical robótica induz menor sangramento intra-operatório, menor taxa de readmissão e complicações menos graves, como impotência sexual ou incontinência urinária. Enquanto alguém inicialmente e intuitivamente pensaria que a cirurgia robótica irá transformar rapidamente todos os campos da cirurgia, apenas um tem adotado com sucesso essa nova tecnologia até hoje. Também é importante notar que o sistema cirúrgico da Vinci se tornou uma ferramenta de marketing para os hospitais se tornarem um hospital mais seguro e de alta tecnologia.

Sistema cirúrgico Da Vinci – Intuitive Surgical Inc.

As startups de IA estão atualmente construindo algoritmos baseados em aprendizado supervisionado, treinados em conjuntos de dados coletados principalmente de hospitais em sua região geográfica, tornando-os, por definição, não representativos do mundo real e limitados em tamanho. Esses conjuntos de dados são anotados por radiologistas humanos e, portanto, é impossível obter um conjunto de dados selecionados na escala de milhões de estudos (para comparação, o ImageNet inclui mais de 14 milhões de imagens cotidianas escritas à mão, das quais pelo menos 1 milhão com caixas delimitadoras). Mesmo que alcancem a anotação de um grande conjunto de dados para um caso de uso, eles precisarão anotar novamente as mesmas imagens novamente para um caso de uso diferente ou apenas para uma anotação de nível de pixel mais precisa! Esta é uma maneira muito pouco eficiente e insustentável de construir algoritmos…

Além do gargalo de dados, não vejo uma forte defensibilidade dessas empresas no longo prazo. Eu acho que a parte da ciência de dados do desenvolvimento de um algoritmo está a caminho de se tornar uma mercadoria. As ferramentas usadas para construir esses algoritmos são de código aberto e estão disponíveis para qualquer pessoa com as habilidades necessárias e as habilidades agora podem ser aprendidas online com muitos recursos gratuitos de alta qualidade (fast.ai, coursera…). Eu prevejo o surgimento de um número incontável de startups em todo o mundo construindo algoritmos para casos de uso restrito com utilidade clínica questionável na vida real e generalização limitada.

Por todas essas razões, acredito que os institutos acadêmicos e apoiados por acadêmicos têm as melhores chances de desenvolver algoritmos robustos e clinicamente úteis, baseados em conjuntos de dados grandes, equilibrados e representativos. Estou pensando especificamente no Stanford AIMI e no Boston CCDS . Esses institutos são apoiados por hospitais acadêmicos de primeira linha e possuem equipes multidisciplinares internas, incluindo médicos, cientistas de dados, desenvolvedores de produtos e profissionais de negócios. Eles podem ser menos capazes, do que uma empresa apoiada pelo capital de risco, de criar aplicativos sofisticados fáceis de usar e de escalonar rapidamente, mas, mesmo assim, acho que eles têm as melhores chances de criar os melhores algoritmos.

Durante o SIIM 2019, o Stanford AIMI apresentou uma interessante aplicação não-pixel de aprendizado profundo. O algoritmo que eles treinaram foi destinado a classificar pacientes com suspeita de embolia pulmonar (EP) em 3 categorias distintas: Baixo, Moderado e Alto risco. Eles usaram dados demográficos e clínicos comumente disponíveis, como codificação do CDI, medicamentos vitais, pacientes internados e ambulatoriais, como entrada na engenharia de recursos temporais. Se o paciente for classificado como de baixo risco, nenhuma imagem e nenhum tratamento será realizado. Se classificado como de alto risco, um tratamento sem exame de imagem seria realizado, e somente se o risco for moderado, o paciente passaria por uma angio-TC torácica para procurar uma EP. Eles testaram seu algoritmo em um conjunto de dados distinto em Stanford e de um centro médico externo (Duke) e alcançaram um desempenho com uma AUC> 0,81 superando os algoritmos convencionais (rGeneva; AUC em torno de 0,5).

Projeto Stanford AIMI PERFORM-AI apresentado pelo Dr. Matthew Lungren no SIIM19 Desempenho do teste de Stanford AIMI PERFORM-AI (curva ROC) apresentado pelo Dr. Matthew Lungren no SIIM19

Em relação à alta proporção de angiotomografia de tórax realizada sem encontrar EP, é óbvio que esse tipo de abordagem (antes que uma imagem seja feita) beneficiaria o sistema de saúde de uma maneira maior e mais sistêmica do que um algoritmo que apóie o radiologista. encontrar embolia pulmonar em uma angio-TC de tórax já realizada.

Embora possamos pensar intuitivamente que um algoritmo que detecta PE em angio-CT torácica economiza tempo e esforço dos radiologistas enquanto aumenta sua precisão, a experiência de vida real mostra um efeito adverso adverso que diminui o benefício desses algoritmos; uma consequência oculta da ocorrência de falsos positivos.

Falso positivos são falsos alarmes, exames normais sinalizados como anormais pelo algoritmo. Nesse caso, como radiologista responsável pelo resultado, sem dúvida passaria mais tempo analisando esse estudo específico em busca da anormalidade ausente e isso me custaria uma quantidade significativa de tempo … que poderia contrabalançar o benefício desse algoritmo ganhou em outros casos positivos verdadeiros. O tempo total e esforço gasto analisando múltiplos angio-CT para PE com o algoritmo AI poderia ser igual ou pior do que sem o algoritmo.

E os falsos negativos? casos anormais classificados como normais por um algoritmo? Um erro que não poupa nenhum radiologista (a taxa de erro do radiologista é estimada em aproximadamente 3% ao ano), mas é atribuída às limitações intrínsecas do ser humano. Aceitaremos com resignação esses erros quando feitos por um algoritmo de caixa preta?

A Dra. Amine Korchi é uma parceira de risco da Fusion e da Polytech Ventures na Suíça. Ele é um neuroradiologista com experiência adicional em imagem e intervenção musculoesquelética, foi pioneiro em um tratamento inovador para a osteoartrite do joelho com base na embolização e desenvolveu uma especialização em Tecnologia da Saúde, Inovação e Investimentos. Siga-o no twitter @AmineKorchiMD & Medium .