Temos Big Data em Ciências da Vida?

Ou quantidade de dados ainda é um gargalo?

Nikolay Oskolkov em Rumo à Ciência de Dados Seguir 12 de jul · 7 min ler Fonte da imagem

Com este post eu estou abrindo uma nova coluna de Estatística Matemática e Aprendizado de Máquina para Ciências da Vida, onde vou compartilhar minhas idéias e pontos de vista sobre análise computacional que acumulei trabalhando com cientistas de vida, bem como uma explicação detalhada de algumas estatísticas populares e Métodos de aprendizado de máquina amplamente utilizados em Ciências da Vida, que às vezes podem parecer intransparentes e difíceis de entender.

Big Data: astronômico ou genômico?

Tendo a minha formação em Física Teórica , durante os últimos 8 anos tenho sido muito feliz e feliz por trabalhar em conjunto com pessoas de Ciências da Vida como Biomedicina, Biologia Celular e Ciências Evolucionárias. Muitas vezes ouvi de meus colegas: “Temos Big Data, precisamos analisá-lo, integrá-lo e executar o Machine Learning nele” . Por Big Data meus colegas geralmente significam terabytes e petabytes de espaço em disco ocupados por vários dados de Omics : genômica, transcriptômica, proteômica, metabolômica etc.

De Stephens et al., Plos Biology 13, e1002195 (2015)

De fato, à medida que o seqüenciamento do genoma humano se torna relativamente barato ( ~ 1000 USD por genoma), cada vez mais laboratórios de universidades acadêmicas em todo o mundo podem adquirir informações genômicas completas de centenas e milhares de indivíduos para responder suas perguntas de pesquisa. Recursos públicos como o Projeto 1000 Genomas (~ 2 500 genomas humanos), ExAC (~ 60 000 exomas humanos), UK10K (~ 3 500 genomas humanos até agora) e o mais recente HGDP (mais de 900 genomas humanos raros) fornecem grande quantidade de genomas humanos dados que atualmente excede em muito a lei de Moore .

Já está nas clínicas?

A Precision Medicine beneficia-se enormemente de grandes esforços genômicos como o TCGA (Cancer Genome Atlas) (11.000 tumores humanos em 33 tipos diferentes de câncer) e o UK Biobank (~ 500.000 indivíduos humanos).

O Atlas do Genoma do Câncer (TCGA) e o Biobanco do Reino Unido são enormes recursos de genômica humana

Então, que tipo de pergunta é: “Temos Big Data em Ciências da Vida?”. Há uma tentação de dizer “Sim, certamente, olhe para os enormes esforços genômicos. Agora, devemos ser capazes de usar o conhecimento aprendido de dados genômicos em populações humanas, a fim de obter um DNA humano aleatório e prever se essa pessoa está predisposta a certas doenças , então devemos ser capazes de prever o futuro desse indivíduo e prescrever um tratamento ajustado a este indivíduo em particular. Não é o que a Medicina de Precisão deve fazer? ”.

Precision Medicine está aqui para trazer o tratamento ajustado para assinaturas genéticas individuais

No entanto, acontece que trazer esses esforços genômicos para as clínicas não é simples . O professor Mark McCarthy, da Universidade de Oxford, um dos maiores especialistas mundiais em genética do diabetes tipo 2 (DM2), deu algumas palestras no ano passado com o título.

Agora encontramos mais de 400 sinais genéticos influenciando o Diabetes Tipo 2 (DM2), o que faremos com eles?

Isso não parece muito otimista, não é? Basicamente, diz que temos muitos dados, usamos esses dados para identificar genes relacionados a doenças comuns, como a DM2, no entanto, não estamos próximos de trazer esses genes para a Clinical Diagnostics para previsão antecipada e prevenção dessas doenças.

Genômica prediz mal

Então, qual é o problema, por que não podemos usar esses enormes esforços genômicos nas clínicas? Bem, a resposta curta é que não funciona como esperado. Mais especificamente, os dados genéticos e genômicos não prevêem doenças comuns suficientemente bem. Uma evidência recente do fraco poder preditivo dos dados genômicos para o aneurisma da aorta abdominal (AAA) foi demonstrada pelo grupo de Mike Snyder da Universidade de Stanford:

Curvas ROC para Genômica vs. EHR para AAA de Li et al., Cell 174 , 1361–1372 (2018)

As curvas ROC acima comparam o poder da Genomics vs. Electronic Health Records (EHR) para prever o AAA. EHR representa uma informação clínica bastante trivial, como altura, peso, temperatura corporal, pressão arterial etc. Acontece que essa informação trivial é mais preditiva do que a variação genética no nível do DNA, o que é muito frustrante, levando em conta o grande componente genético. no fenótipo AAA implicando que a informação do DNA deve ser preditiva, mas não é. Esta é uma situação típica para doenças comuns, como DT2, esquizofrenia, doença cardiovascular, etc., que às vezes é chamada de Hereditariedade Desaparecida e significa simplesmente que a Big Data genômica não pode prever doenças comuns .

A maldição da dimensionalidade na genômica

Certamente há várias explicações de por que a genômica tem um fraco poder preditivo. Uma delas é a maldição da dimensionalidade que eu já mencionei no meu post anterior . A maldição da dimensionalidade é a incapacidade de realizar matemática significativa quando o número de características, p , é muito maior que o número de amostras, n , ou seja, no limite p >> n . O genoma humano contém tipicamente de 30 a 90 milhões de mutações genéticas (polimorfismos de nucleotídeo único), enquanto o seqüenciamento de mais de 1.000 a 10.000 indivíduos não é viável economicamente para a maioria das instituições acadêmicas. Assim, a pesquisa genômica opera no espaço de altíssima dimensão , p >> n. Para demonstrar que a matemática realmente explode em altas dimensões, consideremos um modelo linear simples Y ~ X, onde Y é o fenótipo de interesse (doença) e X é a matriz de genótipos (variação genética). A solução do modelo linear pode ser expressa de forma fechada através da matriz de variância-covariância inversa dos genótipos da seguinte forma:

A maldição da dimensionalidade na genômica

Em seguida, o inverso da matriz de variância-covariância dos genótipos é recíproco ao determinante da matriz. Se agora aumentarmos a dimensionalidade de nosso espaço até o limite p >> n, características (mutações em nosso caso) se tornam correlacionadas (redundantes), já que temos um número limitado de observações, n, e não podemos resolver suas diferenças em altas dimensões mais. A partir da Álgebra Linear, sabemos que o determinante de uma matriz com linhas ou colunas correlacionadas se aproxima de zero, o que leva à divergência (singularidade) da matriz de variância-covariância inversa dos genótipos . O mais frustrante é que você nunca sabe quão bem suas características estão correlacionadas em altas dimensões e, portanto, quão perto da singularidade você está. Na melhor das hipóteses, suas bibliotecas R ou Python lançarão um erro de “singularidade”, no pior caso você obterá um resultado / resposta que pareça real, mas na verdade está completamente inflado devido à maldição da dimensionalidade.

Se não Genomics então onde é Big Data?

Portanto, quando meus colegas falam sobre Big Data em genômica, penso em quanto poder estatístico podemos extrair desses dados, em vez de quanto espaço em disco ocupa. Ironicamente, podemos gerar petabytes de ruído gaussiano, o que é absolutamente insignificante de analisar. Então, eu costumo argumentar que com a configuração atual, p >> n, não é fácil executar o Aprendizado de Máquina robusto em genômica, já que a quantidade de dados ainda é um gargalo .

Agora finalmente chegamos à questão no título do post: “Temos Big Data in Life Sciences?”. Minha resposta é sim, mas não é genômica na configuração atual concentrada na variação genética, ou seja, com mutações como características e genomas como observações estatísticas (amostras). No entanto, vejo três áreas em Ciências da Vida em que temos Big Data e, portanto, podem e devem executar o Machine / Deep Learning. Essas áreas são:

  1. Omics de Célula Única
  2. Imagens de Microscopia
  3. Genômica… mas com seqüências como observações estatísticas

No meu post anterior , expliquei por que a biologia Single Cell é ideal para o Machine / Deep Learning. Resumidamente, é por causa dos conjuntos de dados em grande escala (milhões de células) atualmente sendo produzidos neste campo. Aqui, a situação é oposta comparada à genômica, temos p ~ 20.000 genes e n ~ 1.000.000 células , portanto n >> p . A imagem microscópica não precisa ser justificada como um Big Data; de fato, a microscopia automatizada se afoga em tons de dados de imagem. Finalmente, a genômica ainda pode ser vista como um Big Data com uma nota muito importante: não genomas individuais, mas sequências curtas (leituras ou k-mers ) devem ser consideradas como observações estatísticas. Desta forma, tratando os nucleotídeos como características e sequências curtas ao longo do genoma (também conhecida como abordagem de janela deslizante) como observações estatísticas chegamos ao limite n >> p que é perfeito para o Aprendizado de Máquina / Profundidade. Para ver como funciona na prática, por favor, verifique um dos meus posts onde eu demonstro como usar Deep Learning on Ancient DNA , que é também dados genômicos, apenas genômica antiga.

Resumo

Neste post, aprendemos que os dados da Genomics fazem muitas promessas para Ciências da Vida, Medicina de Precisão e Cuidados de Saúde. No entanto, as formas atuais de analisar a genômica sofrem com a maldição da dimensionalidade . Isso pode ser evitado através da reconsideração do que definimos como recursos e amostras no Genomics. Single Omics e Microscopy Imaging são outras duas direções de Big Data em Life Sciences que estão prontas e devem ser analisadas pelo Machine / Deep Learning.

Nos comentários abaixo, deixe-me saber quais métodos analíticos em Ciências da Vida lhe parecem particularmente misteriosos e tentarei abordá-los nesta coluna. Siga-me no Medium Nikolay Oskolkov, no Twitter @NikolayOskolkov e conecte-se no Linkedin . Eu pretendo escrever o próximo post sobre como selecionar os parâmetros ideais para o seu tSNE , fique atento.