Como o Data Analytics pode apoiar no estudo da COVID-19

DISCLAIMER: Este é um estudo que não teve em conta a metodologia de ensaios clínicos.

O objetivo do estudo é mostrar como a temática da análise da sobrevivência de pacientes com comorbilidades[1] pode gerar informações importantes no contexto atual em que vivemos.

 

Análise de Sobrevivência

A análise de sobrevivência é uma temática estatística que tem o intuito de estudar um determinado evento ao longo do tempo e calcular a probabilidade de sobrevivência a esse evento.

É uma técnica muito utilizada na área da saúde, principalmente em oncologia, para determinar o sucesso de tratamentos e entender a longevidade dos pacientes após uma cirurgia, por exemplo.

No contexto atual, vimos a necessidade de utilizar esta metodologia para tentar entender qual a probabilidade de sobrevivência após o contacto com o novo Coronavírus (SARS-CoV-2) e quais os fatores que podem influenciar a morte do paciente.

Neste estudo utilizámos os dados da Direção de Epidemiologia do México que, à data de 29 de abril de 2020, mostravam um registo de 81.912 testes realizados para o SARS-CoV-2.

Do total de testes realizados:

  • 17.799 eram positivos;
  • 50.850 eram negativos;
  • 13.263 foram inconclusivos.

Além da informação acima foram também utilizados dados de idade, género, comorbilidades pré-existentes e o dia em que começaram a ter sintomas do SARS-CoV-2.

Para este estudo foi definido que a análise seria com base nos dados de todos os pacientes com idade superior a 10 anos que testaram positivo e a janela temporal escolhida foi de entre 3 dias após o início dos sintomas e os 40 dias seguintes.

Após uma “limpeza” mais aprofundada dos dados para eliminar algumas incongruências a amostra total que suportará as conclusões deste trabalho é de 16.506 pacientes.

No final dos 40 dias, 14.946 dos pacientes mantinham-se vivos (6.926 mulheres e 9.580 homens) enquanto que 1.560 faleceram (488 mulheres e 1.072 homens), o que representa 9,5% da amostra.

 

No que diz respeito à condição geral de saúde / comorbilidade dos pacientes, a amostra é composta por:

  • 724 hipertensos;
  • 530 obesos;
  • 142 diabéticos;
  • 483 fumadores;
  • 571 asmáticos;
  • 420 com doença pulmonar obstrutiva crónica (DPOC);
  • 409 com doença renal crónica;
  • 296 tomam medicamentos imunossupressores.

 

Metodologia da Análise dos Dados

Para exploração dos dados foram utilizados métodos estatísticos, entre os quais o estimador Kaplan-Meier – um método não paramétrico que gera uma distribuição de sobrevivência até à ocorrência do evento estudado, que neste caso é a morte do paciente por COVID-19.

 

A função de sobrevivência obtida gera o seguinte gráfico:

Figura 1: Curva de sobrevivência ao SARS-CoV-2 da amostra analisada (total de 16.506 pacientes).

 

Pela análise do gráfico verifica-se que a probabilidade de sobrevivência até aos 40 dias é de 87,9%.

Este método serve também para fazer comparações entre curvas de sobrevivência dado as condições dos pacientes.

Podemos comparar, por exemplo, a curva de sobrevivência entre homens e mulheres e com isso calcular o Logrank teste que compara, estatisticamente, se existe diferenças entre elas:

Figura 2: Curvas de sobrevivência ao SARS-CoV-2 de homens (azul) e mulheres (rosa).

 

Estatisticamente, utiliza-se o Teste de Hipóteses Logrank para verificar se existem diferenças entre as curvas:

 

 

 

Com um p-value do Logrank Test <0,0001 e para um nível de significância de 5%, podemos rejeitar a Hipótese nula (H0), ou seja, existem fortes evidências de que existem diferenças nas curvas de sobrevivência entre homens e mulheres. Por exemplo em t=40 dias, a probabilidade de sobrevivência dos homens é de 85,7% enquanto que das mulheres é de 92,0%.

É importante também verificar as diferenças entre as curvas de sobrevivência considerando a condição geral da saúde / comorbilidades dos pacientes (diabéticos vs. Não diabéticos, asmáticos vs. Não asmáticos).

Vejamos as curvas de sobrevivência entre diabéticos e não diabéticos:

Figura 3: Curvas de sobrevivência ao SARS-CoV-2 de pacientes diabéticos (curva laranja) e não diabéticos (verde).

 

E também entre asmáticos e não asmáticos:

Figura 4: Curvas de sobrevivência ao SARS-CoV-2 de pacientes asmáticos (curva cinzenta) e não asmáticos (curva azul).

 

Entre os diabéticos e não diabéticos, o Logrank Test teve um p-value de <0,0001 para um nível de significância de 5%, portanto rejeita-se a Hipótese nula (H0) – que as curvas não têm diferenças entre elas.

Em t=40 dias, a probabilidade de sobrevivência de um não diabético é de 91%, enquanto que a de um diabético é de 76,4%.

Em relação às curvas entre asmáticos e não asmáticos, o Logrank Test tem um p-value de 0,4 para um nível de significância de 5%. Assim, não podemos rejeitar a Hipótese nula (H0) – que as curvas não têm diferenças entre elas e, por isso, a sua comparação não é exequível.

 

Importante também é olhar para as curvas de sobrevivência consoante a idade do paciente e comprovar se a probabilidade de sobrevivência diminui com o avançar da idade:

Figura 5: Curvas de sobrevivência ao SARS-CoV-2 para vários grupos etários.

 

O Logrank Test teve neste caso um p-value <0,0001 para um nível de significância de 5% e, portanto, rejeitamos a Hipótese nula (H0) de que as curvas não têm diferenças entre elas.

Verificou-se que existe uma diferença significativa entre as curvas das faixas etárias superiores a 50 anos. Por exemplo, para t=40 dias a probabilidade de sobrevivência de um paciente entre os 20 e 30 anos é de 99%, enquanto para idades entre os 50 e 60 é de 86%; e para idades superiores a 80 anos é de 64%.

 

Note-se que as combinações possíveis de comparações de curvas de sobrevivência, com este tipo de dados, são imensas.

É necessário outro tipo de metodologia de modo a quantificar o impacto da condição geral de saúde pré-existente dos pacientes na mortalidade por COVID-19.

Adicionalmente, é importante tentar quantificar as mesmas variáveis, mas independentes da variável tempo, algo que não é possível com o estimador Kaplan-Meier.

Um dos métodos mais utilizados para tal é a Regressão de Cox (dada pela equação seguinte), que tem em conta a proporcionalidade de hazards, isto é, descreve o grau de risco de o evento ocorrer (neste caso a morte por COVID-19) consoante a condição geral de saúde do paciente.

em que os hazards ratios representam o impacto no risco de acontecer o evento.

 

Após várias interações com validações dos pressupostos do modelo e descartando as variáveis que não têm impacto significativo, o modelo final foi:

 

Para os pacientes que tomam medicamentos imunossupressores (“Imnuspresore”), hipertensos (“Hipertenso), obesos (“Obeso”) e doença renal crónica (“Renal_Cronico”) os graus de risco esperados (expected hazards) são calculados através da exponencial de ( e são, respetivamente, de: 1,772; 2,541; 1,408; e 2,279.

Figura 6 – Grau de risco de o evento ocorrer (a morte por SARS-CoV-2) dado a condição geral de saúde / comorbilidades dos pacientes.

 

Calculando os hazards ratio com 95% de confiança para os pacientes que tomam medicamentos imunossupressores o hazard ratio pode variar entre 1,4 e 2,3, ou seja, podemos afirmar com 95% de certeza que o risco de morte por SARS-CoV-2 para quem toma medicamentos imunossupressores é entre 1,4 e 2,3 superior aos que não tomam.

Para os pacientes obesos, o risco de morte por SARS-CoV-2 é entre 1,3 e 1,6 superior aos que não são obesos.

Observando a figura acima também é possível verificar que a condição / comorbilidade com mais impacto no risco de morte por SARS-CoV-2 parece a hipertensão (Hazard ratio de 2,5).

 

Data Analytics na saúde… mas não só!

Concluindo, a análise de sobrevivência pode ser uma ferramenta útil para ajudar todos os profissionais que estão na linha da frente no combate desta terrível doença, podendo ajudar a tomar decisões mais esclarecidas – como por exemplo, quais os grupos de pessoas que devem ser os primeiros a tomar a vacina aquando do seu aparecimento.

É importante ressalvar que a análise de sobrevivência não é exclusiva à área da saúde. Como visto anteriormente, o objetivo destas técnicas serve para analisar um evento ao longo do tempo. Desta forma, a sua aplicação pode ser transversal a qualquer atividade.

Este exemplo é um de muitos de como a analítica dos dados está a transformar todos os setores de atividade, e ilustra bem como a tomada de decisão sustentada em dados valiosos poderá influenciar o sucesso de uma equipa.

A Axians ajuda os seus clientes em toda a sua jornada Analítica, desde a identificação e compreensão dos dados de negócio, até a sua análise e tradução para dados exatos e acionáveis para descoberta de novos insights.

 

Quer saber mais sobre esta solução?

Ver mais sobre Business Analytics

 

Sobre o Autor

Marílio Meireles – Data Scientist na Axians

  • Licenciatura em Economia na Universidade do Minho.
  • Mestrado em Estatística na Universidade do Minho.
  • Background em Analítica.
  • Particular interesse em como utilizar a Analítica no desporto e como esta influencia, principalmente, o basquetebol e futebol.

 

[1] Comorbilidade – Qualquer patologia independente e adicional a uma outra existente e em estudo num paciente, in Dicionário Priberam da Língua Portuguesa (2020).