Médicos, estatísticos e cientistas de vários países escrevem Carta Aberta a autores de artigos científicos sobre a COVID-19

Médicos, pesquisadores médicos, estatísticos e outros pesquisadores quantitativos do Brasil, Índia, EUA e países europeus escreveram uma Carta Aberta  a autores de estudos de covid-19, revistas médicas e à comunidade científica. Na carta eles expõem suas preocupações com relação à interpretação errônea de testes de hipóteses estatísticas em ensaios clínicos para a doença causada pelo coronavírus chinês.

Leia abaixo a Carta Aberta na íntegra:

Preocupações com relação à interpretação errônea de testes de hipóteses estatísticas em ensaios clínicos para COVID-19

Uma parte significativa da comunidade médica, e especificamente alguns artigos em revistas médicas importantes, estão interpretando erroneamente os resultados estatísticos em ensaios clínicos randomizados. Realizados, até agora, para responder à pergunta sobre a eficácia da hidroxicloroquina no tratamento inicial da COVID-19. Embora existam evidências de que a hidroxicloroquina não é eficaz em pacientes graves hospitalizados[1], seu uso nos estágios iniciais da doença ainda está em debate.

Recentemente, três revistas médicas importantes publicaram artigos influentes sobre o uso precoce de hidroxicloroquina para a COVID-19[2][3][4]. Deixando de lado suas limitações de projeto, eles são ensaios clínicos randomizados, que são o padrão ouro em pesquisa médica. Esses três artigos tiveram grande repercussão na mídia, nas políticas públicas e na comunidade científica.

No entanto, esses três artigos compartilham pelo menos um erro em comum: as conclusões que extraem de seus dados estão erradas. Todos os três artigos levam, explicitamente[2][4] ou implicitamente[3], à conclusão de que o tratamento precoce de pacientes com COVID-19 com hidroxicloroquina não é eficaz. Ao dizer que as conclusões estão erradas, não estamos afirmando que a hidroxicloroquina seja eficaz. Esta é uma distinção sutil, mas importante[5].

A hipótese nula nesses artigos é definida como H0: efeito do tratamento = efeito de controle. Em qualquer teste estatístico clássico, a hipótese nula nunca pode ser aceita, apenas não pode ser rejeitada. Esse é um problema bem conhecido[6]. Os ensaios clínicos randomizados são amplamente usados ​​na ciência médica. Todos esses três estudos aplicaram um teste de hipótese estatística para analisar seus resultados e tirar suas conclusões. Eles tiveram resultados semelhantes: todos os efeitos do tratamento medidos nos estudos mostraram resultados positivos, com os grupos de tratamento exibindo melhores resultados do que os grupos de controle em cada variável medida, mas com diferenças não estatisticamente significativas em níveis de confiança de 95%[2][4] ou 90%[3].

A conclusão formal para esses testes de hipótese deve ser que não há evidência suficiente, para a amostra e o teste adotado, para rejeitar a hipótese nula de que o tamanho do efeito do tratamento é igual ao tamanho do efeito do controle para o nível de confiança escolhido. Uma interpretação mais adequada da conclusão formal nesses estudos seria que há evidências de que o efeito do tratamento é positivo, mas essas evidências são estatisticamente inconclusivas, no sentido de que não é possível concluir, em 95%[2][4] (90%)[3] nível de confiança, que o efeito não pode ser atribuído à aleatoriedade.

Em outras palavras, seus resultados trazem evidências de que o tratamento precoce é eficaz. A confusão ocorre porque a evidência é medida por efeitos estatísticos, não por valores de p, que medem a incerteza dessa evidência[5]. Grandes valores de p estão relacionados ao aumento da incerteza nas evidências obtidas. Eles podem ser grandes por dois motivos: um, o tratamento não é realmente eficaz e as evidências encontradas foram devido à aleatoriedade; dois, o tamanho da amostra não era grande o suficiente para medir com precisão o efeito real do tratamento.

Portanto, pelo menos inicialmente, se o valor de p não for pequeno o suficiente, não será possível atribuir esse fato ao efeito do tratamento, uma vez que o tratamento pode ser eficaz e o grande valor de p pode ser atribuído a um pequeno tamanho de amostra, a limitação do estudo não do tratamento. Recentemente, a Nature publicou um editorial para chamar a atenção para o fato que os tamanhos de amostra dos ensaios COVID-19 eram muito pequenos[7].

O fato desses três estudos com hidroxicloroquina (HC) apresentarem resultados positivos, mas inconclusivos, sugere que eles podem ter baixo poder estatístico. Por exemplo, o maior estudo objetivou um efeito relativo prévio de 50% para definir o tamanho da amostra[2]. Embora possa não ser alto quando comparado aos tratamentos para algumas outras doenças, isso parece muito ambicioso no contexto da COVID-19, conforme mostrado pelo efeito relativo da dexametasona de 10,8% mostrado na tabela 1 abaixo.

A intenção primária desta carta, entretanto, é chamar a atenção para a interpretação errônea dos resultados do teste de hipótese, não para realizar uma análise completa de seus poderes estatísticos. Portanto, optamos por mostrar na tabela 1 uma comparação simples de uma parte de seus resultados com aqueles do célebre ensaio randomizado de recuperação em dexametasona (DX) para COVID-19[8]. Observe que os valores de p exibidos abaixo, para amostras hipoteticamente maiores, não são estimativas formais. A intenção da comparação a seguir é principalmente enfatizar que os valores de p não podem ser comparados diretamente sem levar em consideração os tamanhos dos efeitos que estão medindo e os tamanhos das amostras usadas[9].

Usamos o artigo da dexametasona como referência porque as comunidades médica e científica concordam amplamente com sua importância para a COVID-19.

TABELA 1

Coluna 1 Coluna 2 Coluna 3 Coluna 4 Coluna 5 Coluna 6 Coluna 7
Artigo Efeito absoluto de redução Efeito relativo de redução Tamanho da amostra (N) Valor P original (para teste de Fisher exato) Valor P para
N=6425
Valor P para N=821
Recovery[8] (DX) 2,8% 10,8% 6425 0,016 0,016 0,439
Boulware[2] (HC) 2,4% 16,9% 821 0,351 0,004 0,351
Skipper[3] (HC) 6,0% 19,8% 395 0,214 0,000 0,060
Mitja[4] (HC) 1,1% 16,0% 293 0,814 0,067 0,480

 

As colunas 2 e 3 mostram a redução no efeito absoluto e relativo, respectivamente, para os grupos de tratamento em comparação aos grupos de controle. Exibimos o efeito da dexametasona no estudo da Recovery[8] sobre a porcentagem de mortes em pacientes hospitalizados. Para o estudo de Boulware[2], o efeito é mostrado em termos de porcentagem de resultados sintomáticos em participantes expostos. Para o estudo de Skipper[3], mostramos o efeito sobre a porcentagem de participantes expostos com sintomas contínuos após 14 dias. Para o estudo de Mitja[4], o efeito é em termos da porcentagem de desfechos hospitalizados durante um período de 28 dias em pacientes com sintomas inicialmente leves.

Todos os quatro artigos mostram melhorias médias em seus respectivos resultados, mas essas variáveis ​​são distintas umas das outras e, portanto, as colunas 2 e 3 não são diretamente comparáveis. Por outro lado, as colunas 6 e 7 são comparáveis. A coluna 5 mostra os valores p originais dos estudos para os respectivos tamanhos de amostra. Observe que o único resultado estatisticamente significativo, no nível de 95%, é obtido para a dexametasona (linha 1). No entanto, observe também que o tamanho da amostra N = 6425 neste estudo é consideravelmente maior do que o tamanho da amostra em todos os três estudos de hidroxicloroquina: 821, 423, 293.

Para ilustrar o quanto os tamanhos das amostras podem influenciar os valores p originais obtidos, calculamos nas colunas 6 e 7 os valores p hipotéticos que teríamos obtido para os mesmos efeitos absolutos e relativos em cada estudo, mantendo as mesmas proporções obtidas em cada estudo para os grupos de controle e de tratamento, mas equalizando os tamanhos da amostra para o mesmo tamanho dos dois estudos maiores. Se todos os estudos tivessem tamanho de amostra N = 6425, a coluna 6 mostra que nos artigos Boulware[2] e Skipper[3] o tratamento com hidroxicloroquina possivelmente teria um valor p mais significativo do que o estudo de dexametasona. Embora enfatizemos que esses valores p são meramente ilustrativos e não podem ser considerados como estimativas.

Por outro lado, com tamanhos de amostra de 821, 395 e 293 pacientes, o tamanho do efeito da dexametasona seria não significativo e teria valores de p iguais a 0,439, 0,621 e 0,667, respectivamente. Proporcionalmente, o valor de p seria menor que 0,05 apenas para uma amostra maior que 4228. Nesses casos, os valores de p podem ser considerados como estimativas formais.

Portanto, se o estudo Recovery[8] tivesse o mesmo tamanho de amostra do maior estudo inicial de tratamento com hidroxicloroquina, haveria uma alta probabilidade de que a hipótese nula não fosse rejeitada e que a dexametasona não fosse recomendada para pacientes com COVID-19. Estes últimos exemplos mostram o quanto o valor p pode ser afetado pelo tamanho da amostra e que interpretações baseadas apenas em valores p podem levar a conclusões inadequadas.

Essas comparações trazem alguma luz à discussão se a falta de significância estatística nos ensaios iniciais de tratamento com hidroxicloroquina foi devido aos efeitos do tratamento ou ao pequeno tamanho da amostra. Torna-se claro que não é possível afirmar que o tratamento precoce de pacientes com COVID-19 com hidroxicloroquina não seja eficaz como afirmam as conclusões. Ao contrário, as evidências de todos esses três ensaios randomizados apontam para a eficácia do tratamento, embora enfatizemos a necessidade de que estudos maiores ainda sejam necessários para confirmar essas evidências positivas. Lembre-se, se por um lado uma grande quantidade de incerteza pode estar exibindo um efeito falso positivo, por outro, ela também pode estar escondendo um efeito positivo ainda maior do que o medido.

Devido à importância dos ensaios clínicos na tomada de decisão pública da COVID-19, acreditamos ser fundamental que esses três estudos corrijam suas conclusões e divulguem essas correções. Em uma pandemia, a urgência da publicação é justificada e mais erros podem aparecer. No entanto, as melhores práticas científicas, incluindo a interpretação adequada dos dados, não devem ser deixadas de lado. Como a declaração da American Statistical Association afirma, “reduzir a análise de dados ou inferência científica a regras mecânicas de “linha brilhante” (como “p<0,05″) para justificar alegações ou conclusões científicas pode levar a crenças errôneas e tomadas de decisão inadequadas”[9].

Esta carta aberta é assinada por estatísticos, pesquisadores médicos, médicos e outros pesquisadores quantitativos. A lista completa de signatários e afiliações pode ser encontrada abaixo.

Arquivo em Inglês: OpenLetter-Hydroxy.

Conclusões dos artigos

Aqui, copiamos as conclusões dos três artigos sobre hidroxicloroquina discutidos no texto acima.

Boulware et al.[2]

https://www.nejm.org/doi/full/10.1056/NEJMoa2016638

Conclusão principal (em resumo): “a hidroxicloroquina não preveniu a doença compatível com Covid-19 ou confirmou a infecção quando usada como profilaxia pós-exposição dentro de 4 dias após a exposição”.

Discussão: “Neste ensaio, altas doses de hidroxicloroquina não preveniram a doença compatível com Covid-19 quando iniciada dentro de 4 dias após uma exposição de alto ou moderado risco”.

Skipper et al.[3]

https://www.acpjournals.org/doi/full/10.7326/M20-4207

Conclusão principal (em resumo): “A hidroxicloroquina não reduziu substancialmente a gravidade dos sintomas em pacientes ambulatoriais com COVID-19 inicial leve”.

“No geral, a hidroxicloroquina não causou uma diminuição estatisticamente significativa na prevalência ou gravidade dos sintomas durante o período de estudo de 14 dias”.

“Isso se baseia em outros dados de ensaios clínicos randomizados sobre hidroxicloroquina, que não mostraram nenhum benefício para a profilaxia pós-exposição”.

Mitjà et al.[4]

https://academic.oup.com/cid/article/doi/10.1093/cid/ciaa1009/5872589

Conclusão principal (em resumo): “Em pacientes com Covid-19 leve, nenhum benefício foi observado com a HCQ além dos cuidados habituais”.

Discussão: “Os resultados deste ensaio clínico randomizado excluem de forma convincente qualquer benefício virológico ou clínico significativo da HCQ em pacientes ambulatoriais com Covid-19 leve”.

Referências

[1] Horby et al., Effect of Hydroxychloroquine in Hospitalized Patients with COVID-19: Preliminary results from a multi-centre, randomized, controlled trial. Doi: https://doi.org/10.1101/2020.07.15.20151852

[2] Boulware DR, Pullen MF, Bangdiwala AS, et al. A randomized trial of hydroxychloroquine as postexposure prophylaxis for Covid-19. N Engl J Med (2020). Doi: 10.1056/NEJMoa2016638

[3] Skipper, C. et al., Hydroxychloroquine in Nonhospitalized Adults With Early COVID-19: A Randomized Trial. Annals of Internal Medicine. https://doi.org/10.7326/M20-4207

[4] Mitjà, O. et al., Hydroxychloroquine for Early Treatment of Adults with Mild Covid-19: A Randomized Controlled Trial. Clinical Infectious Diseases, ciaa1009, https://doi.org/10.1093/cid/ciaa1009

[5] Makin, T. and Orban de Xivry, J. Science Forum: Ten common statistical mistakes to watch out for when writing or reviewing a manuscript: Over-interpreting non-significant results. eLife 2019;8:e48175 DOI: 10.7554/eLife.48175

[6] Amrhein, V., Greenland, S. and McShane, B. Scientists rise up against statistical significance. Nature 567, 305-307 (2019). DOI: 10.1038/d41586-019-00857-9

[7] Editorial, Coronavirus drugs trials must get bigger and more collaborative. Nature 581, 120 (2020) Doi: 10.1038/d41586-020-01391-9

[8] The RECOVERY Collaborative Group, Dexamethasone in hospitalized patients with Covid-19 – Preliminary Report. N Engl J Med (2020). DOI: 10.1056/NEJMoa2021436

[9] Ronald L. Wasserstein & Nicole A. Lazar (2016) The ASA Statement on p-Values: Context, Process, and Purpose, The American Statistician, 70:2, 129-133, DOI: 10.1080/00031305.2016.1154108

Lista de Signatários

  1. Marcio Watanabe, PhD Statistics Universidade de São Paulo (Department of Statistics/Universidade Federal Fluminense; Brazil)
  2. Amber D. Bethea, PA-C MBA Health Care University of Miami (Department of Cardiology, Baylor Scott & White Heart and Vascular Hospital; USA)
  3. Bernardo Borba Andrade, PhD Statistics University of Minnesota (Department of Statistics/Universidade de Brasília; Brazil)
  4. Cláudia N. Paiva, PhD Biophysics Universidade Federal do Rio de Janeiro (Department of Microbiology/Universidade Federal do Rio de Janeiro; Brazil)
  5. Cristiana Altino de Almeida, MD Universidade Federal de Pernambuco (Former President of the Brazilian Society of Nuclear Medicine; Brazil)
  6. Daniel Victor Tausk, PhD Mathematics Universidade de São Paulo (Department of Mathematics/Universidade de São Paulo; Brazil)
  7. Dina Goldin, PhD Computer Science Brown University (School of Engineering/University of Connecticut; USA)
  8. Edmund Fordham, PhD Physics Cambridge University (independent Consultant in Physics and Energy technologies, formerly Scientific Advisor to Schlumberger Ltd; United Kingdom)
  9. Edson de Faria, PhD Mathematics CUNY (Full Professor of Mathematics, Universidade de São Paulo; Brazil)
  10. Eliana Benedictis, MD Universidade de São Paulo (former Pharmaceutical Industry Clinical Research Director; Brazil)
  11. Flavio Abdenur, PhD Mathematics IMPA (private sector; Brazil)
  12. Francisco Cardoso, MD Universidade Federal do Rio de Janeiro (Infectologist at Hospital Emilio Ribas, São Paulo; Brazil)
  13. George von Borries, PhD Statistics Kansas State University (Department of Statistics, Universidade de Brasília; Brazil)
  14. Gustavo L Carvalho, MD MBA PhD Medicine Universidade Federal de Pernambuco (Associate Professor of Surgery, Universidade Federal de Pernambuco; Brazil)
  15. John E. McKinnon, MD MSc (Co-Director of the Translational & Clinical Research Center, Clinical Associate Professor, Division of Infectious Diseases, Wayne State University; USA)
  16. José Guilherme de Lara Resende, PhD Economics University of Chicago (Department of Economics/Universidade de Brasília; Brazil)
  17. José Tavares-Neto, MD PhD Clinical Medicine Universidade de São Paulo (Full Professor of Infectious Diseases/Universidade Federal da Bahia; Brazil)
  18. Juan M. Luco, PhD Biochemistry Universidad Nacional de San Luis (Department of Chemistry, Universidad Nacional de San Luis; Argentina)
  19. Leonardo Pezza, PhD Chemistry Unesp (Department of Biochemistry and Organic Chemistry/ Universidade Estadual Paulista Júlio de Mesquita Filho; Brazil)
  20. Lorenzo Ridolfi, PhD Computer Science PUC-Rio (partner Etho Solutions in Data Science; Brazil)
  21. Luiz Ayrton Santos Junior, MD, PhD, Universidade Federal de Pernambuco (President of Brazilian Society of Bioethics PI. Coordinator of Postgraduate Course of Women Health, Federal University of Piaui; Brazil)
  22. Marcos N. Eberlin, PhD Chemistry Universidade Estadual de Campinas (Department of Chemistry, Mackenzie Presbyterian University; Brazil)
  23. Marcus Sabry Azar Batista, MD PhD Internal Medicine Universidade Federal de São Paulo (Professor of Medicine/Universidade Federal do Piauí; Brazil)
  24. Marcus Zervos, MD (Division Head, Infectious Diseases, Professor of Medicine, and Assistant Dean of Global Affairs, Wayne State University School of Medicine; USA)
  25. Marina Bucar Barjud, MD PhD Internal Medicine University of Zaragoza (University of San Pablo CEU; Spain)
  26. Mostapha Benhenda, PhD Mathematics Université Paris 13 (Data scientist/Melwy and COVIND Covid-19 clinical data consortium; Switzerland)
  27. Norman E Lepor, MD FACC FAHA FSCAI (Past President, California Chapter, American College of Cardiology; Geffen School of Medicine, University of California Los Angeles; USA)
  28. Paolo Zanotto, PhD Virology Oxford University (Department of Microbiology/Universidade de São Paulo; Brazil)
  29. Pedro L. O. Volpe, PhD Chemistry Unicamp (Department of Physical Chemistry/Universidade Estadual de Campinas; Brazil)
  30. Peter A. McCullough, MD MPH University of Michigan, (Professor of Medicine/Texas A&M University and Vice Chief of Medicine/Baylor Heart and Vascular Institute; USA)
  31. Rodrigo De Losso, PhD University of Chicago (Full Professor of Economics/Universidade de São Paulo; Brazil)
  32. Rudnei Dias da Cunha, PhD Computer Science Kent University (Full Professor of the Institute of Mathematics and Statistics/Universidade Federal do Rio Grande do Sul; Brazil)
  33. Sabas Carlos Vieira, MD PhD Medicine Universidade Estadual de Campinas (Oncocenter; Brazil)
  34. Sang C. Cha, MD PhD Medicine Universidade de São Paulo (former President of Brazilian Medical Ultrasound Society; Brazil)
  35. Simone Gold, MD Chicago Medical School (FABEM Fellow American Board of Emergency Medicine; USA)
  36. Steven Hatfill, MD MSc University of Capetown (Adjunct Assistant Professor of Clinical Research, George Washington University; USA)
  37. Vijay Gupta, MA Economics, Econometrics & Machine Learning Consultant (former World Bank, USAID, Tech Mahindra, Blackstone Group Technologies, E&Y India, BearingPoint USA; India)

Tradução:
*Prof. Peterson Dayan é Engenheiro Civil (UnB), Mestre em Arquitetura e Urbanismo (UnB), na área de Projeto de Planejamento, Doutorando em Arquitetura e Urbanismo pela UnB – Universidade de Brasília, e Especialista com MBA em Gerenciamento de Projetos pela FGV. Desenvolve sua pesquisa em Planejamento Urbano, examinando os efeitos da Configuração Espacial das Cidades na vida das pessoas. Atualmente é o Diretor de Finanças e Patrimônio do DPL – Docentes Pela Liberdade.

Nota: A Carta Aberta foi originalmente traduzida e publicada no site do DPL, neste link e replicada pelo Conexão Política com a devida autorização.