¿ “p=0.05” sinónimo de descubrimiento científico ?

abril 11, 2016 2 Comentarios

Valor p estadística p=0.05 Fisher

El doctor BONE investiga un nuevo tratamiento para mejorar la osteointegración de un biomaterial. Pone en marcha un experimento donde se comparan dos grupos: el biomaterial sin tratamiento (Grupo A, control) y el biomaterial con tratamiento (Grupo B). El experimento se desarrolla con normalidad, y al evaluar el resultado, la cantidad de hueso vivo, el clínico quiere saber si existen diferencias entre los dos grupos, A y B. Usa un complejo programa estadístico y extrae un valor p igual a 0.03. Con la certeza de haber descubierto algo nuevo, lo comunica a su asistente, el cuál pregunta:

- “¿Qué es la p?”

- “¿Si p es igual a 0.05, el tratamiento tiene  95% de probabilidad de funcionar?”

- “¿Con un valor p igual a 0.03, tendremos un efecto clínico?”

Mimetis, empresa de base tecnológica y spin-off de la Universidad Politécnica de Cataluña, responde a las preguntas del asistente del doctor BONE (y a muchas más!) en relación con el valor p, apoyándose de manera continua sobre los artículos científicos publicados en revistas indexadas de alto nivel referenciados en el último apartado. Varias figuras están extraídas de los artículos mencionados.

1. ¿Qué es la p y de dónde viene?

El estadístico británico Ronald Fisher fue el primero en introducir el valor p en los años 1920. Su intención era proporcionar una vía sencilla de evaluar si un resultado era significativo o no, en el sentido antiguo de la palabra: si tenía sentido investigar más en esta dirección o no. El planteamiento inicial del cálculo y de la interpretación del valor p no incluía valores de corte, como pueden ser 0.05 o 0.01, sino que se consideraba el valor p como un elemento más además del conocimiento previo del equipo investigador y de otros datos para concluir. En la misma época, Egon Pearson y Jerzy Neyman introdujeron una aproximación diferente al tratamiento estadístico con los conceptos de potencia estadística, falsos positivos, falsos negativos y otros conceptos, dejando de lado el valor p.

La disputa posterior entre Neyman y Fisher, y la extrema complejidad de ambas aproximaciones llevó a la redacción de estrategias mixtas por autores menos expertos, combinando el uso del valor p, de fácil cálculo, con un sistema de “reglas” derivado de la aproximación de Neyman, permitiendo concluir sistemáticamente. Fue cuando un valor de p inferior a 0.05 se empezó a considerar como “estadísticamente significativo”. Goodman comenta:

“El valor p nunca se diseñó para ser usado de la manera actual” 

MimetikOss Injerto Oseo Biomimetico

Elementos a considerar al momento de evaluar estadísticamente el resultado y las conclusiones derivadas de un estudio. El valor p solo no es suficiente para concluir.

2. ¿Cómo se usa y qué significa?

En primer lugar, se define una hipótesis nula. La hipótesis nula en el caso del doctor BONE es la siguiente: "No existen diferencias entre los grupos (A y B)"; en otras palabras que el tratamiento nuevo no tiene efecto.

En segundo lugar, se trabaja con la hipótesis que la hipótesis nula es cierta, y se calcula la probabilidad de conseguir resultados al menos tan extremos como los resultados observados. ¿Cuál es la probabilidad de conseguir el resultado que observó el doctor BONE si el tratamiento no tuviera efecto ninguno? Esta probabilidad es el valor p, igual a 0.03 en nuestro ejemplo. Cuánto más pequeño es el valor p, más probable es que la hipótesis nula sea falsa, en otras palabras que existan diferencias entre grupos. 

 MimetikOss Injerto Oseo Biomimetico

Descripción gráfica del valor p (unilateral). La curva representa la probabilidad de resultado bajo la hipótesis nula (“No existe diferencia entre grupos”, valor 0). El valor p representa la probabilidad del resultado observado más todos los casos más “extremos”, la “cola”.

3. ¿Por qué se usa el umbral 0.05 para identificar diferencias estadísticas?

Por convención, un valor p de 0.05 está considerado como estadísticamente significativo. Este umbral de 5% es, sin embargo, arbitrario y los valores de p deberían ser mucho más pequeños para que se considere una prueba sólida en contra de la hipótesis nula. Es conveniente entonces mencionar en los estudios el valor exacto del valor p. El doctor BONE no se esta equivocando: anuncia el valor exacto del valor p: 0.03.

4. Si el efecto es estadísticamente significativo, también es clínicamente significativo?

El valor p nos permite identificar, por ejemplo, si existen diferencias significativas entre dos grupos. Sin embargo, no transmite ni la fiabilidad de la muestra (tamaño de la muestra), ni la intensidad de la diferencia (el beneficio absoluto del tratamiento). Dos grupos estadísticamente diferentes pueden no tener relevancia clínica si la diferencia es mínima y no justificar el cambio de tratamiento. En este caso, se define un umbral, diferencia mínima necesaria para justificar el cambio de un tratamiento a otro (MCID en Inglés). Cumming aconseja que los investigadores reporten el valor p junto al tamaño de la muestra (la “n”), la intensidad del efecto (“¿qué tan grande es la diferencia entre grupos?”) y los intervalos de confianza, en los cuales existe 95% de probabilidad de encontrar el valor real.

Es difícil contestar a la pregunta del asistente del doctor BONE: observamos diferencias estadísticamente significativas con un valor p igual a 0.03. ¿Cuál es el beneficio para el paciente? ¿Podemos esperar 10% más de hueso? 30% más de hueso? Es la razón por la cuál el valor p tiene que ir acompañado de los intervalos de confianza, y/o de los resultados numéricos del estudio.

MimetikOss Injerto Oseo Biomimetico

Ilustración de resultados de tratamientos con relevancia clínica y p significativa (a); con relevancia clínica y sin p significativa (b), sin relevancia clínica y con p significativa (c); sin relevancia clínica y sin p significativa (d).

5. 3 maneras de usar la p que son incorrectas

  • “Si p=0.05, la hipótesis inicial tiene solamente 5% de probabilidad de ser cierta”

  • Es, indudablemente, el error más común en relación con el valor p. En un estudio estadístico, se extrae una muestra que se considera representativa para evaluar el efecto de un parámetro como por ejemplo, un tratamiento médico. El resultado del análisis estadístico depende en primer lugar de la incertidumbre estadística y no es, en el caso de usar el valor p para analizar, capaz de determinar la probabilidad real del parámetro, en la población total. Una vía sencilla de entenderlo es considerando el hecho de que el valor p está calculado bajo la hipótesis de que la hipótesis nula es cierta (en nuestro caso “el grupo A no es diferente al grupo B”). No es posible entonces, que el valor p defina la probabilidad de la hipótesis nula.

  • “Una diferencia no significativa (p >0.05) significa que no hay diferencias entre grupos”

  • Una diferencia no-significativa difícilmente significa que no existan diferencias entre grupos (i.e. que la hipótesis nula es cierta), sino que refleja que no es el más probable de todos los efectos observados. En el caso de observar una p superior a 0.05, el doctor BONE no podría concluir que su tratamiento es ineficaz.

  • “Una conclusión científica o un tratamiento debería estar basado sobre el valor, significativo o no, de la p”

  • Esta manera de pensar engloba las consideraciones anteriores. Es equivalente a considerar que la intensidad del efecto no es relevante o que las consecuencias clínicas del tratamiento derivan exclusivamente del tratamiento estadístico del estudio diseñado. Las conclusiones estadísticas del estudio se tienen que combinar con trabajos y datos previos. En algunos casos, la conclusión científica puede ser que la hipótesis nula es cierta aunque se observen diferencias estadísticamente significativas, mientras en otros casos, un valor p no significativo puede llevar a concluir que el tratamiento es eficaz. A continuación se ilustra como dos tratamientos presentan el mismo efecto, con valores p diferentes (A, izquierda), y como un mismo valor p puede representar dos situaciones muy diferentes (B, derecha).

    ¿Dónde esta el caso del doctor BONE? Observa una p igual a 0.03, ¿pero cuál es el efecto real del tratamiento?

    MimetikOss Injerto Oseo Biomimetico

    Ilustración de dos tratamientos con el mismo efecto y valores p distintos (izquierda); dos efectos diferentes y un mismo valor p (derecha).

    6. Derivas del uso de la p: el “p-hacking”

    El uso y mal-uso del valor p recibe críticas constantes al poder llegar a conclusiones erróneas en cuanto a la eficacia de los tratamientos. Goodman llama la atención en el hecho de que muchos de nuestros resultados publicados son falsos. El diseño de los estudios, la búsqueda del valor p permitiendo “alcanzar” diferencias estadísticamente significativas y la falta de información al momento de publicar, sean conscientes o inconscientes, son prácticas peligrosas para asegurar un desarrollo científico correcto de nuestro campo. Esta práctica llega a tener tanta amplitud que se integró en el diccionario urbano como “p-hacking”. Se define como:

    “Manipulación estadística para que el resultado presente diferencias estadísticamente significativas. En general, a favor del organizador del estudio.”


    7. Prevención y buen-uso de los métodos estadísticos

    Los expertos proponen protocolos similares a los implementados en el caso de los estudios clínicos randomizados, consistiendo en un registro público del estudio antes de su ejecución. Una plataforma científica transversal está en marcha para armonizar el método científico-estadístico: el Open Science Framework.

    Finalmente, otras alternativas más sencillas aconsejan añadir en la publicación las siguientes palabras: “We report how we determined our sample size, all data exclusions (if any), all manipulations and all measures in the study”. Permite prevenir/notificar posibles exclusiones de puntos y precisar el tamaño de muestra.

    Conclusiones

    La conclusión de esta recopilación de artículos es relativamente directa en las técnicas de análisis estadístico: el valor p es únicamente parte de la determinación del efecto real de un tratamiento. Al análisis del valor p se tiene que sumar los datos previos y el conocimiento del equipo científico. El doctor BONE debería ir con su asistente y el valor p de 0.03, a revisar lo que se sabe del tratamiento nuevo, los estudios previos y el efecto clínico real de este descubrimiento. De esta manera, podrá, de manera fiable, concluir sobre la eficacia del tratamiento nuevo.

    Goodman resume este concepto con las siguientes palabras:

    “Los números son dónde la discusión científica debería empezar, y no dónde acaba”

    Referencias

    - Doll H. Statistical approaches to uncertainty: p values and confidence intervals unpacked. Evid Based Med 2005;10:133–4.

    - Gelman A. Commentary: P Values and Statistical Practice. Epidemiology 2013;24:69–72.

    - Goodman S. A Dirty Dozen: Twelve P-Value Misconceptions. Semin Hematol 2008;45:135–40.

    - Goodman SN. Toward Evidence-Based Medical Statistics. 1: The P Value Fallacy. Ann Intern Med 1999;130:995.

    - Hubbard R, Bayarri M. P values are not error probabilities. Inst Stat Decis Sci Work Pap 2003:27708–0251.

    - Hubbard R, Bayarri MJ. Confusion Over Measures of Evidence (p’s) Versus Errors (α's) in Classical Statistical Testing. Am Stat 2003;57:171–8.

    - Nuzzo R. Statistical errors: P values, the “gold standard” of statistical validity, are not as reliable as many scientists assume. Nature 2014;506:150–2.

    - Goodman S. Of P-values and Bayes: a modest proposal. Epidemiology 2001;12:295–7.

    - Greenland S, Poole C. Living with P Values. Epidemiology 2013;24:62–8.

    - Senn S, Goodman SN. A comment on replication, p-values and evidence (multiple letter). Stat Med 2002;21:2437–44.




    2 Respuestas

    Andrea
    Andrea

    septiembre 13, 2017

    La mejor explicacióoooon, gracias!

    Dasha Garcia Arias
    Dasha Garcia Arias

    junio 22, 2016

    Concuerdo plenamente con el autor y he visto muchos ejemplos de usos inadecuados del valor de p y además una vez que se lo calculamos no saben que hacer con este valor, muchas veces he dicho, si evidentemente hay diferencias en los resultados para que calcular p, la respuesta- tenemos que aplicar esa prueba estadística- casi siempre sin saber ni por qué. Realmente es muy dificil saber para todos que el valor de p, cualquiera que el autor asuma puede llevarlo a una diferencia significativa pues todo depende del fenómeno, evento que se analice y su etiología, naturaleza, lo que hay hasta ahora, cabía preguntarse, ¿cual sería el valor de p que nos marcaría diferencia en un tratamiento que logre que se regenere la función renal en grupo de pacientes nefróticos terminales?
    Gracias

    Dejar un comentario

    Los comentarios se aprobarán antes de mostrarse.


    Ver artículo completo

    Estética dentofacial y la relación entre la inoclusión, la calidad de vida y la autoestima
    Estética dentofacial y la relación entre la inoclusión, la calidad de vida y la autoestima

    diciembre 12, 2017

    Si preguntamos a cualquier grupo de personas por los factores que hacen que una apariencia facial sea agradable, probablemente obtengamos una gran cantidad de respuestas diferentes. Sin embargo, a pesar de los muchos detalles menores, parece haber un conjunto fundamental de principios con los que casi todo el mundo está de acuerdo.

    Craniodentofacial characteristics, dental esthetics–related quality of life, and self-esteem. Anja Gavric, Dubravka Mirceta, Mario Jakobovic, Andrej Pavlic, Magda Trinajstic Zrinski, Stjepan Spalj. American Journal of Orthodontics and Dentofacial Orthopedics, Volume 147, Issue 6, June 2015, Pages 711-718.

    Ver artículo completo

    Implantes dentales en pacientes con osteoporosis: ¿Es factible?
    Implantes dentales en pacientes con osteoporosis: ¿Es factible?

    noviembre 27, 2017

    La terapia de implante dental en pacientes parcial o totalmente edéntulos es un tratamiento comprobado y altamente efectivo para la restauración de las funciones adecuadas de masticación. Sin embargo, a veces los implantes pueden fallar por causa de ciertos factores de riesgo biológicos; se piensa que uno de estos riesgos es la osteoporosis.

    Dental Implants in patients with osteoporosis: a systematic review with meta-analysis. F.C.F.L. de Medeiros, G.A.H. Kudo, B.G. Leme, P.P. Saraiva, F.R. Verri, H.M. Honório, E.P. Pellizzer, J.F. Santiago Junior. Int J Oral Maxillofac Surg. 2017 Jun 23. pii: S0901-5027817931484-4. PMID: 28651805.

    Ver artículo completo

    QUIZZ: ¿Cuánto sabes de injertos óseos?
    QUIZZ: ¿Cuánto sabes de injertos óseos?

    octubre 31, 2017

    ¿¡Qué mejor momento para hablar de hueso que Halloween!?

    ¡Pon a prueba tus conocimientos sobre injertos óseos!

    Ver artículo completo