Todo lo que comes previene o causa cáncer (o las dos cosas a la vez)

Todos tenemos, en mayor o menor medida, la misma sensación: lo que hoy se descubre que es bueno para algo no tardará por ser refutado por otro estudio en el que se diga todo lo contrario. Que si antes a los bebés se les ponía boca abajo para dormir y ahora es boca arriba, que si había que beber un vaso de vino tinto al día y ahora resulta que ni vino, ni cerveza, etc, etc… Se trata de un hecho tan extendido en la literatura científica que incluso ha sido bautizado como fenómeno de Proteo en honor a un antiguo Dios griego del mar con una marcada propensión a cambiar de aspecto.

La noticia médica del día. Figura extraída de referencia [4]

¿Es que todo lo que comemos está relacionado con el cáncer?

En 2013, Jonathan D. Schoenfeld y John PA Ioannidis publicaron un estudio titulado «Is everything we eat associated with cancer? A systematic cookbook review«, en el que hacían una revisión de la literatura publicada en torno a la ingredientes alimentarios y el cáncer. Los autores seleccionaron 50 ingredientes al azar de un típico libro de recetas americano con la intención de ver cuántos estudios se habían publicado relacionando la alimentación con un aumento o disminución del riesgo de padecer cáncer. Querían hacerse una idea de cuántos estudios había y qué tipo de conclusiones sacaban.

La búsqueda de artículos en PubMed encontró que para el 80% de los ingredientes -40 de los 50 alimentos seleccionados-, existía al menos un estudio informando sobre el riesgo de padecer cáncer. En la Figura 1 podemos observar las asociaciones halladas (cada punto corresponde a un estudio): las positivas (mayor riesgo de cáncer) a la derecha del eje vertical y las negativas (menor riesgo) a la izquierda. En el gráfico de arriba los estudios se clasifican según el tipo de cáncer, y en de abajo según el tipo de alimento. (Sólo se muestran los ingredientes con 10 estudios o más relacionados con el cáncer).

Asociaciones entre alimentos y el riesgo de cáncer (aumento de riesgo en la parte derecha, disminución del riesgo en la izquierda). Figura extraída de referencia [1]

¿Cómo es que los diferentes estudios podían hallar, para un mismo ingrediente, una asociación así como la contraria? Para aclararlo Ioannidis y Schoenfeld analizaron la distribución de los p-valores resultado de los análisis de datos presentados en las publicaciones, y se encontraron con que la significación estadística era demasiado débil, o incluso inexistente, en gran parte de los estudios. Es decir: por mucho que se afirmase haber encontrado asociaciones con el cáncer, la evidencia aportada no era suficiente en muchos de los estudios.

Un examen riguroso de una buena colección de publicaciones en el área de la epidemiología de los alimentos hacía ver que no se había determinado una relación clara entre los alimentos y el cáncer, a pesar de todo el ruido generado. ¿Significaba esto que los estudios de PubMed eran falsos?

Los p-valores, el quid de la cuestión

Los estudios sobre los alimentos no eran fraudulentos, pero seguramente hacían un uso poco riguroso de una herramienta popular en estadística: el p-valor.

La historia comienza hace unos noventa años con el gentleman Sir Ronald. A. Fisher (1890-1960), biólogo, genetista y estadístico británico y uno de los padres de la estadística moderna. Fisher popularizó una herramienta llamada p-valor, inicialmente introducida por otro gran estadístico, Karl Pearson (1857-1936).

Karl Pearson (1857-1936) y Ronald A. Fisher (1890-1960), inventores del p-valor

El p-valor ayuda a razonar sobre la evidencia proporcionada por un experimento en términos de probabilidades. Por ejemplo, supongamos que diseñamos un experimento para determinar si el café produce cáncer. Se toma un grupo de consumidores sanos y otro, de características comparables –edad, sexo, estilo de vida…–, de no consumidores. Se les hace un seguimiento durante un tiempo y –simplificando mucho– al final del experimento se determina la proporción de personas que ha contraído un determinado cáncer. Supongamos que esta proporción resulta un 10% más elevada en el grupo de consumidores que en el grupo de no consumidores. ¿Será la diferencia debida al consumo de café, o puede ser atribuible a una pura casualidad (improbable, aunque posible)?

La idea del p-valor es simple: Veamos qué pasa si suponemos que el efecto es nulo (i.e. si pensamos que el café no produce cáncer). Bajo este supuesto, es posible calcular la probabilidad de obtener un 10% o una diferencia superior, por pura casualidad. Razonando así obtenemos una medida de hasta qué punto el experimento está acorde con la idea de que el café no produce cáncer. Fisher usó la palabra “significativo” para referirse a un resultado que mereciera la atención del investigador: si el p-valor era bajo, y de acuerdo con el resto de información a su disposición, el investigador tomaría una decisión en relación al riesgo de consumir café.

Pero, ¿qué era un p-valor bajo? Ahí estaba la pega: la responsabilidad de interpretarlo recaía enteramente en el investigador. Fisher propuso el valor de 0.05 (un 5%) como un umbral convencional: “We shall not often be astray if we draw a conventional line at 0.05…» (“No estaremos desencaminados si fijamos una línea convencional en el 0.05…”).

Otros dos estadísticos, Jerzy Neyman (1894-1981) y Egon Pearson (1895-1980, hijo de Karl), no sintiéndose cómodos con la subjetividad del procedimiento de Fisher, fueron un paso más allá e introdujeron los test de hipótesis. Antes de realizar el experimento, se diseñaría una regla para poder tomar la decisión de si “rechazar” o “no rechazar” la hipótesis nula –i.e. que el café no produce cáncer–. Una vez realizado el experimento, los datos nos indicarían qué conclusión sacar.

Egon Pearson (1895-1980) y Jerzy Neyman (1894-1981), propusieron los test de hipótesis como medio para evaluar hipótesis científicas.

En su razonamiento, Neyman y Pearson introdujeron la idea de “hipótesis alternativa” –suponer que el café produce un efecto determinado, por ejemplo, aumentar el riesgo de cáncer en un 10%– como contrapartida de la “hipótesis nula” –suponer la ausencia de efecto–. Así pues, eran dos las hipótesis que se evaluaban, lo que daba lugar a dos posibles formas de equivocarse: el “error de “tipo I”, que ocurría cuando el investigador decidía rechazar la hipótesis nula siendo ésta cierta (i.e. cuando erróneamente se concluía que existía un efecto); y el “error de tipo II”, que se cometía al aceptar la hipótesis nula siendo cierta la alternativa (existía un efecto dado).

Controlando ambos tipos de errores (un umbral para el error de tipo I, nivel alfa, y otro para para el error de tipo II, nivel beta), era posible controlar todos los posibles errores al sacar conclusiones de experimentos, avanzando así en el conocimiento científico. En palabras de Neyman y Pearson “(…) without hoping to know whether each separate hypothesis is true or false, we may search for rules to govern our behavior with regard to them, in following which we insure that, in the long run of experience, we shall not often be wrong.’” (“Sin pretender saber si cada hipótesis por separado es verdadera o falsa, podremos buscar reglas que rijan nuestro comportamiento con respecto a ellas, de tal manera que siguiéndolas aseguraremos que, al acumular experiencia, no nos equivocaremos demasiado a menudo”).

Pero, aunque Neyman y Pearson nunca propusieron emplear el nivel 5% como una línea decisoria para el error de tipo I, este umbral caló hondo en la comunidad científica, convirtiéndose casi en un objetivo “per se” en todo tipo de experimentos. Los resultados eran divididos en dos clases, los “estadísticamente significativos” (p<alfa) y los “no significativos” (p>=alfa), con alfa fijado en 0.05, y solamente los resultados “significativos” eran publicados, reduciendo a menudo el análisis de datos a un “tuneo” de los parámetros de tal manera que dieran lugar a p-valores inferiores a 0.05 (actividad que se conoce como “p-hacking”).

Todo ello tuvo como consecuencia un deterioro en la calidad de las publicaciones científicas y una crisis de reproducibilidad en muchas áreas de la ciencia, debido a que muchos resultados, establecidos sobre la base de una evidencia demasiado pobre, no eran reproducibles por equipos de investigadores independientes.

El valor predictivo positivo de un estudio, o hasta qué punto es cierto un hallazgo

Muchos de los estudios sobre los alimentos de Ioannidis y Schoenfeld eran seguramente resultado de un sesgo de publicación (la tendencia a publicar solamente los resultados positivos) y del “p-hacking” (explorar las posibles combinaciones al analizar los datos hasta conseguir un resultado positivo).

Sin embargo, no era éste el único problema. La epidemiología de los alimentos es un campo en el que se pueden estudiar todo tipo de cosas (existan efectos o no). Podemos plantear estudios para ver si el café, la pimienta o la carne de vacuno son cancerígenos. Algunas de las investigaciones plantearán estudiar un efecto real (que se da en la naturaleza), mientras que otros buscarán un efecto que no existe. A priori, no sabemos cuál de ellos está en lo cierto. Y, estadísticamente, es posible descartar la hipótesis nula en ambos casos.

Ahora bien, para un estudio con un p-valor dado (imaginemos que éste es inferior a 0.05, y que por tanto se ha publicado), ¿podemos estimar la probabilidad de que el efecto estudiado exista de verdad? La respuesta es sí. Esa probabilidad se denomina “valor predictivo positivo” del estudio.

John P.A. Ioannidis, el mismo autor del estudio de los alimentos, publicó en 2005 un ensayo con un título rotundo: “Why most published research findings are false” (“Por qué son falsos la mayoría de hallazgos publicados”). Ioannidis desarrolló una formulación teórica sobre la tasa de falsos positivos, lo que permitía llegar a una serie de corolarios aplicables a cualquier área de la ciencia. La fórmula más básica para el valor predictivo positivo de un estudio (PPV o “positive predictive value”) es la siguiente:

PPV = (1-beta) R /[(1- beta)*R+alfa]

En la fórmula intervienen el alfa y beta de Neyman-Pearson, de modo que si alfa o beta disminuyen, el estudio tiene mayor probabilidad de ser cierto (como era de esperar). La novedad es que también interviene un tercer elemento, R, la razón entre el número de estudios verdaderos y falsos en un determinado campo de estudio. Imaginemos que de 1000 estudios que pudiéramos plantear, 500 fueran verdaderos y 500 falsos (aunque esto, a priori, no lo podamos saber). En ese caso R valdría 1 (por cada estudio verdadero, hay uno falso).

Empleando la fórmula anterior vemos que en un área de la ciencia con un R=1, para un estudio con un nivel alfa igual a 0.05 y un beta igual a 0.2 (niveles habitualmente usados), la probabilidad de que el hallazgo sea falso será del 5.9/100 (en la tabla no se usa beta sino 1-beta, el poder del estudio, esto es, 1-beta = 0.8). Y vemos otras variantes en la tabla. Si para ese mismo estudio exigimos un nivel alfa de 0.001 (esto es, con el mismo diseño, nos ponemos más estrictos, y no concluimos que se trata de un resultado positivo hasta obtener un p-valor inferior a 0.001), la probabilidad de que el hallazgo sea falso baja hasta 0.1/100.

Así pues vemos que exigir un p-valor por debajo de 0.001 ayuda, pero R actúa como un factor limitante: en un área muy especulativa, en la que solamente el 1% de las ideas planteadas fuesen correctas, con 1-beta igual a 0.8 (valor estándar), aún exigiendo un p-valor de 0.001, tendríamos un 11% de falsos positivos según la tabla.

Proporción de resultados “significativos” que realmente son falsos positivos, en función del poder del estudio, el p-valor y el porcentaje de suposiciones “a priori” correctas. Tabla extraída de [3]

Una estimación directa en las publicaciones médicas

La tabla anterior sigue el modelo teórico de Ioannidis, pero ¿qué pasa en la práctica? En 2013, Leah R. Jager y Jeffrey T. Leek (a este último lo podéis seguir en Twitter y en el blog SimplyStatistics) se propusieron hacer directamente una estimación de la proporción de falsos positivos (i.e. estudios que concluían haber encontrado un efecto sin que tal efecto exista en realidad) en revistas médicas, y situaron la cifra en torno al 14%.

Los autores recogieron 5.322 p-valores reportados en los resúmenes de los 77.430 artículos publicados en las revistas The Lancet, JAMA, NEJM, BMJ, y AJE entre los años 2000 y 2010, y los utilizaron como dato para realizar la estimación. Para realizar el cálculo se basaron en algoritmos ya empleados por otros autores (Efron y Tibshirani, en 2002, en el campo de la genómica). Jager y Leek no solo vieron que la proporción de “hallazgos falsos” era más baja de lo indicado por Ioannidis y otros; vieron, además, que esta proporción no aumentaba notablemente con los años o con el número de artículos publicados. En cualquier caso, la cifra no hacía pensar que “la mayoría de los hallazgos publicados” fuesen falsos en medicina.

Estimación de la proporción de “hallazgos falsos” en las publicaciones médicas a lo largo de los años y según la revista. Extraído de [5].

En los últimos años, la credibilidad de muchos hallazgos en ciencia ha quedado en entredicho por culpa de prácticas poco rigurosas como la de hackear p-valores y publicar solamente los resultados “estadísticamente significativos” (con un p-valor inferior a 0.05). Ésta y otras prácticas impiden el avance de la ciencia y han sido criticadas desde hace muchos años, incluso directamente prohibidas por algunas revistas.

La formulación teórica propuesta por Ioannidis en su conocido ensayo nos ayuda a valorar al completo el panorama: a un empleo dudoso de la estadística, se le suma a la exploración de áreas muy novedosas y con un ratio de hipótesis verdaderas y falsas (R) posiblemente muy bajo, seguramente dando lugar a un cóctel de falsos hallazgos.

Pero, ¿es la situación tan desesperada como la pinta Ioannidis en su ensayo? Pues hay quien dice que no. Hemos visto que Leah R. Jager y Jeffrey T. Leek tienen razones para situar la proporción de hallazgos falsos en torno al 14% en las publicaciones médicas, así como para suponer que esta proporción no aumenta notablemente con los años ni con el número de artículos. Pero el rifirrafe continúa porque Ioannidis publicó el comentario titulado “ Why «An estimate of the science-wise false discovery rate and application to the top medical literature» is false.”

En cualquier caso, y mientras la discusión continúa en esas altas esferas, para nosotros los mortales es preciso, y además técnicamente posible, adoptar prácticas tan buenas y necesarias como la de compartir los datos, compartir el software para que otros puedan reproducir los cálculos, y compartir los resultados en sitios donde todo el mundo los pueda leer, discutir y contrastar. Conseguiremos que la ciencia avance de forma segura solo si caminamos por esta senda.

Referencias:

[1] Schoenfeld, J. D., & Ioannidis, J. P. (2013). Is everything we eat associated with cancer? A systematic cookbook review. The American journal of clinical nutrition, 97(1), 127-134.

[2] Ioannidis, J. P. (2005). Why most published research findings are false. Chance, 18(4), 40-47.

[3] Wacholder, S., Chanock, S., Garcia-Closas, M., & Rothman, N. (2004). Assessing the probability that a positive report is false: an approach for molecular epidemiology studies. Journal of the National Cancer Institute, 96(6), 434-442

[4] Sterne, J. A., & Smith, G. D. (2001). Sifting the evidence—what’s wrong with significance tests?. Physical Therapy, 81(8), 1464-1469.

[5] Jager, L. R., & Leek, J. T. (2014). An estimate of the science-wise false discovery rate and application to the top medical literature. Biostatistics, 15(1), 1-12.

[6] Biau, D. J., Jolles, B. M., & Porcher, R. (2010). P Value and the Theory of Hypothesis Testing: An Explanation for New Researchers. Clinical orthopaedics and related research, 468(3), 885-892.

[7] Francisco R. Villatoro. (2012) Atención, pregunta: ¿Todo lo que comemos causa cáncer? Naukas http://francis.naukas.com/2012/12/01/atencion-pregunta-todo-lo-que-comemos-causa-cancer/