¿Y qué hay de nuevo sobre el cribado mamográfico? (Parte 3 de 3)

NOTA INICIAL: La crítica a la validez de los programas de cribado mamográfico (como la que aquí leerás) no pone en duda la utilidad de la mamografía como técnica diagnóstica en aquellos casos en los que otros síntomas, por ejemplo la aparición de un bulto, han hecho recomendable la realización de dicha prueba. El lector debe tener muy clara la diferencia entre el programa de cribado y la realización de pruebas diagnósticas personalizadas realizadas a indicación expresa de un especialista ante la presencia de una sospecha clínica.
En un artículo relativamente reciente en la prestigiosa revista New England Medical Journal (la revista médica de mayor impacto del mundo) Bleyer y Welch analizan el efecto que los 30 años de programas de cribado en mujeres mayores de 40 años, desde su puesta en marcha en 1978 hasta el año 2008, han tenido en la incidencia por estadio del cáncer de mama en los Estados Unidos de América. El trabajo es concienzudo, riguroso y bien descrito, y aunque hay otros trabajos en la misma línea, asociados a los programas de cribado desarrollados en otros países, este es a mi juicio el más importante de los publicados por su extensión poblacional y temporal.

Distinguen los autores cuatro estadios para la enfermedad: carcinoma ductal in situ, enfermedad localizada (invasiva pero confinada al órgano), enfermedad regional y enfermedad distal. Los dos primeros se identifican como estadios iniciales (aquellos que son detectados por mamografía) y los dos últimos como estadios tardíos. Obviamente, como resultado del cribado, la incidencia de los estadios iniciales habrá aumentado, esa era la intención, detectar más cánceres en estadio inicial para evitar su progresión a estadios avanzados, pero si damos por hecho que los casos tardíos que se detectaban antes del programa no eran sino cánceres que no habían sido diagnosticados en su fase inicial por no disponer de cribado, esperamos observar un descenso en la incidencia de los estadios tardíos que será, si no igual (debido a la posibilidad de sobrediagnóstico) sí al menos una fracción significativa del aumento en la incidencia de los estadios iniciales. La hipótesis es que la suma de ambas incidencias, los cánceres detectados en estadio inicial y tardío, debe ser igual, o al menos muy similar, antes y después del programa, pues la única consecuencia del mismo será detectar antes los cánceres que en cualquier caso habrían sido detectados en un momento posterior.

Unas figuras pueden ayudarnos a entender esto (en todas las figuras se muestra en rojo la incidencia de enfermedad en estadio inicial y en azul la incidencia de enfermedad en estadio tardío.

En esta primera figura vemos lo que cabría esperar del programa de cribado en una situación absolutamente ideal en la que asumimos que todo el cáncer detectado en estadío inicial son casos que de no ser diagnosticados en ese estadio habrían sido diagnosticados más adelante en un estadio tardío, y que las la incidencias de base (es decir, sin cribado) son estables. En tal caso, la suma de ambas incidencias es constante (salvo el periodo de tiempo en el que hemos empezado a detectar anticipadamente pero esto aun no se refleja en una menor incidencia tardía), pero una vez implantado el programa todo el cáncer es detectado y tratado con total efectividad, por lo que desaparecen todos los casos de estadio tardío.

En esta segunda figura vemos una situación no tan ideal en el que las incidencias crecen progresivamente a un ritmo constante (1% al año, lo cual es una ligera sobreestimación del incremento real). Ahora la suma de ambas incidencias aumenta, pero en este caso, también se alcanza una situación en la que la incidencia de enfermedad tardía ha desaparecido por completo, dado que todos los casos se detectan en estadio inicial.

La tercera figura representa una situación más realista, en la que suponemos, además, que solo el 80% de los cánceres detectados en estadio inicial eran cánceres que de no haber sido detectados habrían progresado a estadio tardío pasados unos años, es decir, aceptando un 20% de sobrediagnóstico entre la población cribada, lo que significa que uno de cada cinco cánceres detectados por el programa no habría evolucionado a estadio tardío aunque no se hubiese detectado y tratado.

En las tres gráficas, el desfase observado entre el aumento en la incidencia de estadios iniciales y el descenso en estadios tardíos es debido al tiempo que debería transcurrir para que la enfermedad evolucionara del estadio inicial al estadio tardío, que se estima de aproximadamente siete años. Así que hemos “esperado” siete años, desde 1983 hasta 1990 para observar el decrecimiento de estadios tardíos, y hemos dado un margen adicional de otros cinco, desde el momento en que la incidencia de estadios iniciales se estabilizó, para estabilizar la incidencia de tardíos.

A la vista de estos gráficos hipotéticos, incluso con el menos ideal de ellos, nadie dudaría de la bondad del programa. Pero ¿que nos dicen los datos reales?

La siguiente gráfica representa los datos reales de incidencia en los EUA recopilados por Bleyer y Welch.

Como vemos, la realidad es mucho más pobre que la mas pobre de nuestras expectativas. En esos treinta años, la incidencia de cáncer de mama en estadios iniciales ha pasado de 112 a 234 por cada 100000 mujeres (122 casos más), coincidiendo este incremento con la introducción de los programas de cribado. El incremento se asocia a la detección de más casos de enfermedad localizada y a la entrada en escena del CDIS que era indetectable antes de la introducción de la mamografía. Por otro lado, la reducción en el número de casos de estadio avanzado, de 102 a 94 por cada 100000 mujeres, se asocia a un menor número de casos de enfermedad regional. El número de casos de enfermedad metastásica es idéntico antes y después de la introducción de los programas. Lo que los datos reales nos dicen es que la incidencia de los estadios tardíos apenas ha descendido tras 30 años de cribado, y que el principal efecto de esta práctica ha sido tan solo un tremendo incremento en la incidencia de estadios iniciales y en el número de mujeres tratadas.

Veamos con detalle el análisis que los autores hacen de estos datos.

En primer lugar, establecen una línea base de incidencia a partir de las estadísticas del trienio 1976-78. La incidencia actual se calcula con los datos del trienio 2006-8. Los autores tienen en cuenta el exceso de cáncer atribuible a la terapia de reemplazo hormonal utilizada extensivamente durante los años 1990 a 2005 (esa “joroba” visible en esos años, principalmente en los estadios iniciales).

Se comparan las incidencias antes y después de la implantación del cribado bajo cuatro escenarios distintos. En el primer escenario, o caso base según la denominación de los autores, se asume que la incidencia subyacente (desconocida) no ha cambiado en estas tres décadas. Con estas hipótesis el efecto del cribado sería evitar el desarrollo a estadio avanzado de solo 8 de esos 122 casos de enfermedad inicial detectados de más por el programa. Los otros 114 casos detectados son sobrediagnóstico. Esto significa que el 33% de todos los casos de cáncer de mama diagnosticados y tratados son sobrediagnóstico y sobretratamiento. Si traducimos las proporciones a números netos, multiplicando por el número de mujeres en la banda de edad considerada (que se ha extraído de las estadísticas de población) obtenemos que el exceso de detección a lo largo de esos 30 años ha sido de 1518000 mujeres.

En un segundo escenario, que los autores llaman ‘’mejor estimación’’ (best guess), se asume un incremento de la incidencia subyacente en la población cribada (mayores de 40 años), igual al observado en la población no cribada (mujeres menores de 40 años), un 0.25% por año tanto para estadios iniciales como avanzados. En este caso el número de mujeres sobretratadas en esos 30 años habrá sido de 1369000.

En el tercer escenario, el ‘’caso extremo’’, los autores asumen un incremento doble para la incidencia en la población cribada, 0.5%, lo que nos daría un total de 1213000 mujeres sobretratadas.

En el cuarto, el ‘’caso muy extremo’’, se calcula la incidencia base para estadios tardíos antes del programa tomando el mayor de los datos observados, lo que resulta en un mínimo de 1016000 mujeres sobretratadas a lo largo de esos 30 años.

En todos los casos, más de un millón de mujeres sobrediagnosticadas y sobretratadas en los EUA en esos 30 años, entre un 33 y un 22% de todos los cánceres de mama diagnosticados en ese país, y entre 70000 y 50000 solo en el año 2008.

En la discusión los autores recuerdan que a pesar de ello, la muerte por cáncer de mama entre mujeres mayores de 40 años ha decrecido en estos treinta años de forma muy importante, un 28% (de 71 a 51 muertes por cada 100000 mujeres) pero esta reducción ha sido mucho más significativa, del 42%, entre las mujeres menores de 40 años, no sometidas al cribado. Por tanto esta reducción debe atribuirse a las mayor efectividad de las nuevas terapias. Y este hecho esperanzador, la efectividad de las nuevas terapias, debe llamar nuestra atención sobre otro aspecto interesante: cuanto mejor es la terapia y mejor por tanto el pronóstico de la enfermedad en todos sus estadios, menor será la ganancia obtenida por un diagnóstico precoz. Esto puede explicar en parte que los ensayos más recientes den peor resultado que los ensayos más antiguos. En cualquier caso, aunque se haya observado esa reducción de la mortalidad, si no se observa, como es el caso, un cambio en la proporción de estadio avanzado entonces la premisa fundamental del cribado, a saber, que la detección precoz modifica la historia natural de la enfermedad, es falsa y el cribado no puede tener un impacto significativo en esa reducción de mortalidad.

Podríamos plantear un quinto escenario en el que se extrapolaran las tendencias observadas en los datos, como en la siguiente figura.

Aun así, el sobrediagnóstico y sobretratamiento significaría más de un 15% de los casos de cáncer de mama tratados.

El trabajo no hace sino reforzar resultados obtenidos por otros autores a partir del análisis de los ensayos clínicos realizados hasta la fecha. Lo que lo hace especialmente demoledor es, en primer lugar, que sus resultados se encuentran en la banda más desfavorable para el cribado (bajo cualquiera de los cuatro escenarios utilizados) y que se trata de un estudio observacional de ámbito nacional, que abarca un largo periodo de tiempo (lo que reduce el sesgo por tiempo de latencia), pacientes de toda índole y una gran variedad de protocolos, lo que hace sus resultados más próximos a lo que realmente ha ocurrido, y seguirá ocurriendo, con la introducción de los programas.

Lo cierto es que hoy, tras la publicación de estos y otros resultados similares, y salvo aquellos más ardientes defensores, entusiastas del cribado, cada vez son más los expertos que ponen en cuestión la continuidad de los programas. Algunos, los más moderados y recién incorporados al debate, consideran que la participación en dichos programas es, cuando menos, un asunto limítrofe, un ‘’close call’’ que dicen los angloparlantes, algo que debe quedar en manos de mujeres y médicos bien informados sobre los riesgos y beneficios esperables y que los mensajes más agresivos utilizados hasta ahora para lograr la participación mayoritaria de la población diana deben ser abandonados. Otros, más veteranos en este debate (como los autores del artículo revisado), consideran llegado el momento de que el cribado deje de considerarse como un indicador de la calidad de la cobertura sanitaria de un país, pues su efecto es muy reducido y sus riesgos considerables. Otros, los que más han sufrido las críticas de los entusiastas, creen que ya es tiempo de hacer público lo que consideran un hecho probado, que los riesgos del cribado superan con mucho los beneficios potenciales y que todos los recursos invertidos no sólo no mejoran la atención sanitaria sino que la dificultan y empeoran considerablemente.

No quiero terminar sin citar dos pequeños referencias de dos investigadores muy significados en este campo (y de esa forma rendirles mi pequeño homenaje). Se trata del artículo de Baum et al. ‘’Screening for breast cancer, time to think… and stop’’ de 1995 y el de Gostzche de 2011, ‘’Time to stop mammography screening’’. Diecisiete años los separan y a la vez los unen. Creo que esos años demuestran que ha pasado el tiempo en que las evidencias contra el cribado y aquellos que las mostraban, se manifestaban discretamente, casi de forma vergonzosa, soportando críticas impropias del debate científico (sobre este particular es interesante leer el artículo de Gostzche donde se relata la razón por la que el primer informe Cochrane no incluyó los datos referentes al sobrediagnóstico).

Hoy la situación es clara. Los datos están ahí. Se puede no estar de acuerdo con ellos y argumentar contra ellos. Pero ya no puedes permanecer al margen. Da igual si estás a favor o en contra. Lo más importante es tu opinión y tu juicio, el compromiso de todos para que la certeza, toda la que seamos capaces de alcanzar, prevalezca. Debe ser público e insobornable. Los potenciales costes y potenciales beneficios del cribado son muchos. Hay demasiado en juego.

El sobrediagnóstico y el sobretratamiento han sido descritos como una nueva epidemia, y significan no solo un grave perjuicio a la población, si no también una parte muy importante del gasto sanitario. Afectan a muchas patologías y medios diagnósticos. Prácticamente cualquier diagnóstico que no esté basado en la presencia de los síntomas que suponen el deterioro objetivo de la salud es susceptible de conllevar cierto nivel de sobrediagnóstico. Y la tendencia aumenta, pero ¿por qué?. La razón es sencilla. Cuando reducimos el umbral diagnóstico, para decidir que personas debemos considerar enfermas, obtenemos un aparente doble beneficio. Mejora el pronóstico del grupo de personas «enfermas», pues hemos incorporado a este grupo a algunas personas «mas sanas», por lo que la supervivencia media del grupo aumenta. Por otro, eliminamos del grupo de personas «sanas» a algunas personas «menos sanas», por lo que la probabilidad de supervivencia también aumenta para este grupo. No es necesario que mejoremos nuestra ciencia médica, ni nuestros tratamientos. El simple hecho de recalificar como enfermos a personas sanas tiene estos prodigiosos efectos.
En los años 30, con motivo de la gran depresión y las migraciones provocadas por el «Dust Bowl» (este es el contexto histórico del libro «las uvas de la ira» de John Steinbeck y la película homónima protagonizada por Henry Fonda), Will Rogers, un famoso humorista y analista político, planteaba, con intención sarcástica, esta misma aparente paradoja que es en realidad un fenómeno estadístico: “Cuando algunos de los habitantes de Oklahoma emigraron a California, el coeficiente intelectual medio subió en los dos estados”.
Algo similar ocurre con el cribado, y como en aquella ocasión, tras la aparente paradoja encontramos una realidad que no tiene ninguna gracia. Este fenómeno estadístico ejerce aquí una «presión evolutiva» que empuja de forma continuada y silenciosa nuestros criterios diagnósticos más y más a la baja. Y sólo una resistencia activa, basada en la completa conciencia de que el sobrediagnóstico es una realidad, puede contrarrestar su efecto.
P.D.: He decidido preparar una cuarta entrega de esta serie a modo de epílogo, que dedicaré tan solo a enumerar una serie de referencias que considero de interés para aquellas personas a las que el asunto del cribado inquiete: algunos artículos más recientes que el de Bleyer y Welch, entre los que ya adelanto aquí el publicado ayer mismo con los resultados del ensayo canadiense sobre cribado mamográfico y que ha sido ya objeto de noticia, algunos vídeos en los que se dan detalles relacionados con el problema del sobrediagnóstico (y que lamentablemente tendrán que ser en inglés) y algunos links donde el lector podrá encontrar más información, por ejemplo el informe del panel de expertos suizo que recomienda abandonar el cribado mamográfico.

¿Y qué hay de nuevo sobre el cribado mamográfico? (Parte 3 de 3)

Posts relacionados