En investigación, sea del tema que sea, se sabe que los extremos son puntos muy extraños y que, rara vez, se mantienen. Obtener una puntuación extrema en una prueba matemática, en un examen médico o, incluso, lanzando unos dados, son situaciones raras, que, a medida que se vayan repitiendo, implicarán valores más cercanos a la media.

La idea de la regresión a la media viene a ser el nombre que se le da a esa cada vez más cercanía a valores centrales. A continuación explicamos este concepto, además de poner ejemplos del mismo.

¿Qué es la regresión a la media?

En estadística, la regresión a la media, históricamente llamada reversión a la media y reversión a la mediocridad, es el fenómeno que ocurre cuando, por ejemplo, si se ha medido una variable y la primera vez se obtiene un valor extremo, en la segunda medición éste tenderá a estar más cerca de la media. Paradójicamente, si resulta que en su segunda medición da valores extremos, tenderá a estar más cerca de la media en su primera medición.

Imaginémonos que tenemos dos dados y los lanzamos. La suma de los números obtenidos en cada tirada darán entre 2 y 12, siendo esos dos números los valores extremos, mientras que 7 es el valor central.

Si, por ejemplo, en la primera tirada hemos obtenido una suma de 12, es menos probable que en la segunda volvamos a tener la misma suerte. Si se lanzan los dados X veces se verá que, en conjunto, se obtendrán valores más cercanos al 7 que no a los extremos, los cuales, representados gráficamente, darían una curva de distribución normal, es decir, se tenderá hacia la media.

La idea de la regresión a la media es muy importante en investigación, dado que se debe considerar en el diseño de experimentos científicos y la interpretación de los datos recopilados para evitar hacer inferencias equivocadas.

Historia del concepto

El concepto de regresión a la media fue popularizado por Sir Francis Galton a finales del siglo XIX, hablando del fenómeno en su trabajo “Regression towards mediocrity in hereditary stature” (“Regresión hacia la mediocridad en la estatura hereditaria”).

Francis Galton observó que las características extremas, en el caso de su estudio, la altura de los padres, no parecía seguir el mismo patrón extremo en su descendencia. Los hijos de padres muy altos y los hijos de padres muy bajos, en vez de ser respectivamente tan altos y tan bajos, tenían alturas que tendían hacia la mediocridad, idea que hoy modernamente conocemos como media. A Galton le dio la sensación de que era como si la naturaleza buscara la forma de neutralizar los valores extremos.

Cuantificó esta tendencia y, al hacerlo, inventó el análisis de regresión lineal, sentando así las bases de gran parte de lo que es la estadística moderna. Desde entonces, el término “regresión” ha tomado una gran variedad de significados, y puede ser utilizado por los estadísticos modernos para describir fenómenos de sesgo muestral.

Importancia de la regresión a la media en estadística

Como ya íbamos comentando, la regresión a la media es un fenómeno de gran importancia a tener en cuenta en la investigación científica. Para entender el por qué, veamos el siguiente caso.

Imaginémonos a 1.000 personas de la misma edad que han sido examinadas para evaluar su riesgo de padecer un ataque al corazón. De estas 1.000 personas, se ha visto puntuaciones muy variadas, como era de esperar, sin embargo, se ha puesto el foco de atención en las 50 personas quienes han obtenido una puntuación de máximo riesgo. En base a ello, se ha planteado hacer una intervención clínica especial para esas personas, en la que se introducirán cambios en la dieta, mayor actividad física y aplicación de un tratamiento farmacológico.

Imaginémonos que, pese a los esfuerzos que se han hecho elaborando la terapia, esta ha resultado no tener ningún tipo de efecto real sobre la salud de los pacientes. Aún así, en el segundo examen físico, realizado tiempo después de la primera examinación, se reporta que hay pacientes con algún tipo de mejora.

Esta mejora no sería más que el fenómeno de la regresión a la media, habiendo pacientes que, esta vez, en vez de dar valores que sugieren que tienen un elevado riesgo de padecer un ataque al corazón, lo tienen un poco menor. El grupo investigador podría caer en el error de que, efectivamente, su plan terapéutico ha funcionado, pero no es así.

La mejor forma de evitar este efecto sería seleccionando a pacientes y asignándolos, de forma aleatoria, en dos grupos: un grupo que reciba el tratamiento y otro grupo que hará de control. En base a qué resultados se hayan obtenido con el grupo tratamiento comparado con el grupo control, las mejoras las podremos atribuir, o no, al efecto del plan terapéutico.

Falacias y ejemplos de la regresión a la media

Muchos fenómenos son atribuidos como causas equivocadas cuando no se tiene en cuenta la regresión a la media.

1. El caso de Horace Secrist

Un ejemplo extremo es lo que creyó ver Horace Secrist en su libro de 1933 The Triumph of Mediocrity in Business (“El Triunfo de la Mediocridad en los Negocios”). Este profesor de estadística recopiló cientos de datos para probar que las tasas de beneficio en las empresas con negocios competitivos tendían a ir hacia la media con el paso del tiempo. Es decir, que al principio se empezaba muy alto pero, después, iban decayendo, ya fuera por agotamiento o por haber tomado demasiados riesgos al haberse confiado demasiado el magnate.

En verdad, este no era el fenómeno real. La variabilidad de las tasas de beneficio era constante con el paso del tiempo, lo que sucedió fue que Secrist observó la regresión a la media, pensando que realmente era un fenómeno natural el que los negocios que tenían grandes ganancias al principio se estancaban con el paso del tiempo.

2. Las escuelas de Massachusetts

Otro ejemplo, más moderno, es lo que sucedió en la evaluación de cuestionarios educativos en Massachusetts en 2000. En el año anterior, a las escuelas del estado se les asignó unos objetivos educativos a alcanzar. Esto, básicamente, implicaba que la media de las notas de la escuela, entre otros factores, debía estar por encima de un valor acorde a las autoridades educativas.

Pasado el año, el departamento de educación obtuvo la información de todos los resultados de las pruebas académicas administradas en las escuelas del estado, tabulando la diferencia alcanzada por los estudiantes entre 1999 y 2000. Los analizadores de los datos se sorprendieron al ver que las escuelas que peor lo habían hecho en el 1999, que no habían alcanzado los objetivos de ese año, los consiguieron alcanzar al siguiente. Esto se interpretó como que las nuevas políticas educativas del estado estaban surtiendo efecto.

Sin embargo, esto no era así. La confianza en que las mejoras educativas eran eficaces se desvaneció al ver que las escuelas que habían obtenido las mejores puntuaciones en el año 1999 empeoraron su rendimiento al año siguiente. La cuestión fue debatida, y la idea de que realmente había habido mejoras en las escuelas que en 1999 habían obtenido malas puntuaciones fue descartada, viéndose que se trataba de un caso regresión a la normalidad, indicando que las políticas educativas no habían servido de mucho.

Referencias bibliográficas:

  • Mee, R. W. y Chua, T .C. (1991). Regression toward the mean and the paired sample t-test. The American Statistician, 45, 1, 39-42.
  • Rousseeuw, P. J. (1991). Why the Wrong Papers Get Published. Chance 4, 41-43.
  • Schmittlein, D. C. (1989). Surprising inferences from unsurprising observations: Do conditional Expectations really regress to the mean?, The American Statistician, 43, 181-183.
  • González, J. J. (2009), Regresión a la Media: Un Fenómeno Estadístico con
  • Historia y Repercusión Social, Universidad de Las Palmas de Gran Canaria.