martes, mayo 16, 2017

Grados de libertad del investigador: Tamaños del efecto

Pensemos en un familiar que nos contara que durante las últimas vacaciones estuvo en Chilipistán y, por tomarse un café en la plaza de la capital, le cobraron 50 chilipistunes, la monedad local. Uno no sabe si expresar sorpresa alguna al respecto ni tampoco si corresponde hacerlo por los altos o bajos precios. Igual de carentes de reacción nos puede dejar leer un informe en el que se describe un programa de mejora de la autoestima académica que consigue mejorar en tres puntos la puntuación en el test XYZ, habitualmente usado para medirla. Sin embargo, hablar de un café a cinco euros o de una reducción de la probabilidad de muerte en un 20% gracias a un tratamiento son datos más sencillos de interpretar.

Puesto que la psicología hace años que se ha convertido en la "ciencia de los autoinformes y de los movimientos de dedos", es común que los resultados de nuestras investigaciones no sean datos en unidades de medida de fácil comprensión. Para hacer frente a este problema, se suelen calcular medidas de asociación, tamaños del efecto, que, mediante algunas transformaciones mejorar la interpretabilidad. El Grupo de Trabajo de la APA de Inferencia Estadística recomendaba en su artículo de 1999 (pág. 599):
Always present effect sizes for primary outcomes. If the units of measurement are meaningful on a practical level (e.g., number of cigarettes smoked per day), then we usually prefer an unstandardized measure (regression coefficient or mean difference) to a standardized measure (r or d).
Hay varias familias de tamaños del efecto. En psicología se trabaja principalmente con dos: medidas de distancia y medidas de varianza explicada.
  • Como medida de distancia, la más común es la d de Cohen. ¿En cuántas desviaciones típicas se aleja la media de un grupo de la media de otro grupo? Como cualquier psicólogo ha pasado en algún momento de su formación por 'la tabla de la z', tenemos cierta soltura en entender diferencias expresadas en puntuaciones típicas.
  • Como medidas de varianza explica contamos con la R² y la r, la correlación de Pearson. ¿En qué medida el recurrir a una variable para pronosticar otra nos permite reducir el error de predicción (explicar la varianza) en comparación con no usarla? Eso es R² y su raíz cuadrada es la muy conocida correlación de Pearson. Al estar acotadas entre 0 y 1 la primera y entre -1 y +1 la segunda resultan relativamente sencillas de interpretar, si bien sea de un modo no formal.
En algunos manuales de estadística se reservan las medidas de distancia para cuando la variable independiente es categórica de dos niveles  (vegetariano: no = 0, = 1) y la variable dependiente es numérica (puntuación en malestar psicológico evaluado mediante la escala de Afecto Negativo del test PANAS) y las medidas de varianza explicada cuando ambas variables son numéricas (índice de masa corporal y malestar psicólogico). Las primeras en contextos donde se aplica una prueba T de Student de comparación de medias y las segundas para cuando se calculan correlaciones/regresiones. Sabemos, sin embargo, desde hace décadas que pruebas T y regresiones son caras de una misma moneda de modelado estadístico.

Cojamos el caso de vegetarianismo y malestar psicológico. Asumamos que ambas variables no guardan relación. ¿Qué cabe esperar que ocurra en en una prueba T de comparación de medias? No rechazaremos la hipótesis de igualdad de medias a nivel poblacional. ¿Y qué ocurrirá si intentamos pronosticar malestar mental a partir del vegetarianismo? Si ambos grupos comparten media, saber si alguien es o no es vegetariano no nos ayuda en nada a realizar pronósticos; contar con esta variable no supone diferencias con respecto a no disponer de ella, puesto que en todos los casos el mejor pronóstico será la media total. Eso implica una correlación poblacional de cero y, por tanto, esperar que no rechazaremos la hipótesis nula de que r(poblacional) = 0. Resulta posible comparar medias con una prueba de T de comparación de medias o con una correlación/regresión.

Si ambas pruebas son, en realidad, la misma con distinto ropaje, no ha de sorprendernos que las medidas de tamaño del efecto que generan sean convertibles entre sí. Estas son las fórmulas para ello:


En las fórmulas, r(pb; point-biserial) es la correlación de Pearson y p1 y p2 son las proporciones de cada uno de los dos grupos de comparación (proporción de no vegetarianos en la muestra; proporción de vegetarianos).

Si bien estas medidas de tamaño del efecto son algo más comprensibles, no lo resultan por completo. Hablar en chilipistunes puede ser fácil de entender para los naturales del país o incomprensible para quien nunca había oído hablar de esa moneda. En el mundo de los tamaños del efecto la mayor parte de nosotros somos turistas, con más o menos tiempo por el país, que todavía sudamos para hacer la conversión de ds y rs a algo que nos resulte familiar. Para hacer frente a esta situación se han ofrecido varias guías de cómo categorizar los tamaños del efecto en valores bajos, medios o altos. Indudablemente, en psicología los valores de referencia más empleados son los de Cohen (1988, 1992).

Valores de d entre 0.2 y 0.5 se entienden como pequeños, entre 0.5 y 0.8 como medios y por encima de 0.8 como grandes; rs entre 0.1 y 0.3 como pequeñas, entre 0.3 y 0.5 como medias y por encima de 0.5 como grandes.

Tenemos, pues, (a) la recomendación de emplear medidas de tamaño del efecto y (b) varias opciones disponibles para ello. Nos encontramos, pues, ante otra decisión más a tomar por parte del investigador que amplía sus grados de libertad. En este contexto entendemos como grados de libertad todas esas decisiones analíticas que dotan de flexibilidad los resultados de una investigación. Habitualmente leemos una investigación como si los análisis realizados fueran los únicos posibles. Sin embargo, no suele ser así. Cuando valoramos la relación entre vegetarianismo y malestar psicológico, ¿incluimos el sexo como covariable en el modelo? ¿Descartamos de la muestra a aquellas personas que manifiestan estar en este momento en tratamiento por algún trastorno de salud mental? ¿Descartamos a las personas con valores faltantes en algún ítem de la PANAS? ¿O reemplazamos por la media? ¿O vamos con imputación múltiple? Cada una de estas decisiones va a cambiar, si bien sea ligeramente, los resultados, tanto en el tamaño del efecto a informar como en el valor p del contraste de hipótesis. El tamaño del efecto que empleamos es también algo a decidir.

Un investigador desea aproximarse a la verdad y publicar sus resultados. Lo primero nutre a la ciencia; lo segundo a sí mismo. Para publicar los resultados conviene encontrar efectos estadísticamente significativos y, a poder ser, con tamaños del efecto grandes. ¿Qué tiene más opciones de ser publicado en una revista de perfil muy alto, un tratamiento que mejora un poco la recuperación de una enfermedad u otro que lo mejora enormemente?

Como decía, el valor p no va a cambiar si usamos una prueba T de comparación de medias o una correlación. Sin embargo, la categorización del tamaño del efecto como pequeño, medio y grande cambia en enorme medida según escojamos hablar de d o de r. Veámoslo con la siguiente gráfica.

En el eje de las X tenemos la proporción de participantes en el primer grupo. Por simplicidad, será el grupo con mayor tamaño muestral. Esta proporción puede ir desde 0.50 (dos grupos del mismo tamaño; mitad y mitad) hasta aproximadamente 1. Situaciones con p1 = 0.50 podrían ser comparaciones entre mujeres y hombres con muestra comunitaria (regularmente muestras bastantes igualadas en tamaño); situaciones con p1 cercano a 1 serían comparaciones entre personas sin ideación suicida y con ideación suicida en población comunitaria.

En el eje de las Y tenemos la correlación de Pearson, calculada de partir de la d de Cohen. Hemos tomado tres posibles valores de la d (0.2, 0.5, y 0.8) para seguir los puntos de referencia habituales.


¿Qué es lo que vemos?
  • Con una d = 0.8, atravesando ya el límite para ser categorizado como efecto grande, pasa a ser una r = 0.37, correlación media, incluso en el caso más favorable de p1 = p2 = 0.5.
  • A mayor discrepancia en tamaños muestrales entre grupos menor es la r. Mientras que la d es insensible al tamaño muestral (la distancia en malestar mental entre vegetarianos y no vegetarianos no cambia por más o menos que haya en cada grupo), la correlación sí que lo es. Cuando una variable predictora presenta apenas varianza (casi todos los participantes están en un mismo grupo) es complicado que pueda explicar de forma importante la variabilidad en la otra variable.
Por tanto: (a) cuando comparamos las medias de dos grupos, resulta más sencillo informar de tamaños del efecto grandes si recurrimos a la d de Cohen y no a la r; (b) esta tendencia se hace más marcada a mayor discrepancia en tamaños muestrales.

Un investigador puede hacer sus resultados más 'vistosos' sin necesidad de descartar participantes o seleccionar a posteriori variables. Jugando estratégicamente con los indicadores de tamaño del efecto a informar resulta posible.

No entiendan que así estoy invitando a ello. Estoy, por un lado, informando y, por otro, intentando poner de manifiesto dos problemas de la investigación en psicología.
  1. En líneas generales, los investigadores en psicología han renunciado a aprender sobre estadística. Hay dos grandes opciones: o bien se emplean siempre las mismas técnicas, que más que estadística son rituales, o bien se subcontrata el análisis en el estadístico del grupo. No saber de estadística es carecer de uno de los lenguajes básicos de nuestra disciplina y, así, nos pueden meter goles para aburrir.
  2. El nivel de flexibilidad analítica no solo se asocia con prácticas de investigación que ahora vamos viendo como cuestionables (informar parcialmente de condiciones o variables de investigación, probar múltiples análisis y escoger el 'mejor'...). La estadística, en este caso los tamaños del efecto, también está cargada de opciones y por cuál nos decantamos tiene sus implicaciones.
Por cierto... Con una muestra de 784 no vegetarianos y 51 vegetarianos, no hay diferencias estadísticamente significativas entre ambos grupos en puntuación promedio en afecto negativo, p = 0.724.


No hay comentarios:

Publicar un comentario