Puesto que la psicología hace años que se ha convertido en la "ciencia de los autoinformes y de los movimientos de dedos", es común que los resultados de nuestras investigaciones no sean datos en unidades de medida de fácil comprensión. Para hacer frente a este problema, se suelen calcular medidas de asociación, tamaños del efecto, que, mediante algunas transformaciones mejorar la interpretabilidad. El Grupo de Trabajo de la APA de Inferencia Estadística recomendaba en su artículo de 1999 (pág. 599):
Always present effect sizes for primary outcomes. If the units of measurement are meaningful on a practical level (e.g., number of cigarettes smoked per day), then we usually prefer an unstandardized measure (regression coefficient or mean difference) to a standardized measure (r or d).Hay varias familias de tamaños del efecto. En psicología se trabaja principalmente con dos: medidas de distancia y medidas de varianza explicada.
- Como medida de distancia, la más común es la d de Cohen. ¿En cuántas desviaciones típicas se aleja la media de un grupo de la media de otro grupo? Como cualquier psicólogo ha pasado en algún momento de su formación por 'la tabla de la z', tenemos cierta soltura en entender diferencias expresadas en puntuaciones típicas.
- Como medidas de varianza explica contamos con la R² y la r, la correlación de Pearson. ¿En qué medida el recurrir a una variable para pronosticar otra nos permite reducir el error de predicción (explicar la varianza) en comparación con no usarla? Eso es R² y su raíz cuadrada es la muy conocida correlación de Pearson. Al estar acotadas entre 0 y 1 la primera y entre -1 y +1 la segunda resultan relativamente sencillas de interpretar, si bien sea de un modo no formal.
Cojamos el caso de vegetarianismo y malestar psicológico. Asumamos que ambas variables no guardan relación. ¿Qué cabe esperar que ocurra en en una prueba T de comparación de medias? No rechazaremos la hipótesis de igualdad de medias a nivel poblacional. ¿Y qué ocurrirá si intentamos pronosticar malestar mental a partir del vegetarianismo? Si ambos grupos comparten media, saber si alguien es o no es vegetariano no nos ayuda en nada a realizar pronósticos; contar con esta variable no supone diferencias con respecto a no disponer de ella, puesto que en todos los casos el mejor pronóstico será la media total. Eso implica una correlación poblacional de cero y, por tanto, esperar que no rechazaremos la hipótesis nula de que r(poblacional) = 0. Resulta posible comparar medias con una prueba de T de comparación de medias o con una correlación/regresión.
Si ambas pruebas son, en realidad, la misma con distinto ropaje, no ha de sorprendernos que las medidas de tamaño del efecto que generan sean convertibles entre sí. Estas son las fórmulas para ello:
En las fórmulas, r(pb; point-biserial) es la correlación de Pearson y p1 y p2 son las proporciones de cada uno de los dos grupos de comparación (proporción de no vegetarianos en la muestra; proporción de vegetarianos).
Si bien estas medidas de tamaño del efecto son algo más comprensibles, no lo resultan por completo. Hablar en chilipistunes puede ser fácil de entender para los naturales del país o incomprensible para quien nunca había oído hablar de esa moneda. En el mundo de los tamaños del efecto la mayor parte de nosotros somos turistas, con más o menos tiempo por el país, que todavía sudamos para hacer la conversión de ds y rs a algo que nos resulte familiar. Para hacer frente a esta situación se han ofrecido varias guías de cómo categorizar los tamaños del efecto en valores bajos, medios o altos. Indudablemente, en psicología los valores de referencia más empleados son los de Cohen (1988, 1992).
Valores de d entre 0.2 y 0.5 se entienden como pequeños, entre 0.5 y 0.8 como medios y por encima de 0.8 como grandes; rs entre 0.1 y 0.3 como pequeñas, entre 0.3 y 0.5 como medias y por encima de 0.5 como grandes.
Tenemos, pues, (a) la recomendación de emplear medidas de tamaño del efecto y (b) varias opciones disponibles para ello. Nos encontramos, pues, ante otra decisión más a tomar por parte del investigador que amplía sus grados de libertad. En este contexto entendemos como grados de libertad todas esas decisiones analíticas que dotan de flexibilidad los resultados de una investigación. Habitualmente leemos una investigación como si los análisis realizados fueran los únicos posibles. Sin embargo, no suele ser así. Cuando valoramos la relación entre vegetarianismo y malestar psicológico, ¿incluimos el sexo como covariable en el modelo? ¿Descartamos de la muestra a aquellas personas que manifiestan estar en este momento en tratamiento por algún trastorno de salud mental? ¿Descartamos a las personas con valores faltantes en algún ítem de la PANAS? ¿O reemplazamos por la media? ¿O vamos con imputación múltiple? Cada una de estas decisiones va a cambiar, si bien sea ligeramente, los resultados, tanto en el tamaño del efecto a informar como en el valor p del contraste de hipótesis. El tamaño del efecto que empleamos es también algo a decidir.
Un investigador desea aproximarse a la verdad y publicar sus resultados. Lo primero nutre a la ciencia; lo segundo a sí mismo. Para publicar los resultados conviene encontrar efectos estadísticamente significativos y, a poder ser, con tamaños del efecto grandes. ¿Qué tiene más opciones de ser publicado en una revista de perfil muy alto, un tratamiento que mejora un poco la recuperación de una enfermedad u otro que lo mejora enormemente?
Como decía, el valor p no va a cambiar si usamos una prueba T de comparación de medias o una correlación. Sin embargo, la categorización del tamaño del efecto como pequeño, medio y grande cambia en enorme medida según escojamos hablar de d o de r. Veámoslo con la siguiente gráfica.
En el eje de las X tenemos la proporción de participantes en el primer grupo. Por simplicidad, será el grupo con mayor tamaño muestral. Esta proporción puede ir desde 0.50 (dos grupos del mismo tamaño; mitad y mitad) hasta aproximadamente 1. Situaciones con p1 = 0.50 podrían ser comparaciones entre mujeres y hombres con muestra comunitaria (regularmente muestras bastantes igualadas en tamaño); situaciones con p1 cercano a 1 serían comparaciones entre personas sin ideación suicida y con ideación suicida en población comunitaria.
En el eje de las Y tenemos la correlación de Pearson, calculada de partir de la d de Cohen. Hemos tomado tres posibles valores de la d (0.2, 0.5, y 0.8) para seguir los puntos de referencia habituales.
- Con una d = 0.8, atravesando ya el límite para ser categorizado como efecto grande, pasa a ser una r = 0.37, correlación media, incluso en el caso más favorable de p1 = p2 = 0.5.
- A mayor discrepancia en tamaños muestrales entre grupos menor es la r. Mientras que la d es insensible al tamaño muestral (la distancia en malestar mental entre vegetarianos y no vegetarianos no cambia por más o menos que haya en cada grupo), la correlación sí que lo es. Cuando una variable predictora presenta apenas varianza (casi todos los participantes están en un mismo grupo) es complicado que pueda explicar de forma importante la variabilidad en la otra variable.
Un investigador puede hacer sus resultados más 'vistosos' sin necesidad de descartar participantes o seleccionar a posteriori variables. Jugando estratégicamente con los indicadores de tamaño del efecto a informar resulta posible.
No entiendan que así estoy invitando a ello. Estoy, por un lado, informando y, por otro, intentando poner de manifiesto dos problemas de la investigación en psicología.
- En líneas generales, los investigadores en psicología han renunciado a aprender sobre estadística. Hay dos grandes opciones: o bien se emplean siempre las mismas técnicas, que más que estadística son rituales, o bien se subcontrata el análisis en el estadístico del grupo. No saber de estadística es carecer de uno de los lenguajes básicos de nuestra disciplina y, así, nos pueden meter goles para aburrir.
- El nivel de flexibilidad analítica no solo se asocia con prácticas de investigación que ahora vamos viendo como cuestionables (informar parcialmente de condiciones o variables de investigación, probar múltiples análisis y escoger el 'mejor'...). La estadística, en este caso los tamaños del efecto, también está cargada de opciones y por cuál nos decantamos tiene sus implicaciones.
No hay comentarios:
Publicar un comentario