jueves, junio 17, 2010

Intervalos de confianza y comparación de medias - Un comentario al Informe de Resultados de la Evaluación General de Diagnóstico 2009

Gracias al blog de José Manuel Lacasa me entero de que ha salido el informe de resultados de la Evaluación General de Diagnóstico 2009. La tentación es demasiado grande y, pese a que el trabajo me desborda (incluyendo concurso en semana y media de Ayudante Doctor), me lanzo a revisar el informe.

Comentaré un solo punto, de corte técnico-estadístico. En la página 62 del informe puede leerse:
entre todas las comunidades con puntuaciones medias próximas (con diferencias tales que sus intervalos de confianza coinciden en parte) nada se puede decir sobre el “orden” que unas tienen con respecto a otras.
Traducido: cuando el intervalo de confianza de dos medias se solapa, la diferencia entre ambas no es estadísticamente significativa.

Lástima que esta frase sea falsa. Los lectores interesados pueden consultar, entre otros:
  • Austin, P. C, & Hux, J. E. (2002). A brief note on overlapping confidence intervals. Journal of Vascular Surgery, 36,194-195.
  • Cumming, G, & Finch, S. (2005). Inference by eye: Confidence intervals and how to read pictures of data. American Psychologist, 60,170-180.
  • Schenker, N, & Gentleman, J. F. (2001). On judging the significance of differences by examining the overlap between confidence intervals. The American Statistician, 55, 182-186.
  • Wolfe, R, & Hanley, J. (2002). If we‘re so different why do we keep overlapping? When 1 plus 1 doesn‘t make 2. Canadian Medical Association Journal, 166, 65-66.
Tal y como apuntaban un par de investigadores en el título de un artículo Researchers misunderstand confidence intervals and standard error bars.

Un ejemplo servirá para ilustrar cómo dos intervalos de confianza pueden solaparse y, pese a ello, que la diferencia de medias sea estadísticamente significativa. Los datos los tienen aquí. Se trata de una misma variable medida en dos grupos diferentes, con 25 observaciones por grupo.
  • El grupo 0 tiene una media de 500, con un intervalo de confianza al 95% entre 415.7 y 584.3.
  • El grupo 1 tiene una media de 650, con un intervalo de confainza el 95% entre 565.7 y 734.3. El grupo 1 es el resultado de sumar 150 a cada observación del Grupo 0.
Aquí un gráfico donde se recoge la misma información y se ve cómo los intervalos de confianza se superponen.

Cuando realizamos una comparación de medias de dos muestras independientes, encontramos que... p = 0.01241 < 0.05. Luego rechazamos la hipótesis nula y podemos afirmar que la diferencia entre las dos medias es estadísticamente significativa.

Sirva esto como ejemplo de que, una vez más, el Instituto de Evaluación analiza los datos con un rigor por debajo de lo esperable. En el Instituto de Evaluación tienen lagunas estadísticas y psicométricas que les impiden tomar las mejores decisiones de análisis en cada momento y que, en algunas ocasiones, les llevan a conclusiones dudosas.

Ciertamente, esto no es importante, por un motivos bien sencillos:
  • El informe es políticamente irrelevante. Este país ha renunciado a una política educativa basada en la evidencia. ¿Acaso creen que tendrá algún efecto el que en el informe se diga, explícitamente, que un mayor uso de las nuevas tecnologías no mejora el rendimiento? ¿O que los colegios privados consiguen resultados equivalentes a los públicos (una vez controlado el efecto del origen socio-económico-cultural de los estudiantes) pero con un ratio alumnos/profesor muy superior, esto es, que los colegios privados son más eficientes?
  • El informe no pregunta lo importante. El informe pregunta por todo lo que no podemos controlar: dónde estudia la gente, qué han estudiado sus padres, dónde nacieron... Pero no se entra en qué modos docentes llevan a qué resultados. No podemos saber si tal filosofía educativa es mejor que otra, porque no entra en el cuestionario. Y es mucho más sencillo enseñar el mejor modo de dar clases que mutar a los inmigrantes en nacionales.
Vuelvo a mi agujero.

11 comentarios:

  1. Estoy trabajando en las múltiples inconsistencias del informe. La peor de todas, como bien apuntas, es el énfasis que ponen en averiguar cómo influyen las causas que la gestión educativa no puede cambiar, y lo poco que se esfuerzan en averiguar qué es lo que no funciona de lo que se puede cambiar. Además, para reforzar sus argumentos, cometen multitud de errores técnicos. Parece un informe para convencer a periodistas. Es curioso que utilicen al comité científico para la realización de la primera parte del estudio, y lo ignoren a la hora de realizar el informe.
    Hay una cosa que citas con la que no estoy muy de acuerdo: el que públicos y privados tengan resultados equivalentes una vez detraído el efecto socioeconómico de los alumnos. Sólo es equivalente si le quitas, además, el nivel socioeconómico medio del centro. El problema, según yo lo veo (en PISA se puede ver, en este estudio no, ya que tienen vetados los microdatos), es que al incluir es nivel socioeconómico medio del centro estás quitando una característica esencial, que es un "buen centro". Porque en España, los padres con más nivel socioeconómico tienen una capacidad mayor para descubrir los buenos centros y llevar allí a sus hijos. Si metes en una regresión el nivel socioeconómico medio del centro y la calidad media del centro, resulta que manda mucho más la calidad que los factores socioeconómicos. Lógicamente, si a un centro le quitas el factor calidad, tendría los mismos resultados que los centros peores.
    Pero, claro, busca en el estudio qué hace a un centro bueno. Buscarás en vano.

    ResponderEliminar
  2. Cuando comparaba públicos y privados lo hacía dando por buenos los propios análisis del IE. Los políticos que encargan informes al IE no harán caso de las conclusiones que se derivan de esos mismos informes. Entonces, ¿para qué los quieren?

    ResponderEliminar
  3. Me confieso culpable de divulgar en seminarios para periodistas la regla de andar por casa de que cuando los intervalos se superponen, no estamos seguros de que el valor sea realmente diferente. Los ejemplos que pongo son de superposición muy grande, claro, y suelo añadir cautelas respecto a que a veces, cuando se pisan "poco", el análisis estadístico podría decirnos que sí podemos afirmar que son distintos. Creo que es preferible que se equivoquen por exceso de cautela una vez de cada diez a que no sepan ni que existen los intervalos de confianza.
    Pero a los autores de un estudio como este hay que pedirles otro rigor, claro.

    ResponderEliminar
  4. Topo, dales tiempo. Llevan muchos años ayunos de datos y los atracones hay que digerirlos. Ideas erróneas basadas supuestamente en datos (erróneos o mal interpretados) han hecho mucho daño, pero en aquellas comunidades en que han sido capaces de interpretarlos bien, han conseguido mejorar algo las cosas.

    Recuerdo que, cuando durante años publiqué el fracaso escolar, el mejor predictor del aumento futuro de este era que los responsables negaban que tal fracaso existiese, que según sus datos (mal calculados) era mucho menor.

    Algunos de los errores más extendidos son precisamente que los privados y los públicos tienen iguales resultados, que da lo mismo llevar a tus hijos a un colegio u otro porque en realidad no hay grandes diferencias entre ellos, o que el sistema español es muy igualitario. Estas ideas han sido un bloqueo brutal a las reformas, o una excusa para mantener la visión ideológico-mágica de muchos responsables políticos. Algunas han caído, otras no.
    El gran problema del informe es que tiene un enfoque ideológico muy claro, construido no para averiguar qué pasa sino para apoyar las ideas del Ministerio, básicamente dos: el sistema funciona, pero el retraso educativo de los padres es un freno, y el apoyo empírico a ciertas medidas de la LOE. Es lógico que no se le haga caso: no tiene validez científica. Que hagan públicos los microdatos y verás lo que tardan en cambiar las cosas.

    ResponderEliminar
  5. Josu:

    Efectivamente, no es lo mismo lo que se le puede pedir a un periodista que a un técnico. Y un técnico habría de tener en cuenta que:
    a) que intervalos de confianza con solapamiento pueden suponer diferencias estadísticamente significativas (y si se trata de muestras relacionadas, incluso intervalos sin el menor solapamiento);
    b) que comparaciones múltiples de medias no se pueden realizar mediante comparaciones a pares de medias, puesto que se dispara el error Tipo I (para eso se inventó el ANOVA);
    c) que no hay interpretación de diferencias sin interpretación del tamaño del efecto.

    ¿Es todo esto muy técnico? Probablemente, pero es que estamos hablando del Informe completo, no del resumen de prensa.

    ---

    José Manuel:

    ¿Sabes cómo defienden la no publicación de la matriz de datos? ¿Cómo justificar que ellos no y PISA sí?

    ResponderEliminar
  6. Te contesto con la contestación que le dio el Congreso a Rosa Díez cuando pidió la liberación de los datos vía parlamentaria:

    "...el Consejo Rector, máximo órgano directivo del Instituto de Evaluación, acordó, con carácter general, no liberar los datos de nuestros estudios y solo aprueba su entrega para la realización de estudios muy concretos. Es el Consejo (compuesto por un representante de cada una de las comunidades) el que decide este asunto porque los datos se obtienen de las comunidades autónomas con plenas competencias en educación."

    Resumiendo: los políticos somos dueños de los datos, y como si te los doy me vas a pegar patadas en la entrepierna, pues no te los doy. Es el mismo mecanismo por el cual, desde 1997 hasta 2010, el Instituto de Evaluación tenía prohibido, por el Consejo Rector (representantes de PSOE, PP, PNV, CiU, CC, PSC/ERC/IC, y alguno que me dejaré: vamos, todos pringados) dar datos por Comunidades Autónomas.
    Yo he denunciado esto infinidad de veces, pero nadie más me ha seguido ni parece importarle en el mundo de la prensa. La última vez, en una comparecencia en el Senado: los senadores presentes se quedaron muy sorprendidos, pero no tengo noticia de que ninguno haya hecho nada. Tengo preparados dos recursos vía judicial para pedir estos datos, pero no tengo dinero ni tiempo para presentarlos.

    ResponderEliminar
  7. No tiene que ver directamente con el asunto de la entrada pero estamos distribuyendo un manifiesto que nos gustaría que conocieseis y que dice:

    LA MACROENCUESTA QUE PREPARA EL MINISTERIO DE IGUALDAD: ¿CIENCIA O IDEOLOGÍA?

    Un feminismo institucional, el que considera al hombre como el responsable único de cuanto de malo hay en el mundo y se propone cambiar la masculinidad; el que niega el derecho a un divorcio justo y la custodia compartida de los hijos; el que se ha propuesto destrozar el diccionario con sus: miembras, feminarios y jóvenas; el de las bibliotecas de mujeres; ese que dice que la historia de la humanidad es la historia de un varón azotando y maltratando a una mujer; se propone, al igual que sucedió en otras tres ocasiones, realizar de nuevo una encuesta sobre la violencia de pareja.


    Y nada habría que objetar a tal propósito si la intención fuese detectar los protagonistas y las formas de ejercerla: mediante la fuerza física o la presión psicológica, la amenaza abierta o el chantaje velado, por hombres y mujeres o por mujeres y hombres, de tal modo que alcanzásemos a tener una imagen, lo más objetiva y próxima a la realidad, de un fenómeno que, por producirse mayoritariamente en el ámbito privado, no es posible conocer de forma directa.


    Pero, al igual que en las tres encuestas previas, el objetivo no parece éste, pues de entrada se excluye al varón; es decir, de antemano se nos dice que sólo hay una posible víctima y un único verdugo, unos seres a quien proteger (ellas) y otros seres a quien castigar (ellos), en una construcción de la realidad no sólo falaz y mentirosa, también interesada. Pretenden engañarnos diciendo que se puede conocer de la disputa entre dos personas pulsando la opinión de una sola de ellas.


    Por eso debemos decir: no, a que se siga alimentando una ideología de género que nada bueno ha aportado a la sociedad; no, a engordar una guerra de sexos basada en el maniqueísmo de buenas y malos; no, al uso de los presupuestos del Estado para elaborar una encuesta no sólo acientífica, también segregadora y sexista; no, a una encuesta que va contra cualquier forma de entender la igualdad y la equidad entre la mujer y el hombre. Y por lo mismo, decir sí, a una encuesta que no presuponga que la violencia entre el hombre y la mujer es unidireccional y sí en los dos sentidos y que, en consecuencia, se pase a todos.

    POR LA IGUALDAD, POR LA EQUIDAD, CONTRA LA SEGREGACIÓN Y EL SEXISMO, DIGAMOS SI A UNA ENCUESTA A HOMBRES Y MUJERES.

    ResponderEliminar
  8. Sólo una duda, cuando dices que los colegios privados son más eficientes que los públicos porque obtienen iguales resultados, ¿no quieres decir lo contrario? Que yo sepa los privados tienen muchos menos alumnos en clase...

    ResponderEliminar
  9. Bueno, Pepe, según el informe que comentamos, los públicos tienen 10,3 alumnos por profesor, y los privados 13,7, un tercio más (pág. 194). Es algo que ocurre en todas las CCAA. En cuanto a alumnos por unidad, según el Ministerio, en Primaria tocan a 19,8 alumnos por clase en la pública, y en la privada a 24,2. Los datos son del curso 2008-09.

    ResponderEliminar
  10. Es posible que el contraejemplo que propones no sea adecuado, puesto que el test que deberíamos hacer sería para muestras dependientes y no independientes ya que la diferencia entre cada par es, en todos, de 150. No digo que no sea una "incorrección" decir que con intervalos solapados no existen diferencias significativas, sino que tu ejemplo puede no ser apropiado.

    ResponderEliminar
  11. Anónimo: Para realizar un análisis de medidas relacionados necesitamos saber qué valor del grupo 0 se asocia con qué valor del grupo 1. Imagina que hago que el valor de un sujeto del grupo 1 es igual al valor de otro sujeto 0 más 150 más un error aleatorio con distribución N(0, 50) y que digo qué sujeto va con cuál. ¿Qué análisis harías? Comparación de medias independientes.

    Entiendo que no hay que confundir la generación artificial de datos con el diseño de los mismos.

    ResponderEliminar