martes, junio 29, 2010

Otros blogs van a Menéame; éste va a al Journal of the American Society for Information Science and Technology

García-Pérez, M. A. (En prensa). Accuracy and completeness of publication and citation records in the Web of Science, PsycINFO, and Google Scholar: A case study for the computation of h indices in Psychology. Journal of the American Society for Information Science and Technology. [link].
[T]he validity of journal impact factors for any purpose whatsoever has recently been questioned because the method by which they are computed is neither transparent nor reproducible (Brumback, 2008a, 2008b; Carrió, 2008; Hernán, 2008; Joseph&Hoey, 1999; Porta & Álvarez-Dardet, 2008; Rogers, 2002; Rossner, van Epps & Hill, 2007, 2008; Seglen, 1997b; The PLoS Medicine Editors, 2006; Wilcox, 2008) and also because of the ease with which journal impact factors can be manipulated (Agrawal, 2005; Brumback, 2009; Cameron, 2005; Della Sala & Brooks, 2008; Falagas &Alexiou, 2007, 2008; Lavie, 2009; Opatrný, 2008; Reedijk & Moed, 2008; Schutte & Švec, 2007; Seglen, 1997b; Sevinc, 2004; Topo Universitario, 2008; van Diest, Holzel, Burnett, & Crocker, 2001; Yu &Wang, 2007). [pág. 1 del preprint)]

La cita es a esta anotación.

domingo, junio 27, 2010

Sobre la Clínica Tibidado y las terapias de conversión

Expedientada una clínica por 'curar' la homosexualidad

La Generalitat catalana ha abierto un expediente a una clínica de Barcelona por aplicar terapias para curar la homosexualidad. Los responsables de Policlínica Tibidabo ofrecen a sus pacientes, presuntamente, pastillas y tratamientos psiquiátricos para que dejen de ser gays. "No existe evidencia científica que sostenga que la homosexualidad deba ser tratada como una enfermedad, al margen de ideologías personales", aseguró ayer la consejera de Salud, Marina Geli, que investigará si otros centros psiquiátricos también aplican soluciones médicas a la orientación sexual. (El País, 15/06/10).
Para empezar, lo que es enfermedad o no jamás lo determinará la evidencia científica. La normalidad y lo aceptable son fruto de consensos sociales y detrás de ellos, sin mucho rascar, se encuentran valores. La homosexualidad salió del Diagnostic and Statistical Manual of Mental Disorders gracias a la presión de colectivos gays y, principalmente, porque era de sentido común (el sentir común)¹.

Segundo, el que algo sea tratado con pastillas no implica que sea considerado una enfermedad. El tener más de setenta y cinco años, hombre y con problemas de erección no es ninguna enfermedad, pero sí que existen tratamientos con pastillas para esta circunstancia. El igualar tratamiento médico a enfermedad es tener una concepción muy reducida del papel de los facultativos.

Tirando de lógica simple, dos son las opciones que le podemos ofrecersi a consulta psicológica o médica llega una persona que está insatisfecha con ser homosexual (o con tener poco pecho, o con ser albino...), : facilitar el cambio o ayudar a que acepte lo que hay. El pequeño gran detalle, el caso de la homosexualidad, es:
What About So-Called "Conversion Therapies"?

Some therapists who undertake so-called conversion therapy report that they have been able to change their clients' sexual orientation from homosexual to heterosexual. Close scrutiny of these reports, however. show several factors that cast doubt on their claims. For example, many of these claims come from organizations with an ideological perspective that condemns homosexuality. Furthermore, their claims are poorly documented; for example, treatment outcome is not followed and reported over time, as would be the standard to test the validity of any mental health intervention.
Dicho de otro modo: hoy por hoy no hay terapia efectiva para cambiar la orientación sexual. Quien la ofrezca, está vendiendo humo. Está generando expectativas en sus clientes que no podrá satisfacer. Está demostrando que, o no conoce los más recientes desarrollos de su disciplina, o es un estafador.

¿Están de acuerdo hasta aquí? Si su respuesta es afirmativa, por favor, justifiquen por qué no cargan contra la Clínica Tibidado (y tantas más) por ofrecer tratamientos homeopáticos (inútiles), multitud de médicos que ofrecen dietas protéicas (inútiles) y demás intervenciones en el ámbito de salud que, no es que no estén sustentadas por datos, sino que las pruebas muestran claramente que son inútiles. Hay muchos, muchos profesionales que no se leen ni una sola revista, que en su vida se han visitado la Biblioteca Cochrane o similares, para los que la salud ya no es tema de ciencia, sino de 'intuición ilustrada'. Gente que hace daño (y el límite superior del daño en salud ya saben cuál es), que hacer perder dinero... y que puede dormir tan tranquilos porque no pretenden curar la homosexualidad.

¹ Por no dejar espacio a dudas, comparto este sentido común según el cual la homosexualidad no es una enfermedad. Me cuesta mucho imaginar argumentos racionales para defender lo contrario. Pero mis argumentos sobre la no-enfermedad están basados en valores, no en ciencia.

miércoles, junio 23, 2010

Yo conozco al amigo del primo del Consejero - Un comentario al Informe de Resultados de la Evaluación General de Diagnóstico 2009

Según el análisis de los datos obtenidos por MAGISTERIO de los 50 centros valencianos evaluados por el Instituto de Evaluación ... [ver P. S.]
Los datos de la EGD-2009 no son públicos. Las personas interesadas en la evaluación educativa tenemos que hacer un acto de fe en que han sido analizados correctamente y no podemos plantearnos preguntas adicionales a las que se plantean desde el Instituto de Evaluación.



¿Han sido analizados correctamente?

Sabemos que hay análisis incorrectos. Por ejemplo, no se realizan comparaciones múltiples de medias, sino comparaciones dos a dos, disparando el riesgo de cometer errores. Incluso esas comparaciones a pares están mal hechas. Igualmente, sabemos que el modelo de Rasch es erróneo cuando un grupo de ítems comparten un enunciado. En ese caso, se incumple el supuesto de independiencia local y es necesario modelar la correlación entre especificidades de los items con un parámetro adicional. En este caso el coeficiente alfa de Cronbach es un indicador inadecuado de la fiabilidad de la escala.

En otros temas, nos quedan dudas. Para una parte importante de los resultados presentados, desconocemos las técnicas estadísticas empleadas. El campo de la medición en educación no es estático. No se ha llegado al punto de que haya unos pocos métodos conocidos y reconocidos como los mejores y los que siempre hay que aplicar. Hay varias revistas especializadas: Applied Measurement in Education, Applied Psychological Measurement, Educational and Psychological Measurement, Journal of Educational and Behavioral Statistics, Journal of Educational Measurement. Sólo una información detallada del método de análisis permite evaluar si se han incorporado las métodos que han demostrado mejor funcionamiento. Uno no puede despacharse el tema de funcionamiento diferencial diciendo "el procedimiento empleado fue la comparación del parámetro de dificultad de los ítems dentro de los grupos de contraste" (pág. 36). ¿Método de Raju o de Thissen? ¿Sólo se tuvo en cuenta la significación estadística o también el tamaño del efecto?

Respecto al funcionamiento diferencial de los items, sorprenden enormemente comentarios como éste: "Los resultados del País Vasco en la competencia en el conocimiento y la interacción con el mundo físico no aparecen dentro del gráfico por un funcionamiento diferencial en los ítems de la versión euskera" (pág. 66). En los informes internacionales, como el PISA, se consigue comparar a multitud de países, muchos de ellos con disparidad lingüística igual o mayor a la que puede encontrarse entre el español y el vasco. ¿Cómo es posible que el Instituto de Evaluación haya fallado en esto? No sabemos si fallan todos los ítems, en qué medida lo hacen, si se salvan algunas preguntas que pudieran permitir establecer una métrica común...



¿Preguntas adicionales?

Y aquí el origen de esta anotación. Son muchos/varios/algunos los investigadores que desearían realizar una explotación de los datos buscando respuestas a nuevas preguntas o intentando comprobar que las respuestas previas están bien fundamentadas. Pero sólo algunos podrán.

Ahora vendrá el bonito de juego de "yo conozco a...", "a ti te paso la base de datos porque sé que tus preguntas van a llevarte las respuestas que yo quiero" o "¿qué me das a cambio de...?". Ésta es la idea de transparencia, de fomento de la investigación o de políticas sociales basadas en pruebas que tienen nuestros políticos y gestores.

No hacer públicos los datos me parece una tomadura de pelo. Que ya empiece a haber reanálisis de gente a la que sí que le han pasado los datos me parece otra tomadura de pelo.



P. S. (23/06 - 18:40). Mis disculpas a Pablo Rovira, el periodista autor de la noticia de Magisterio. He tenido muy poco tacto al titular esta entrada, de tal modo que puede entenderse que acuso al Sr. Rovira de 'malas artes' o de servilismo para conseguir los datos. Jamás fue mi intención.

Quería criticar que, al no publicar los datos, se abren unos (posibles) modos pocos claros para hacerse con ellos. No critico a quienes los consigan, sino a quienes los tienen y no los distribuyen. Obviamente, la labor de un periodista implicado con su profesión es intentar obtenerlos y no tengo razón para cuestionar el modo como ha llegado a ellos el Sr. Rovira.

jueves, junio 17, 2010

Intervalos de confianza y comparación de medias - Un comentario al Informe de Resultados de la Evaluación General de Diagnóstico 2009

Gracias al blog de José Manuel Lacasa me entero de que ha salido el informe de resultados de la Evaluación General de Diagnóstico 2009. La tentación es demasiado grande y, pese a que el trabajo me desborda (incluyendo concurso en semana y media de Ayudante Doctor), me lanzo a revisar el informe.

Comentaré un solo punto, de corte técnico-estadístico. En la página 62 del informe puede leerse:
entre todas las comunidades con puntuaciones medias próximas (con diferencias tales que sus intervalos de confianza coinciden en parte) nada se puede decir sobre el “orden” que unas tienen con respecto a otras.
Traducido: cuando el intervalo de confianza de dos medias se solapa, la diferencia entre ambas no es estadísticamente significativa.

Lástima que esta frase sea falsa. Los lectores interesados pueden consultar, entre otros:
  • Austin, P. C, & Hux, J. E. (2002). A brief note on overlapping confidence intervals. Journal of Vascular Surgery, 36,194-195.
  • Cumming, G, & Finch, S. (2005). Inference by eye: Confidence intervals and how to read pictures of data. American Psychologist, 60,170-180.
  • Schenker, N, & Gentleman, J. F. (2001). On judging the significance of differences by examining the overlap between confidence intervals. The American Statistician, 55, 182-186.
  • Wolfe, R, & Hanley, J. (2002). If we‘re so different why do we keep overlapping? When 1 plus 1 doesn‘t make 2. Canadian Medical Association Journal, 166, 65-66.
Tal y como apuntaban un par de investigadores en el título de un artículo Researchers misunderstand confidence intervals and standard error bars.

Un ejemplo servirá para ilustrar cómo dos intervalos de confianza pueden solaparse y, pese a ello, que la diferencia de medias sea estadísticamente significativa. Los datos los tienen aquí. Se trata de una misma variable medida en dos grupos diferentes, con 25 observaciones por grupo.
  • El grupo 0 tiene una media de 500, con un intervalo de confianza al 95% entre 415.7 y 584.3.
  • El grupo 1 tiene una media de 650, con un intervalo de confainza el 95% entre 565.7 y 734.3. El grupo 1 es el resultado de sumar 150 a cada observación del Grupo 0.
Aquí un gráfico donde se recoge la misma información y se ve cómo los intervalos de confianza se superponen.

Cuando realizamos una comparación de medias de dos muestras independientes, encontramos que... p = 0.01241 < 0.05. Luego rechazamos la hipótesis nula y podemos afirmar que la diferencia entre las dos medias es estadísticamente significativa.

Sirva esto como ejemplo de que, una vez más, el Instituto de Evaluación analiza los datos con un rigor por debajo de lo esperable. En el Instituto de Evaluación tienen lagunas estadísticas y psicométricas que les impiden tomar las mejores decisiones de análisis en cada momento y que, en algunas ocasiones, les llevan a conclusiones dudosas.

Ciertamente, esto no es importante, por un motivos bien sencillos:
  • El informe es políticamente irrelevante. Este país ha renunciado a una política educativa basada en la evidencia. ¿Acaso creen que tendrá algún efecto el que en el informe se diga, explícitamente, que un mayor uso de las nuevas tecnologías no mejora el rendimiento? ¿O que los colegios privados consiguen resultados equivalentes a los públicos (una vez controlado el efecto del origen socio-económico-cultural de los estudiantes) pero con un ratio alumnos/profesor muy superior, esto es, que los colegios privados son más eficientes?
  • El informe no pregunta lo importante. El informe pregunta por todo lo que no podemos controlar: dónde estudia la gente, qué han estudiado sus padres, dónde nacieron... Pero no se entra en qué modos docentes llevan a qué resultados. No podemos saber si tal filosofía educativa es mejor que otra, porque no entra en el cuestionario. Y es mucho más sencillo enseñar el mejor modo de dar clases que mutar a los inmigrantes en nacionales.
Vuelvo a mi agujero.