miércoles, julio 30, 2014

Para detectar manipulaciones del factor de impacto

Acaba de salir la edición del 2013 de los Journal Citation Reports. Ahí podemos conocer los factores de impacto de una gran cantidad de revistas científicas. La idea es sencilla: los artículos buenos son citados, luego las citas son un indicador de calidad/utilidad. Críticas a esa idea, todas las que quieran, tanto en el concepto como en su interpretación. Pero, hoy por hoy, las citas se utilizan habitualmente para estimar valor y relevancia de revistas, países, instituciones e investigadores.

Una parte básica del proceso parte de la asunción de que las citas a los artículos son 'espontáneas', esto es, las citas de los artículos se plantean por la utilidad de lo que ahí se expone. Un modo fácil de piratear al sistema es distorsionando este sistema de citación, citando con el fin de inflar el factor de impacto.

Vamos a intentar ver aquí cómo detectar estas manipulaciones del factor de impacto (FI). Para ello, el seguir a las revistas españolas y latinoamericanas de Psicología ayuda enormemente. Iremos viendo en qué información habríamos de fijarnos dentro de los JCR.

Tendencia en el factor de impacto
El FI es un indicador basado en la media de un gran número de elementos, por lo que tiende a ser bastante estable de año en año. Por ello, grandes saltos en las series indican activaciones o desactivaciones de prácticas de manipulación.

En el caso del Spanish Journal of Psychology podemos ver cómo su FI permanece bastante estable a lo largo de los años. (No estoy diciendo que haya necesariamente de ser estable el FI. Si así fuera, no tendría sentido seguir calculando los JCR. El error de los artículos que van entrando año a año influye. También, cambios en la política de la revista. Por ejemplo, desde comienzos del 2014, el Spanish Journal ha pasado a publicarse por Cambridge Journals -editorial de revistas muy importantes en el campo como Psychological Medicine-, pero deja de ser de acceso abierto para ser de pago. Veremos cómo afecta).


Universitas Psychologica es una revista colombiana. Entro por la puerta grande en los JCR con un valor que no ha vuelto a obtener. Esta anomalía queda totalmente explicada por un único artículo citador diseñado para alterar por completo al panoramo del FI de las revistas de Psicología españolas y latinas, tal y como expliqué anteriormente. Este tipo de patrones ha de llevarnos a pensar que algo raro pasó.


Psicología Conductual es una revista española. En este caso el patrón es perfectamente creciente. Aquí hay dos opciones: o bien los artículos que publican cada vez despiertan mayor interés o se están forzando los números. Si entra en la página web de la revista, veremos que los artículos son de pago (sin opción a suscripción institucional, diría), en castellano y la navegabilidad bastante pobre. No son predictores de una elevación del FI.


Por el momento, pondríamos bajo el foco de la sospecha a Psicología Conductual.

Volumen de autocitas
Es comprensible que si yo envío un artículo a una revista especializada en depresión, cite artículos sobre depresión, que bien pueden estar publicados en la revista a donde remito mi trabajo. Las autocitas son razonables. Pero: (a) hasta un cierto punto, (b) dependiendo de la amplitud de los temas tratados en la revista, (c) de las revistas alternativas sobre el mismo campo, y (d) dependiendo del idioma de los artículos. El punto de ruptura a partir del cual ya pasa a ser sospechoso el volumen de autocitas no sabría bien dónde establecerlo. ¿Un 10%?

Un aspecto importante es el de la amplitud temática de la revista y el número de alternativas. Revistas dedicadas a la lateralidad (zurdos, diestros...), comprensiblemente, hay pocas, luego encaja que los artículos citen otros artículos de ese misma revista. Pero es mucho más sospechoso que en revistas multidisciplinares o generalistas una parte importante de las citas vayan hacia la propia revista, porque artículos sobre esta temática pueden estar diseminados entre decenas de alternativas.

El idioma también es un aspecto relevante. Una revista que publica en castellano limita sus lectores y autores potenciales. En general, publicar en castellano es quemar un artículo, y el perfil de investigadores dispuestos a ellos es muy concreto. También lo es el de lectores que están por la labor de leer artículos destinados a quemarse. Por ello, es esperable que estas revistas tengan un FI muy bajo y nutrido de autocitas y de revistas que publiquen en el mismo idioma.

Empecemos por el Spanish Journal. Podemos ver cómo sólo el 3% del FI corresponde a autocitas.



En Psicothema el volumen se dispara hasta el 17%, por encima de lo común. (Por cierto, veremos qué tal le sale a Psicothema la apuesta de publicar desde este año únicamente en inglés. Creo que es una buena noticia para la Psicología española, si aceptamos que ser cola de león es mejor que ser cabeza de ratón. Y que no quieran ser  un ratón-león con manipulaciones del FI).



Y aquí, ya, la fiesta de la autocita. Por orden, dos viejos amigos del blog (1, 2, 3), el International Journal of Clinical and Health Psychology y Revista de Psicodidáctica, y Psicología Conductual. El porcentaja de autocitas va desde el 40% hasta el 50%. En alguna o algunas de estas revistas es obligatorio para la aceptación del artículo el citar artículos previos publicados ahí.


 

Hacia dónde van y de cuándo son las citas de la revista
Imaginemos que hemos escrito un artículo menor que vamos a intentar publicar, pues, en una revista menor. ¿Sería razonable que casi todo el material en el que nos basamos y, por ello, citamos fuera de esa revista sin especial importancia? Desde luego que no. De hecho, habiendo como hay decenas de revistas interesantes, ni siquiera en las grandes revistas las referencias suelen estar plagadas de documentos publicados en ellas mismas. Aquí no estoy hablando de las autocitas tal y como las veíamos antes (citas gracias a la propia revista / total de citas recibidas), sino a las autorreferencias (artículos en las referencias de la propia revista / total de artículos de las referencias). El numerador permanece, pero no el denominador.

Un porcentaje elevado autorreferencial es indicativo, de nuevo, de interés en manipular el factor de impacto. Este interés queda especialmente reflejado cuando las autorreferencias se concentran en los años de entran para el cómputo del FI (el FI del año X se calcula como citas recibidas durante X en los artículos publicados durante X-1 y X-2).

Empecemos viendo el patrón de resultados para Psychological Bulletin, revista de la APA con 14.4 punto de impacto y ninguna necesidad de inflar su FI. Podemos ver cómo los artículos citados apenas provienen de los años 2012 y 2013 y cómo las autorreferencias (en amarillo) son mínimas. Aquí una gráfica que apunta a normalidad.


Podemos ver cómo la distribución para el Spanish Journal guarda un enorme parecido con la anterior. De nuevo, ninguna indicación de manipulación del IF por parte del Spanish.


Comparemos estos resultados con los del International Journal y la Revista de Psicodidáctica, en este orden. Del International Journal destaca la escasa tendencia a citar artículos de más allá de unos pocos años. Para ambas revistas sobresale la presencia del amarillo, las autorreferencias, y cómo éstas se concentran en la ventana temporal considerada para computar el FI.




¿Qué podemos sacar de esto?
Resumiendo y comentando:
- Quien tendía al pirateo, sigue por el mismo camino.
- Algunas revistas parecen estarse sumando a ese camino. (Citar artículos de la revista como requesito para publicar).
- Algunas revistas españolas presentan un comportamiento exquisito a este respecto. (Para mi gusto, la única pega al Spanish Journal, además de su cambio a ser de pago, es el más de medio año desde aceptación hasta publicación en la web del PDF).
- Hay otras prácticas de manipulación del FI que piden otras estrategias para ser detectadas. Especialmente presentes también en revistas españolas, las redes de citación: Revista A publica un artículo donde se citan 30 artículos de revista B y revista B corresponde. Eso no deja rastro las autocitas o autorreferencias. Sí en las tablas de citación. Pero si casi nadie revisa las autocitas, como para mirar más allá...
- Pese a ello, sigo defendiendo el valor del FI para la selección de profesorado. Prefiero  un indicador imperfecto a una comisión de contratación tendenciosa. Cuando las comisiones de contratación en España, en promedio, empiecen a actuar de buena fe, cambiaré de opinión.

domingo, julio 27, 2014

El problema de la medición en Psicología (y alrededores)

Supongamos que estamos interesados en la relación entre la altura y el peso en personas adultas españolas. Si tuviéramos conocimiento perfecto y absoluto de todo, sabríamos que la correlación entre ambas variables es igual a 0.50. Pero, simples mortales, no tenemos acceso al valor poblacional. Y, como pobres investigadores, no podemos costearnos el recoger información de los millones de adultos españoles. Tendremos que conformarnos con una muestra aleatoria a quienes pesaremos y tallaremos.

La idea básica del proceso investigador es bien sencilla. Metemos a todos los millones de españolitos en un saco bien grande, lo agitamos con ganas y, sin mirar, sacamos a un persona bien mareada. Lo medimos y tallamos. Lo volvemos a echar al saco (muestro con reemplazamiento) o no (sin reemplazamiento) y volvemos a agitar / extraer / medir, así hasta completar el tamaño muestral (n) que queremos y podemos alcanzar. Una completado, tenemos n pares de valores de altura y peso y calcular una correlación de Pearson es fácil.

¿Ha de coincidir la correlación muestral con la correlación poblacional? Aquí las respuestas de los estudiantes que se inician en la estadística van de un rotundo 'Sí' hasta un claro 'No'. Por desgracia investigadora y lógica estadística, no han de coincidir. De hecho, las estimaciones muestrales coincidieran con los valores poblacionales siempre, no tendría sentido intentar trabajar con muestras amplias.

Ejemplos cotidianos nos ilustran esta idea. Sé que en mi ciudad la mitad son hombres y la mitad mujeres. Me siento en un banco de la plaza a ver pasar gente y voy mirando cuántas mujeres hay en cada grupo de diez personas que veo. ¿Se repite una y otra vez el patrón 'cinco de diez', 'cinco de diez', 'cinco de diez'...?

Esta es la idea extensamente trabajado en las clases de estadística de distribución muestral. Pero ahora vamos a darle otra matiz más, habitualmente no cubierto, pero necesario en la investigación en casi todos los campos. Recordemos, sabemos que la correlación real entre altura y peso para nuestra población de interés es igual a 0.50.

Tenemos dos opciones. Una, evaluar la información antropométrica con instrumentos de precisión y personal capacitado y serio, que nos puede proporcionar Good Quality Measures. Otra, mucho más barata, contratar a mi amigo Pepe, con tendencia a presentarse borracho a trabajar y con frecuentes espasmos musculares. Good Quality Measures conlleva un nivel de error despreciable y Pepe un mucho mayor error. El primer sistema es más fiable y el segundo en mucha menor medida. La medición repetida de una misma persona por Good Quality ofrecerá resultados (casi) idénticos. Con Pepe, una persona de peso promedio ahora parece tener serio infrapeso, ahora parece tener obesidad extrema.

¿Cuál es el impacto del error de medición en la estimación de la correlación? Para valorarlo, realizamos una simulación en R, lenguaje de programación especialmente útil en el campo de la estadística. En una simulación podemos fijar el valor real de correlación (algo casi imposible fuera de la simulación, porque no tenemos conocimiento de los valores poblaciones), podemos generar miles de muestras del tamaño deseado (algo también inviable fuera de la simulación) y ver la relación entre estimaciones y realidad.

Fijamos varios valores para el estudio de simulación.
- El tamaño muestral es igual 25.
- Una fiabilidad poblacional de las mediciones igual a 0.6. Esto equivale a decir si medimos dos veces a un mismo grupo de personas, la correlación entre ambos resultados sería igual a 0.6.
- Repetimos el proceso de generar muestras al azar 50000 veces.

Los resultados en los que nos vamos a fijar van a ser:
- La distribución muestral de las correlaciones entre las dos variables con sus valores reales (marcados como T por True). Esto nos informará de en qué medida muestras independientes con tamaños muestrales iguales obtienen iguales resultados. En la gráfica, la línea roja.
- La distribución muestral de las correlaciones entre una variable medida sin error (T) y otra variable medida con error (X). Así vemos el efecto del error de medida en una única variable. En la gráfica, la línea azul.
- La línea marrón muestra la distribución muestral de las correlaciones cuando ambas variables son medidas con error (igual en ambos casos).

Las líneas verticales señalan la correlación media para cada distribución. Se muestra también el resumen con cinco números (mínimo, primer cuartil, mediana, tercer cuartil y máximo).


Varios son los resultados que merecen comentario:
- Cuando trabajamos con variables medidas sin error, la correlación esperada es indistingible de la correlación poblacional: la línea vertical roja casi corta en 0.50 y la mediana es 0.51.
- En ese caso, el 50% de las correlaciones muestrales se encuentran en el intervalo [0.40, 0.61]. O, visto por el otro lado, en algo más del 50% de los casos el error entre la correlación estimada y la real es superior a 0.10.
- Cuando pasamos al caso de una variable sin error y otra con error (línea azul; X1T2) la correlación esperada ya no coincide con la correlación real. La mediana de las correlaciones en este caso se sitúa en 0.39. Infraestimamos, en promedio, el tamaño de la relación entre variables. La falta de fiabilidad en los indicadores reduce, en general, la relación observada entre variables.
- Esto no es así en todos los casos. En aproximadamente un 25% de los casos, la correlación estimada con X1T2 es mayor a 0.5, el valor poblacional. Luego no siempre el error de medida supone encontrar correlaciones por debajo del valor poblacional.
- El error de medida implica ampliar la dispersión de los resultados muestrales: las distribuciones se van aplanando. Si para variables sin error el rango intercuartil era de 0.21, ahora es de 0.24.
- El error de medida aumenta la proporción de ocasiones en las que la correlación observada tiene un signo negativo, contrario al poblacional. No únicamente podemos infraestimar el efecto, sino cambiar su sentido.
- En el caso donde ambas variables se evalúan con error de medida, los efectos de la falta de fiabilidad se hacen más marcados. De la correlación poblacional igual a 0.50 pasamos a una mediana de la correlación muestral para X1,X2 igual a 0.31.

En resumen: El error de medida atenúa el tamaño de la relación aparente entre variables. El error de medida aumenta la dispersión de los resultados muestrales. Esto tiene serias implicaciones para la investigación. Introduce inconsistencia en los resultados.

Algunas de las condiciones de la simulación pueden parecen poco realistas. Por ejemplo, un tamaño muestral igual a 25 puede parecer escaso. En el caso del ejemplo que planteábamos (medición de variables antropométricas, por tanto, muy sencillas de valorar) así sería. Pero no en otros contextos. Pensamos en la gran cantidad de estudios experimentales (Psicología Básica, Psicología Social, Evolutiva...) con estos tamaños o inferiores.

También se puede plantear que una fiabilidad de 0.60 es baja. De nuevo, depende. En algunos contextos, simplemente no conocemos la fiabilidad de las mediciones. Evaluar la fiabilidad es parte del procedimiento común cuando se trabaja con cuestionarios de múltiples preguntas (ponga usted un alfa de Cronbach en su vida), pero no con tareas de laboratorio o con variables evaluadas con un único ítem. Incluso en el caso de cuestionarios, algunos manuales de uso extendido indican que cuando la función de la evaluación no es usar las puntuaciones particulares para tomar decisiones con ellas para cada individuo (tú tienes anorexia, tú no tienes anorexia..., por ejemplo), sino emplearlas para investigación (la relación entre una escala de anorexia y la depresión es..., por ejemplo) valores de fiabilidad por encima de 0.5 podrían ser aceptables.

Ninguna de las ideas que se plantean en este post es mía. Los problemas de atenuación de la correlación, cómo corregir las estimaciones de correlación por falta de fiabilidad, el impacto de la fiabilidad en la probabilidad de detectar relaciones que no existen o de pasar por alto relaciones que sí existen... han sido analizados durante años.

Las soluciones a estos problemas se centrarían en:
- Trabajar con muestras más amplias, bien sea en los estudios particulares o agregando estudios mediante meta-análisis.
- Trabajar con variables de mayor fiabilidad.
- Informar de la fiabilidad estimada de las variables en los estudios.
- Incorporar la incertidumbre sobre las estimaciones en nuestros resultados con intervalos de confianza, errores típicos...
- Informar del tamaño de los efectos con nuestras mediciones y con técnicas para corregir las consecuencias de la falta de fiabilidad.
- No publicar únicamente estudios con resultados estadísticamente significativos.

Aquí dejo la sintaxis de R para quien quiera trabajar en el tema o ver el efecto de manipular los valores de la simulación.

rm(list=ls())
poblacion.cort1t2 <- 0.50
fiabilidad <- 0.60
poblacion.cort1x1 <- sqrt(fiabilidad)
poblacion.cort2x2 <- sqrt(fiabilidad)
muestra.cort1t2 <- NULL
muestra.corx1x2 <- NULL
muestra.cort1x1 <- NULL
muestra.cort2x2 <- NULL
muestra.corx1t2 <- NULL
muestra <- 25
replicas <- 50000
t1 <- replicate(replicas,rnorm(muestra))
ex1 <-replicate(replicas,rnorm(muestra))
x1 <- t1*poblacion.cort1x1 + ex1*(1-poblacion.cort1x1^2)^.5
et2 <- replicate(replicas,rnorm(muestra))
t2 <- t1*poblacion.cort1t2 + et2*(1-poblacion.cort1t2^2)^.5
ex2 <- replicate(replicas,rnorm(muestra))
x2 <- t2*poblacion.cort2x2 + ex2*(1-poblacion.cort2x2^2)^.5
for (i in 1:replicas) {
  muestra.cort1t2 <- c(muestra.cort1t2, cor(t1[,i],t2[,i]))
  muestra.corx1x2 <- c(muestra.corx1x2, cor(x1[,i],x2[,i]))
  muestra.cort1x1 <- c(muestra.cort1x1, cor(t1[,i],x1[,i]))
  muestra.cort2x2 <- c(muestra.cort2x2, cor(t2[,i],x2[,i]))
  muestra.corx1t2 <- c(muestra.corx1t2, cor(x1[,i],t2[,i]))
}
 
plot(density(muestra.cort1t2),
     main="",
     xlab="Correlación",
     ylab="",
     xlim=c(-0.5, 1),
     col="red",
     lwd=4,
     axes = FALSE)
text(-0.5, max(density(muestra.cort1t2)$y*1), paste("Tamaño muestral = ", muestra), adj = c(0,0))
text(-0.5, max(density(muestra.cort1t2)$y*0.95), paste("Cor(T1,T2) = ", poblacion.cort1t2), adj = c(0,0))
text(-0.5, max(density(muestra.cort1t2)$y*0.90), paste("Fiabilidad = ", fiabilidad), adj = c(0,0))
axis(1,seq(-0.5,1,0.25),paste(seq(-0.5,1,0.25)))
lines(density(muestra.corx1t2), col="blue", lwd=4)
lines(density(muestra.corx1x2), col="brown", lwd=4)
abline(v=mean(muestra.cort1t2),col="red",lty=2,lwd=2)
abline(v=mean(muestra.corx1t2),col="blue",lty=2,lwd=2)
abline(v=mean(muestra.corx1x2),col="brown",lty=2,lwd=2)
legend(-0.5,max(density(muestra.cort1t2)$y*0.85),c("Cor(T1,T2)", "Cor(X1,T2)", "Cor(X1,X2)"),lwd=c(2,2,2),col=c("red","blue","brown"))
 
resultados <- list(muestra.cort1t2=muestra.cort1t2, muestra.corx1t2=muestra.corx1t2, muestra.corx1x2=muestra.corx1x2)
resultados.resumen <- round(vapply(resultados, fivenum, c(Min.=0, "1st Qu."=0, Median=0, "3rd Qu."=0, Max.=0)),2)
colnames(resultados.resumen) <- c("T1,T2", "X1,T2", "X1,X2")
 
for (i in 1:3)
  text(-0.45+i*0.125,max(density(muestra.cort1t2)$y)*0.60,colnames(resultados.resumen)[i])
for (j in 1:5)
  text(-0.45,max(density(muestra.cort1t2)$y)*(0.60-j*0.05),rownames(resultados.resumen)[j])
for (i in 1:3)
  for (j in 1:5)
    text(-0.45+i*0.125,max(density(muestra.cort1t2)$y)*(0.60-j*0.05),resultados.resumen[j,i])
Created by Pretty R at inside-R.org

viernes, julio 25, 2014

Razones para la Metodología de las Ciencias del Comportamiento

Una parte no desdeñable de los alumnos de Psicología, y algunos compañeros profesores, valoran las asignaturas de Metodología (métodos de investigación, estadística y psicometría son las más comunes) como conocimientos no vinculados con la materia objeto del grado. Generalizando, los alumnos desean aprender sobre clínica, social y evolutiva, toleran la básica, resisten la psicobiología y sufren la metodología. Es algo parecido al aprendiz de conductor quien, deseoso de sacarse el carné, no le encuentra el sentido a las clases de mecánica.

Creo que hay, al menos, cuatro razones de peso para los contenidos metodológicos en el Grado.

Alfabetización estadística
Por un lado, desde la expansión de internet y la web 2.0, publicar contenidos cada vez es más fácil. Si bien cada vez tenemos más acceso a información, la calidad dentro de ésta es de lo más variada. Por otro lado, la presencia de estadísticas e investigación en medios de comunicación y conversaciones cotidianas se  ha expandido. La mayor cultura promedio de la población nos ha hecho más sensibles a los contenidos científicos, a parte del lenguaje propio de la ciencia y a la necesidad de ofrecer indicadores para evaluar fenómenos políticos y sociales.

La capacidad de valorar críticamente la calidad de la información de contenido científico y estadístico necesita de destrezas que, para su adquisición, requieren de itinerarios de aprendizaje específicamente diseñados para tal fin. Estos objetivos no son propios del Grado de Psicología y, parcialmente, habrían de se atendidos en la Educación Secundaria, si bien tengo dudas sobre la consecución de estos fines en esos niveles formativos.

Percepción social de la psicología
Según datos de la APA Benchmark Study (Penn, Schoen and Berland Associates, 2008; citado en Lilienfeld, 2012), en una muestra de 1000 estadounidenses
[O]nly 30% agreed that “psychology attempts to understand the way people behave through scientific research,” whereas 52% agreed that “psychology attempts to understand the way people behave by talking to them and asking them why they do what they do” (p. 113)
Lilienfeld (2012) describe seis críticas habituales hacia la Psicología: (a) La psicología es puro sentido común, (b) la Psicología no usa el método científico, (c) la Psicología no puede ofrecer generalizaciones razonables porque todo el mundo es único, (d) la Psicología no ofrece resultados repetibles, (e) la Psicología no puede realizar predicciones precisas, y (f) la Psicología no es útil para la sociedad. Éste es el ambiente social del que provienen nuestros alumnos y al que volverán al acabar sus estudios superiores. Por tanto, hemos de dotarlos de herramientas para detectar los errores y refutar los argumentos que en un futuro puedan escuchar.

Hay que tener en cuenta que muy probablemente otros compañeros psicólogos y las organizaciones colegiales no van a ayudar para mantener a los futuros egresados dentro de la psicología científica. (Aquí cabe recordar que no hay una Psicología científica y una aplicada, sino una Psicología científica y una no-Psicología que ha renunciado a fundamentarse en ciencia). Sólo hay que darse una vuelta por la oferta formativa incluida en las webs de las delegaciones del Colegio Oficial de Psicólogos para ver cómo la propia comunidad psicológica somos incapaces de poner filtros a la mala praxis. Ofrecemos, a modo de ejemplo, algunos cursos actualmente ofertados por diferentes colegios autonómicos, cursos sin el mínimo rigor científico exigible según el propio código deontológico del COP:
– COP Andalucía Occidental: ‘Curso de dirección en psicodrama y psicodanza’.
– COP Cataluña: ‘El uso de métodos proyectivos en niños’ o ‘Supervisión del test proyectivo H-T-P aplicado a niños’.
– COP Comunidad Valenciana: ‘El Mandala, una herramiento de orientación educativa’ o ‘Formación en terapia sistémica y constelaciones familiares’.
– COP Madrid: ‘Curso de risoterapia y desarrollo del sentido del buen humor’.
– COP Vizcaya: ‘Terapia de interacción recíproca’.

Para entender el pasado, el presente… y el futuro de la psicología
La Psicología no es un conjunto de ideas y relatos sobre la cognición y el comportamiento humanos, sino un conjunto de ideas estructuradas, fundamentadas y contrastadas, provisionalmente, mediante datos e integradas en marcos teóricos. Aceptando las limitaciones de la definición, el punto clave que se quiere enfatizar es la importancia de la investigación en el conocimiento psicológico. No es viable entender la psicología actual sin querer entender las bases de la investigación que la sustenta. Sin acercarse a los fundamentos de la investigación, el análisis de datos y la medición, no resulta posible leer las fuentes primarias ni, en ocasiones, las secundarias y, con ello, somos consumidores acríticos de información psicológica.

Nuestros alumnos han de tener claro que una parte importante del conocimiento que ahora mismo cuenta con mayor solidez empírica y teórica perderá esa preeminancia en pocos años. A un recién graduado le pueden esperar unos 45 años de carrera profesional como psicólogo. Si miramos ese lapso de tiempo hacia atrás, veremos que por aquel entonces acababa de salir el DSM-II (1968), la palabra meta-análisis ni tan solo existía (introducida por Glass, 1976) o conceptos como la psicología positiva o la inteligencia emocional no formaban parte de la psicología.

Es importante que dejemos claro como profesores que la Psicología es una ciencia y, como tal, un cuerpo de conocimiento vivo, sujeto a cambios y ampliaciones. Nuestros alumnos han de vivir inmersos en esa aproximación a la Psicologia durante el Grado. Hemos de aceptar pasar del “esto es lo que es” al “esto es lo que por el momento se sabe”. Educar en la provisionalidad del conocimiento sin caer en el relativismo exige tener claras las ideas del método científico y las herramientas de desarrollo de nuestra disciplina. La Metodología, como área instrumental, permite ayudar a entender estos aspectos.

Como un área de conocimiento y laboral más
En muchas ocasiones se entiende que la metodología es únicamente un área de apoyo a la investigación realizada en otras áreas más substantivas en el campo. Sin embargo, no hay que olvidar que la metodología es un área de conocimiento en sí misma, con investigación sobre su propio objeto. Las técnicas de investigación, estadísticas y psicométricas en el campo han cambiado enormemente en los últimos años y lo esperable es que así siga siendo. Una parte importante de ese cambio ha sido promovido por psicólogos que han investigado sobre cómo investigar, analizar y medir. Hemos de alcanzar a esa pequeña cantidad de estudiantes dispuestos a tomar la metodología como campo de estudio propio, sin escondernos avergonzados como si fuéramos un área menor. Y a aquellos que no desean ese camino, la mayoría, hemos de dotarlos de las bases mínimas del lenguaje metodológico para su posterior actualización. Al menos, con la sensibilidad suficiente como para saber de su necesidad.

Igualmente, en una universidad a la que se le demanda una mayor aproximación al campo profesional, no podemos negar que hay un cierto hueco de empleabilidad para aquellos graduados con competencias avanzadas en metodología, con capacidad para traducir ideas en datos y datos en análisis (o la traducción inversa).

No defiendo que el crear itinerarios de enseñanza-aprendizaje para estos objetivos sea labor exclusiva de las asignaturas de Metodología. Es una labor compartida. Pero ahí los metodólogos hemos de tener un papel muy relevante.

----------------------------------

Elaborado para la Memoria Docente que nadie se va a leer.

martes, julio 15, 2014

¿Por qué va la educación como va en España?

Vale, aceptado, la educación en España tampoco es rematadamente mala. Estamos ligeramente por debajo de la media en los diferentes estudios comparativos internacionales. Y, en general, donde cabía esperar dada la formación e inteligencia promedio del país. Pero este modo de pensar (somos un punto bien cerca de la recta de regresión) apenas da control sobre cómo mejorar los resultados.

Considero que una parte importante del problema es la formación de los futuros profesores. Siempre he sido de esa idea, pero después de impartir docencia en el Grado de Magisterio Infantil pasó a certeza personal. Certeza que apenas podía apoyar más allá de anécdotas.

Ahora puedo presentar algunos datos que señalan que en Magisterio el nivel de exigencia es muy, muy bajo y, así, casi regalan los estudios. De este modo, gente de perfil formativo y cognitivo bajos son quienes entran en los colegios para formar al alumnado. Ser educador es una tarea extraordinariamente exigente y el alumnado egrasado de Magisterio no está a la altura.

Empecemos por la nota de admisión a los estudios de Magisterio. La nota media para aquellos alumnos que acceden a través de las PAU es de 7.66 para Magisterio de Primaria y de 7.50 para Infantil. Esta nota está en torno a un punto por debajo de la nota media global en las PAU. Por tanto, los alumnos que acceden a Magisterio presentan unos resultados académicos muy modestos hasta ese momento en su recorrido educativo.


Pese a su perfil bajo, los estudios de Grado en Magisterio son los que presentan una mayor tasa de rendimiento (relación porcentual entre número de créditos superados y número de créditos matriculados). Esto es, aprueban prácticamente todas aquellas asignaturas en las que se matriculan. El suspenso es ese casi gran desconocido en Magisterio.


Y no sólo aprueban casi todo (repito, pese a su pobre rendimiento académico previo), sino que lo hacen con grandes notas. Los estudiantes de Magisterio están entre quienes acaben el Grado con mejores expedientes académicos.


Magisterio atrae a pobres estudiantes que salen de la universidad como grandes estudiantes. Hay dos posibles explicaciones. Una, que Magisterio hace magia y los transforma. Dos, que ahí casi regalan el título. Me quedo con la segunda explicación.

Y entre todos pagamos el precio de esto.

La información está extraída del informe Datos y Cifras del Sistema Universitario Español. Curso 2013-2014 (PDF aquí).

domingo, mayo 18, 2014

Una propuesta de baremo para Ayudantes Doctores

Una de las características del departamento de Psicología y Sociología de la Universidad de Zaragoza y, en mayor medida, del profesorado que saca adelante el Grado de Psicología es la escasa presencia de profesorado funcionario. Así, en la mitad de las áreas de Psicología (Básica, Psicobiología y Metodología) todo el profesorado a tiempo completo es Ayudante Doctor.

Esto ha supuesto que, en estas tres áreas, hemos sido Ayudantes Doctores quienes hemos definido los criterios para la selección de futuros Ayudantes Doctores, a pesar de que no podemos ser miembros de las comisiones de contratación. El objetivo de la entrada de hoy es presentarles las características básicas del baremo común que elaboramos.

Para construir un baremo, lo primero, hay que responder a tres preguntas básicas:
- ¿Qué restricciones normativas hay que cumplir?
- ¿Cuáles son las características de los probables miembros del tribunal de valoración?
- ¿A quién queremos atraer?


¿Qué restricciones normativas hay que cumplir?
Las restricciones las podemos encontrar en el Boletín Oficial de Aragón de 16/03/2011. Éstas son, básicamente:
- Art. 23.1: "Las comisiones de selección ... resolverán los concursos de acuerdo con la adecuación de los currículos de los candidatos a área de conocimiento mediante la aplicación de criterios objetivos previamente establecidos por el correspondiente departamento."
- Art. 24.2: Para Ayudantes Doctores, "los criterios de valoración precisarán la forma de aplicar y valorar los apartados que se establecen, de modo que el valor otorgado a cada uno de dichos apartados se encontrará entre los siguientes mínimos y máximos:
1.º Formación académica (20/40%).
2.º Docencia (10/35%).
3.º Publicaciones (15/35%).
4.º Participación en proyectos y contratos de investigación (5/25%).
5.º Restante actividad investigadora (5/25%).
6.º Otros méritos (0/5%)."

¿Cuáles son las características de los probables miembros del tribunal de valoración?
Por restricciones presupuestarias, las comisiones de valoración en la UZ han de estar compuestas por profesorado de la UZ. No hay dinero (o ganas de invertirlo) para incorporar profesorado de otras universidades. Esto implica que en departamentos con poco profesorado a tiempo completo de Contratado Doctor hacia arriba que pocos profesores han de estar en muchas comisiones y que hay comisiones donde no hay ningún especialista en el área de conocimiento que se está evaluando.

Si aceptamos que los resultados de casi todo se pueden pronosticar con el producto de motivación x capacidad, esto supone posibles problemas para el caso que nos ocupa. Corremos varios riesgos con respecto al profesorado que pueda estar en las comisiones: (a) va tener a habilidad limitada para saber qué es un buen o mal currículum en áreas que no controla; (b) va a ser de 'la vieja escuela' (con poco recorrido en artículos publicados en revistas de relevancia internacional y poca valoración de los mismos); (c) va a poderle y quererle dedicar un tiempo escaso al proceso, dada su saturación. No creemos que vayan a darse todas estas condiciones, sino que es posible estén.

¿A quién queremos atraer?
Entendemos que un Ayudante Doctor es una persona que, probablemente, va a entrar en su primera plazaa tiempo completo con tiempo compartido entre docencia, investigación y otras tareas propias de la universidad. Lo más probable es que su recorrido anterior sea de cuatro años en una beca tipo FPU o FPI y unos dos años de post-doc. En este tiempo, se habrá formado como investigador y habrá impartido poca docencia.

Partimos de la base de que a un buen investigador se lo reconoce por los productos que genera y que estos, en psicología, son básicamente artículos. Entendemos que, en la fase en la cual la única ocupación es formarse e investigar, es razonable publicar uno o más artículos de relevancia al año. Asumimos que no todas las revistas son iguales y que, con matices, es posible asociar calidad de un artículo con el factor de impacto de la revista. Consideramos que hay que valorar resultados, no instrumentos que han de facilitar resultados (p. ej., becas o estancias). Creemos que la excelencia en la docencia se puede obtener con formación especializada en el campo sobre el que se quiere enseñar, esto es, que existen las áreas de conocimiento y que éstas son relevantes.

Con esto en mente, llegamos al baremo planteado.

Baremo planteado
El baremo puede encontrarse aquí.
- Primera característica. La valoración de aquellos méritos correspondientes a áreas diferentes de la psicología a la de la plaza valorada serán multiplicados por 0.7. Un gran psicólogo social ha de ver limitada opción a entrar como profesor de Psicobiología... salvo que se dedique a la neurociencia social, por ejemplo.
- Segunda característica. El perfil que se está buscando se traduce en las puntuaciones máximas por apartado: "1. Formación académica: 20. 2. Docencia: 20. 3. Publicaciones: 35. 4. Participación en proyectos y contratos de investigación: 5. 5. Restante actividad investigadora: 15. 6. Otros méritos: 5". El grueso de la evaluación corresponde a investigación y formación. La investigación se valora por sus resultados. Estar en multitud de proyectos nacionales o europeos que no se traducen en publicaciones no supone apenas puntos. Conseguir becas y estancias mediante las cuales no se publica no supone apenas valoración.
- Tercera característica. Copio lo central de la valoración de publicaciones:
3.1 Artículos de investigación en revistas: 30
3.1.1. Revistas incluidas en las bases de datos “Social Science Citation Index SSCI” o “Science Citation Index SCI”
(cada artículo en el que el candidato/a esté entre los tres primeros autores / cuartil JCR) x 5
(cada artículo en el que el candidato/a no esté entre los tres primeros autores / cuartil JCR) x 2.5
En el caso de que los/as candidatos/as puedan justificar, bien la relevancia o calidad de su artículo (por ejemplo, mediante el número de citas recibidas, número y posición de autores, etc.), bien la calidad o relevancia de la revista para el contenido del artículo, el tribunal podrá considerar el artículo como de un cuartil mayor.
3.1.2. Revistas incluidas en bases de datos “PsycINFO”, “Scopus” o acreditadas por la
FECYT
(cada artículo en el que el candidato/a esté entre los tres primeros autores) x 0,50
(cada artículo en el que el candidato/a no esté entre los tres primeros autores) x 0,25
En otras palabras, para conseguir la puntuación máxima hay que aportar seis primer cuartil estando entre los tres primeros autores. O doce primer cuartil estando entre la sección 'otros' de la autoría. O doce segundo cuartil. Los artículos publicados en revistas sin factor de impacto son méritos residuales.
- Cuarta característica. Copio la evaluación de la actividad docente (que se espera que sea más bien poca cuando uno aspira a Ayudante Doctor):
2. Docencia: 20
2.1 Docencia reglada con plena responsabilidad docente en titulaciones oficiales en universidades: 12
(número de horas de docencia) /120
No se considerarán en la valoración las horas sobre las que no se aporte evaluación docente salvo que se aporte acreditación documental de que la evaluación no pudo efectuarse por razones ajenas a su voluntad. La obtención de alguna evaluación negativa de la actividad docente determinará la no consideración en la valoración de las horas a las
que se refiere.
Igualmente no se considerarán en la valoración las horas sobre las que no se aporte evaluación docente salvo que se aporte acreditación de que la evaluación no pudo efectuarse por razones ajenas a su voluntad.
Nuestra idea es que ahora mismo hay mucha gente muy capaz buscando trabajo como profesor universitario. Creemos que es necesario plantear baremos objetivos (aunque con indicadores con validez discutible, como el factor de impacto) y establecer unas reglas del juego claras. De este modo, aspiramos a atraer a profesorado capaz, brillante y comprometido, venga de donde venga.

Si bien ahora mismo el baremo ya está publicado, agradeceré comentarios y aportaciones por si resulta necesaria su modifación para concursos futuros.

sábado, abril 26, 2014

¿Qué es un test adaptativo informatizado?


Ayer mismo se publicaba en el repositorio de librerías de R catR, una librería para la generación, administración y simulación de tests adaptativos informatizados. Tengo la satisfacción de estar entre los autores de la librería.

Esto me servirá como excusa para publicar una serie de tres entradas en el blog, con el objetivo final de presentar algunas de las posibilidades que brinda catR. Para ello: (a) comentaré qué es un test adaptativo informatizado, (b) expondré por qué implicarse en el desarrollo de librerías, y (c) tomaré como ejemplo la detección de conducta deshonesta (copia) en procesos de selección de personal para mostrar qué puede dar de sí catR. Vayamos al primer punto.

¿Qué es un test adaptativo informatizado?

Imagine el siguiente juego. Usted lanza un dado de 100 caras y memoriza el número obtenido. Mi tarea consistirá en acercarme lo máximo posible a ese número con únicamente cuatro preguntas a las que usted responderá con un 'sí' o un 'no'. Imaginemos que ha salido un 67.


Lo más razonable sería que yo empezara preguntando "¿es el número superior a 50?" (o, su inversa y equivalente, "¿es igual o inferior a 50?"). Tras su respuesta afirmativa, que me permite descartar la mitad de los valores posibles, preguntaría "¿superior a 75?", que supone un "no" como respuesta. Con dos preguntas, ya he conseguido descartar las tres cuartas partes de los valores posibles. Ahora preguntaría, "¿superior a 63?", a la que seguiría "¿superior a 69?".

Al final de mis cuatro preguntas disponibles, el rango de valores disponibles entre los que sé que se sitúa el número va de 64 a 69. La incertidumbre se ha reducido de entre 100 valores equiprobables a sólo 6. Una gran ganancia gracias a haber sabido administrar adecuadamente las preguntas a realizar.

Si usted vuelve a tirar y, ahora, obtiene un 12, cambiará su respuesta a mi primera pregunta -esta primera, idéntica al caso anterior- y, con ello, las siguientes que le formularía. Las nuevas preguntas se van adaptando según sus respuestas a las previas para optimar la información obtenida con una de ellas.

Ahora cambiemos los papeles, usted busca el número y yo lanzo el dado. Pero con un cambio en las reglas. En este caso, las preguntas han de ser fijas para todas las veces en las que usted haya de descubrir el número. ¿Conseguirá, así, acercarse más o menos al valor del dado?

Esta modificación en el sistema altera profundamente la dinámica del mismo. Las preguntas razonables a plantear ahora son "¿es mayor de 20?, ¿de 40?, ¿de 60?, ¿y de 80?". Esto implica que, por un lado, usted se podrá aproximar en menor medida al número del dado, y, por otro lado, en ocasiones se formularán preguntas nada informativas. Imaginemos el caso en el que el número visto es un 1. Las preguntas de la 2 a la 4 no sirven para nada.

El primer caso, donde uno puede ir ajustando las preguntas, encajaría con la idea de un test adaptativo informatizado (informatizado, porque al componente adaptativo exige de ordenadores o similares). El segundo, con lo que suele llamarse un test lineal. Los tests adaptativos (o TAIs o CATs, por su abreviatura en inglés) permiten, en comparación con los tests lineales, o bien mayor precisión a igual longitud o bien menor longitud para conseguir la misma precisión.

El diagrama de un TAI es como sigue
  • Tras inicializar el sistema, se estima un primer nivel de habilidad (nivel de rasgo, puntuación en lo que quiera que deseemos medir). Lo común, en este punto, es comenzar asignando como nivel provisional la media poblacional.
  • Se evalúa si es necesario parar (¿hemos llegado ya a la longitud fija del test?, ¿hemos alcanzada ya un nivel de precisión suficiente?, por ejemplo).
  • Se selecciona de entre las preguntas disponibles aquella que más conviene presentar, según el nivel de habilidad estimado y algunas posibles consideraciones adicionales. La regla común es presentar, de entre los todavía no administrados, aquel máximamente informativo para el nivel previsional. En la siguiente fase, se presenta la pregunta al evaluado, quien responde.
Y así volvemos con otra vuelta. Dado que la estimación se ajusta tras cada ítem, con ello cambia la ordenación de las preguntas más interesantes a presentar. Un aspecto clave en un test adaptativo es que no hay preguntas buenas o preguntas malas en genérico, sino que la calidad de las mismas depende del nivel (estimado) del examinado. Preguntar "¿mayor de 75?" es una buena opción tras un "sí" a "¿mayor de 50?", pero no tras un "no". Preguntar "87 - 58 = ?" puede ser una buena pregunta para valorar matemáticas en Primaria, no en Ciencias Exactas.


A diferencia del ejemplo del dado, las preguntas que podemos formular para medir en ciencias de salud y en ciencias sociales no nos permiten descartar por completo un cierto rango de valores. La fiabilidad de los preguntas de una en una suele ser pobre, dado que cada ítem mide lo que realmente nos interesa y, muchas veces en mayor medida, lo que no nos interesa. Pero esto no cambia la idea básica de en qué consiste un TAI.

¿Para qué se pueden emplear los TAIs? Planteémoslo de otro modo: ¿Se le ocurre algún campo en el que no pueda resultar atractiva la idea de poder mantenar la precisión de la medida, pero con tests reducidos a la mitad de preguntas? Actualmente los TAIs se emplean en evaluación educativa, psicológica, médica, selección de personal...

Quien desee profundizar en el funcionamiento de los TAIs puede leer esto, esto o esto, todos ellos textos introductorios en español. En inglés, la referencia básica es ésta.

Si desee probar un TAI, puede pasarse el test de vocabulario de inglés de la Plataforma de Evaluación UZ.

martes, marzo 25, 2014

Evaluación de profesorado en la Universidad de Zaragoza

La Universidad de Zaragoza, al igual que otras muchas universidades, administra encuestas a sus estudiantes para que éstos puedan evaluar la labor docente del profesorado. Según la palabrería clásica en estos contextos, esto se hace con los siguientes fines:

La Universidad de Zaragoza quiere ofrecer a la sociedad una enseñanza de la máxima calidad. Con ese objetivo, se dota de mecanismos internos de evaluación que permitan el reconocimiento e incentivación de lo bien hecho, la reflexión sobre las malas prácticas y la puesta en marcha de planes específicos de mejora continua.
La encuesta consta de 25 preguntas (más algunas adicionales a rellenar si el estudiante manifiesta no acudir a clase con regularidad). Las relevantes de cara a la evaluación final son únicamente éstas:
Bloque A
1. [El profesor] Informa sobre los objetivos, contenidos, bibliografía y materiales recomendados.
2. [El profesor] Informa de las pruebas y criterios de evaluación que seguirá.
3. [El profesor] Informe de los fines y horarios de las tutorías.
Bloque B
4. [El profesor] Asiste a sus clases y, en caso contrario, se justifica y se sustituye o recupera.
5. [El profesor] Es puntual al comenzar y finalizar la actividad docente.
6. El profesor atiende las tutorías.
Bloque C
7. [El profesor] Es correcto y respetuoso con el estudiante.
8. [El profesor] Tiene una actitud receptiva y muestra disposición para el diálogo.
9. [El profesor] Promueve el interés por la materia.
10. [El profesor] Durante las tutorías ayuda a la comprensión y estudio de la asignatura.
Bloque D
11. [El profesor] Explica de manera clara y ordenada, destacando los aspectos más importantes.
12. [El profesor] Relaciona unos temas con otros de la materia.
13. [El profesor] Relaciona los conceptos de la materia con sus aplicaciones.
14. La labor de este profesor hace que la asistencia a clase facilite la comprensión de la materia.
15. [El profesor] Realiza el seguimiento y asesora sobre las actividades y trabajos.
16. [El profesor] Fomenta la participación del estudiante.
17. [El profesor] Fomenta el trabajo continuo del estudiante.
Bloque E
19. La labor docente de este profesor me parece...

A cada una de estas preguntas se responde con una escala de cinco puntos de respuesta:


Esto supone que la puntuación final numérica para cada profesor se da en una escala desde 1 = Muy deficiente hasta 5 = Muy bien. Esta puntuación numérica se transforma, posteriormente, en una escala ordinal, con tres evaluaciones posibles. Hay algún matiz adicional para su paso a escala ordinal, pero la regla general es:
- Evaluación Positiva Destacada, si la media se sitúa por encima del 4 o del 3.75 si la docencia es en asignaturas troncales u obligatorias.
- Evaluación Positiva, cuando el promedio se sitúa por encima del 2 y no se alcanza el criterio para evaluación superior.
- Evaluación Negativa, cuando el promedio se sitúa por debajo de 2.

Para que quede claro, una evaluación promedio de 2 = Deficiente supone una evaluación positiva de la labor docente en la Universidad de Zaragoza.

En mi centro se ha evaluado a 144 profesores: Todos ellos han recibido evaluación Positiva o Postiva Destacada. Nadie ha merecido una evaluación negativa. Eso incluye a profesores que generan quejas recurrentes por parte de los estudiantes por faltas de respeto, por inasistencia a clases, por incapacidad mental para la docencia...

Se puede debatir cuál habría de ser el punto de corte razonable para transformar esa escala numérica en una variable con tres categorías. Pero, creo, considerar como razonable un promedio de deficiencia para una valoración positiva es ser en extremo generoso con el profesorado en activo. Y, con ello, extremadamente injusto con el resto de profesorado (los que trabajan y tienen capacidad para impartir buena docencia, tanto los que ya están dentro como los que querrían entrar) como con el alumnado.

¿Y por qué es importante el punto de corte? Ya no únicamente por el mensaje interno que se lanza al profesorado y alumnado (a ver cómo convenzo ahora a mis estudiantes de que es importante rellenar estas encuestas), sino por la importancia que tiene para la selección de personal. Según la normativa de la UZ, aquellos cursos con evaluación docente negativa (básicamente, ninguno para nadie) no cuentan como méritos docentes para concursos de profesorado.

sábado, enero 26, 2013

La educación prohibida

Si les interesa la educación, es probable que ya estén al tanto de este documental. Ahora mismo no voy a hacer ningún comentario sobre el misma. Prefiero que aquellos que no lo hayan visto se lancen a ella sin ideas previas. Sólo digo que vale la pena, sea para estar de acuerdo o discrepar.


miércoles, enero 23, 2013

Entro en Twitter

Por probar... ¿Será Twitter como hablar al vacío? ¿Una jaula de grillos? ¿Una maravillosa oportunidad de compartir información rápidamente? ¿Una adicción inútil? Lo que no quiero es dejar de probar algo tan extendido. Al lado del título de la entrada tiene el enlace para 'seguirme'. (Para aquellos como yo con poca vocación de profetas y cierta aversión a la autoridad, eso de alguien 'nos siga' ya causa algo de grima). Esto no supone que deje el blog, al menos no más de lo abandona que lo tengo últimamente.

viernes, enero 18, 2013

Cristóbol Colón era catalán y tímido, dice la grafología

La Vanguardia informaba el 16/01/2013 de la publicación del libro Cristóbal Colón. Su origen y vida investigados con técnicas policiales del siglo XXI, escrito por el perito calígrafo Jesús Delgado. En ese libro se establece que Cristóbal Colón era, en cuanto a región de origen, catalán, y, en cuanto a personalidad, "reservado, soñador y visionario". Para ello, el autor del libro analiza los escritos originales de Colón y de familias nobles de Barcelona. Lamentablemente, el autor combina, sin distinguir, dos posibles usos del análisis de la letra escrita. Por un lado están las pruebas de peritaje caligráfico para determinar si diferentes escritos pertenecen a la misma persona o si un cierto escrito fue redactado por quien se le atribuye. Dada mi formación como psicólogo y total desconocedor del campo, nada puedo objetar respecto a cómo se han usado estas técnicas, que son las que sustentan la idea de que Colón era catalán. De hecho, ni siquiera estoy seguro de que mi descripción sobre este tipo de peritaje sea la correcta.

Otro posible uso del análisis de la letra escrita es la valoración de la personalidad de quien redacta. Esto es lo que se conoce como grafología. Hoy por hoy, la grafología es considerada por la comunidad científica como un método sin valor para determinar la personalidad. Carece de fiabilidad y validez. Diferentes grafólogos evaluando un mismo texto apenas llegan a acuerdos sobre la personalidad que supuestamente se refleja en el texto. Las valoraciones grafológicas guardan entre nula y mínima relación con la conducta de las personas evaluadas o con modos de evaluar la personalidad que sí cuentan con validez científica. Por ello, lamentablemente, el análisis grafológico de los textos de Colón no tiene nada que aportar sobre cómo fue el navegante y descubridor, en la misma medida que no tiene nada que decirnos este tipo de análisis sobre nadie en ningún contexto. Claramente podemos hacernos una idea de si Colón era o no tímido gracias a sus textos, si el buen Cristóbal escribía frases del estilo de "me considero una persona retraída, no me gusta especialmente estar con gente", pero no escudriñando el modo como colocaba el palito de las tes o cómo de redondeabas eran sus oes.

Para sustentar la idea de que la grafología es básicamente igual a la nada pueden pasarse por aquí, aquí o aquí, que tienen en común ser artículos científicos.

miércoles, diciembre 12, 2012

Análisis de la estructura interna de un test - Análisis factorial

Dada la importancia de las diferentes técnicas para el análisis de la estructura interna de un cuestionario, vamos a examinar las características de tres modelos disponibles para este propósito. Por un lado, el análisis factorial exploratorio y el análisis factorial confirmatorio, y, por otro lado, una propuesta más reciente, los modelos exploratorios de ecuaciones estructurales (Asparouhov & Muthén, 2009).

Análisis Factorial Exploratorio (EFA, por sus siglas en inglés)
El EFA se considera habitualmente como una técnica guida por los datos (Fabrigar, Wegener, MacCallum, & Strahan, 1999), dado que su uso no requiere de una sólida teoría que asigne ítems a factores. El EFA es habitualmente usado con el propósito de obtener una estructura simple e interpretable. Por estructura simple se entiende que cada ítem sature principalmente en único factor; por interpretable, que la distribución de ítems a factores permita establecer claramente qué es lo que está midiendo cada factor. Nos ceñiremos ahora en describir dos de los limitaciones del EFA (Brown, 2006).

Primero, en un EFA la covarianza entre ítems ha de ser explicada únicamente a través de las cargas en los diferentes factores. Ítems que comparten algún elemento en su redactado sin relevancia teórica (p.ej., ítem redundantes y ítems inversos) pueden mostrar una mayor covariación de la que la puede ser explicada meramente por sus relaciones con el constructo medido. En estos casos, la interpretación de la estructura interna del cuestionario resulta compleja o directamente errónea.

Segundo, el EFA no permite la correcta evaluación de la invarianza de medida a través de diferentes grupos (Meredith, 1993). Un test administrado a dos grupos diferentes puede ofrecer puntuaciones con interpretación no comparable. Un resultado dado, tanto en puntuación latente como observada, puede tener una interpretación diferente dependiendo del grupo al que pertenezca el evaluado. La comparabilidad de puntuaciones entre grupos ha de ser apoyada por pruebas. Para poner a prueba la invarianza (p.ej., Dimitrov, 2010), lo que se evalúa es la igualdad (o mínima diferencia) entre las líneas de regresión que relacionan las puntuaciones factoriales (o variable predictora) con la puntuación en el ítem (variable criterio). En este contexto, la línea de regresión está especificada por la pendiente (carga factorial) y y valor en el criterio cuando el predictor es igual a 0 (el intercepto). Las técnicas de evaluación de invarianza desarrolladas en el marco del EFA permiten únicamente evaluar la similaridad entre cargas (Meredith, 1964), no entre interceptos. Por tanto, el EFA no permite descartar el funcionamiento diferencial de un instrumento entre grupos.

Otras limitaciones no corresponderían al EFA en su mismo como técnica, sino al mal uso de la misma. Así, por ejemplo, el emplear análisis de componentes principales (técnica de reducción de dimensiones), en lugar de técnicas factoriales, de tal modo que se sobreestiman las cargas factoriales; emplear rotaciones ortogonales cuando se espera y se encuentra correlación entre dimensiones, por lo que la estructura generada no es simple y no encaja con lo observado; o la incapacidad para informar en una parte importante de los artículos sobre los criterios para determinar el número de factores, obviando que el número de factores retenidos es una decisión del analista de datos que ha de justificarse. Una parte importante de estos problemas se explican por la tendencia a dar por buenos las opciones por defecto de los programas de análisis.

Confirmatory Factor Analysis (CFA, por sus sigles en inglés)
El CFA es considerado una técnica guiada por la teoría, puesto que el número de dimensiones y las relaciones ítems-factores a través de los cuales explicar la matriz de covarianzas han de estar apoyados por una teoría previa sólida o por previos EFAs en los que se ha encontrado una estructura simple. En un CFA las cargas factoriales se estiman habitualmente con la restricción de que cada ítem saturará únicamente en el factor esperado, y el resto de cargas de ese ítem se fijan a 0. Se pueden incluir unicidades correlacionadas en el modelo, de tal modo que las cargas no se distorsionan por factores espurios o por redundancias entre ítems. Para los CFAs, lo estándar es informar de índices de ajuste, índices que informan de la medida en la que el modelo puesto a prueba reproduce satisfactoriamente la matriz de covarianzas muestral (Brown, 2006). (Estos índices también están disponibles para los EFAs, aunque es extremadamente infrecuente informar de ellos en el caso de emplear esa técnica.)

El CFA permite evaluar la invarianza de medida. Poner a prueba la invarianza de la estructura interna de una escala supone una serie de pasos sucesivos (Vandenberg & Lance, 2000). El primer paso es poner a prueba que el modelo se ajusta para cada uno de los grupos por separado. De no cumplirse este paso, no tiene sentido proceder adelante. El segundo paso es evaluar la invarianza de forma: ¿es el número de factores y la distribución de ítems por factores la misma para los diferentes grupos? En el caso de que este modelo ajuste, el siguiente paso es evaluar si las cargas factoriales son las mismas entre los grupos. La invarianza de las cargas se acepta cuando la reducción en el ajuste es mínima. El siguiente paso es evaluar si los interceptos de los ítems pueden igualarse entre grupos. El mismo criterio, decremento mínimo en el ajuste en comparación con el modelo previo, se usa para evaluar esta invarianza. Si se satisfacen todas estas invarianzas, la escala funciona igual entre grupos y, por ello, las puntuaciones pueden ser comparadas entre grupos.

La limitación principal del CFA es su supuesto restrictivo: la estructura factorial es completamente simple (Asparouhov & Muthén, 2009). El método para establecer simpleza factorial con un EFA o con un CFA varía. En un EFA el criterio para considerar una estructura simple is habitualmente la ausencia de cargas destacables (p.ej., por encima de 0.30) en factores en los que los ítems no pertenecen teóricamente,  no son asignados. Sin embargo, cargas de pequeño tamaño pueden ser estadísticamente significativas, diferentes de 0. De hecho, la práctica común es no evaluar la significación estadística de las cargas (Cudeck & O’Dell, 1994; Jennrich, 2007). En un CFA, por otro lado, cualquier carga factorial diferente de 0 no modelada reduce el ajuste del modelo y puede sesgar los resultados. Esto supone que algunos instrumentos de evaluación teóricamente consolidados, apoyados por extensa investigación, no ofrecen un ajuste aceptable cuando se modelan con un CFA (Marsh et al., 2009).

De nuevo, la limitación descrita se ciñe a la técnica, no al empleo de la técnica. En su uso, destacaríamos como problemas la naturaleza en muchas ocasiones exploratoria de la técnica, poniendo a prueba multitud de modelos (por ello, algunos autores prefieren hablar de análisis con restricción de parámetros para el CFA y de análisis no restringido para el EFA); la capitalización del azar dados tamaños muestrales pequeños y uso intensivo de los índices de modificación para reespecificar el modelo, lo cual reduce las opciones de poder reproducir tal modelo en una muestra nueva; o el no analizar las áreas de desajuste y ceñirse únicamente a valores globales de ajuste, lo que puede enmascarar problemas del modelo.

Modelos Exploratorios de Ecuaciones Estructurales (ESEM - exploratory structural equation modeling, por sus siglas en inglés)
El ESEM (Asparouhov & Muthén, 2009) incorpora muchas de las ventajas del CFA pero está libre de sus limitaciones. El ESEM permite la estimación de las cargas factoriales para todos los ítems en todos los factores, luego el problema de fijar a 0 las cargas cruzadas desaparece. Cuando la matriz de cargas poblacional incluye cargas cruzadas, el ESEM recupera mejor esta matriz que el CFA y no está sujeta a distorsiones en la estimación de parámetros. Al igual que el CFA, con el ESEM se estiman tanto las cargas como los interceptos, luego la invarianza de medida puede ser puesta a prueba tal y como hemos descrito.

Podemos señalar varias limitaciones del ESEM. Primero, en términos de usabilidad, y hasta donde sabemos, el ESEM está implementado únicamente en el software Mplus. Segundo, en términos de recorrido histórico, mientras que las investigaciones sobre EFA y CFA (y con EFA y CFA como herramientas estadísticas) cuentan con décadas, el ESEM es una alternativa mucho más reciente, y esto tiene ciertas consecuencias. Por ejemplo, los puntos de corte para dar el ajuste por satisfactorio que habitualmente se emplean son los que se recomiendan para los CFAs, puesto que no se han llevado a cabo estudios específicos para el ESEM. Tercero, el ESEM también tiene sus propias limitaciones estadísticas. En el contexto del CFA el exceso de covarianza entre ítems inversos, por ejemplo, puede modelarse con unicidades correlacionadas o con un factor de método. En el ESEM esta segunda opción no está disponible, puesto que una vez que un ítem entra en un factor exploratorio no puede hacer también un uno confirmatorio. Por último, análisis factoriales de segundo orden, disponibles tanto en EFA como en CFA, no pueden realizarse con el ESEM.

Consideramos que estas limitaciones son menores y que, en cualquier caso, no reducen el enorme potencial del ESEM. Nuestros instrumentos de medida en muchas ocasiones presentan unicidades correlacionadas entre ítems y en muchas ocasiones hay cargas cruzadas. La realidad no es tan limpia como se espera al aplicar un CFA ni tan simple como se asume al aplicar un EFA.



Este post se sale de lo habitual en este blog. Forma parte, con algún añadido para el blog, del primer envío de un artículo que el editor recomendó abreviar y por ello cayó de la versión final. Al tenerlo ya escrito y considerar que podía ser útil para alguien, aquí lo dejo.