Recorrido paso a paso, con las operaciones matemáticas desglosadas y datos reales de 27 estudiantes que respondieron el test de epistemología y complejidad.
La mayoría de los exámenes universitarios no son tests. Son opiniones con apariencia de ciencia. Aquí te enseño a distinguir uno del otro, con aritmética simple.
Cuando el profesor aplica un examen y el alumno obtiene 13 de 20, todos asumen que ese 13 mide conocimiento. Pero nadie se pregunta cosas básicas:
La Teoría Clásica de los Tests responde estas preguntas con cinco operaciones matemáticas. Cinco. No son difíciles. Son sumas, restas, divisiones y una raíz cuadrada. Este recorrido las hace, paso por paso, con los datos reales de los 27 estudiantes que respondieron mi test.
Esta es la ecuación que fundó la psicometría en 1904. Una suma. Tres letras. Y un cambio de paradigma.
Te pesas en la báscula del baño. Marca 75.2 kg. ¿Ese es tu peso real? No exactamente. Tu peso real quizá sea 74.9 o 75.4 — la báscula tiene un margen de error. Lo que lees es tu peso verdadero más el ruido de la báscula. Un test funciona igual.
La Teoría Clásica asume que si repites el test muchas veces, los errores se cancelan (porque tienen media cero). Por eso el promedio de muchos intentos se acerca al puntaje verdadero. Pero un solo intento siempre contiene ruido.
Con las fórmulas que veremos más abajo, calculamos que el error de medición en nuestro test es ±2 puntos. Entonces el 13 significa, con alta probabilidad, que el conocimiento real de ese alumno está entre 9 y 17. No es un intervalo angosto. Pero reportar 13 sin la incertidumbre es mentir.
Entre el 17 y el 18 de abril de 2026, 27 estudiantes de doctorado respondieron el test. Aquí están sus puntajes, ordenados.
Con estos datos empezamos. El resto del recorrido es: dada esta matriz de 27 × 20 aciertos/fallos, calcula los indicadores de calidad del test. Paso por paso. Nada escondido.
El cálculo más básico de todos. Una división.
De los 27 estudiantes que respondieron, ¿cuántos acertaron esta pregunta en particular? Si acertaron muchos, la pregunta fue fácil. Si acertaron pocos, fue difícil.
«Para la pregunta número j, cuento cuántas personas la acertaron, divido entre el total de personas que respondieron, y eso es p.»
De los 27 estudiantes, 11 marcaron la opción correcta de R02.
Casi el 69% acertó esta pregunta.
0.69 cae en la zona útil (entre 0.20 y 0.80). Esta pregunta sí sirve para medir.
Si una pregunta tiene p = 1.0, todos la acertaron. No discrimina entre alumnos — no te dice quién sabe más. Si p = 0.0, nadie la acertó. Tampoco sirve. El rango útil es aproximadamente 0.20 ≤ p ≤ 0.80. Fuera de ahí, la pregunta pierde información.
Una resta entre dos divisiones. Suena complicado; te prometo que no lo es.
Si tomamos a los estudiantes de alto puntaje y comparamos cuántos acertaron esta pregunta, contra los estudiantes de bajo puntaje, ¿hay diferencia? Si el grupo alto acierta más que el grupo bajo, la pregunta discrimina. Si todos aciertan por igual, la pregunta no mide nada útil. Si el grupo bajo acierta más que el grupo alto, la pregunta está rota al revés.
De menor a mayor: 6 · 8 · 9 · 9 · 10 · 11 · 11 · 11 · 11 · 13 · 13 · 13 · 13 · 14 · 15 · 20
27% de 16 ≈ 4 personas. Tomamos a los 4 con puntaje más alto y a los 4 con puntaje más bajo.
El 27% viene de Kelley (1939): maximiza la varianza entre los grupos extremos.
R15 discrimina perfecto. Es el ítem estrella del test.
El grupo de bajo puntaje acierta este ítem más que el grupo alto. La pregunta está rota — discrimina al revés. Se descarta.
D ≥ 0.40 excelente · 0.30 a 0.40 bueno · 0.20 a 0.30 aceptable con revisión · menor a 0.20 pobre · menor a 0 se descarta sin duda.
Ocho pasos aritméticos. Cero misterio. Al final tendrás α = 0.7088 y entenderás por qué.
Si todas las preguntas miden lo mismo (el test es internamente consistente), la suma de las varianzas de cada pregunta es mucho menor que la varianza del puntaje total. ¿Por qué? Porque cuando los ítems covarían positivamente entre sí, el total varía mucho más que la suma de sus partes.
Para cada pregunta j, la varianza es pj × (1 − pj) × (n ÷ (n−1)). Con n = 27, el factor (n/(n−1)) = 27/26 = 1.038.
Repetimos este cálculo 20 veces, una por cada pregunta.
Tomamos los 27 puntajes totales (6, 8, 9, 9, 10, 11, 11, 11, 11, 13, 13, 13, 13, 14, 15, 20), calculamos su varianza.
Interpretación: 42% de la varianza total es "solo suma de partes"; el otro 58% es la covarianza entre ítems, que es la señal.
Ese es el α de Cronbach de nuestro test.
Nuestro α = 0.71 es moderado. Tres razones honestas:
Los tres valores que importan para calcular α son: número de ítems (k), suma de varianzas de ítem, y varianza del total. Cámbialos y mira cómo responde la fórmula.
α es una propiedad del test. SEM es su traducción al puntaje de una persona.
Un alumno obtuvo 13 de 20 aciertos. Su puntaje verdadero está, con 95% de confianza, en el intervalo 13 ± (1.96 × 2.02) = 13 ± 3.96, es decir, entre 9 y 17. Reportar "obtuvo 13" es incompleto. Lo correcto es reportar el intervalo.
Combinando dificultad, discriminación y correlación punto-biserial, cada ítem recibe un veredicto.
27 estudiantes × 20 reactivos = 320 decisiones (acertó o falló). En un heatmap se leen patrones en segundos.
Cada fila es un estudiante (ordenados de mayor a menor puntaje). Cada columna es un reactivo (ordenados de más fácil a más difícil). Cada celda verde es un acierto; roja es un fallo.
Un reactivo no es solo su respuesta correcta. Las 3 opciones falsas deben estar diseñadas con intención. Aquí las diagnosticamos una por una.
Un reactivo con 4 opciones tiene 3 distractores. Si los 3 son funcionales, el reactivo puede alcanzar D = 1.00. Si 2 son muertos, efectivamente estás aplicando una pregunta de verdadero/falso disfrazada.
Para cada reactivo, contamos cuántas personas eligieron cada opción y diagnosticamos cada distractor.
Haz clic en cada reactivo para ver el escenario completo, las opciones, la correcta, y la justificación razonada por autor/tradición.
Honestidad metodológica como virtud cardinal. Con 27 respuestas no se construye evidencia psicométrica: se construye un piloto.
En los próximos tres capítulos respondemos: ¿cómo se vería este test con n suficiente? (simulación) · ¿cuántos casos necesito? (potencia) · ¿cómo se aplica todo esto en la práctica? (guía accionable para construir instrumentos evaluativos).
Datos sintéticos declarados, generados desde un modelo IRT 2PL. No son respuestas reales: son un tutorial del procedimiento con volumen adecuado.
Usamos un modelo IRT 2PL (Birnbaum, 1968) con parámetros declarados explícitamente. Cualquiera puede reproducir el ejercicio.
Mismos 20 ítems, mismo pipeline; lo único que cambia es el número de respondientes.
| Indicador | Real · n = 27 | Simulado · n = 500 | Lectura |
|---|---|---|---|
| α de Cronbach | 0.612 | 0.763 | confiabilidad estable en zona "buena" |
| SEM | 2.02 | 1.93 | error de medición similar |
| Puntaje medio | 11.7 | 11.2 | test de dificultad comparable |
| Amplitud IC 95% de α | ± 0.225 | ± 0.025 | 9× más preciso con n=500 |
| Ítems con D ≥ 0.30 | 13 | 18 | mejor caracterización con más datos |
Con los mismos 20 ítems y modelo, el α "verdadero" está cerca de 0.76. Los 27 reales estiman 0.61 — no es que el test sea peor, es que Con 27 datos la estimación es ruidosa. El test real podría tener α igual de bueno; solo faltan casos para mostrarlo.
Análisis de potencia: para cada tamaño de muestra simulamos 400 experimentos y medimos qué tan ancho es el intervalo de confianza del α.
Si quieres estimar α con precisión de ± 0.05, necesitas n ≈ 500.
El eje X es el tamaño de muestra · el eje Y es el ancho del intervalo de confianza del 95% para α. Idealmente quieres un intervalo angosto.
Imagina que tomas una muestra de 100 personas y calculas α. Obtienes 0.72. Si repites el estudio con otras 100 personas distintas, obtendrás 0.74, luego 0.69, luego 0.71… El intervalo de confianza 95% es el rango donde caerían la mayoría de esos valores. Si el intervalo es angosto, tu estimación es precisa. Si es ancho, tu estimación es ruidosa.
Un GPS viejo te dice «estás en la avenida Juárez, ± 300 metros». Un GPS moderno te dice «estás en la avenida Juárez, ± 3 metros». Ambos aciertan la avenida. Pero el moderno es útil para encontrar una dirección exacta; el viejo no. Más datos = GPS más preciso.
Checklist operativo para construir un instrumento psicométrico serio. Ocho pasos. Cada uno con software concreto y entregable concreto.
Tabla de tres columnas: objetivo evaluado × nivel cognitivo (Bloom/SOLO) × número de ítems planeados. Sin esta tabla no hay validez de contenido que defender.
Escribe 30-50% más ítems de los que necesitas. En el piloto se van a caer algunos por discriminación baja o dificultad extrema. Mejor tener reserva.
Al menos 3 expertos evalúan cada ítem en dimensiones como claridad, pertinencia, representatividad. Calcula la V de Aiken para cuantificar acuerdo.
Si es un estudio doctoral serio, apunta a n ≥ 200. Google Forms o LimeSurvey sirven. Evita n = 27 en reportes formales.
Corre p, D, r_pb por cada ítem. Calcula α de Cronbach, SEM. Analiza distractores: cada opción debe atraer al menos al 5% de los sustentantes bajos.
Elimina ítems con D ≤ 0 (penalizan a estudiantes de alto puntaje) o r_pb < 0.20. Reescribe distractores muertos. Documenta por qué se cae cada ítem.
Haz un análisis factorial exploratorio (AFE) o confirmatorio (AFC) para mostrar que el test mide el constructo declarado. Para AFC necesitas n ≥ 200.
En cualquier reporte formal (artículo, tesis, informe técnico), siempre se reportan α, SEM, evidencia de validez, y qué ítems se eliminaron y por qué. Si el n fue chico, se declara explícitamente. Nunca se infla la evidencia.
Para que los estudiantes vean la mecánica completa y puedan modificar datos, creé una plantilla de Google Sheets con 6 hojas:
TCT nos dice cuántos acertaron un ítem. TRI nos dice quiénes lo acertarían en función de su habilidad. Ese salto conceptual es el que permite comparar tests distintos en la misma escala.
a y bCada ítem tiene su propia curva logística. Los dos parámetros la deforman:
a alta significa que el ítem discrimina muy bien alrededor de bPensalo como saltos de altura. Un listón bajo (b bajo): casi todos pasan. Un listón alto (b alto): solo los mejores pasan. La "afilación" del listón (a) es qué tan estricto es el juez: un juez estricto marca una diferencia nítida entre quienes pasan y quienes no; un juez laxo deja a muchos en la zona gris.
Si el mismo ítem R07 se aplica a otra muestra con habilidad promedio más alta, su p (proporción de aciertos) va a subir — porque más gente con habilidad suficiente lo acertará. Pero su b TRI seguirá siendo el mismo (-1.15): el punto θ donde 50% acierta no depende de quién está respondiendo.
Esto es lo que permite:
Solo parámetro b. Asume que todos los ítems discriminan igual. Matemáticamente elegante; empíricamente restrictivo.
Dos parámetros: a y b. Modelo operativo del GRE, EXANI y la mayoría de tests modernos.
Agrega c = probabilidad de adivinar. Útil en tests de opción múltiple. Requiere n ≥ 1000 para converger.
mirt; en Python, pyirt.
Markov Chain Monte Carlo es el motor de la estadística bayesiana moderna. El ejemplo canónico — una moneda sesgada — desmonta el método en aritmética que cualquiera puede seguir.
Tenemos una moneda que sospechamos está sesgada. La lanzamos 20 veces y obtenemos 13 caras. Pregunta: ¿cuál es la probabilidad real de cara (θ)?
Un solo número. Estimación puntual. No dice nada sobre incertidumbre.
Una distribución completa: posterior. Da incertidumbre explícita.
Imagina que quieres mapear la topografía de un valle pero no puedes verlo desde arriba. Lo único que puedes hacer es caminar dentro, dando pasos aleatorios con una regla: si el siguiente paso te lleva a mayor altura, lo aceptas; si te lleva abajo, lo aceptas solo con probabilidad proporcional. Si caminas 10,000 pasos, las posiciones que visitaste se acumulan más en las zonas altas del valle. Eso reconstruye la topografía sin haberla visto nunca. Eso es MCMC.
Si r > 1, el nuevo valor es más probable que el actual.
En nuestro ejemplo: 10,000 iteraciones. Descartamos los primeros 500 (burn-in). Los 9,500 restantes son muestras del posterior.
Cada punto es un valor aceptado de θ en la iteración correspondiente. Al principio la cadena explora; rápidamente se concentra en la zona densa del posterior.
Después de descartar el burn-in, las muestras acumuladas forman la distribución posterior. Superpongo la curva analítica exacta (Beta(15, 9)) para demostrar que MCMC la aproxima con precisión.
MCMC nunca conoció la forma analítica del posterior Beta(15, 9). Solo "caminó" por el espacio de θ siguiendo reglas locales de aceptación y rechazo. Y sin embargo reconstruyó el posterior con precisión sorprendente. Eso es lo que permite que Bayes funcione en modelos donde no hay forma analítica — que son casi todos los interesantes.
Software gratuito y portable. Toda la TCT en cuatro pasos: descargar, cargar, codificar y analizar. Aquí están los cuatro videos del canal en el orden en que se usan.
Pruebas objetivas con respuesta correcta única (opción múltiple), bases < 50 000 sujetos, sin presupuesto para SPSS. Para escalas tipo Likert con varianza continua, prefiere JASP o SPSS.
Si tu universidad o centro tiene licencia, SPSS sigue siendo la ruta más rápida. Tres videos del canal cubren el cálculo, la interpretación y el flujo histórico.
Sin licencia, sin pago, sin línea de comando. Tres videos del canal cubren instalación y cálculo de confiabilidad (α y ω).
No es el atajo. Es la pedagogía. Calcular el alfa o la dificultad celda por celda obliga a entender la fórmula que SPSS te oculta.
La TCT funciona solo si los reactivos están bien construidos. Antes de calcular p y D, hay que redactarlos. Tres videos del canal en orden didáctico.
Validez de constructo · jueces expertos y V de Aiken. Shorts del propio dashboard: dificultad, discriminación, α de Cronbach y SEM.