Teoría Clásica de los Tests · paso a paso con datos reales

Capítulo 02 · La ecuación base

Todo puntaje es señal más ruido.

Esta es la ecuación que fundó la psicometría en 1904. Una suma. Tres letras. Y un cambio de paradigma.

$$X = V + E$$

Puntaje observado = Puntaje verdadero + Error de medición

Analogía

Te pesas en la báscula del baño. Marca 75.2 kg. ¿Ese es tu peso real? No exactamente. Tu peso real quizá sea 74.9 o 75.4 — la báscula tiene un margen de error. Lo que lees es tu peso verdadero más el ruido de la báscula. Un test funciona igual.

¿Qué significa cada letra?

XEl puntaje que vemos — 13 sobre 20observable VEl puntaje verdadero — el conocimiento real del alumnono lo sabes nunca EError — suerte, fatiga, distracción, preguntas ambiguasaleatorio, media cero

La Teoría Clásica asume que si repites el test muchas veces, los errores se cancelan (porque tienen media cero). Por eso el promedio de muchos intentos se acerca al puntaje verdadero. Pero un solo intento siempre contiene ruido.

¿Qué pasa con un alumno que sacó 13?

Con las fórmulas que veremos más abajo, calculamos que el error de medición en nuestro test es ±2 puntos. Entonces el 13 significa, con alta probabilidad, que el conocimiento real de ese alumno está entre 9 y 17. No es un intervalo angosto. Pero reportar 13 sin la incertidumbre es mentir.

Capítulo 03 · Los datos

Dieciséis estudiantes. Veinte preguntas. Una base de trabajo.

Entre el 17 y el 18 de abril de 2026, 27 estudiantes de doctorado respondieron el test. Aquí están sus puntajes, ordenados.

Puntajes de los 27 estudiantes · el 20/20 es un caso atípico

estudiantes

preguntas

Media

11.7

de 20 aciertos

Rango

6—20

SD = 3.24

Con estos datos empezamos. El resto del recorrido es: dada esta matriz de 27 × 20 aciertos/fallos, calcula los indicadores de calidad del test. Paso por paso. Nada escondido.

Capítulo 04 · Primer indicador

Dificultad del ítem p: ¿qué tan fácil fue cada pregunta?

El cálculo más básico de todos. Una división.

Animación · cómo se calcula p

La fórmula paso a paso: aciertos divididos entre el total de respondientes.

La pregunta pedagógica

De los 27 estudiantes que respondieron, ¿cuántos acertaron esta pregunta en particular? Si acertaron muchos, la pregunta fue fácil. Si acertaron pocos, fue difícil.

$$p_j = \frac{\text{número de aciertos}}{\text{número total de respondientes}}$$

Una fracción: arriba aciertos, abajo total

Cómo se lee en voz alta

«Para la pregunta número j, cuento cuántas personas la acertaron, divido entre el total de personas que respondieron, y eso es p.»

Hagámoslo con el Reactivo 2 (R02) del test real

Contar aciertos de R02

De los 27 estudiantes, 11 marcaron la opción correcta de R02.

aciertos → 11

Dividir entre el total

p₀₂ = 11 ÷ 16 = 0.6875

Casi el 69% acertó esta pregunta.

Interpretar

0.69 cae en la zona útil (entre 0.20 y 0.80). Esta pregunta sí sirve para medir.

¿Por qué los extremos no sirven?

Si una pregunta tiene p = 1.0, todos la acertaron. No discrimina entre alumnos — no te dice quién sabe más. Si p = 0.0, nadie la acertó. Tampoco sirve. El rango útil es aproximadamente 0.20 ≤ p ≤ 0.80. Fuera de ahí, la pregunta pierde información.

En nuestro test, cuatro preguntas quedaron fuera del rango útil

R0714 aciertos de 16 → demasiado fácilp = 0.875 R1115 aciertos de 16 → demasiado fácilp = 0.938 R1713 aciertos de 16 → demasiado fácilp = 0.812 R2013 aciertos de 16 → demasiado fácilp = 0.812

Dificultad p por ítem · las barras rojas están fuera del rango útil

Capítulo 05 · Segundo indicador

Discriminación D: ¿la pregunta distingue alto y bajo desempeño?

Una resta entre dos divisiones. Suena complicado; te prometo que no lo es.

Animación · cómo se calcula D

Partir la muestra por puntaje, calcular p en cada grupo, restar.

La pregunta pedagógica

Si tomamos a los estudiantes de alto puntaje y comparamos cuántos acertaron esta pregunta, contra los estudiantes de bajo puntaje, ¿hay diferencia? Si el grupo alto acierta más que el grupo bajo, la pregunta discrimina. Si todos aciertan por igual, la pregunta no mide nada útil. Si el grupo bajo acierta más que el grupo alto, la pregunta está rota al revés.

$$D_j = p_j^{\text{alto}} - p_j^{\text{bajo}}$$

Proporción de aciertos en los de alto puntaje, menos proporción en los de bajo puntaje

Procedimiento, paso a paso, con R15 (el reactivo estrella)

Ordenar a los 27 estudiantes por su puntaje total

De menor a mayor: 6 · 8 · 9 · 9 · 10 · 11 · 11 · 11 · 11 · 13 · 13 · 13 · 13 · 14 · 15 · 20

Identificar el 27% de arriba y el 27% de abajo

27% de 16 ≈ 4 personas. Tomamos a los 4 con puntaje más alto y a los 4 con puntaje más bajo.

Grupo alto (4 personas, puntajes 13, 14, 15, 20) → 4 personas
Grupo bajo (4 personas, puntajes 6, 8, 9, 9) → 4 personas

El 27% viene de Kelley (1939): maximiza la varianza entre los grupos extremos.

Contar cuántos del grupo alto acertaron R15

aciertos en grupo alto = 4 de 4
p^alto₁₅ = 4 ÷ 4 = 1.00

Contar cuántos del grupo bajo acertaron R15

aciertos en grupo bajo = 0 de 4
p^bajo₁₅ = 0 ÷ 4 = 0.00

Restar

D₁₅ = 1.00 − 0.00 = 1.00

R15 discrimina perfecto. Es el ítem estrella del test.

Comparemos con R01 (el reactivo roto)

Grupo alto: aciertos

1 de 4 acertaron → p^alto₀₁ = 0.25

Grupo bajo: aciertos

2 de 4 acertaron → p^bajo₀₁ = 0.50

Restar

D₀₁ = 0.25 − 0.50 = −0.25

El grupo de bajo puntaje acierta este ítem más que el grupo alto. La pregunta está rota — discrimina al revés. Se descarta.

Regla de umbrales

D ≥ 0.40 excelente · 0.30 a 0.40 bueno · 0.20 a 0.30 aceptable con revisión · menor a 0.20 pobre · menor a 0 se descarta sin duda.

Capítulo 06 · La fórmula reina

Alfa de Cronbach: ¿los ítems miden lo mismo?

Ocho pasos aritméticos. Cero misterio. Al final tendrás α = 0.7088 y entenderás por qué.

Animación · los 8 pasos de α

Desde las varianzas por ítem hasta la fórmula final. Dos minutos.

$$\alpha = \frac{k}{k-1}\left(1 - \frac{\sum_{j=1}^{k} \sigma_j^2}{\sigma_T^2}\right)$$

Los símbolos parecen muchos. Solo son k, dos varianzas, una división y un par de operaciones.

La intuición clave

Si todas las preguntas miden lo mismo (el test es internamente consistente), la suma de las varianzas de cada pregunta es mucho menor que la varianza del puntaje total. ¿Por qué? Porque cuando los ítems covarían positivamente entre sí, el total varía mucho más que la suma de sus partes.

Paso por paso con los 27 reales del test

Contar el número de ítems

k = 20

Calcular la varianza de cada ítem por separado

Para cada pregunta j, la varianza es p_j × (1 − p_j) × (n ÷ (n−1)). Con n = 27, el factor (n/(n−1)) = 27/26 = 1.038.

Para R02 con p = 0.688:
σ²₀₂ = 0.688 × 0.312 × 1.038 = 0.229

Repetimos este cálculo 20 veces, una por cada pregunta.

Sumar todas las varianzas de ítem

Σ σ²_j = σ²₀₁ + σ²₀₂ + ... + σ²₂₀ = 4.655

Calcular la varianza del puntaje total

Tomamos los 27 puntajes totales (6, 8, 9, 9, 10, 11, 11, 11, 11, 13, 13, 13, 13, 14, 15, 20), calculamos su varianza.

σ²_T = varianza(puntajes totales) = 14.251

Dividir la suma de varianzas entre la varianza total

Σ σ²_j ÷ σ²_T = 4.655 ÷ 14.251 = 0.4188

Interpretación: 42% de la varianza total es "solo suma de partes"; el otro 58% es la covarianza entre ítems, que es la señal.

Restar ese cociente de 1

1 − 0.4188 = 0.5812

Calcular el factor de corrección k/(k−1)

20 ÷ (20 − 1) = 20 ÷ 19 = 1.0526

Multiplicar

α = 1.0526 × 0.5812 = 0.7088

Ese es el α de Cronbach de nuestro test.

¿Qué significa 0.61?

≥ 0.90

Excelente

publicable

≥ 0.80

Bueno

uso clínico

≥ 0.70

Aceptable

investigación

0.61 ← nosotros

Moderado

piloto, n = 27, revisar

Nuestro α = 0.71 es moderado. Tres razones honestas:

El constructo "pensamiento complejo" es multifactorial (Morin, Wilber, Nicolescu, Zemelman, etc.). α asume unidimensionalidad; si el test mide varias cosas relacionadas pero distintas, α baja naturalmente.
Con n = 27, el intervalo de confianza de α es enorme (aproximadamente 0.30 a 0.80). No estamos midiendo α, estamos estimándolo con mucho ruido.
Cuatro ítems rotos (R01, R04, R17, R18) deprimen el α. Si los quitamos, sube.

Laboratorio · calcula tu propio α

Mueve los controles y observa cómo cambia α

Los tres valores que importan para calcular α son: número de ítems (k), suma de varianzas de ítem, y varianza del total. Cámbialos y mira cómo responde la fórmula.

k (ítems) 20

Σ σ²ⱼ 4.4

σ²_T 10.5

α = 0.709

Con esta configuración, el test tendría una confiabilidad moderada.

Capítulo 07 · Error individual

SEM: cuánto se equivoca el test con un solo alumno.

α es una propiedad del test. SEM es su traducción al puntaje de una persona.

Animación · cómo se calcula SEM

De α y la desviación estándar al intervalo de error individual.

Aclaración terminológica: este SEM (Standard Error of Measurement — error estándar de medición) no debe confundirse con Structural Equation Modeling (modelado de ecuaciones estructurales), que son diagramas con flechas que conectan variables latentes. Son dos cosas distintas. Aquí hablamos del primero.

$$\text{SEM} = \sigma_X \cdot \sqrt{1 - \alpha}$$

Desviación estándar del puntaje total, multiplicada por la raíz cuadrada de 1 menos α

¿Qué significa cada símbolo?

SEMStandard Error of Measurement — el error típico al medir a un individuoen puntos del test σ_XSigma de X — desviación estándar del puntaje total (qué tanto se dispersan los 27 puntajes)raíz de la varianza αAlfa de Cronbach — la confiabilidad que acabamos de calcularentre 0 y 1 1 − αProporción de la varianza total atribuible al errorcomplemento de α √Raíz cuadrada — porque pasamos de varianza (unidades al cuadrado) a desviación (unidades lineales)operación escalar

Con nuestros datos

Tomar la desviación estándar del puntaje total

σ_X = √(14.251) = 3.775

Calcular 1 − α

1 − 0.7088 = 0.3882

Sacar la raíz cuadrada

√0.3882 = 0.6230

Multiplicar

SEM = 3.775 × 0.6230 = 2.02

¿Qué significa SEM = 2.04?

Aplicación directa

Un alumno obtuvo 13 de 20 aciertos. Su puntaje verdadero está, con 95% de confianza, en el intervalo 13 ± (1.96 × 2.02) = 13 ± 3.96, es decir, entre 9 y 17. Reportar "obtuvo 13" es incompleto. Lo correcto es reportar el intervalo.

Capítulo 10 · Opciones falsas bajo el microscopio

Cada distractor hace su trabajo — o no lo hace.

Un reactivo no es solo su respuesta correcta. Las 3 opciones falsas deben estar diseñadas con intención. Aquí las diagnosticamos una por una.

Cuatro tipos de distractor

Funcional

Atrae a estudiantes de bajo puntaje, no atrae a los de alto puntaje. Es lo que queremos.

Débil

Atrae a pocos. No es muerto, pero no contribuye mucho a discriminar.

Muerto

Nadie lo elige. Espacio desperdiciado — se debe reescribir o eliminar.

Peligroso

Atrae a los estudiantes con alto puntaje MÁS que la correcta. Es ambiguo o rival legítimo; crisis del reactivo.

Principio de diseño

Un reactivo con 4 opciones tiene 3 distractores. Si los 3 son funcionales, el reactivo puede alcanzar D = 1.00. Si 2 son muertos, efectivamente estás aplicando una pregunta de verdadero/falso disfrazada.

Análisis de los 20 reactivos reales

Para cada reactivo, contamos cuántas personas eligieron cada opción y diagnosticamos cada distractor.

Cargando análisis de distractores…

Capítulo 12 · Honestidad metodológica

Lo que sí dicen y lo que no dicen estos 16 datos.

Honestidad metodológica como virtud cardinal. Con 27 respuestas no se construye evidencia psicométrica: se construye un piloto.

Lo que sí podemos afirmar

El test muestra consistencia interna moderada (α = 0.71). Mide algo coherente, pero probablemente multifactorial.
El pipeline de análisis detectó 4 reactivos claramente rotos (R01, R04, R17, R18) y 5 que requieren revisión.
El SEM de ≈ 2 puntos significa que los puntajes individuales tienen margen de incertidumbre importante. Reportarlos sin intervalo de confianza sería malinterpretar el instrumento.

Lo que no podemos afirmar

Que el test es confiable en sentido psicométrico formal. n = 27 no alcanza.
Que las diferencias entre ítems son estables. Con n pequeño, la varianza de muestreo domina los estimadores.
Que existe un solo rasgo latente. Esto requiere análisis factorial confirmatorio con n ≥ 200.

El valor didáctico no está en reportar el resultado final — está en mostrar cómo se hace el análisis bien, en qué punto los datos lo soportan y en qué punto se agotan. — principio metodológico del recorrido

En los próximos tres capítulos respondemos: ¿cómo se vería este test con n suficiente? (simulación) · ¿cuántos casos necesito? (potencia) · ¿cómo se aplica todo esto en la práctica? (guía accionable para construir instrumentos evaluativos).

Capítulo 13 · Simulación didáctica

Cómo se vería este test con 500 estudiantes.

Datos sintéticos declarados, generados desde un modelo IRT 2PL. No son respuestas reales: son un tutorial del procedimiento con volumen adecuado.

⚠ Aviso obligatorio: todos los números de este capítulo provienen de datos sintéticos generados desde un modelo declarado. No son respuestas de alumnos reales. Su propósito es ilustrar cómo se ve el pipeline TCT con un piloto de tamaño adecuado.

Modelo generador declarado

Usamos un modelo IRT 2PL (Birnbaum, 1968) con parámetros declarados explícitamente. Cualquiera puede reproducir el ejercicio.

kNúmero de ítems20 nNúmero de respondientes simulados500 b_jDificultad del ítem j · muestra aleatoria deN(0, 1) a_jDiscriminación del ítem j · muestra aleatoria deLogNormal(0, 0.3) θ_iHabilidad latente del respondiente i · muestra deN(0, 1) P(X=1|θ)1 / (1 + e^−a(θ−b))curva logística 2PL seedSemilla aleatoria (reproducibilidad)42

Resultados de la simulación

α simulado

0.763

dentro del rango "bueno" — IC estrecho por n grande

SEM simulado

1.93

similar al real (2.02)

Media / SD

11.2

muy similar a los 27 reales (11.7)

Discriminación media

0.47

mejor que los 27 reales

Comparación lado a lado

Mismos 20 ítems, mismo pipeline; lo único que cambia es el número de respondientes.

Indicador	Real · n = 27	Simulado · n = 500	Lectura
α de Cronbach	0.612	0.763	confiabilidad estable en zona "buena"
SEM	2.02	1.93	error de medición similar
Puntaje medio	11.7	11.2	test de dificultad comparable
Amplitud IC 95% de α	± 0.225	± 0.025	9× más preciso con n=500
Ítems con D ≥ 0.30	13	18	mejor caracterización con más datos

La lección clave

Con los mismos 20 ítems y modelo, el α "verdadero" está cerca de 0.76. Los 27 reales estiman 0.61 — no es que el test sea peor, es que Con 27 datos la estimación es ruidosa. El test real podría tener α igual de bueno; solo faltan casos para mostrarlo.

Capítulo 14 · ¿Cuántos casos necesitas?

La pregunta que todo investigador hace, con respuesta matemática.

Análisis de potencia: para cada tamaño de muestra simulamos 400 experimentos y medimos qué tan ancho es el intervalo de confianza del α.

Si quieres estimar α con precisión de ± 0.05, necesitas n ≈ 500.

Conclusión del análisis de potencia bootstrap desde el modelo IRT 2PL

Curva de precisión

El eje X es el tamaño de muestra · el eje Y es el ancho del intervalo de confianza del 95% para α. Idealmente quieres un intervalo angosto.

Ancho del intervalo de confianza 95% del α de Cronbach, simulación bootstrap desde modelo IRT 2PL (B=400 repeticiones)

¿Qué es un intervalo de confianza?

Imagina que tomas una muestra de 100 personas y calculas α. Obtienes 0.72. Si repites el estudio con otras 100 personas distintas, obtendrás 0.74, luego 0.69, luego 0.71… El intervalo de confianza 95% es el rango donde caerían la mayoría de esos valores. Si el intervalo es angosto, tu estimación es precisa. Si es ancho, tu estimación es ruidosa.

Analogía

Un GPS viejo te dice «estás en la avenida Juárez, ± 300 metros». Un GPS moderno te dice «estás en la avenida Juárez, ± 3 metros». Ambos aciertan la avenida. Pero el moderno es útil para encontrar una dirección exacta; el viejo no. Más datos = GPS más preciso.

Lectura honesta de la curva, con ejemplos

n = 27 (nuestro caso): IC 95% de ± 0.225 — α puede ser en realidad cualquier valor entre 0.43 y 0.88. Imposible concluir si el test es bueno o malo.
n = 100: IC de ± 0.067. Ya se puede decir "α está alrededor de 0.76 con precisión aceptable".
n = 500: IC de ± 0.025. Precisión publicable en revista psicométrica.
n = 800: la curva se aplana. Invertir más allá de 500 rinde poco.

Los tres GPS del α · mismo α verdadero (0.76), tres anchos de incertidumbre

Reglas prácticas por propósito: para un piloto con α y IC angosto se necesitan n ≥ 100. Para un estudio publicable, n ≥ 300. Para calibración TRI, n ≥ 500.

Capítulo 15 · Aplicación

Cómo aplicar esto en la práctica.

Checklist operativo para construir un instrumento psicométrico serio. Ocho pasos. Cada uno con software concreto y entregable concreto.

Diseña tu matriz de especificaciones

Tabla de tres columnas: objetivo evaluado × nivel cognitivo (Bloom/SOLO) × número de ítems planeados. Sin esta tabla no hay validez de contenido que defender.

Entregable → matriz_especificaciones.xlsx

Redacta un banco sobredimensionado

Escribe 30-50% más ítems de los que necesitas. En el piloto se van a caer algunos por discriminación baja o dificultad extrema. Mejor tener reserva.

Meta → banco de 30 ítems para un test final de 20

Valida contenido con expertos

Al menos 3 expertos evalúan cada ítem en dimensiones como claridad, pertinencia, representatividad. Calcula la V de Aiken para cuantificar acuerdo.

Software → Excel o R paquete psych

Aplica el piloto con n ≥ 100

Si es un estudio doctoral serio, apunta a n ≥ 200. Google Forms o LimeSurvey sirven. Evita n = 27 en reportes formales.

Plataforma → Google Forms · LimeSurvey · Qualtrics

Calcula los indicadores TCT

Corre p, D, r_pb por cada ítem. Calcula α de Cronbach, SEM. Analiza distractores: cada opción debe atraer al menos al 5% de los sustentantes bajos.

Software → R (paquete psych) · jamovi · iteman · jMetrik

Depura el banco

Elimina ítems con D ≤ 0 (penalizan a estudiantes de alto puntaje) o r_pb < 0.20. Reescribe distractores muertos. Documenta por qué se cae cada ítem.

Entregable → bitacora_depuracion.md

Valida la estructura interna

Haz un análisis factorial exploratorio (AFE) o confirmatorio (AFC) para mostrar que el test mide el constructo declarado. Para AFC necesitas n ≥ 200.

Software → R paquetes lavaan + semTools

Reporta todo — incluyendo los límites

En cualquier reporte formal (artículo, tesis, informe técnico), siempre se reportan α, SEM, evidencia de validez, y qué ítems se eliminaron y por qué. Si el n fue chico, se declara explícitamente. Nunca se infla la evidencia.

Estándar → AERA/APA/NCME Standards 2014

Un test bien construido es un acto de responsabilidad epistémica: mide lo que dice medir, reporta su precisión, y reconoce sus límites.

🧮 Plantilla Google Sheets — todas las fórmulas en vivo

Para que los estudiantes vean la mecánica completa y puedan modificar datos, creé una plantilla de Google Sheets con 6 hojas:

Respuestas — matriz 27 × 20 de aciertos/fallos con coloreado automático
Análisis de ítem — p, D, r_pb calculados con fórmulas Sheets visibles
α de Cronbach paso a paso — desglose celda por celda del cálculo
SEM e intervalos — tabla de IC 68% y 95% para cada puntaje
Plantilla vacía — los estudiantes pegan sus propios datos y todo se recalcula
Glosario de fórmulas — símbolo → significado → fórmula Sheets equivalente

Acceso: cualquiera con el link puede ver · para editar, Archivo → Hacer una copia
docs.google.com/spreadsheets/d/113ueJBkGbJBy28kCFw6yh3VGjUzA95oyJv_5C3uY3vI

ABRIR SHEET →

Recursos citados en este dashboard

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334.
Lord, F. M. & Novick, M. R. (1968). Statistical Theories of Mental Test Scores. Addison-Wesley.
Messick, S. (1989). Validity. En R. Linn (Ed.), Educational Measurement (3a ed., pp. 13-103). Macmillan.
Haladyna, T. M., Downing, S. M. & Rodriguez, M. C. (2002). A review of multiple-choice item-writing guidelines. Applied Measurement in Education, 15, 309-334.
American Educational Research Association, APA & NCME (2014). Standards for Educational and Psychological Testing.

Capítulo 16 · Avanzado · Más allá de TCT

Introducción a la Teoría de Respuesta al Ítem (TRI).

TCT nos dice cuántos acertaron un ítem. TRI nos dice quiénes lo acertarían en función de su habilidad. Ese salto conceptual es el que permite comparar tests distintos en la misma escala.

Marco de este capítulo: usamos los 500 datos simulados del Cap 13 (no los 27 reales) porque TRI exige muestras grandes. Aquí el objetivo es didáctico: comprender el marco conceptual que sustenta las pruebas estandarizadas modernas (GRE, EXANI, PISA).

¿Qué cambia respecto a TCT?

TCT nos da

p = 0.75 → 75% acertó el ítem
Un único número por ítem
Estadísticos cambian si cambia la muestra
No permite comparar personas que vieron ítems distintos

TRI nos da

Una curva que mapea habilidad → probabilidad de acierto
Dos parámetros por ítem: a y b
Parámetros invariantes a la muestra
Permite testing adaptativo

La ecuación · modelo 2PL

$$P(X_{ij} = 1 \mid \theta_i) = \frac{1}{1 + e^{-a_j \cdot (\theta_i - b_j)}}$$

Probabilidad de que la persona i acierte el ítem j, dada su habilidad θ

P(X = 1 | θ)Probabilidad de acertar el ítem, dado el nivel de habilidadentre 0 y 1 θ_iTheta — habilidad latente del respondiente i (qué tanto domina el constructo)escala ~ N(0, 1) a_jDiscriminación del ítem — qué tan empinada es la curva (cuánto distingue niveles cercanos)> 0 b_jDificultad del ítem — el punto θ donde P(acierto) = 0.5~ N(0, 1) eBase del logaritmo natural — hace que la curva sea logística (forma de S)≈ 2.718

La curva característica del ítem (ICC)

Cada ítem tiene su propia curva logística. Los dos parámetros la deforman:

b desplaza la curva a izquierda (fácil) o derecha (difícil)
a controla qué tan empinada es — una a alta significa que el ítem discrimina muy bien alrededor de b

Curvas características de 4 ítems · cada curva es logística (forma de S), pero con pendiente y centro distintos

Lectura del gráfico

La curva que empieza alta (verde) es un ítem fácil: una persona con habilidad promedio (θ=0) ya tiene probabilidad alta de acertarlo.
La curva que sube hacia la derecha (rojo) es un ítem difícil: solo personas con alta habilidad (θ > 1.5) tienen probabilidad razonable de acertarlo.
La curva muy empinada (dorado oscuro) es un ítem con alta discriminación: separa bruscamente a los que saben de los que no.
La curva plana (gris) es un ítem con baja discriminación: no distingue bien entre niveles de habilidad.

Analogía

Pensalo como saltos de altura. Un listón bajo (b bajo): casi todos pasan. Un listón alto (b alto): solo los mejores pasan. La "afilación" del listón (a) es qué tan estricto es el juez: un juez estricto marca una diferencia nítida entre quienes pasan y quienes no; un juez laxo deja a muchos en la zona gris.

La ventaja clave · invariancia

Si el mismo ítem R07 se aplica a otra muestra con habilidad promedio más alta, su p (proporción de aciertos) va a subir — porque más gente con habilidad suficiente lo acertará. Pero su b TRI seguirá siendo el mismo (-1.15): el punto θ donde 50% acierta no depende de quién está respondiendo.

Esto es lo que permite:

Comparar sustentantes que respondieron formas distintas del GRE, EXANI o similar
Hacer testing adaptativo: la computadora selecciona ítems según cómo vas respondiendo, maximizando información
Construir bancos de ítems con dificultades conocidas en una escala común
Comparar puntajes entre cohortes (año 2020 vs año 2025) aunque los ítems sean distintos

Si TCT es una fotografía, TRI es un mapa topográfico. Muestra la altura (probabilidad) en cada punto (habilidad) y el terreno no se deforma aunque cambien los viajeros.

¿Qué más existe?

1PL (Rasch)

Solo parámetro b. Asume que todos los ítems discriminan igual. Matemáticamente elegante; empíricamente restrictivo.

2PL (el que vimos)

Dos parámetros: a y b. Modelo operativo del GRE, EXANI y la mayoría de tests modernos.

3PL

Agrega c = probabilidad de adivinar. Útil en tests de opción múltiple. Requiere n ≥ 1000 para converger.

Cierre · mirada al horizonte: TRI es el lenguaje común de la evaluación educativa contemporánea. El GRE, el EXANI, PISA, las pruebas internacionales de rendimiento: todas operan en TRI. Habiendo entendido TCT en este recorrido, la transición a TRI es natural cuando los instrumentos alcanzan tamaños de muestra adecuados. En R el paquete operativo es mirt; en Python, pyirt.

Capítulo 17 · Avanzado · Bayes computacional

MCMC en acción: reconstruir un valle que no puedes ver.

Markov Chain Monte Carlo es el motor de la estadística bayesiana moderna. El ejemplo canónico — una moneda sesgada — desmonta el método en aritmética que cualquiera puede seguir.

El problema

Tenemos una moneda que sospechamos está sesgada. La lanzamos 20 veces y obtenemos 13 caras. Pregunta: ¿cuál es la probabilidad real de cara (θ)?

Respuesta frecuentista

$$\hat{\theta} = \frac{13}{20} = 0.65$$

Un solo número. Estimación puntual. No dice nada sobre incertidumbre.

Respuesta bayesiana

$$P(\theta \mid \text{datos}) \propto P(\text{datos} \mid \theta) \cdot P(\theta)$$

Una distribución completa: posterior. Da incertidumbre explícita.

Ingredientes bayesianos

P(θ | datos)Posterior: distribución de probabilidad de θ dado los datos observadoslo que queremos P(datos | θ)Likelihood: probabilidad de observar 13 caras de 20 si θ fuera un valor específicoBinomial(13, 20, θ) P(θ)Prior: creencia previa sobre θ antes de ver los datosBeta(2, 2) ∝Proporcional a — en la versión sin normalizarevita integral difícil

La analogía del valle

Imagina que quieres mapear la topografía de un valle pero no puedes verlo desde arriba. Lo único que puedes hacer es caminar dentro, dando pasos aleatorios con una regla: si el siguiente paso te lleva a mayor altura, lo aceptas; si te lleva abajo, lo aceptas solo con probabilidad proporcional. Si caminas 10,000 pasos, las posiciones que visitaste se acumulan más en las zonas altas del valle. Eso reconstruye la topografía sin haberla visto nunca. Eso es MCMC.

El algoritmo Metropolis-Hastings, paso por paso

Elegir un valor inicial para θ

θ₀ = 0.5 → punto de partida arbitrario

Proponer un nuevo valor cercano

θ_propuesta = θ_actual + ruido(μ=0, σ=0.08)

Calcular la razón de probabilidades

r = P(datos | θ_propuesta) · P(θ_propuesta) ÷ P(datos | θ_actual) · P(θ_actual)

Si r > 1, el nuevo valor es más probable que el actual.

Aceptar o rechazar

Generar u ~ Uniforme(0,1)
Si u < r → aceptar (θ_actual = θ_propuesta)
Si no → rechazar (quedarse en θ_actual)

Repetir miles de veces

En nuestro ejemplo: 10,000 iteraciones. Descartamos los primeros 500 (burn-in). Los 9,500 restantes son muestras del posterior.

La cadena en acción · primeros 200 pasos

Cada punto es un valor aceptado de θ en la iteración correspondiente. Al principio la cadena explora; rápidamente se concentra en la zona densa del posterior.

Puedes ver cómo la cadena "camina": al inicio (iter 0-30) explora; después se estabiliza alrededor de la zona donde θ es más probable

El posterior reconstruido · las 9,500 muestras

Después de descartar el burn-in, las muestras acumuladas forman la distribución posterior. Superpongo la curva analítica exacta (Beta(15, 9)) para demostrar que MCMC la aproxima con precisión.

Histograma dorado: 9,500 muestras MCMC · Curva verde: Beta(15, 9) analítica · Banda roja: intervalo creíble 95%

Resumen de resultados

Frecuentista

0.650

un solo número · sin incertidumbre

MCMC · media

0.628

9,500 muestras post-burnin

Analítico Beta(15,9)

0.625

el "verdadero" posterior

IC creíble 95%

[.42, .81]

rango donde cae θ con 95% de probabilidad

La magia que acabas de ver

MCMC nunca conoció la forma analítica del posterior Beta(15, 9). Solo "caminó" por el espacio de θ siguiendo reglas locales de aceptación y rechazo. Y sin embargo reconstruyó el posterior con precisión sorprendente. Eso es lo que permite que Bayes funcione en modelos donde no hay forma analítica — que son casi todos los interesantes.

Vocabulario MCMC que ya entiendes

Chain · burn-in · proposal · acceptance rate
Thinning · autocorrelación · R-hat · posterior predictive check
Algoritmos: Metropolis-Hastings (1953/1970) · Gibbs Sampling · Hamiltonian Monte Carlo (HMC, el motor de Stan y PyMC)

Bayes dice qué calcular. MCMC dice cómo calcularlo cuando el qué no tiene solución cerrada.

Cómo saber si un test mide o solo opina.

La pregunta que nadie hace: ¿está bien construido tu test?

Todo puntaje es señal más ruido.

¿Qué significa cada letra?

¿Qué pasa con un alumno que sacó 13?

Dieciséis estudiantes. Veinte preguntas. Una base de trabajo.

Dificultad del ítem p: ¿qué tan fácil fue cada pregunta?

La pregunta pedagógica

Hagámoslo con el Reactivo 2 (R02) del test real

Contar aciertos de R02

Dividir entre el total

Interpretar

¿Por qué los extremos no sirven?

En nuestro test, cuatro preguntas quedaron fuera del rango útil

Discriminación D: ¿la pregunta distingue alto y bajo desempeño?

La pregunta pedagógica

Procedimiento, paso a paso, con R15 (el reactivo estrella)

Ordenar a los 27 estudiantes por su puntaje total

Identificar el 27% de arriba y el 27% de abajo

Contar cuántos del grupo alto acertaron R15

Contar cuántos del grupo bajo acertaron R15

Restar

Comparemos con R01 (el reactivo roto)

Grupo alto: aciertos

Grupo bajo: aciertos

Restar

Alfa de Cronbach: ¿los ítems miden lo mismo?

Paso por paso con los 27 reales del test

Contar el número de ítems

Calcular la varianza de cada ítem por separado

Sumar todas las varianzas de ítem

Calcular la varianza del puntaje total

Dividir la suma de varianzas entre la varianza total

Restar ese cociente de 1

Calcular el factor de corrección k/(k−1)

Multiplicar

¿Qué significa 0.61?

Mueve los controles y observa cómo cambia α

SEM: cuánto se equivoca el test con un solo alumno.

¿Qué significa cada símbolo?

Con nuestros datos

Tomar la desviación estándar del puntaje total

Calcular 1 − α

Sacar la raíz cuadrada

Multiplicar

¿Qué significa SEM = 2.04?

Veredicto por ítem: quién sobrevive, quién no.

La matriz completa en una sola imagen.

Cómo leer esta matriz

Cada distractor hace su trabajo — o no lo hace.

Cuatro tipos de distractor

Análisis de los 20 reactivos reales

Los 20 reactivos, uno por uno.

Lo que sí dicen y lo que no dicen estos 16 datos.

Lo que sí podemos afirmar

Lo que no podemos afirmar

Cómo se vería este test con 500 estudiantes.

Modelo generador declarado

Resultados de la simulación

Comparación lado a lado

La pregunta que todo investigador hace, con respuesta matemática.

Curva de precisión

¿Qué es un intervalo de confianza?

Lectura honesta de la curva, con ejemplos

Cómo aplicar esto en la práctica.

Diseña tu matriz de especificaciones

Redacta un banco sobredimensionado

Valida contenido con expertos

Aplica el piloto con n ≥ 100

Calcula los indicadores TCT

Depura el banco

Valida la estructura interna

Reporta todo — incluyendo los límites

🧮 Plantilla Google Sheets — todas las fórmulas en vivo

Recursos citados en este dashboard

Introducción a la Teoría de Respuesta al Ítem (TRI).

¿Qué cambia respecto a TCT?

TCT nos da

TRI nos da

La ecuación · modelo 2PL