prProfessional Research / Clases / Teoría Clásica de Tests
← Volver a Clases
Doctorado · Investigación educativa 18 · 04 · 2026
Teoría clásica de los tests · aplicada

Cómo saber si un test mide o solo opina.

Recorrido paso a paso, con las operaciones matemáticas desglosadas y datos reales de 27 estudiantes que respondieron el test de epistemología y complejidad.

Alex Duve Baja para empezar ↓
Capítulo 01

La pregunta que nadie hace: ¿está bien construido tu test?

La mayoría de los exámenes universitarios no son tests. Son opiniones con apariencia de ciencia. Aquí te enseño a distinguir uno del otro, con aritmética simple.

Cuando el profesor aplica un examen y el alumno obtiene 13 de 20, todos asumen que ese 13 mide conocimiento. Pero nadie se pregunta cosas básicas:

La Teoría Clásica de los Tests responde estas preguntas con cinco operaciones matemáticas. Cinco. No son difíciles. Son sumas, restas, divisiones y una raíz cuadrada. Este recorrido las hace, paso por paso, con los datos reales de los 27 estudiantes que respondieron mi test.

Capítulo 02 · La ecuación base

Todo puntaje es señal más ruido.

Esta es la ecuación que fundó la psicometría en 1904. Una suma. Tres letras. Y un cambio de paradigma.

$$X = V + E$$
Puntaje observado = Puntaje verdadero + Error de medición
Lo que ves (X) PUNTAJE OBSERVADO · 13 / 20 ÷ se descompone en Lo que realmente sabe (V) CONOCIMIENTO VERDADERO + ERROR (E) El reto: nunca ves V ni E por separado — solo ves X. La psicometría es el arte de estimarlos.
Analogía

Te pesas en la báscula del baño. Marca 75.2 kg. ¿Ese es tu peso real? No exactamente. Tu peso real quizá sea 74.9 o 75.4 — la báscula tiene un margen de error. Lo que lees es tu peso verdadero más el ruido de la báscula. Un test funciona igual.

¿Qué significa cada letra?

XEl puntaje que vemos — 13 sobre 20observable VEl puntaje verdadero — el conocimiento real del alumnono lo sabes nunca EError — suerte, fatiga, distracción, preguntas ambiguasaleatorio, media cero

La Teoría Clásica asume que si repites el test muchas veces, los errores se cancelan (porque tienen media cero). Por eso el promedio de muchos intentos se acerca al puntaje verdadero. Pero un solo intento siempre contiene ruido.

¿Qué pasa con un alumno que sacó 13?

Con las fórmulas que veremos más abajo, calculamos que el error de medición en nuestro test es ±2 puntos. Entonces el 13 significa, con alta probabilidad, que el conocimiento real de ese alumno está entre 9 y 17. No es un intervalo angosto. Pero reportar 13 sin la incertidumbre es mentir.

Capítulo 03 · Los datos

Dieciséis estudiantes. Veinte preguntas. Una base de trabajo.

Entre el 17 y el 18 de abril de 2026, 27 estudiantes de doctorado respondieron el test. Aquí están sus puntajes, ordenados.

0 5 10 15 20 media = 10.4 outlier · 20/20
Puntajes de los 27 estudiantes · el 20/20 es un caso atípico
n
27
estudiantes
k
20
preguntas
Media
11.7
de 20 aciertos
Rango
6—20
SD = 3.24

Con estos datos empezamos. El resto del recorrido es: dada esta matriz de 27 × 20 aciertos/fallos, calcula los indicadores de calidad del test. Paso por paso. Nada escondido.

Capítulo 04 · Primer indicador

Dificultad del ítem p: ¿qué tan fácil fue cada pregunta?

El cálculo más básico de todos. Una división.

Animación · cómo se calcula p
La fórmula paso a paso: aciertos divididos entre el total de respondientes.

La pregunta pedagógica

De los 27 estudiantes que respondieron, ¿cuántos acertaron esta pregunta en particular? Si acertaron muchos, la pregunta fue fácil. Si acertaron pocos, fue difícil.

$$p_j = \frac{\text{número de aciertos}}{\text{número total de respondientes}}$$
Una fracción: arriba aciertos, abajo total
Cómo se lee en voz alta

«Para la pregunta número j, cuento cuántas personas la acertaron, divido entre el total de personas que respondieron, y eso es p.»

Hagámoslo con el Reactivo 2 (R02) del test real

Contar aciertos de R02

De los 27 estudiantes, 11 marcaron la opción correcta de R02.

aciertos 11

Dividir entre el total

p02 = 11 ÷ 16 = 0.6875

Casi el 69% acertó esta pregunta.

Interpretar

0.69 cae en la zona útil (entre 0.20 y 0.80). Esta pregunta sí sirve para medir.

Pictograma · R07: 14 de 16 acertaron (p = 0.875) 14 personas acertaron 2 personas fallaron p = 14 ÷ 16 = 0.875 → demasiado fácil

¿Por qué los extremos no sirven?

Si una pregunta tiene p = 1.0, todos la acertaron. No discrimina entre alumnos — no te dice quién sabe más. Si p = 0.0, nadie la acertó. Tampoco sirve. El rango útil es aproximadamente 0.20 ≤ p ≤ 0.80. Fuera de ahí, la pregunta pierde información.

En nuestro test, cuatro preguntas quedaron fuera del rango útil

R0714 aciertos de 16 → demasiado fácilp = 0.875 R1115 aciertos de 16 → demasiado fácilp = 0.938 R1713 aciertos de 16 → demasiado fácilp = 0.812 R2013 aciertos de 16 → demasiado fácilp = 0.812
0.0 0.25 0.50 0.75 1.0 p=0.80 p=0.20
Dificultad p por ítem · las barras rojas están fuera del rango útil
Capítulo 05 · Segundo indicador

Discriminación D: ¿la pregunta distingue alto y bajo desempeño?

Una resta entre dos divisiones. Suena complicado; te prometo que no lo es.

Animación · cómo se calcula D
Partir la muestra por puntaje, calcular p en cada grupo, restar.

La pregunta pedagógica

Si tomamos a los estudiantes de alto puntaje y comparamos cuántos acertaron esta pregunta, contra los estudiantes de bajo puntaje, ¿hay diferencia? Si el grupo alto acierta más que el grupo bajo, la pregunta discrimina. Si todos aciertan por igual, la pregunta no mide nada útil. Si el grupo bajo acierta más que el grupo alto, la pregunta está rota al revés.

$$D_j = p_j^{\text{alto}} - p_j^{\text{bajo}}$$
Proporción de aciertos en los de alto puntaje, menos proporción en los de bajo puntaje

Procedimiento, paso a paso, con R15 (el reactivo estrella)

Ordenar a los 27 estudiantes por su puntaje total

De menor a mayor: 6 · 8 · 9 · 9 · 10 · 11 · 11 · 11 · 11 · 13 · 13 · 13 · 13 · 14 · 15 · 20

Identificar el 27% de arriba y el 27% de abajo

27% de 16 ≈ 4 personas. Tomamos a los 4 con puntaje más alto y a los 4 con puntaje más bajo.

Grupo alto (4 personas, puntajes 13, 14, 15, 20) 4 personas
Grupo bajo (4 personas, puntajes 6, 8, 9, 9) 4 personas

El 27% viene de Kelley (1939): maximiza la varianza entre los grupos extremos.

Contar cuántos del grupo alto acertaron R15

aciertos en grupo alto = 4 de 4
palto15 = 4 ÷ 4 = 1.00

Contar cuántos del grupo bajo acertaron R15

aciertos en grupo bajo = 0 de 4
pbajo15 = 0 ÷ 4 = 0.00

Restar

D15 = 1.00 − 0.00 = 1.00

R15 discrimina perfecto. Es el ítem estrella del test.

Comparemos con R01 (el reactivo roto)

Grupo alto: aciertos

1 de 4 acertaron palto01 = 0.25

Grupo bajo: aciertos

2 de 4 acertaron pbajo01 = 0.50

Restar

D01 = 0.25 − 0.50 = −0.25

El grupo de bajo puntaje acierta este ítem más que el grupo alto. La pregunta está rota — discrimina al revés. Se descarta.

R15 (estrella) vs R01 (roto) — cómo se comportan los grupos R15 · D = 1.00 Grupo alto (4 personas) 4/4 = 1.00 1.00 − 0.00 = 1.00 Grupo bajo (4 personas) 0/4 = 0.00 ✓ alto puntaje acierta, bajo puntaje no — perfecto R01 · D = −0.25 Grupo alto (4 personas) 1/4 = 0.25 0.25 − 0.50 = −0.25 Grupo bajo (4 personas) 2/4 = 0.50 ✗ bajo puntaje acierta más — pregunta rota al revés acertó falló
Regla de umbrales

D ≥ 0.40 excelente · 0.30 a 0.40 bueno · 0.20 a 0.30 aceptable con revisión · menor a 0.20 pobre · menor a 0 se descarta sin duda.

Capítulo 06 · La fórmula reina

Alfa de Cronbach: ¿los ítems miden lo mismo?

Ocho pasos aritméticos. Cero misterio. Al final tendrás α = 0.7088 y entenderás por qué.

Animación · los 8 pasos de α
Desde las varianzas por ítem hasta la fórmula final. Dos minutos.
$$\alpha = \frac{k}{k-1}\left(1 - \frac{\sum_{j=1}^{k} \sigma_j^2}{\sigma_T^2}\right)$$
Los símbolos parecen muchos. Solo son k, dos varianzas, una división y un par de operaciones.
La intuición clave

Si todas las preguntas miden lo mismo (el test es internamente consistente), la suma de las varianzas de cada pregunta es mucho menor que la varianza del puntaje total. ¿Por qué? Porque cuando los ítems covarían positivamente entre sí, el total varía mucho más que la suma de sus partes.

La intuición de α: ¿todos los ítems apuntan al mismo constructo? α ≈ 0.90 · ALTA CONSISTENCIA constructo Los 20 ítems miden el mismo rasgo α ≈ 0.61 · MODERADA (nosotros) constructo Multifactorial + n chico + ítems rotos α ≈ 0.20 · RUIDO PURO sin constructo claro Cada ítem mide algo distinto

Paso por paso con los 27 reales del test

Contar el número de ítems

k = 20

Calcular la varianza de cada ítem por separado

Para cada pregunta j, la varianza es pj × (1 − pj) × (n ÷ (n−1)). Con n = 27, el factor (n/(n−1)) = 27/26 = 1.038.

Para R02 con p = 0.688:
σ²02 = 0.688 × 0.312 × 1.038 = 0.229

Repetimos este cálculo 20 veces, una por cada pregunta.

Sumar todas las varianzas de ítem

Σ σ²j = σ²01 + σ²02 + ... + σ²20 = 4.655

Calcular la varianza del puntaje total

Tomamos los 27 puntajes totales (6, 8, 9, 9, 10, 11, 11, 11, 11, 13, 13, 13, 13, 14, 15, 20), calculamos su varianza.

σ²T = varianza(puntajes totales) = 14.251

Dividir la suma de varianzas entre la varianza total

Σ σ²j ÷ σ²T = 4.655 ÷ 14.251 = 0.4188

Interpretación: 42% de la varianza total es "solo suma de partes"; el otro 58% es la covarianza entre ítems, que es la señal.

Restar ese cociente de 1

1 − 0.4188 = 0.5812

Calcular el factor de corrección k/(k−1)

20 ÷ (20 − 1) = 20 ÷ 19 = 1.0526

Multiplicar

α = 1.0526 × 0.5812 = 0.7088

Ese es el α de Cronbach de nuestro test.

¿Qué significa 0.61?

≥ 0.90
Excelente
publicable
≥ 0.80
Bueno
uso clínico
≥ 0.70
Aceptable
investigación
0.61 ← nosotros
Moderado
piloto, n = 27, revisar

Nuestro α = 0.71 es moderado. Tres razones honestas:

  1. El constructo "pensamiento complejo" es multifactorial (Morin, Wilber, Nicolescu, Zemelman, etc.). α asume unidimensionalidad; si el test mide varias cosas relacionadas pero distintas, α baja naturalmente.
  2. Con n = 27, el intervalo de confianza de α es enorme (aproximadamente 0.30 a 0.80). No estamos midiendo α, estamos estimándolo con mucho ruido.
  3. Cuatro ítems rotos (R01, R04, R17, R18) deprimen el α. Si los quitamos, sube.
Laboratorio · calcula tu propio α

Mueve los controles y observa cómo cambia α

Los tres valores que importan para calcular α son: número de ítems (k), suma de varianzas de ítem, y varianza del total. Cámbialos y mira cómo responde la fórmula.

k (ítems) 20
Σ σ²ⱼ 4.4
σ²_T 10.5
α = 0.709
Con esta configuración, el test tendría una confiabilidad moderada.
Capítulo 07 · Error individual

SEM: cuánto se equivoca el test con un solo alumno.

α es una propiedad del test. SEM es su traducción al puntaje de una persona.

Animación · cómo se calcula SEM
De α y la desviación estándar al intervalo de error individual.
Aclaración terminológica: este SEM (Standard Error of Measurement — error estándar de medición) no debe confundirse con Structural Equation Modeling (modelado de ecuaciones estructurales), que son diagramas con flechas que conectan variables latentes. Son dos cosas distintas. Aquí hablamos del primero.
$$\text{SEM} = \sigma_X \cdot \sqrt{1 - \alpha}$$
Desviación estándar del puntaje total, multiplicada por la raíz cuadrada de 1 menos α
El SEM nace de la confiabilidad y se traduce al individuo CONFIABILIDAD DEL TEST α = 0.71 propiedad del instrumento APLICAR FÓRMULA σ_X · √(1 − α) 3.24 · √0.39 = 2.02 SEM ± 2.02 pts error para cada alumno 13 ± 4 tu puntaje del test, a la fórmula, al individuo

¿Qué significa cada símbolo?

SEMStandard Error of Measurement — el error típico al medir a un individuoen puntos del test σXSigma de X — desviación estándar del puntaje total (qué tanto se dispersan los 27 puntajes)raíz de la varianza αAlfa de Cronbach — la confiabilidad que acabamos de calcularentre 0 y 1 1 − αProporción de la varianza total atribuible al errorcomplemento de α Raíz cuadrada — porque pasamos de varianza (unidades al cuadrado) a desviación (unidades lineales)operación escalar

Con nuestros datos

Tomar la desviación estándar del puntaje total

σX = √(14.251) = 3.775

Calcular 1 − α

1 − 0.7088 = 0.3882

Sacar la raíz cuadrada

√0.3882 = 0.6230

Multiplicar

SEM = 3.775 × 0.6230 = 2.02

¿Qué significa SEM = 2.04?

Aplicación directa

Un alumno obtuvo 13 de 20 aciertos. Su puntaje verdadero está, con 95% de confianza, en el intervalo 13 ± (1.96 × 2.02) = 13 ± 3.96, es decir, entre 9 y 17. Reportar "obtuvo 13" es incompleto. Lo correcto es reportar el intervalo.

Un puntaje aislado miente · un intervalo dice la verdad 0 5 10 15 20 9 17 intervalo de confianza del 95% 13 observado ± 1.96 × SEM = ± 3.96 pts
Capítulo 08 · Resultado

Veredicto por ítem: quién sobrevive, quién no.

Combinando dificultad, discriminación y correlación punto-biserial, cada ítem recibe un veredicto.

Conservar
10
de 20 · 50% sobrevive
Revisar
5
reescribir distractores
Descartar
5
discriminación nula o negativa
★ Estrella
R15
D = 1.00, r_pb = 0.71
Capítulo 09 · Vista compacta

La matriz completa en una sola imagen.

27 estudiantes × 20 reactivos = 320 decisiones (acertó o falló). En un heatmap se leen patrones en segundos.

Cada fila es un estudiante (ordenados de mayor a menor puntaje). Cada columna es un reactivo (ordenados de más fácil a más difícil). Cada celda verde es un acierto; roja es un fallo.

Cargando heatmap…
Matriz 27 × 20 · filas ordenadas por puntaje descendente · columnas por dificultad

Cómo leer esta matriz

Capítulo 10 · Opciones falsas bajo el microscopio

Cada distractor hace su trabajo — o no lo hace.

Un reactivo no es solo su respuesta correcta. Las 3 opciones falsas deben estar diseñadas con intención. Aquí las diagnosticamos una por una.

Cuatro tipos de distractor

Funcional
Atrae a estudiantes de bajo puntaje, no atrae a los de alto puntaje. Es lo que queremos.
Débil
Atrae a pocos. No es muerto, pero no contribuye mucho a discriminar.
Muerto
Nadie lo elige. Espacio desperdiciado — se debe reescribir o eliminar.
Peligroso
Atrae a los estudiantes con alto puntaje MÁS que la correcta. Es ambiguo o rival legítimo; crisis del reactivo.
Principio de diseño

Un reactivo con 4 opciones tiene 3 distractores. Si los 3 son funcionales, el reactivo puede alcanzar D = 1.00. Si 2 son muertos, efectivamente estás aplicando una pregunta de verdadero/falso disfrazada.

Análisis de los 20 reactivos reales

Para cada reactivo, contamos cuántas personas eligieron cada opción y diagnosticamos cada distractor.

Cargando análisis de distractores…
Capítulo 11 · Explorador

Los 20 reactivos, uno por uno.

Haz clic en cada reactivo para ver el escenario completo, las opciones, la correcta, y la justificación razonada por autor/tradición.

Cargando reactivos…
Capítulo 12 · Honestidad metodológica

Lo que dicen y lo que no dicen estos 16 datos.

Honestidad metodológica como virtud cardinal. Con 27 respuestas no se construye evidencia psicométrica: se construye un piloto.

Lo que sí podemos afirmar

Lo que no podemos afirmar

El valor didáctico no está en reportar el resultado final — está en mostrar cómo se hace el análisis bien, en qué punto los datos lo soportan y en qué punto se agotan. — principio metodológico del recorrido

En los próximos tres capítulos respondemos: ¿cómo se vería este test con n suficiente? (simulación) · ¿cuántos casos necesito? (potencia) · ¿cómo se aplica todo esto en la práctica? (guía accionable para construir instrumentos evaluativos).

Capítulo 13 · Simulación didáctica

Cómo se vería este test con 500 estudiantes.

Datos sintéticos declarados, generados desde un modelo IRT 2PL. No son respuestas reales: son un tutorial del procedimiento con volumen adecuado.

⚠ Aviso obligatorio: todos los números de este capítulo provienen de datos sintéticos generados desde un modelo declarado. No son respuestas de alumnos reales. Su propósito es ilustrar cómo se ve el pipeline TCT con un piloto de tamaño adecuado.

Modelo generador declarado

Usamos un modelo IRT 2PL (Birnbaum, 1968) con parámetros declarados explícitamente. Cualquiera puede reproducir el ejercicio.

kNúmero de ítems20 nNúmero de respondientes simulados500 bjDificultad del ítem j · muestra aleatoria deN(0, 1) ajDiscriminación del ítem j · muestra aleatoria deLogNormal(0, 0.3) θiHabilidad latente del respondiente i · muestra deN(0, 1) P(X=1|θ)1 / (1 + e−a(θ−b))curva logística 2PL seedSemilla aleatoria (reproducibilidad)42

Resultados de la simulación

α simulado
0.763
dentro del rango "bueno" — IC estrecho por n grande
SEM simulado
1.93
similar al real (2.02)
Media / SD
11.2
muy similar a los 27 reales (11.7)
Discriminación media
0.47
mejor que los 27 reales

Comparación lado a lado

Mismos 20 ítems, mismo pipeline; lo único que cambia es el número de respondientes.

Indicador Real · n = 27 Simulado · n = 500 Lectura
α de Cronbach0.6120.763confiabilidad estable en zona "buena"
SEM2.021.93error de medición similar
Puntaje medio11.711.2test de dificultad comparable
Amplitud IC 95% de α± 0.225± 0.0259× más preciso con n=500
Ítems con D ≥ 0.301318mejor caracterización con más datos
La lección clave

Con los mismos 20 ítems y modelo, el α "verdadero" está cerca de 0.76. Los 27 reales estiman 0.61 — no es que el test sea peor, es que Con 27 datos la estimación es ruidosa. El test real podría tener α igual de bueno; solo faltan casos para mostrarlo.

Capítulo 14 · ¿Cuántos casos necesitas?

La pregunta que todo investigador hace, con respuesta matemática.

Análisis de potencia: para cada tamaño de muestra simulamos 400 experimentos y medimos qué tan ancho es el intervalo de confianza del α.

Si quieres estimar α con precisión de ± 0.05, necesitas n ≈ 500.

Conclusión del análisis de potencia bootstrap desde el modelo IRT 2PL

Curva de precisión

El eje X es el tamaño de muestra · el eje Y es el ancho del intervalo de confianza del 95% para α. Idealmente quieres un intervalo angosto.

Tamaño de muestra (n) Ancho del IC 95% de α 0.00 0.10 0.20 0.30 0.40 16 30 50 100 200 300 500 800 objetivo ≤ 0.05 n = 27 → 0.450 n=100 → 0.134 n=500 → 0.050 ✓
Ancho del intervalo de confianza 95% del α de Cronbach, simulación bootstrap desde modelo IRT 2PL (B=400 repeticiones)

¿Qué es un intervalo de confianza?

Imagina que tomas una muestra de 100 personas y calculas α. Obtienes 0.72. Si repites el estudio con otras 100 personas distintas, obtendrás 0.74, luego 0.69, luego 0.71… El intervalo de confianza 95% es el rango donde caerían la mayoría de esos valores. Si el intervalo es angosto, tu estimación es precisa. Si es ancho, tu estimación es ruidosa.

Analogía

Un GPS viejo te dice «estás en la avenida Juárez, ± 300 metros». Un GPS moderno te dice «estás en la avenida Juárez, ± 3 metros». Ambos aciertan la avenida. Pero el moderno es útil para encontrar una dirección exacta; el viejo no. Más datos = GPS más preciso.

Lectura honesta de la curva, con ejemplos

Los mismos datos, tres muestras distintas: cómo cambia la precisión α = 0.0 1.0 0.5 n = 27 α ≈ 0.76 ancho = 0.45 · no se puede concluir n = 100 α ≈ 0.76 ancho = 0.13 · estimación decente n = 500 α ≈ 0.76 ancho = 0.05 · precisión publicable
Los tres GPS del α · mismo α verdadero (0.76), tres anchos de incertidumbre
Reglas prácticas por propósito: para un piloto con α y IC angosto se necesitan n ≥ 100. Para un estudio publicable, n ≥ 300. Para calibración TRI, n ≥ 500.
Capítulo 15 · Aplicación

Cómo aplicar esto en la práctica.

Checklist operativo para construir un instrumento psicométrico serio. Ocho pasos. Cada uno con software concreto y entregable concreto.

Diseña tu matriz de especificaciones

Tabla de tres columnas: objetivo evaluado × nivel cognitivo (Bloom/SOLO) × número de ítems planeados. Sin esta tabla no hay validez de contenido que defender.

Entregable matriz_especificaciones.xlsx

Redacta un banco sobredimensionado

Escribe 30-50% más ítems de los que necesitas. En el piloto se van a caer algunos por discriminación baja o dificultad extrema. Mejor tener reserva.

Meta banco de 30 ítems para un test final de 20

Valida contenido con expertos

Al menos 3 expertos evalúan cada ítem en dimensiones como claridad, pertinencia, representatividad. Calcula la V de Aiken para cuantificar acuerdo.

Software Excel o R paquete psych

Aplica el piloto con n ≥ 100

Si es un estudio doctoral serio, apunta a n ≥ 200. Google Forms o LimeSurvey sirven. Evita n = 27 en reportes formales.

Plataforma Google Forms · LimeSurvey · Qualtrics

Calcula los indicadores TCT

Corre p, D, r_pb por cada ítem. Calcula α de Cronbach, SEM. Analiza distractores: cada opción debe atraer al menos al 5% de los sustentantes bajos.

Software R (paquete psych) · jamovi · iteman · jMetrik

Depura el banco

Elimina ítems con D ≤ 0 (penalizan a estudiantes de alto puntaje) o r_pb < 0.20. Reescribe distractores muertos. Documenta por qué se cae cada ítem.

Entregable bitacora_depuracion.md

Valida la estructura interna

Haz un análisis factorial exploratorio (AFE) o confirmatorio (AFC) para mostrar que el test mide el constructo declarado. Para AFC necesitas n ≥ 200.

Software R paquetes lavaan + semTools

Reporta todo — incluyendo los límites

En cualquier reporte formal (artículo, tesis, informe técnico), siempre se reportan α, SEM, evidencia de validez, y qué ítems se eliminaron y por qué. Si el n fue chico, se declara explícitamente. Nunca se infla la evidencia.

Estándar AERA/APA/NCME Standards 2014
Un test bien construido es un acto de responsabilidad epistémica: mide lo que dice medir, reporta su precisión, y reconoce sus límites.

🧮 Plantilla Google Sheets — todas las fórmulas en vivo

Para que los estudiantes vean la mecánica completa y puedan modificar datos, creé una plantilla de Google Sheets con 6 hojas:

  1. Respuestas — matriz 27 × 20 de aciertos/fallos con coloreado automático
  2. Análisis de ítem — p, D, r_pb calculados con fórmulas Sheets visibles
  3. α de Cronbach paso a paso — desglose celda por celda del cálculo
  4. SEM e intervalos — tabla de IC 68% y 95% para cada puntaje
  5. Plantilla vacía — los estudiantes pegan sus propios datos y todo se recalcula
  6. Glosario de fórmulas — símbolo → significado → fórmula Sheets equivalente
Acceso: cualquiera con el link puede ver · para editar, Archivo → Hacer una copia
docs.google.com/spreadsheets/d/113ueJBkGbJBy28kCFw6yh3VGjUzA95oyJv_5C3uY3vI
ABRIR SHEET →

Recursos citados en este dashboard

Capítulo 16 · Avanzado · Más allá de TCT

Introducción a la Teoría de Respuesta al Ítem (TRI).

TCT nos dice cuántos acertaron un ítem. TRI nos dice quiénes lo acertarían en función de su habilidad. Ese salto conceptual es el que permite comparar tests distintos en la misma escala.

Marco de este capítulo: usamos los 500 datos simulados del Cap 13 (no los 27 reales) porque TRI exige muestras grandes. Aquí el objetivo es didáctico: comprender el marco conceptual que sustenta las pruebas estandarizadas modernas (GRE, EXANI, PISA).

¿Qué cambia respecto a TCT?

TCT nos da

  • p = 0.75 → 75% acertó el ítem
  • Un único número por ítem
  • Estadísticos cambian si cambia la muestra
  • No permite comparar personas que vieron ítems distintos

TRI nos da

  • Una curva que mapea habilidad → probabilidad de acierto
  • Dos parámetros por ítem: a y b
  • Parámetros invariantes a la muestra
  • Permite testing adaptativo

La ecuación · modelo 2PL

$$P(X_{ij} = 1 \mid \theta_i) = \frac{1}{1 + e^{-a_j \cdot (\theta_i - b_j)}}$$
Probabilidad de que la persona i acierte el ítem j, dada su habilidad θ
P(X = 1 | θ)Probabilidad de acertar el ítem, dado el nivel de habilidadentre 0 y 1 θiTheta — habilidad latente del respondiente i (qué tanto domina el constructo)escala ~ N(0, 1) ajDiscriminación del ítem — qué tan empinada es la curva (cuánto distingue niveles cercanos)> 0 bjDificultad del ítem — el punto θ donde P(acierto) = 0.5~ N(0, 1) eBase del logaritmo natural — hace que la curva sea logística (forma de S)≈ 2.718

La curva característica del ítem (ICC)

Cada ítem tiene su propia curva logística. Los dos parámetros la deforman:

0.0 0.25 0.5 0.75 1.0 −3 −2 −1 0 1 2 3 Habilidad θ (baja ← → alta) P(acertar) P = 0.5
Curvas características de 4 ítems · cada curva es logística (forma de S), pero con pendiente y centro distintos

Lectura del gráfico

Analogía

Pensalo como saltos de altura. Un listón bajo (b bajo): casi todos pasan. Un listón alto (b alto): solo los mejores pasan. La "afilación" del listón (a) es qué tan estricto es el juez: un juez estricto marca una diferencia nítida entre quienes pasan y quienes no; un juez laxo deja a muchos en la zona gris.

La ventaja clave · invariancia

Si el mismo ítem R07 se aplica a otra muestra con habilidad promedio más alta, su p (proporción de aciertos) va a subir — porque más gente con habilidad suficiente lo acertará. Pero su b TRI seguirá siendo el mismo (-1.15): el punto θ donde 50% acierta no depende de quién está respondiendo.

Esto es lo que permite:

Si TCT es una fotografía, TRI es un mapa topográfico. Muestra la altura (probabilidad) en cada punto (habilidad) y el terreno no se deforma aunque cambien los viajeros.

¿Qué más existe?

1PL (Rasch)

Solo parámetro b. Asume que todos los ítems discriminan igual. Matemáticamente elegante; empíricamente restrictivo.

2PL (el que vimos)

Dos parámetros: a y b. Modelo operativo del GRE, EXANI y la mayoría de tests modernos.

3PL

Agrega c = probabilidad de adivinar. Útil en tests de opción múltiple. Requiere n ≥ 1000 para converger.

Cierre · mirada al horizonte: TRI es el lenguaje común de la evaluación educativa contemporánea. El GRE, el EXANI, PISA, las pruebas internacionales de rendimiento: todas operan en TRI. Habiendo entendido TCT en este recorrido, la transición a TRI es natural cuando los instrumentos alcanzan tamaños de muestra adecuados. En R el paquete operativo es mirt; en Python, pyirt.
Capítulo 17 · Avanzado · Bayes computacional

MCMC en acción: reconstruir un valle que no puedes ver.

Markov Chain Monte Carlo es el motor de la estadística bayesiana moderna. El ejemplo canónico — una moneda sesgada — desmonta el método en aritmética que cualquiera puede seguir.

El problema

Tenemos una moneda que sospechamos está sesgada. La lanzamos 20 veces y obtenemos 13 caras. Pregunta: ¿cuál es la probabilidad real de cara (θ)?

Respuesta frecuentista

$$\hat{\theta} = \frac{13}{20} = 0.65$$

Un solo número. Estimación puntual. No dice nada sobre incertidumbre.

Respuesta bayesiana

$$P(\theta \mid \text{datos}) \propto P(\text{datos} \mid \theta) \cdot P(\theta)$$

Una distribución completa: posterior. Da incertidumbre explícita.

Ingredientes bayesianos

P(θ | datos)Posterior: distribución de probabilidad de θ dado los datos observadoslo que queremos P(datos | θ)Likelihood: probabilidad de observar 13 caras de 20 si θ fuera un valor específicoBinomial(13, 20, θ) P(θ)Prior: creencia previa sobre θ antes de ver los datosBeta(2, 2) Proporcional a — en la versión sin normalizarevita integral difícil
La analogía del valle

Imagina que quieres mapear la topografía de un valle pero no puedes verlo desde arriba. Lo único que puedes hacer es caminar dentro, dando pasos aleatorios con una regla: si el siguiente paso te lleva a mayor altura, lo aceptas; si te lleva abajo, lo aceptas solo con probabilidad proporcional. Si caminas 10,000 pasos, las posiciones que visitaste se acumulan más en las zonas altas del valle. Eso reconstruye la topografía sin haberla visto nunca. Eso es MCMC.

El algoritmo Metropolis-Hastings, paso por paso

Elegir un valor inicial para θ

θ0 = 0.5 punto de partida arbitrario

Proponer un nuevo valor cercano

θpropuesta = θactual + ruido(μ=0, σ=0.08)

Calcular la razón de probabilidades

r = P(datos | θpropuesta) · P(θpropuesta) ÷ P(datos | θactual) · P(θactual)

Si r > 1, el nuevo valor es más probable que el actual.

Aceptar o rechazar

Generar u ~ Uniforme(0,1)
Si u < r aceptaractual = θpropuesta)
Si no rechazar (quedarse en θactual)

Repetir miles de veces

En nuestro ejemplo: 10,000 iteraciones. Descartamos los primeros 500 (burn-in). Los 9,500 restantes son muestras del posterior.

La cadena en acción · primeros 200 pasos

Cada punto es un valor aceptado de θ en la iteración correspondiente. Al principio la cadena explora; rápidamente se concentra en la zona densa del posterior.

Trazo de la cadena · los primeros 200 pasos 1.0 0.75 0.5 0.25 0.0 iter 0 iter 200 θ θ posterior ≈ 0.63
Puedes ver cómo la cadena "camina": al inicio (iter 0-30) explora; después se estabiliza alrededor de la zona donde θ es más probable

El posterior reconstruido · las 9,500 muestras

Después de descartar el burn-in, las muestras acumuladas forman la distribución posterior. Superpongo la curva analítica exacta (Beta(15, 9)) para demostrar que MCMC la aproxima con precisión.

Posterior estimado por MCMC vs posterior analítico Beta(15, 9) 0.0 0.25 0.5 0.75 1.0 θ (probabilidad de cara) densidad
Histograma dorado: 9,500 muestras MCMC · Curva verde: Beta(15, 9) analítica · Banda roja: intervalo creíble 95%

Resumen de resultados

Frecuentista
0.650
un solo número · sin incertidumbre
MCMC · media
0.628
9,500 muestras post-burnin
Analítico Beta(15,9)
0.625
el "verdadero" posterior
IC creíble 95%
[.42, .81]
rango donde cae θ con 95% de probabilidad
La magia que acabas de ver

MCMC nunca conoció la forma analítica del posterior Beta(15, 9). Solo "caminó" por el espacio de θ siguiendo reglas locales de aceptación y rechazo. Y sin embargo reconstruyó el posterior con precisión sorprendente. Eso es lo que permite que Bayes funcione en modelos donde no hay forma analítica — que son casi todos los interesantes.

Vocabulario MCMC que ya entiendes

Bayes dice qué calcular. MCMC dice cómo calcularlo cuando el qué no tiene solución cerrada.
Capítulo 18 · jMetrik · análisis completo de pruebas objetivas

jMetrik: de la base de datos al reporte por reactivo

Software gratuito y portable. Toda la TCT en cuatro pasos: descargar, cargar, codificar y analizar. Aquí están los cuatro videos del canal en el orden en que se usan.

Paso 1 · descarga
Descarga jMetrik para hacer el análisis de pruebas objetivas.
Paso 2 · carga de respuestas
Importar la base de datos de respuestas al programa.
Paso 3 · asignar puntaje
Codificar respuesta correcta vs. distractores reactivo por reactivo.
Paso 4 · dificultad y discriminación
Cálculo del índice p y la discriminación D con un clic.
Cuándo elegir jMetrik

Pruebas objetivas con respuesta correcta única (opción múltiple), bases < 50 000 sujetos, sin presupuesto para SPSS. Para escalas tipo Likert con varianza continua, prefiere JASP o SPSS.

Capítulo 19 · SPSS · Alfa de Cronbach

SPSS: tres rutas para llegar al mismo alfa

Si tu universidad o centro tiene licencia, SPSS sigue siendo la ruta más rápida. Tres videos del canal cubren el cálculo, la interpretación y el flujo histórico.

Cálculo paso a paso
¿Cómo obtener el Alfa de Cronbach con SPSS paso a paso?
Interpretación del resultado
Cómo leer la tabla y qué decir en tesis.
Omega de McDonald
Instalar el módulo Omega y por qué muchos revisores ya lo prefieren sobre α.
Capítulo 20 · JASP · la ruta gratuita

JASP: el SPSS abierto que cita Wagenmakers

Sin licencia, sin pago, sin línea de comando. Tres videos del canal cubren instalación y cálculo de confiabilidad (α y ω).

Instalación
La mejor alternativa gratuita: por qué considerar JASP.
Confiabilidad α y ω
Cómo obtener α y ω en JASP con un par de clics.
Versión alterna · confiabilidad
Otra demostración del flujo de confiabilidad en JASP.
Capítulo 21 · Excel · cálculos manuales

Excel: cuando entender mecánica importa más que velocidad

No es el atajo. Es la pedagogía. Calcular el alfa o la dificultad celda por celda obliga a entender la fórmula que SPSS te oculta.

Dificultad de una prueba en Excel
Índice p calculado con fórmulas básicas de Excel.
Alfa de Cronbach en Excel
Varianzas por ítem + varianza del total = α paso a paso.
α con inteligencia artificial
Atajo con IA para conocer la confiabilidad rápido.
Capítulo 22 · Antes del análisis · diseño de la prueba

Diseño de pruebas objetivas: la serie 1/3 → 2/3 → 3/3

La TCT funciona solo si los reactivos están bien construidos. Antes de calcular p y D, hay que redactarlos. Tres videos del canal en orden didáctico.

1/3 · cómo hacer un examen objetivo
Diseño general del examen objetivo con metodología.
2/3 · redacción de reactivos
Reglas de redacción del tallo y los distractores.
3/3 · tipos de reactivos
Opción múltiple, complementación, relación de columnas, ordenamiento.
Recursos relacionados del canal

Validez de constructo · jueces expertos y V de Aiken. Shorts del propio dashboard: dificultad, discriminación, α de Cronbach y SEM.