Prueba T de Student · Dashboard interactivo + 4 supuestos + GQ-6

Serie en YouTube

La serie completa, en orden

Este dashboard acompaña dos ciclos de la serie Metodología de la Investigación paso a paso. Primero, los dos videos fundacionales que explican qué es la T y cómo se calcula en JASP. Después, el ciclo nuevo "Supuestos paramétricos" (mayo 2026), siete clases cortas para auditar cada supuesto y una clase aplicada larga donde llevamos toda la teoría a un instrumento psicométrico real, la Escala de Gratitud GQ-6. Te recomiendo verlos en este orden — el dashboard funciona como referencia escrita para repasar después.

Bloque 1 · Fundamentos de la T

1 — Teoría: ¿la diferencia es real?

2 — Cálculo en JASP paso a paso

Bloque 2 · Supuestos paramétricos (mayo 2026)

Una clase corta por supuesto, más una clase de cierre con el árbol de decisión y una clase aplicada larga. Las clases cortas están pensadas para repaso rápido; cada una integra las citas que están al final de este dashboard.

3 — Los 4 supuestos

4 — Nivel de medición

5 — Independencia

6 — Normalidad

7 — Homocedasticidad

8 — Árbol de decisión

Bloque 3 · Clase aplicada · GQ-6

Esta clase larga es el cierre práctico de la serie. Tomamos la Escala de Gratitud GQ-6, simulamos 240 sujetos con un conflicto pedagógico realista, y recorremos los cuatro supuestos hasta llegar a la t de Welch. El dashboard tiene una sección dedicada a este caso (más abajo, "Caso GQ-6") con los resultados y la interpretación.

Playlist serie original Suscribirse al canal

El problema

¿Por qué necesitas la T de Student?

Imagina que aplicaste un programa terapéutico a un grupo de quince personas con síntomas depresivos y mediste su Inventario de Depresión de Beck (BDI) al final. Otro grupo control, también de quince personas, no recibió el programa. La media del experimental fue de 18.3 puntos y la del control de 9.5. ¿Esa diferencia de casi nueve puntos prueba que el programa funcionó, o pudo aparecer por azar?

La intuición no basta. Si tomaras dos muestras al azar de cualquier población, casi nunca obtendrás medias idénticas: siempre habrá fluctuación. La pregunta correcta no es si las medias son iguales (no lo son nunca), sino si la diferencia observada es mayor de lo esperable bajo el azar. Para responderla en muestras pequeñas con varianza desconocida, William Gosset diseñó en 1908 una prueba que se publicó bajo el seudónimo "Student" porque la cervecería Guinness, donde trabajaba, prohibía a sus químicos publicar para no revelar secretos industriales. Esa prueba es la que vas a aprender aquí.

Nota histórica

Gosset estudiaba la calidad de la cebada para Guinness y se topó con el problema de hacer inferencias con muestras de tamaño 4 o 5 lotes, donde la distribución normal sobreestima la confianza. Su distribución t corrige esa confianza para muestras pequeñas. Hoy, más de un siglo después, sigue siendo la prueba estadística más usada en tesis de ciencias sociales y de la salud (Lakens, 2013).

Intuición visual

Señal contra ruido: la idea central

Imagina que mides la altura de dos grupos de 10 personas y comparas sus medias. En los dos casos siguientes la diferencia de medias es exactamente la misma: 10 cm. Y aun así, en uno la diferencia es claramente real y en el otro podría ser puro azar. La razón es lo que la prueba T detecta: no compara solo medias, las compara contra el ruido interno de cada grupo.

Caso A · Señal clara

Grupo 1: todos miden entre 1.65 y 1.70 m (media 1.67). Grupo 2: todos miden entre 1.75 y 1.80 m (media 1.77). El más alto del grupo 1 es más bajo que el más bajo del grupo 2: no hay traslape. La diferencia es real.

Ruido interno bajo → la diferencia de 10 cm destaca. t ≈ 14.9

Caso B · Señal ahogada en ruido

Grupo 1: gente entre 1.50 y 1.85 m (media 1.67). Grupo 2: gente entre 1.60 y 1.95 m (media 1.77). Misma diferencia de medias, pero los grupos se traslapan muchísimo: hay gente del grupo 1 más alta que la mayoría del grupo 2.

Ruido interno alto → los 10 cm se diluyen. t ≈ 2.2

El insight contraintuitivo

Lo que importa no es qué tan distintas son las medias. Es qué tan distintas son en relación a la variabilidad interna. Por eso la T tiene esta estructura:

$$t = \frac{\text{señal}}{\text{ruido}} = \frac{\bar{X}_1 - \bar{X}_2}{\text{error estándar de la diferencia}}$$

Numerador (señal): qué tan separadas están las dos medias.
Denominador (ruido): qué tan dispersos están los datos dentro de cada grupo.

Una diferencia de 10 cm es enorme entre dos grupos uniformes, y trivial entre dos grupos caóticos. La t lo cuantifica en una sola cifra.

Tipo	¿Cuándo usarla?	Ejemplo
T de una muestra	Comparas la media de un grupo contra un valor teórico fijo	¿La media de IQ de mi muestra difiere del valor poblacional 100?
T para muestras independientes	Dos grupos distintos de personas, cada participante en uno solo	Grupo experimental vs grupo control en BDI
T para muestras pareadas	Mismas personas medidas dos veces, o pares emparejados	Pre-test vs post-test del mismo participante

Eq-walk

La fórmula desplegada símbolo por símbolo

Aquí tienes la fórmula completa de la T para muestras independientes con varianzas iguales (la versión clásica de Student). No la memorices: léela como una frase con estructura. Cada símbolo cuenta una pieza del razonamiento.

$$ t = \dfrac{\bar{X}_1 - \bar{X}_2}{\sqrt{s_p^2 \left(\dfrac{1}{n_1} + \dfrac{1}{n_2}\right)}} $$

donde $s_p^2 = \dfrac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}$ es la varianza combinada

$\bar{X}_1, \bar{X}_2$ Medias de cada grupo. La diferencia $\bar{X}_1 - \bar{X}_2$ es la señal.

$n_1, n_2$ Tamaños muestrales. Más muestra reduce el error estándar.

$s_1^2, s_2^2$ Varianzas dentro de cada grupo. Indican cuánto "se mueve" cada grupo internamente.

$s_p^2$ Varianza combinada (pooled). Asume que ambos grupos comparten la misma varianza poblacional.

Denominador completo Es el error estándar de la diferencia de medias: el ruido contra el que se compara la señal.

$t$ El estadístico de prueba. Resume la fuerza de la señal en unidades de error estándar.

Léela en una frase: la T es la diferencia entre dos medias, expresada en unidades de su propio error estándar. Si t = 2, la señal es dos veces el ruido. Si t = 0.5, está sumergida en el ruido.

Antes de aplicar

Los cuatro supuestos que debes auditar

La T de Student es robusta pero no mágica. Su validez descansa en cuatro supuestos que rara vez se enseñan completos en los manuales introductorios y que un comité de tesis preguntará casi con seguridad. Auditarlos no toma más de cinco minutos en JASP, SPSS o Jamovi, y blinda tu análisis frente a observaciones. Cada supuesto tiene su propia clase corta en la serie reciente del canal — el embed que está debajo de cada uno es esa clase, y la prosa de este apartado funciona como referencia escrita complementaria.

Nivel de medición · intervalo o razón

Las pruebas paramétricas exigen variables cuantitativas. Stevens (1946) clasificó las escalas en cuatro niveles: nominal, ordinal, intervalo y razón. La T y la ANOVA funcionan sobre los dos peldaños superiores. El caso polémico es Likert: un ítem aislado es ordinal estricto, pero una escala Likert compuesta por cuatro o más ítems sumados en un puntaje total se trata como intervalo en la práctica investigativa. Boone y Boone (2012) lo establecen explícitamente, Carifio y Perla (2007) defienden formalmente el tratamiento intervalo, y Norman (2010) demuestra que la t y la ANOVA son robustas incluso si los datos son estrictamente ordinales. Es decir: si trabajas con un instrumento Likert con varios ítems sumados, puedes aplicar la t sin tensión metodológica.

Independencia de las observaciones

Cada participante aporta un solo dato y los grupos no están relacionados. Es el supuesto más fácil de cumplir y el más difícil de verificar estadísticamente: se garantiza por diseño desde el muestreo, no se prueba con un test. Si tienes participantes pareados, medidas repetidas del mismo sujeto, o sujetos anidados (alumnos dentro de aulas dentro de escuelas), no estás violando el supuesto: estás usando un diseño distinto que pide otra prueba — la t pareada, la ANOVA de medidas repetidas, o modelos multinivel. Aarts y colaboradores (2014) demostraron que ignorar la dependencia en datos anidados infla la tasa de error tipo I hasta el 80% sobre el α nominal. Lazic (2010) llama a ese error "pseudoreplicación" y mostró que un 12% de los artículos publicados en una edición completa de Nature Neuroscience incurrían en él, con otro 36% sospechoso.

Normalidad · de la distribución de medias, no de los datos

Hay una confusión muy común entre los tesistas. Lo que la t y la ANOVA exigen no es que tus datos individuales sigan una curva normal: exigen que la distribución de las medias muestrales sea normal. Y eso lo garantiza el Teorema del Límite Central, no un test estadístico. Norman (2010), citando a Pearson (1931) y a Boneau (1960), muestra que con apenas 5 a 10 observaciones por grupo las medias ya son aproximadamente normales aunque la distribución poblacional sea sesgada. Se verifica visualmente con histograma y gráfico cuantil-cuantil (Q-Q), y formalmente con Shapiro-Wilk (n < 50) o Kolmogorov-Smirnov-Lilliefors (n ≥ 50). Cuidado con la lógica del test: la hipótesis nula dice que los datos son normales, así que un p > .05 significa no rechazo y asumes normalidad. Si Shapiro falla pero tu n es grande, el TLC y la robustez paramétrica (Norman 2010) te permiten seguir por la rama paramétrica anotando la observación en el informe.

Homocedasticidad · igualdad de varianzas

Ambos grupos deberían tener varianzas comparables, es decir, una dispersión interna similar. Se verifica visualmente con boxplots por grupo (cajas de altura parecida = homo, una alta y otra corta = hetero) y formalmente con la prueba de Levene (más usada porque no asume normalidad), Bartlett (asume normalidad, más potente cuando se cumple) o Brown-Forsythe (variante robusta de Levene). Si Levene es significativa (p < .05) las varianzas son dispares, y la t clásica de Student infla el error tipo I. La solución estándar es la t de Welch, que no asume homocedasticidad y ajusta los grados de libertad automáticamente con la corrección de Satterthwaite. Mellenbergh (2019), en el capítulo 12 de su manual, sostiene que la t de Welch es en general más apropiada que la t de Student para datos de ciencias del comportamiento, y SPSS, Jamovi y JASP la reportan junto a la t clásica sin pedir nada extra. Si tus grupos tienen tamaños desbalanceados, usa Welch por defecto.

Decisión guiada

Árbol de decisión interactivo

Responde las cuatro preguntas en orden. Cada respuesta enciende la siguiente y al final el árbol te dice qué prueba aplica a tu diseño. Es la versión clicable del Short 8 de la serie. Si te equivocaste de rama, presiona "Reiniciar" abajo a la derecha.

1. ¿Tus datos son cuantitativos?

Recordatorio: intervalo, razón, o un puntaje Likert sumado de 4 o más ítems → cuantitativo. Un ítem Likert aislado o categorías nominales → cualitativo.

Caso real

Un cálculo paso a paso con datos reales

Aplicamos la prueba con un dataset clínico realista: treinta participantes asignados aleatoriamente a un grupo control y a uno experimental que recibió ocho semanas de terapia cognitivo-conductual. La variable es el puntaje BDI (Beck Depression Inventory) postratamiento, donde puntajes mayores indican mayor sintomatología depresiva.

Paso 1. Calcular las medias

Con los quince valores de cada grupo obtenemos $\bar{X}_{control} = 9.47$ y $\bar{X}_{experimental} = 18.67$. La diferencia bruta es de 9.20 puntos en la escala BDI. Por sí sola no nos dice nada hasta compararla con el ruido.

Paso 2. Calcular las varianzas y la varianza combinada

Las varianzas internas son $s^2_{control} = 3.84$ y $s^2_{experimental} = 5.10$. Aplicando la fórmula de varianza combinada con $n_1 = n_2 = 15$:

$$ s_p^2 = \dfrac{14 \times 3.84 + 14 \times 5.10}{28} = 4.47 $$

Paso 3. Calcular el error estándar de la diferencia

$$ SE = \sqrt{4.47 \times \left(\dfrac{1}{15} + \dfrac{1}{15}\right)} = \sqrt{0.596} = 0.772 $$

Paso 4. Calcular el estadístico t

$$ t = \dfrac{18.67 - 9.47}{0.772} = \dfrac{9.20}{0.772} = 11.92 $$

Con grados de libertad $gl = n_1 + n_2 - 2 = 28$ y $\alpha = 0.05$ bilateral, el valor crítico de la tabla t es 2.048. Nuestro estadístico (11.92) excede dramáticamente el crítico: la diferencia entre grupos no se explica por azar.

Resultado: t(28) = 11.92, p < .001. Rechazamos H₀: la diferencia entre grupos es estadísticamente significativa.

Aplicación a un instrumento real

Caso aplicado · Escala de Gratitud GQ-6

El caso BDI de arriba es el ejemplo limpio: todos los supuestos se cumplen y la T clásica funciona sin matices. Pero la mayoría de tus análisis de tesis no serán así de complacientes. Aquí trabajamos un segundo caso con un instrumento psicométrico real, la Escala de Gratitud GQ-6 (McCullough, Emmons & Tsang, 2002), y con un dataset diseñado para que al menos uno de los supuestos falle. El objetivo pedagógico es mostrar qué se hace cuando la auditoría revela un problema: en este caso, varianzas dispares que obligan a Welch.

El instrumento · GQ-6

El GQ-6 es un cuestionario breve de auto-reporte que mide la gratitud como rasgo disposicional. Originalmente contiene 6 ítems en escala Likert de 7 puntos (1 = muy en desacuerdo, 7 = muy de acuerdo). Bernabé Valero, García-Alandete y Gallego-Pérez (2014) demostraron mediante análisis factorial confirmatorio que un modelo de 5 ítems (eliminando el sexto por baja carga factorial) es más parsimonioso y conserva buenas propiedades psicométricas. El puntaje compuesto va de 5 a 35, donde valores más altos indican mayor gratitud disposicional.

La pregunta sustantiva

Inspirado en el estudio de Blasco Magraner, Bernabé Valero y Moret Tatay (2016), formulamos: ¿La formación musical formal se asocia con mayor gratitud disposicional? Aplicamos el GQ-6 a 240 estudiantes universitarios: 120 estudian alguna disciplina musical y 120 estudian carreras no musicales. La hipótesis es que los músicos puntuarán más alto. Los datos son simulados con semilla reproducible (seed = 20260518) para que el caso sea didáctico y replicable.

Descriptivos por grupo

Grupo	n	Media	DT	Varianza	Mín – Máx
Músicos	120	29.82	2.68	7.18	15 – 35
No músicos	120	24.70	6.03	36.31	5 – 35

El primer dato que llama la atención: la varianza del grupo de no músicos es aproximadamente cinco veces la del grupo de músicos. Los músicos son más homogéneos en su puntaje de gratitud; los no músicos están mucho más dispersos. Esta asimetría va a forzar la ruta Welch más adelante.

Auditoría supuesto por supuesto

1 · Nivel de medición

Escala Likert con 5 ítems sumados → puntaje compuesto en rango 5–35. Tratamiento como intervalo respaldado por Boone & Boone (2012), Carifio & Perla (2007) y Norman (2010). ✓ Cumplido.

2 · Independencia

Diseño transversal con dos muestras de personas distintas. Cada estudiante aporta una sola medición. Sin medidas repetidas ni anidamiento. ✓ Cumplido por diseño.

3 · Normalidad

Shapiro-Wilk músicos: W = 0.952, p = .0003. No músicos: W = 0.974, p = .021. Ambos rechazan H₀. Los datos individuales no son normales. Pero con n = 120 por grupo, el Teorema del Límite Central garantiza la normalidad de la distribución de medias y Norman (2010) confirma la robustez paramétrica. Aceptable con observación.

4 · Homocedasticidad

Levene: F(1, 238) = 45.98, p < .001. Rechazamos H₀. Varianzas claramente dispares (ratio ≈ 5:1). La t clásica infla el error tipo I bajo este patrón. Decisión: ruta Welch.

Resultado · t de Welch

Con la decisión metodológica tomada, aplicamos la t de Welch. Los grados de libertad se calculan con la corrección de Satterthwaite, que produce un número no entero. La hipótesis es bilateral con α = .05.

$$ t = \dfrac{29.82 - 24.70}{\sqrt{\dfrac{7.18}{120} + \dfrac{36.31}{120}}} = \dfrac{5.12}{0.602} = 8.50 $$

Estadístico	gl (Satterthwaite)	p	IC 95% de la diferencia	d de Cohen
8.50	164.3	< .001	[3.93, 6.31]	1.10 (grande)

Resultado: t(164.3) = 8.50, p < .001, d = 1.10, IC 95% [3.93, 6.31]. La diferencia entre músicos y no músicos en gratitud disposicional es estadísticamente significativa y de magnitud grande.

¿Qué hubiera pasado sin auditar los supuestos?

Si hubiéramos aplicado la t clásica de Student sin verificar Levene, el estadístico habría sido prácticamente el mismo (t ≈ 8.50) pero con 238 grados de libertad en lugar de 164.3. En este caso el p también sería < .001 y la conclusión sustantiva no cambiaría. Sin embargo, ese "casi siempre se llega al mismo lugar" es engañoso: con muestras más desbalanceadas o ratios de varianza más extremos, la t clásica infla el error tipo I muy por encima del 5% nominal. La auditoría no es burocracia metodológica, es lo que separa una tesis defendible de una observada en revisión.

Reporte APA listo para tu tesis

Se aplicó la versión castellana del Gratitude Questionnaire (GQ-6; McCullough et al., 2002; Bernabé Valero et al., 2014) a 240 estudiantes universitarios (120 con formación musical formal, 120 sin formación musical) con el fin de comparar su gratitud disposicional. Los descriptivos por grupo fueron M_músicos = 29.82 (DT = 2.68) y M_no_músicos = 24.70 (DT = 6.03). La prueba de Shapiro-Wilk indicó desviaciones de la normalidad en ambos grupos (W = 0.95, p < .001; W = 0.97, p = .021), aunque el Teorema del Límite Central garantiza la robustez paramétrica con n = 120 por grupo (Norman, 2010). La prueba de Levene reveló heterocedasticidad, F(1, 238) = 45.98, p < .001, por lo que se aplicó la corrección de Welch. El grupo con formación musical mostró puntuaciones significativamente mayores que el grupo sin formación musical, t(164.3) = 8.50, p < .001, d de Cohen = 1.10, IC 95% [3.93, 6.31], lo que constituye un efecto de magnitud grande.

▶ Ver el video largo completo con la auditoría paso a paso

Significancia + magnitud

Cómo interpretar y reportar correctamente

Encontrar significancia estadística (p < .05) no significa que la diferencia sea importante. Para responder esa pregunta necesitas el tamaño del efecto, una métrica que la T por sí sola no provee. La medida estándar para la T es la d de Cohen:

$$ d = \dfrac{\bar{X}_1 - \bar{X}_2}{s_p} $$

donde $s_p$ es la desviación combinada (raíz de $s_p^2$). En nuestro caso: $d = 9.20 / \sqrt{4.47} = 9.20 / 2.114 = 4.35$.

La interpretación clásica de Cohen (1988) sugiere tres umbrales (0.20 / 0.50 / 0.80), que Sawilowsky (2009) extendió a las categorías superiores que los investigadores experimentales necesitan, y que Lakens (2013) recomienda interpretar siempre en contexto disciplinar. Esta es la tabla completa con su referencia y un veredicto verbal listo para tu tesis:

Valor de d (absoluto)	Magnitud	Veredicto verbal para tesis	Referencia
< 0.20	Trivial	"sin relevancia práctica"	Cohen (1988)
0.20 – 0.49	Pequeño	"efecto pequeño"	Cohen (1988)
0.50 – 0.79	Mediano	"efecto mediano"	Cohen (1988)
0.80 – 1.19	Grande	"efecto grande"	Cohen (1988)
1.20 – 1.99	Muy grande	"efecto muy grande"	Sawilowsky (2009)
≥ 2.00	Enorme / extremo	"efecto extremo, raro en investigación humana"	Sawilowsky (2009)

Notas sobre signo y contexto. El signo del d solo indica la dirección de la diferencia (qué grupo tiene la media mayor según el orden de comparación); para la magnitud lo que importa es el valor absoluto. Y como argumenta Lakens (2013), un d = 0.30 puede ser enorme en intervenciones de salud pública (porque escala a poblaciones grandes) y trivial en psicometría experimental: los umbrales no son universales, son una guía.

Aplicado a este caso, nuestro d = 4.35 cae en la categoría extremo de Sawilowsky — la terapia produjo un efecto que va mucho más allá del azar y de lo común en la literatura. Combinando significancia y magnitud, ahora puedes reportarlo en formato APA correctamente:

Reporte APA listo para tu tesis

Una prueba T para muestras independientes mostró que el grupo experimental (M = 18.67, DE = 2.26) presentó puntuaciones significativamente mayores en el BDI que el grupo control (M = 9.47, DE = 1.96), t(28) = 11.92, p < .001, d = 4.35, IC 95% [7.61, 10.79].

Cinco elementos que tu reporte siempre debe incluir: las medias y desviaciones de cada grupo, el estadístico t con sus grados de libertad entre paréntesis, el valor p, el tamaño del efecto, y el intervalo de confianza de la diferencia. Omitir cualquiera es una observación segura del comité.

Software estadístico

El mismo análisis en JASP — output real

Hasta aquí calculamos a mano para entender qué hace la T por dentro. En tu tesis vas a usar software. Aquí tienes el output real de JASP corriendo el mismo dataset BDI: decisiones de supuestos, lectura del estadístico y el reporte APA listo para copiar.

1. Descriptivos por grupo

Grupo	n	Media	DT	ET
control	15	9.467	2.066	0.533
experimental	15	18.667	2.350	0.607

2. Verificaciones de supuestos

Normalidad — Shapiro-Wilk

W = 0.969, p = .513

Decisión: p > .05 → cumple normalidad ✅

Homogeneidad — Levene

F(1, 28) = 0.245, p = .625

Decisión: p > .05 → cumple homogeneidad ✅

Como los dos supuestos se cumplen, la prueba que reportas es la Student. Si Levene hubiera fallado, reportarías Welch. Si Shapiro hubiera fallado, Mann-Whitney.

3. Estadístico Student

Contraste	Estadístico	gl	p	d de Cohen	IC 95% [inf, sup]
Student	11.39	28	< .001	4.158	[2.85, 5.45]

Nota. JASP devuelve la t con signo según el orden de comparación (control − experimental = −11.39). Para reporte APA se invierte verbalmente y se reporta el valor absoluto: "el experimental presentó puntuaciones mayores que el control, t(28) = 11.39". Pequeña discrepancia con el cálculo a mano (t ≈ 11.92) se debe a redondeos en las desviaciones — JASP es más preciso.

4. Reporte APA listo para tu tesis

Se realizó una prueba t para muestras independientes con el fin de comparar las puntuaciones de depresión (BDI) entre el grupo control (n = 15, M = 9.47, DT = 2.07) y el grupo experimental (n = 15, M = 18.67, DT = 2.35). Los supuestos de normalidad (Shapiro-Wilk: W = 0.97, p = .513) y de homogeneidad de varianzas (Levene: F(1, 28) = 0.25, p = .625) se cumplieron. El grupo experimental presentó puntuaciones significativamente mayores que el grupo control, t(28) = 11.39, p < .001, d de Cohen = 4.16, IC 95% [2.85, 5.45], lo que constituye un efecto de magnitud muy grande.

5. Cómo se lee en voz alta

En presentación oral o defensa de tesis, los símbolos se verbalizan así:

"...el grupo experimental presentó puntuaciones significativamente mayores que el grupo control, t con veintiocho grados de libertad igual a once punto treinta y nueve, p menor a punto cero cero uno, d de Cohen de cuatro punto dieciséis, con un intervalo de confianza al noventa y cinco por ciento entre dos punto ochenta y cinco y cinco punto cuarenta y cinco, lo que constituye un efecto de magnitud muy grande."

Tip: nunca leas [2.85, 5.45] como "corchete dos punto ochenta y cinco coma…". La convención académica es decir "entre 2.85 y 5.45".

6. Diccionario de abreviaturas (APA en español)

Símbolo	Qué significa	Equivalente en inglés
n	Tamaño muestral del grupo	n
M	Media aritmética	M
DT	Desviación típica (también DE)	SD
ET	Error típico de la media	SEM
t(gl)	Estadístico t con sus grados de libertad	t(df)
gl	Grados de libertad (n₁ + n₂ − 2)	df
p	Valor p (probabilidad bajo H₀)	p
d	d de Cohen — tamaño del efecto	d
IC 95%	Intervalo de confianza al 95%	95% CI
F(gl₁, gl₂)	Estadístico F de Levene	F(df₁, df₂)
W	Estadístico de Shapiro-Wilk	W

Cinco elementos que siempre debes incluir: medias y DT por grupo, supuestos verificados, estadístico t(gl), valor p, tamaño del efecto con IC 95%. Omitir cualquiera es una observación segura del comité.

El supuesto invisible

Potencia estadística (1 − β)

Hay un cuarto supuesto que casi nadie verifica explícitamente: ¿tu muestra es suficientemente grande para detectar el efecto que buscas? Si la respuesta es "no", encontrar p > .05 no significa que no haya diferencia — significa que no tenías cómo verla. Esa probabilidad de detectar un efecto cuando realmente existe es la potencia estadística, definida como 1 − β, donde β es el error tipo II (no detectar lo que sí está). El estándar mínimo aceptado en ciencias sociales es 0.80 (Cohen, 1988, 1992).

Tres usos del análisis de potencia

Tipo	Pregunta que responde	Cuándo se hace
A priori	¿Cuántos participantes necesito reclutar?	Antes de recolectar — lo que pide el comité de ética y de tesis
Sensibilidad	Con la n que tengo, ¿qué tamaño de efecto mínimo puedo detectar?	Antes del análisis, cuando ya hay datos pero quieres reportar honestidad
Post hoc / observada	Dado el efecto observado y mi n, ¿cuál fue mi potencia?	Después — controversial, ver nota

⚠️ Sobre la potencia post-hoc. Hoenig y Heisey (2001) demostraron que la potencia observada está mecánicamente ligada al p-value: si p < .05, la potencia observada será alta; si p > .05, será baja. No aporta información nueva. APA 7 y la mayoría de comités modernos prefieren reportar análisis a priori o de sensibilidad, no post-hoc.

Aplicado a este caso (n = 15 por grupo)

Sensibilidad

Con n = 15 por grupo, α = .05 (bilateral) y potencia = .80, el efecto mínimo detectable es:

d_min ≈ 1.07

Es decir, solo podías detectar efectos grandes. Cualquier efecto pequeño o mediano (d < 1.07) habría pasado inadvertido como falso negativo.

Potencia observada

Dado el efecto encontrado (d = 4.16) y la muestra (n = 15 por grupo):

1 − β ≈ 1.00

Potencia esencialmente perfecta — pero recuerda: esto es post-hoc y solo refleja el p < .001 ya obtenido, no es evidencia adicional.

Tabla de referencia rápida — n por grupo necesario

Para una T independiente bilateral con α = .05 y potencia = .80, según el tamaño de efecto que esperes detectar (Cohen, 1992):

Efecto esperado (d)	Magnitud	n por grupo	n total
0.20	Pequeño	394	788
0.50	Mediano	64	128
0.80	Grande	26	52
1.20	Muy grande	13	26
2.00	Enorme	6	12

Lectura. Si en tu tesis esperas un efecto pequeño (d = 0.20, lo más común en intervenciones reales), necesitas casi 400 participantes por grupo. Eso es lo que el comité espera ver justificado en tu apartado de muestra.

Cómo calcularla en tu tesis

Herramienta	Cómo se usa	Costo
*GPower** (Faul et al., 2007)	Software gratuito, GUI. Test family: t-tests → Statistical test: Means: Difference between two independent means → Type of power analysis: A priori. El estándar académico.	Gratis
JASP — módulo Power	Activarlo en el menú "+" superior derecho → Power. Mismo análisis con interfaz integrada.	Gratis
R — paquete pwr	`pwr.t.test(d = 0.5, power = 0.80, sig.level = 0.05, type = "two.sample")`	Gratis

Reporte APA del análisis de potencia (a priori)

El tamaño muestral se determinó a priori mediante G*Power 3.1 (Faul et al., 2007), considerando un tamaño de efecto medio (d = 0.50; Cohen, 1988), un nivel de significancia α = .05 (bilateral) y una potencia de 1 − β = .80. El cálculo arrojó un mínimo de 64 participantes por grupo (128 en total).

Plantilla. Sustituye el d esperado, α y potencia por los valores que justificaste en tu marco metodológico. La cifra final cambia; la estructura del reporte se mantiene.

Lo que no te enseñan

Cinco errores comunes que invalidan una prueba T

1. Confundir "no significativo" con "no diferencia"

Un p mayor a 0.05 NO prueba que las medias sean iguales. Solo significa que los datos disponibles no permiten descartar el azar. Con más muestra, podrías encontrar la diferencia.

2. Reportar solo el p sin tamaño del efecto

Con n grande, casi cualquier diferencia resulta significativa. El p te dice si existe la diferencia; la d de Cohen te dice si importa. Reporta ambos siempre.

3. Aplicar T en lugar de Mann-Whitney cuando los datos son ordinales

Los datos tipo Likert estrictos (1 a 5) técnicamente son ordinales. Aunque la T es robusta, si tu comité es estricto pide la prueba no paramétrica equivalente: Mann-Whitney U.

4. No reportar la corrección de Welch cuando Levene falla

Si Levene da p < 0.05, las varianzas no son homogéneas y debes usar Welch, no la T clásica. SPSS y JASP lo muestran como una segunda línea — léela siempre.

5. Calcular T en variables binarias o categóricas

La T compara medias de variables continuas. Para variables categóricas (sí/no, aprobado/reprobado) usa Chi-cuadrado. Para Likert sumadas (escalas continuas) sí funciona la T.

APA 7 · para tu tesis

Referencias

Citas formales de los autores referenciados en este dashboard, listas para copiar a tu lista de referencias bibliográficas.

Pruebas y estadísticos fundamentales

Student. (1908). The probable error of a mean. Biometrika, 6(1), 1–25. https://doi.org/10.1093/biomet/6.1.1
Welch, B. L. (1947). The generalization of "Student's" problem when several different population variances are involved. Biometrika, 34(1/2), 28–35. https://doi.org/10.1093/biomet/34.1-2.28
Levene, H. (1960). Robust tests for equality of variances. En I. Olkin, S. G. Ghurye, W. Hoeffding, W. G. Madow, & H. B. Mann (Eds.), Contributions to probability and statistics: Essays in honor of Harold Hotelling (pp. 278–292). Stanford University Press.
Shapiro, S. S., & Wilk, M. B. (1965). An analysis of variance test for normality (complete samples). Biometrika, 52(3/4), 591–611. https://doi.org/10.1093/biomet/52.3-4.591
Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103(2684), 677–680. https://doi.org/10.1126/science.103.2684.677

Escalas Likert · nivel de medición

Boone, H. N., Jr., & Boone, D. A. (2012). Analyzing Likert data. Journal of Extension, 50(2), Article 48. https://archives.joe.org/joe/2012april/tt2.php
Carifio, J., & Perla, R. J. (2007). Ten common misunderstandings, misconceptions, persistent myths and urban legends about Likert scales and Likert response formats and their antidotes. Journal of Social Sciences, 3(3), 106–116. https://doi.org/10.3844/jssp.2007.106.116
Norman, G. (2010). Likert scales, levels of measurement and the "laws" of statistics. Advances in Health Sciences Education, 15(5), 625–632. https://doi.org/10.1007/s10459-010-9222-y

Independencia · datos anidados

Aarts, E., Verhage, M., Veenvliet, J. V., Dolan, C. V., & van der Sluis, S. (2014). A solution to dependency: Using multilevel analysis to accommodate nested data. Nature Neuroscience, 17(4), 491–496. https://doi.org/10.1038/nn.3648
Lazic, S. E. (2010). The problem of pseudoreplication in neuroscientific studies: Is it affecting your analysis? BMC Neuroscience, 11, Article 5. https://doi.org/10.1186/1471-2202-11-5
Lazic, S. E., Clarke-Williams, C. J., & Munafò, M. R. (2018). What exactly is "N" in cell culture and animal experiments? PLoS Biology, 16(4), Article e2005282. https://doi.org/10.1371/journal.pbio.2005282

Manuales metodológicos

Mellenbergh, G. J. (2019). Counteracting methodological errors in behavioral research. Springer International Publishing. https://doi.org/10.1007/978-3-030-12272-0

Caso aplicado · Escala de Gratitud GQ-6

McCullough, M. E., Emmons, R. A., & Tsang, J.-A. (2002). The grateful disposition: A conceptual and empirical topography. Journal of Personality and Social Psychology, 82(1), 112–127. https://doi.org/10.1037/0022-3514.82.1.112
Bernabé Valero, G., García-Alandete, J., & Gallego-Pérez, J. F. (2014). Análisis comparativo de dos modelos del Gratitude Questionnaire – Six Items Form. Universitas Psychologica, 13(3), 1083–1092.
Blasco Magraner, J. S., Bernabé Valero, G., & Moret Tatay, C. (2016). Propiedades psicométricas de una escala de gratitud en educación musical: Un análisis multigrupo. Nereis, 8, 45–50.

Tamaños de efecto, potencia y estándares de reporte

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum Associates.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155–159. https://doi.org/10.1037/0033-2909.112.1.155
Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39(2), 175–191. https://doi.org/10.3758/BF03193146
Hoenig, J. M., & Heisey, D. M. (2001). The abuse of power: The pervasive fallacy of power calculations for data analysis. The American Statistician, 55(1), 19–24. https://doi.org/10.1198/000313001300339897
Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: A practical primer for t-tests and ANOVAs. Frontiers in Psychology, 4, 863. https://doi.org/10.3389/fpsyg.2013.00863
Sawilowsky, S. S. (2009). New effect size rules of thumb. Journal of Modern Applied Statistical Methods, 8(2), 597–599. https://doi.org/10.22237/jmasm/1257035100
American Psychological Association. (2020). Publication manual of the American Psychological Association (7th ed.). https://doi.org/10.1037/0000165-000

La serie completa, en orden

Bloque 1 · Fundamentos de la T

1 — Teoría: ¿la diferencia es real?

2 — Cálculo en JASP paso a paso

Bloque 2 · Supuestos paramétricos (mayo 2026)

3 — Los 4 supuestos

4 — Nivel de medición

5 — Independencia

6 — Normalidad

7 — Homocedasticidad

8 — Árbol de decisión

Bloque 3 · Clase aplicada · GQ-6

¿Por qué necesitas la T de Student?

Señal contra ruido: la idea central

Caso A · Señal clara

Caso B · Señal ahogada en ruido

El insight contraintuitivo

Los tres tipos de prueba T

La fórmula desplegada símbolo por símbolo

Manipula y observa

Los cuatro supuestos que debes auditar

Nivel de medición · intervalo o razón

Independencia de las observaciones

Normalidad · de la distribución de medias, no de los datos

Homocedasticidad · igualdad de varianzas

Árbol de decisión interactivo

1. ¿Tus datos son cuantitativos?

2. ¿Qué diseño tienes?

3. ¿Cuántos grupos comparas?

4. ¿Tus varianzas son iguales y tus tamaños balanceados?

Un cálculo paso a paso con datos reales

Paso 1. Calcular las medias

Paso 2. Calcular las varianzas y la varianza combinada

Paso 3. Calcular el error estándar de la diferencia

Paso 4. Calcular el estadístico t

Caso aplicado · Escala de Gratitud GQ-6

El instrumento · GQ-6

La pregunta sustantiva

Descriptivos por grupo

Auditoría supuesto por supuesto

1 · Nivel de medición

2 · Independencia

3 · Normalidad

4 · Homocedasticidad

Resultado · t de Welch

¿Qué hubiera pasado sin auditar los supuestos?

Reporte APA listo para tu tesis

Cómo interpretar y reportar correctamente

Reporte APA listo para tu tesis

El mismo análisis en JASP — output real

1. Descriptivos por grupo

2. Verificaciones de supuestos

Normalidad — Shapiro-Wilk

Homogeneidad — Levene

3. Estadístico Student

4. Reporte APA listo para tu tesis

5. Cómo se lee en voz alta

6. Diccionario de abreviaturas (APA en español)

Potencia estadística (1 − β)

Tres usos del análisis de potencia

Aplicado a este caso (n = 15 por grupo)

Sensibilidad

Potencia observada

Tabla de referencia rápida — n por grupo necesario

Cómo calcularla en tu tesis

Reporte APA del análisis de potencia (a priori)

Cinco errores comunes que invalidan una prueba T

1. Confundir "no significativo" con "no diferencia"

2. Reportar solo el p sin tamaño del efecto

3. Aplicar T en lugar de Mann-Whitney cuando los datos son ordinales

4. No reportar la corrección de Welch cuando Levene falla

5. Calcular T en variables binarias o categóricas

Recursos descargables

Referencias

Pruebas y estadísticos fundamentales

Escalas Likert · nivel de medición

Independencia · datos anidados

Manuales metodológicos

Caso aplicado · Escala de Gratitud GQ-6

Tamaños de efecto, potencia y estándares de reporte