El método con el que casi todo tesista comprueba si dos grupos son genuinamente diferentes o si la diferencia es ruido. Aquí lo entenderás manipulándolo, no memorizándolo: 8 videos en orden, un laboratorio interactivo, los 4 supuestos auditados uno por uno, un árbol de decisión clicable y dos casos reales — uno clínico clásico (BDI) y uno aplicado a un instrumento psicométrico de verdad (Escala de Gratitud GQ-6).
Este dashboard acompaña dos ciclos de la serie Metodología de la Investigación paso a paso. Primero, los dos videos fundacionales que explican qué es la T y cómo se calcula en JASP. Después, el ciclo nuevo "Supuestos paramétricos" (mayo 2026), siete clases cortas para auditar cada supuesto y una clase aplicada larga donde llevamos toda la teoría a un instrumento psicométrico real, la Escala de Gratitud GQ-6. Te recomiendo verlos en este orden — el dashboard funciona como referencia escrita para repasar después.
Una clase corta por supuesto, más una clase de cierre con el árbol de decisión y una clase aplicada larga. Las clases cortas están pensadas para repaso rápido; cada una integra las citas que están al final de este dashboard.
Esta clase larga es el cierre práctico de la serie. Tomamos la Escala de Gratitud GQ-6, simulamos 240 sujetos con un conflicto pedagógico realista, y recorremos los cuatro supuestos hasta llegar a la t de Welch. El dashboard tiene una sección dedicada a este caso (más abajo, "Caso GQ-6") con los resultados y la interpretación.
Imagina que aplicaste un programa terapéutico a un grupo de quince personas con síntomas depresivos y mediste su Inventario de Depresión de Beck (BDI) al final. Otro grupo control, también de quince personas, no recibió el programa. La media del experimental fue de 18.3 puntos y la del control de 9.5. ¿Esa diferencia de casi nueve puntos prueba que el programa funcionó, o pudo aparecer por azar?
La intuición no basta. Si tomaras dos muestras al azar de cualquier población, casi nunca obtendrás medias idénticas: siempre habrá fluctuación. La pregunta correcta no es si las medias son iguales (no lo son nunca), sino si la diferencia observada es mayor de lo esperable bajo el azar. Para responderla en muestras pequeñas con varianza desconocida, William Gosset diseñó en 1908 una prueba que se publicó bajo el seudónimo "Student" porque la cervecería Guinness, donde trabajaba, prohibía a sus químicos publicar para no revelar secretos industriales. Esa prueba es la que vas a aprender aquí.
Gosset estudiaba la calidad de la cebada para Guinness y se topó con el problema de hacer inferencias con muestras de tamaño 4 o 5 lotes, donde la distribución normal sobreestima la confianza. Su distribución t corrige esa confianza para muestras pequeñas. Hoy, más de un siglo después, sigue siendo la prueba estadística más usada en tesis de ciencias sociales y de la salud (Lakens, 2013).
Imagina que mides la altura de dos grupos de 10 personas y comparas sus medias. En los dos casos siguientes la diferencia de medias es exactamente la misma: 10 cm. Y aun así, en uno la diferencia es claramente real y en el otro podría ser puro azar. La razón es lo que la prueba T detecta: no compara solo medias, las compara contra el ruido interno de cada grupo.
Grupo 1: todos miden entre 1.65 y 1.70 m (media 1.67). Grupo 2: todos miden entre 1.75 y 1.80 m (media 1.77). El más alto del grupo 1 es más bajo que el más bajo del grupo 2: no hay traslape. La diferencia es real.
Ruido interno bajo → la diferencia de 10 cm destaca. t ≈ 14.9
Grupo 1: gente entre 1.50 y 1.85 m (media 1.67). Grupo 2: gente entre 1.60 y 1.95 m (media 1.77). Misma diferencia de medias, pero los grupos se traslapan muchísimo: hay gente del grupo 1 más alta que la mayoría del grupo 2.
Ruido interno alto → los 10 cm se diluyen. t ≈ 2.2
Lo que importa no es qué tan distintas son las medias. Es qué tan distintas son en relación a la variabilidad interna. Por eso la T tiene esta estructura:
$$t = \frac{\text{señal}}{\text{ruido}} = \frac{\bar{X}_1 - \bar{X}_2}{\text{error estándar de la diferencia}}$$
Una diferencia de 10 cm es enorme entre dos grupos uniformes, y trivial entre dos grupos caóticos. La t lo cuantifica en una sola cifra.
El error más común al iniciar es no identificar qué prueba T corresponde al diseño. Existen tres variantes y elegir la incorrecta invalida toda inferencia posterior. La diferencia depende de cuántas muestras tienes y cómo están relacionadas.
| Tipo | ¿Cuándo usarla? | Ejemplo |
|---|---|---|
| T de una muestra | Comparas la media de un grupo contra un valor teórico fijo | ¿La media de IQ de mi muestra difiere del valor poblacional 100? |
| T para muestras independientes | Dos grupos distintos de personas, cada participante en uno solo | Grupo experimental vs grupo control en BDI |
| T para muestras pareadas | Mismas personas medidas dos veces, o pares emparejados | Pre-test vs post-test del mismo participante |
Este dashboard se centra en la variante más usada en tesis: la T para muestras independientes. Las otras dos comparten lógica casi idéntica con un denominador distinto.
Aquí tienes la fórmula completa de la T para muestras independientes con varianzas iguales (la versión clásica de Student). No la memorices: léela como una frase con estructura. Cada símbolo cuenta una pieza del razonamiento.
donde $s_p^2 = \dfrac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}$ es la varianza combinada
Léela en una frase: la T es la diferencia entre dos medias, expresada en unidades de su propio error estándar. Si t = 2, la señal es dos veces el ruido. Si t = 0.5, está sumergida en el ruido.
Mueve los sliders y mira en vivo cómo cambian la t y el p-value. Es la mejor manera de entender qué influye realmente en una prueba T.
Las distribuciones que ves son las muestras simuladas con tus parámetros. La línea vertical en cada una es la media. La curva inferior es la distribución t bajo H₀ y la franja sombreada marca la región de rechazo a $\alpha = 0.05$.
Tres reglas que descubrirás moviendo los sliders. Una: aumentar $n$ aumenta t aunque las medias y sd no cambien. Dos: aumentar la sd reduce t. Tres: una diferencia pequeña con $n$ grande puede ser significativa, lo cual no significa que sea importante. La magnitud del efecto la mide otra cosa, llamada Cohen's d, y la veremos en la sección de interpretación.
La T de Student es robusta pero no mágica. Su validez descansa en cuatro supuestos que rara vez se enseñan completos en los manuales introductorios y que un comité de tesis preguntará casi con seguridad. Auditarlos no toma más de cinco minutos en JASP, SPSS o Jamovi, y blinda tu análisis frente a observaciones. Cada supuesto tiene su propia clase corta en la serie reciente del canal — el embed que está debajo de cada uno es esa clase, y la prosa de este apartado funciona como referencia escrita complementaria.
Las pruebas paramétricas exigen variables cuantitativas. Stevens (1946) clasificó las escalas en cuatro niveles: nominal, ordinal, intervalo y razón. La T y la ANOVA funcionan sobre los dos peldaños superiores. El caso polémico es Likert: un ítem aislado es ordinal estricto, pero una escala Likert compuesta por cuatro o más ítems sumados en un puntaje total se trata como intervalo en la práctica investigativa. Boone y Boone (2012) lo establecen explícitamente, Carifio y Perla (2007) defienden formalmente el tratamiento intervalo, y Norman (2010) demuestra que la t y la ANOVA son robustas incluso si los datos son estrictamente ordinales. Es decir: si trabajas con un instrumento Likert con varios ítems sumados, puedes aplicar la t sin tensión metodológica.
Cada participante aporta un solo dato y los grupos no están relacionados. Es el supuesto más fácil de cumplir y el más difícil de verificar estadísticamente: se garantiza por diseño desde el muestreo, no se prueba con un test. Si tienes participantes pareados, medidas repetidas del mismo sujeto, o sujetos anidados (alumnos dentro de aulas dentro de escuelas), no estás violando el supuesto: estás usando un diseño distinto que pide otra prueba — la t pareada, la ANOVA de medidas repetidas, o modelos multinivel. Aarts y colaboradores (2014) demostraron que ignorar la dependencia en datos anidados infla la tasa de error tipo I hasta el 80% sobre el α nominal. Lazic (2010) llama a ese error "pseudoreplicación" y mostró que un 12% de los artículos publicados en una edición completa de Nature Neuroscience incurrían en él, con otro 36% sospechoso.
Hay una confusión muy común entre los tesistas. Lo que la t y la ANOVA exigen no es que tus datos individuales sigan una curva normal: exigen que la distribución de las medias muestrales sea normal. Y eso lo garantiza el Teorema del Límite Central, no un test estadístico. Norman (2010), citando a Pearson (1931) y a Boneau (1960), muestra que con apenas 5 a 10 observaciones por grupo las medias ya son aproximadamente normales aunque la distribución poblacional sea sesgada. Se verifica visualmente con histograma y gráfico cuantil-cuantil (Q-Q), y formalmente con Shapiro-Wilk (n < 50) o Kolmogorov-Smirnov-Lilliefors (n ≥ 50). Cuidado con la lógica del test: la hipótesis nula dice que los datos son normales, así que un p > .05 significa no rechazo y asumes normalidad. Si Shapiro falla pero tu n es grande, el TLC y la robustez paramétrica (Norman 2010) te permiten seguir por la rama paramétrica anotando la observación en el informe.
Ambos grupos deberían tener varianzas comparables, es decir, una dispersión interna similar. Se verifica visualmente con boxplots por grupo (cajas de altura parecida = homo, una alta y otra corta = hetero) y formalmente con la prueba de Levene (más usada porque no asume normalidad), Bartlett (asume normalidad, más potente cuando se cumple) o Brown-Forsythe (variante robusta de Levene). Si Levene es significativa (p < .05) las varianzas son dispares, y la t clásica de Student infla el error tipo I. La solución estándar es la t de Welch, que no asume homocedasticidad y ajusta los grados de libertad automáticamente con la corrección de Satterthwaite. Mellenbergh (2019), en el capítulo 12 de su manual, sostiene que la t de Welch es en general más apropiada que la t de Student para datos de ciencias del comportamiento, y SPSS, Jamovi y JASP la reportan junto a la t clásica sin pedir nada extra. Si tus grupos tienen tamaños desbalanceados, usa Welch por defecto.
Responde las cuatro preguntas en orden. Cada respuesta enciende la siguiente y al final el árbol te dice qué prueba aplica a tu diseño. Es la versión clicable del Short 8 de la serie. Si te equivocaste de rama, presiona "Reiniciar" abajo a la derecha.
Recordatorio: intervalo, razón, o un puntaje Likert sumado de 4 o más ítems → cuantitativo. Un ítem Likert aislado o categorías nominales → cualitativo.
Aplicamos la prueba con un dataset clínico realista: treinta participantes asignados aleatoriamente a un grupo control y a uno experimental que recibió ocho semanas de terapia cognitivo-conductual. La variable es el puntaje BDI (Beck Depression Inventory) postratamiento, donde puntajes mayores indican mayor sintomatología depresiva.
Con los quince valores de cada grupo obtenemos $\bar{X}_{control} = 9.47$ y $\bar{X}_{experimental} = 18.67$. La diferencia bruta es de 9.20 puntos en la escala BDI. Por sí sola no nos dice nada hasta compararla con el ruido.
Las varianzas internas son $s^2_{control} = 3.84$ y $s^2_{experimental} = 5.10$. Aplicando la fórmula de varianza combinada con $n_1 = n_2 = 15$:
Con grados de libertad $gl = n_1 + n_2 - 2 = 28$ y $\alpha = 0.05$ bilateral, el valor crítico de la tabla t es 2.048. Nuestro estadístico (11.92) excede dramáticamente el crítico: la diferencia entre grupos no se explica por azar.
El caso BDI de arriba es el ejemplo limpio: todos los supuestos se cumplen y la T clásica funciona sin matices. Pero la mayoría de tus análisis de tesis no serán así de complacientes. Aquí trabajamos un segundo caso con un instrumento psicométrico real, la Escala de Gratitud GQ-6 (McCullough, Emmons & Tsang, 2002), y con un dataset diseñado para que al menos uno de los supuestos falle. El objetivo pedagógico es mostrar qué se hace cuando la auditoría revela un problema: en este caso, varianzas dispares que obligan a Welch.
El GQ-6 es un cuestionario breve de auto-reporte que mide la gratitud como rasgo disposicional. Originalmente contiene 6 ítems en escala Likert de 7 puntos (1 = muy en desacuerdo, 7 = muy de acuerdo). Bernabé Valero, García-Alandete y Gallego-Pérez (2014) demostraron mediante análisis factorial confirmatorio que un modelo de 5 ítems (eliminando el sexto por baja carga factorial) es más parsimonioso y conserva buenas propiedades psicométricas. El puntaje compuesto va de 5 a 35, donde valores más altos indican mayor gratitud disposicional.
Inspirado en el estudio de Blasco Magraner, Bernabé Valero y Moret Tatay (2016), formulamos: ¿La formación musical formal se asocia con mayor gratitud disposicional? Aplicamos el GQ-6 a 240 estudiantes universitarios: 120 estudian alguna disciplina musical y 120 estudian carreras no musicales. La hipótesis es que los músicos puntuarán más alto. Los datos son simulados con semilla reproducible (seed = 20260518) para que el caso sea didáctico y replicable.
| Grupo | n | Media | DT | Varianza | Mín – Máx |
|---|---|---|---|---|---|
| Músicos | 120 | 29.82 | 2.68 | 7.18 | 15 – 35 |
| No músicos | 120 | 24.70 | 6.03 | 36.31 | 5 – 35 |
El primer dato que llama la atención: la varianza del grupo de no músicos es aproximadamente cinco veces la del grupo de músicos. Los músicos son más homogéneos en su puntaje de gratitud; los no músicos están mucho más dispersos. Esta asimetría va a forzar la ruta Welch más adelante.
Escala Likert con 5 ítems sumados → puntaje compuesto en rango 5–35. Tratamiento como intervalo respaldado por Boone & Boone (2012), Carifio & Perla (2007) y Norman (2010). ✓ Cumplido.
Diseño transversal con dos muestras de personas distintas. Cada estudiante aporta una sola medición. Sin medidas repetidas ni anidamiento. ✓ Cumplido por diseño.
Shapiro-Wilk músicos: W = 0.952, p = .0003. No músicos: W = 0.974, p = .021. Ambos rechazan H₀. Los datos individuales no son normales. Pero con n = 120 por grupo, el Teorema del Límite Central garantiza la normalidad de la distribución de medias y Norman (2010) confirma la robustez paramétrica. Aceptable con observación.
Levene: F(1, 238) = 45.98, p < .001. Rechazamos H₀. Varianzas claramente dispares (ratio ≈ 5:1). La t clásica infla el error tipo I bajo este patrón. Decisión: ruta Welch.
Con la decisión metodológica tomada, aplicamos la t de Welch. Los grados de libertad se calculan con la corrección de Satterthwaite, que produce un número no entero. La hipótesis es bilateral con α = .05.
| Estadístico | gl (Satterthwaite) | p | IC 95% de la diferencia | d de Cohen |
|---|---|---|---|---|
| 8.50 | 164.3 | < .001 | [3.93, 6.31] | 1.10 (grande) |
Si hubiéramos aplicado la t clásica de Student sin verificar Levene, el estadístico habría sido prácticamente el mismo (t ≈ 8.50) pero con 238 grados de libertad en lugar de 164.3. En este caso el p también sería < .001 y la conclusión sustantiva no cambiaría. Sin embargo, ese "casi siempre se llega al mismo lugar" es engañoso: con muestras más desbalanceadas o ratios de varianza más extremos, la t clásica infla el error tipo I muy por encima del 5% nominal. La auditoría no es burocracia metodológica, es lo que separa una tesis defendible de una observada en revisión.
Se aplicó la versión castellana del Gratitude Questionnaire (GQ-6; McCullough et al., 2002; Bernabé Valero et al., 2014) a 240 estudiantes universitarios (120 con formación musical formal, 120 sin formación musical) con el fin de comparar su gratitud disposicional. Los descriptivos por grupo fueron M_músicos = 29.82 (DT = 2.68) y M_no_músicos = 24.70 (DT = 6.03). La prueba de Shapiro-Wilk indicó desviaciones de la normalidad en ambos grupos (W = 0.95, p < .001; W = 0.97, p = .021), aunque el Teorema del Límite Central garantiza la robustez paramétrica con n = 120 por grupo (Norman, 2010). La prueba de Levene reveló heterocedasticidad, F(1, 238) = 45.98, p < .001, por lo que se aplicó la corrección de Welch. El grupo con formación musical mostró puntuaciones significativamente mayores que el grupo sin formación musical, t(164.3) = 8.50, p < .001, d de Cohen = 1.10, IC 95% [3.93, 6.31], lo que constituye un efecto de magnitud grande.
Encontrar significancia estadística (p < .05) no significa que la diferencia sea importante. Para responder esa pregunta necesitas el tamaño del efecto, una métrica que la T por sí sola no provee. La medida estándar para la T es la d de Cohen:
donde $s_p$ es la desviación combinada (raíz de $s_p^2$). En nuestro caso: $d = 9.20 / \sqrt{4.47} = 9.20 / 2.114 = 4.35$.
La interpretación clásica de Cohen (1988) sugiere tres umbrales (0.20 / 0.50 / 0.80), que Sawilowsky (2009) extendió a las categorías superiores que los investigadores experimentales necesitan, y que Lakens (2013) recomienda interpretar siempre en contexto disciplinar. Esta es la tabla completa con su referencia y un veredicto verbal listo para tu tesis:
| Valor de d (absoluto) | Magnitud | Veredicto verbal para tesis | Referencia |
|---|---|---|---|
| < 0.20 | Trivial | "sin relevancia práctica" | Cohen (1988) |
| 0.20 – 0.49 | Pequeño | "efecto pequeño" | Cohen (1988) |
| 0.50 – 0.79 | Mediano | "efecto mediano" | Cohen (1988) |
| 0.80 – 1.19 | Grande | "efecto grande" | Cohen (1988) |
| 1.20 – 1.99 | Muy grande | "efecto muy grande" | Sawilowsky (2009) |
| ≥ 2.00 | Enorme / extremo | "efecto extremo, raro en investigación humana" | Sawilowsky (2009) |
Notas sobre signo y contexto. El signo del d solo indica la dirección de la diferencia (qué grupo tiene la media mayor según el orden de comparación); para la magnitud lo que importa es el valor absoluto. Y como argumenta Lakens (2013), un d = 0.30 puede ser enorme en intervenciones de salud pública (porque escala a poblaciones grandes) y trivial en psicometría experimental: los umbrales no son universales, son una guía.
Aplicado a este caso, nuestro d = 4.35 cae en la categoría extremo de Sawilowsky — la terapia produjo un efecto que va mucho más allá del azar y de lo común en la literatura. Combinando significancia y magnitud, ahora puedes reportarlo en formato APA correctamente:
Una prueba T para muestras independientes mostró que el grupo experimental (M = 18.67, DE = 2.26) presentó puntuaciones significativamente mayores en el BDI que el grupo control (M = 9.47, DE = 1.96), t(28) = 11.92, p < .001, d = 4.35, IC 95% [7.61, 10.79].
Cinco elementos que tu reporte siempre debe incluir: las medias y desviaciones de cada grupo, el estadístico t con sus grados de libertad entre paréntesis, el valor p, el tamaño del efecto, y el intervalo de confianza de la diferencia. Omitir cualquiera es una observación segura del comité.
Hasta aquí calculamos a mano para entender qué hace la T por dentro. En tu tesis vas a usar software. Aquí tienes el output real de JASP corriendo el mismo dataset BDI: decisiones de supuestos, lectura del estadístico y el reporte APA listo para copiar.
| Grupo | n | Media | DT | ET |
|---|---|---|---|---|
| control | 15 | 9.467 | 2.066 | 0.533 |
| experimental | 15 | 18.667 | 2.350 | 0.607 |
W = 0.969, p = .513
Decisión: p > .05 → cumple normalidad ✅
F(1, 28) = 0.245, p = .625
Decisión: p > .05 → cumple homogeneidad ✅
Como los dos supuestos se cumplen, la prueba que reportas es la Student. Si Levene hubiera fallado, reportarías Welch. Si Shapiro hubiera fallado, Mann-Whitney.
| Contraste | Estadístico | gl | p | d de Cohen | IC 95% [inf, sup] |
|---|---|---|---|---|---|
| Student | 11.39 | 28 | < .001 | 4.158 | [2.85, 5.45] |
Nota. JASP devuelve la t con signo según el orden de comparación (control − experimental = −11.39). Para reporte APA se invierte verbalmente y se reporta el valor absoluto: "el experimental presentó puntuaciones mayores que el control, t(28) = 11.39". Pequeña discrepancia con el cálculo a mano (t ≈ 11.92) se debe a redondeos en las desviaciones — JASP es más preciso.
Se realizó una prueba t para muestras independientes con el fin de comparar las puntuaciones de depresión (BDI) entre el grupo control (n = 15, M = 9.47, DT = 2.07) y el grupo experimental (n = 15, M = 18.67, DT = 2.35). Los supuestos de normalidad (Shapiro-Wilk: W = 0.97, p = .513) y de homogeneidad de varianzas (Levene: F(1, 28) = 0.25, p = .625) se cumplieron. El grupo experimental presentó puntuaciones significativamente mayores que el grupo control, t(28) = 11.39, p < .001, d de Cohen = 4.16, IC 95% [2.85, 5.45], lo que constituye un efecto de magnitud muy grande.
En presentación oral o defensa de tesis, los símbolos se verbalizan así:
"...el grupo experimental presentó puntuaciones significativamente mayores que el grupo control, t con veintiocho grados de libertad igual a once punto treinta y nueve, p menor a punto cero cero uno, d de Cohen de cuatro punto dieciséis, con un intervalo de confianza al noventa y cinco por ciento entre dos punto ochenta y cinco y cinco punto cuarenta y cinco, lo que constituye un efecto de magnitud muy grande."
Tip: nunca leas [2.85, 5.45] como "corchete dos punto ochenta y cinco coma…". La convención académica es decir "entre 2.85 y 5.45".
| Símbolo | Qué significa | Equivalente en inglés |
|---|---|---|
| n | Tamaño muestral del grupo | n |
| M | Media aritmética | M |
| DT | Desviación típica (también DE) | SD |
| ET | Error típico de la media | SEM |
| t(gl) | Estadístico t con sus grados de libertad | t(df) |
| gl | Grados de libertad (n₁ + n₂ − 2) | df |
| p | Valor p (probabilidad bajo H₀) | p |
| d | d de Cohen — tamaño del efecto | d |
| IC 95% | Intervalo de confianza al 95% | 95% CI |
| F(gl₁, gl₂) | Estadístico F de Levene | F(df₁, df₂) |
| W | Estadístico de Shapiro-Wilk | W |
Cinco elementos que siempre debes incluir: medias y DT por grupo, supuestos verificados, estadístico t(gl), valor p, tamaño del efecto con IC 95%. Omitir cualquiera es una observación segura del comité.
Hay un cuarto supuesto que casi nadie verifica explícitamente: ¿tu muestra es suficientemente grande para detectar el efecto que buscas? Si la respuesta es "no", encontrar p > .05 no significa que no haya diferencia — significa que no tenías cómo verla. Esa probabilidad de detectar un efecto cuando realmente existe es la potencia estadística, definida como 1 − β, donde β es el error tipo II (no detectar lo que sí está). El estándar mínimo aceptado en ciencias sociales es 0.80 (Cohen, 1988, 1992).
| Tipo | Pregunta que responde | Cuándo se hace |
|---|---|---|
| A priori | ¿Cuántos participantes necesito reclutar? | Antes de recolectar — lo que pide el comité de ética y de tesis |
| Sensibilidad | Con la n que tengo, ¿qué tamaño de efecto mínimo puedo detectar? | Antes del análisis, cuando ya hay datos pero quieres reportar honestidad |
| Post hoc / observada | Dado el efecto observado y mi n, ¿cuál fue mi potencia? | Después — controversial, ver nota |
⚠️ Sobre la potencia post-hoc. Hoenig y Heisey (2001) demostraron que la potencia observada está mecánicamente ligada al p-value: si p < .05, la potencia observada será alta; si p > .05, será baja. No aporta información nueva. APA 7 y la mayoría de comités modernos prefieren reportar análisis a priori o de sensibilidad, no post-hoc.
Con n = 15 por grupo, α = .05 (bilateral) y potencia = .80, el efecto mínimo detectable es:
dmin ≈ 1.07
Es decir, solo podías detectar efectos grandes. Cualquier efecto pequeño o mediano (d < 1.07) habría pasado inadvertido como falso negativo.
Dado el efecto encontrado (d = 4.16) y la muestra (n = 15 por grupo):
1 − β ≈ 1.00
Potencia esencialmente perfecta — pero recuerda: esto es post-hoc y solo refleja el p < .001 ya obtenido, no es evidencia adicional.
Para una T independiente bilateral con α = .05 y potencia = .80, según el tamaño de efecto que esperes detectar (Cohen, 1992):
| Efecto esperado (d) | Magnitud | n por grupo | n total |
|---|---|---|---|
| 0.20 | Pequeño | 394 | 788 |
| 0.50 | Mediano | 64 | 128 |
| 0.80 | Grande | 26 | 52 |
| 1.20 | Muy grande | 13 | 26 |
| 2.00 | Enorme | 6 | 12 |
Lectura. Si en tu tesis esperas un efecto pequeño (d = 0.20, lo más común en intervenciones reales), necesitas casi 400 participantes por grupo. Eso es lo que el comité espera ver justificado en tu apartado de muestra.
| Herramienta | Cómo se usa | Costo |
|---|---|---|
| G*Power (Faul et al., 2007) | Software gratuito, GUI. Test family: t-tests → Statistical test: Means: Difference between two independent means → Type of power analysis: A priori. El estándar académico. | Gratis |
| JASP — módulo Power | Activarlo en el menú "+" superior derecho → Power. Mismo análisis con interfaz integrada. | Gratis |
| R — paquete pwr | pwr.t.test(d = 0.5, power = 0.80, sig.level = 0.05, type = "two.sample") | Gratis |
El tamaño muestral se determinó a priori mediante G*Power 3.1 (Faul et al., 2007), considerando un tamaño de efecto medio (d = 0.50; Cohen, 1988), un nivel de significancia α = .05 (bilateral) y una potencia de 1 − β = .80. El cálculo arrojó un mínimo de 64 participantes por grupo (128 en total).
Plantilla. Sustituye el d esperado, α y potencia por los valores que justificaste en tu marco metodológico. La cifra final cambia; la estructura del reporte se mantiene.
Un p mayor a 0.05 NO prueba que las medias sean iguales. Solo significa que los datos disponibles no permiten descartar el azar. Con más muestra, podrías encontrar la diferencia.
Con n grande, casi cualquier diferencia resulta significativa. El p te dice si existe la diferencia; la d de Cohen te dice si importa. Reporta ambos siempre.
Los datos tipo Likert estrictos (1 a 5) técnicamente son ordinales. Aunque la T es robusta, si tu comité es estricto pide la prueba no paramétrica equivalente: Mann-Whitney U.
Si Levene da p < 0.05, las varianzas no son homogéneas y debes usar Welch, no la T clásica. SPSS y JASP lo muestran como una segunda línea — léela siempre.
La T compara medias de variables continuas. Para variables categóricas (sí/no, aprobado/reprobado) usa Chi-cuadrado. Para Likert sumadas (escalas continuas) sí funciona la T.
Descarga el dataset que usamos en este dashboard, replícalo en JASP siguiendo el video, y compara tus resultados con los de la sección "Caso real" de arriba.
Citas formales de los autores referenciados en este dashboard, listas para copiar a tu lista de referencias bibliográficas.
Trabajo asesoría personalizada uno a uno con doctorandos y tesistas hispanohablantes. Si necesitas validar tu instrumento o decidir qué prueba aplicar a tus datos, hablemos directamente.
Escríbeme por WhatsApp Ver servicios