La función de densidad de probabilidad de la distribución gamma para un valor aleatorio $ X $ es: $$ f(x; k, \theta) = \frac{x^{k-1} e^{-x/\theta}}{\theta^k \, \Gamma(k)} $$ donde: - $ x > 0 $ es el valor aleatorio, - $ k $ es el parámetro de forma (número esperado de eventos), - $ \theta $ es el parámetro de escala (intervalo promedio entre eventos), - $ \Gamma(k) $ es la función gamma, que generaliza el factorial para números reales.
Algunos usos comunes de la chi-cuadrada incluyen: **1. Pruebas de ajuste**: para comprobar si los datos observados se parecen a una distribución específica que esperábamos. **2. Pruebas de independencia**: para averiguar si dos categorías están relacionadas o no. **3. Pruebas de comparación de variabilidad**: para ver si la variación en distintos grupos es similar.
La función de densidad de probabilidad de una variable aleatoria $ Y $ con distribución chi-cuadrada y $ \nu $ grados de libertad es: $$ f(y; \nu) = \frac{y^{\frac{\nu}{2} - 1} e^{-\frac{y}{2}}}{2^{\frac{\nu}{2}} \Gamma\left(\frac{\nu}{2}\right)} $$ donde: - $ y > 0 $ es el valor aleatorio, - $ \nu $ es el número de grados de libertad (equivalente a $ 2k $ en la distribución gamma), - $ \Gamma\left(\frac{\nu}{2}\right) $ es la función gamma evaluada en $ \frac{\nu}{2} $.
$$ \chi^2 = \frac{(n - 1) \cdot s^2}{\sigma^2} $$ donde: - $ n $ es el tamaño de la muestra (en este caso, \( n = 10 \)), - $ s^2 $ es la varianza muestral, - $ \sigma^2 $ es la varianza teórica.
***Interpretación*** El valor $ \chi^2 = 13.5 $ puede compararse con el valor crítico de la distribución chi-cuadrada con $ n - 1 = 9 $ grados de libertad y un nivel de significancia, por ejemplo, $ \alpha = 0.05 $. Si $ 13.5 $ es mayor que el valor crítico, podríamos rechazar la hipótesis de que la varianza de la muestra es igual a $ 4 $, sugiriendo que la variabilidad en los datos es significativamente diferente de la esperada.
**Definición** Si $Z_1$, $Z_2$, ..., $Z_n$ son variables aleatorias normales estándar independientes, entonces $X$, definido por $$ X = Z_1^2 + Z_2^2 + ... + Z_n^2 \quad\quad\quad\quad (1) $$ se dice que tiene una distribución chi-cuadrada con $n$ grados de libertad ($\chi_n^2$). [1]
**Definición** Debemos evaluar si hay evidencia convincente de que un conjunto de conteos observados $O_1, \ldots, O_k$ en $k$ categorías son diferentes de lo que podría esperarse bajo una hipótesis nula. Si cada conteo esperado es al menos 5 y la hipótesis nula es verdadera, entonces la estadística de prueba a continuación sigue una distribución chi-cuadrado con $k - 1$ grados de libertad: $$ \chi^2 = \frac{(O_1 - E_1)^2}{E_1} + \ldots + \frac{(O_k - E_k)^2}{E_k} \quad\quad\quad\quad (3) $$ El valor p se encuentra al observar la cola superior de esta distribución chi-cuadrado. Consideramos la cola superior porque los valores más grandes de $\chi^2$ proporcionarían una mayor evidencia en contra de la hipótesis nula. [2]
**Situación:** Un investigador desea determinar si un dado de seis caras es justo, es decir, si cada cara tiene la misma probabilidad de aparecer al lanzarlo. Para esto, el investigador lanza el dado 60 veces y registra el número de veces que aparece cada cara. Los resultados observados son: - Cara 1: 8 veces - Cara 2: 12 veces - Cara 3: 9 veces - Cara 4: 11 veces - Cara 5: 10 veces - Cara 6: 10 veces
$$ \text{Frecuencia esperada} = \text{Número total de lanzamientos} = 60 \times \frac{1}{6} = 10 $$
El estadístico chi-cuadrado se calcula mediante: $$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$
$$ \text{Y la suma de todos los valores: } \chi^2 = 0.4 + 0.4 + 0.1 + 0.1 = 1.0 $$
$$ \text{Grados de libertad} = \text{Número de categorías} - 1 = 6 - 1 = 5 $$
$$ \chi^2_{\text{crítico}} (0.05, 5) = 11.07 $$
Grados de libertad (df) α = 0.10 α = 0.05 α = 0.01 1 2.71 3.84 6.63 2 4.61 5.99 9.21 3 6.25 7.81 11.34 4 7.78 9.49 13.28 5 9.24 11.07 15.09 6 10.64 12.59 16.81 7 12.02 14.07 18.48 8 13.36 15.51 20.09 9 14.68 16.92 21.67 10 15.99 18.31 23.21
$$ \chi_{\text{calculado}}^2 = 1.0 < \chi_{\text{crítico}}^2 = 11.07 $$
No hay evidencia estadística suficiente para rechazar la hipótesis de que el dado es justo al nivel de significancia del 5%.
1. Importancia Estadística: La distribución Chi-cuadrada es fundamental en estadística para pruebas de hipótesis, especialmente en la prueba de bondad de ajuste y pruebas de independencia. Su relevancia se observa en la amplia aplicación para verificar modelos estadísticos y analizar relaciones entre variables. 2. Versatilidad de Aplicaciones: Se utiliza en diferentes campos, desde la biología hasta el marketing, facilitando el análisis de datos categóricos y la evaluación de la independencia en tablas de contingencia. 3. Fundamento Teórico y Evolución: Iniciada por Karl Pearson, la distribución Chi-cuadrada ha sido refinada para satisfacer los requisitos de análisis de datos en contextos modernos. Su robustez se ha demostrado en análisis de muestras tanto grandes como pequeñas, consolidando su utilidad en investigaciones estadísticas actuales.
1. Mejoras en Robustez y Flexibilidad: La investigación continua apunta a desarrollar versiones más robustas de la prueba Chi-cuadrada para manejar datos complejos y modernos, adaptándose a cambios en las metodologías de análisis de datos y la creciente necesidad de métodos estadísticos avanzados. 2. Aplicaciones en Ciencia de Datos y Machine Learning: La prueba de Chi-cuadrada es especialmente relevante en el preprocesamiento de datos para selección de características, donde se usa para identificar variables significativas en grandes conjuntos de datos. 3. Extensión a Nuevas Áreas: La estadística inferencial, apoyada en distribuciones como la Chi-cuadrada, continúa expandiéndose a nuevas áreas como la ingeniería y las ciencias sociales, impulsando análisis más detallados y específicos.
Pearson, E. S., & Kendall, M. G. (1970). *Studies in the History of Statistics and Probability*. Griffin. Feller, W. (1968). *An Introduction to Probability Theory and Its Applications*. John Wiley & Sons. Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). *Probabilidad y estadística para ingeniería y ciencias* (9.ª ed.). Pearson Educación. Diez, D. M., Barr, C. D., & Rundel, M. (2015). *OpenIntro Statistics* (3.ª ed.). OpenIntro.