Páginas del Blog

martes, 21 de septiembre de 2010

La aplicación de técnicas estadísticas a datos de la vida real: Chi-cuadrada y la tragedia del Titanic

Por el Dr. H. Thomas Hurt Profesor -Investigador, University of North Texas
Traducido y adaptado por Jesús René Luna Hernández
Profesor-Investigador, Universidad Autónoma de Ciudad Juárez

Momma stood cryin’ at the dockside
Sayin' "Please son, don't take this trip"
I said "Mama, sweet Mama, don't you worry none"
"Even God couldn't sink this ship"
Harry Chapin,
Dance Band on the Titanic

Chi-cuadrada (simbolizada como χ2) es una prueba o procedimiento no-paramétrico que nos permite el comprobar las relaciones (y por lo tanto las diferencias) entre variables categóricas independientes y variables dependientes basadas en frecuencias. La medida dependiente debe ser siempre tratada al nivel nominal de medición, es decir, “hay siete observaciones en esta categoría”, o “hay 24 observaciones en esta categoría”.
Por lo tanto, el nivel de medición para ambos tipos de variables –dependiente e independiente- es nominal porque la dependiente representa una categoría nominal, únicamente, mientras que la independiente representa frecuencias de ocurrencias de la variable dependiente nombrada por una de esas categorías.
Ya que la chi-cuadrada trabaja siempre a este nivel de medición se dice que es no-paramétrica, es decir, no podemos obtener media, ni varianza, ni tampoco desviación estándar para la distribución de puntuaciones de la variable dependiente, y por ello es que no podemos hacer generalizaciones hacia los parámetros (o características) de una población más grande de la cual han sido obtenidas las observaciones que estamos usando.
Por otro lado, la chi-cuadrada nos permite comprobar sistemáticamente las diferencias en la frecuencia de ocurrencia de una observación como función de la categoría en la cual está localizada. Esta prueba sistemática significa que podemos empezar a hacer decisiones sobre la legitimidad de las hipótesis: ¿es la hipótesis nula correcta y verdadera, o es incorrecta, y por lo tanto falsa?
Ya que todas las pruebas estadísticas emplean alguna forma de estimar diferencias entre lo que se ha obtenido (desviaciones individuales de algún estimado agregado) y lo que es esperado (la media, o algún otro criterio), la chi-cuadrada se calcula de la siguiente manera:

En esta fórmula la o representa las observaciones dadas (los datos que se han obtenido) y la e se refiere a las ocurrencias esperadas de las observaciones (el agregado estimado para una categoría dada). Substrayendo e de o –la parte que es fo-fe- resulta en una medición burda no-paramétrica de una puntuación de desviación.
Finalmente, la cantidad (fo-fe)2/fe es una estimación burda de la varianza (es decir, el promedio de las puntuaciones de desviación de cada observación con respecto al promedio), la cual, de manera similar a la varianza, es elevada al cuadrado para eliminar los signos negativos.
Para comprender toda esta teoría, veamos un ejemplo tomado de la vida real: la comparación entre el número de sobrevivientes y víctimas de la tragedia del Titanic ocurrida en 1912.
Los datos que se muestran a continuación están basados en el número de pasajeros adultos que tuvieron la oportunidad de hacer el viaje al fondo del Atlántico del Norte (excepto que sus boletos decían otra destinación). Esta es la lista de frecuencias agregadas por sexo y por clase:
.......................................................................Sexo
............................................Hombres .................Mujeres .................TOTAL
Primera clase .........................173 .........................144 ...........................317
Segunda clase .........................160...........................93............................253
Tercera clase ..........................545..........................179...........................633
TOTAL ....................................787 .........................416 ........................1203

Una vista rápida a todos los totales nos dice que hubo casi el doble de hombres pasajeros que mujeres, y que aun cuando el número total de boletos en primera y segunda clase fue muy similar, el mayor grupo de personas fueron albergadas en tercera clase. Dado esto, empecemos con una hipótesis muy simple: el número de personas que sobrevivieron el hundimiento del Titanic está inversamente relacionado a la clase en la que se alojaban; o puesto en forma de hipótesis nula: no existe relación entre supervivencia y clase en alojamiento.
Te habrás dado cuenta de que en su forma nula, la hipótesis implica que el azar solo tiene influencia en la supervivencia, y no sobre algún efecto sistemático. Ya que queremos comprobar esta hipótesis necesitamos conocer cuál es la probabilidad de que alguien hubiese sobrevivido el hundimiento.
Nuestra mejor estimación (e) es que el porcentaje de sobrevivientes de cada clase fuera del número total de pasajeros que sobrevivieron (n=470) tenga la misma probabilidad en cada categoría, es decir, n/30 = 470/3 = 157 supervivientes en cada clase, considerando que no hubo ninguna otra influencia en tan feliz desenlace. Por lo tanto, de primera a tercera clase tenemos el siguiente valor e, respectivamente: 157, donde e es el número de personas en cada clase que se espera que sobreviva. Ahora bien, con estos datos podemos usar la chi-cuadrada para comprobar nuestra hipótesis nula.

.................................o .............e ...........(o-e) ...........(o-e)2 ..........(o-e)2/e
Primera clase ......197 .........157 ...........40 ............1.600 .............10.91
Segunda clase ......120 ........157 ..........-37 ............1.369 ................8.71
Tercera clase .......153 ........157 ..........-04 ..........16.000 ..............0.10
TOTAL .................470 ............................................................χ2 = 19.00
...........................................................................................g.l. = 2, p ≤ .001

Si regresas y examinas estos números, puedes ver antes que nada que podemos rechazar la hipótesis nula, o de hecho, confirmar la de investigación o empírica; y luego puedes ver claramente el papel que juega la clase en la supervivencia. Se salvaron más personas de las que se esperaba se salvaran de primera clase, y murieron más personas de segunda clase de las que se esperaba. Los valores negativos en la columna (o-e) indican que menos personas se salvaron en esas clases que las que se esperaba lo hicieran, por puro azar.

No hay comentarios:

Publicar un comentario

Bienvenid@ a nuestro blog, nos interesa mucho tu opinión. Gracias por colaborar!