lunes, 11 de enero de 2016

PRUEBA DE HIPÓTESIS

DESCARGAR PDF


INTRODUCCIÓN



La inferencia estadística se realiza de dos formas: a través de los intervalos de confianza para las investigaciones con una sola variable   o a través de la prueba de hipótesis para las investigaciones analíticas(dos variables o más). Recordemos además que en las investigaciones con dos variables tambien se debe usar los intervalos de confianza además de las pruebas de hipótesis. Entonces debemos tener claro cuál es la diferencia entre estimación de parámetros y prueba de hipótesis.

Para la prueba de hipótesis se debe verificar el supuesto (hipótesis) que se ha planteado para el parámetro a partir de los valores de la muestra, de esta manera sabremos si se rechaza o no el supuesto que se planteó. En este caso también nos encontramos con cierto nivel de incertidumbre ya que estamos trabajando con la muestra.

Es justo aclarar que en el fondo no se realiza de manera estricta una prueba de hipótesis  debido a que es imposible probar una hipótesis  definitivamente considerando el método hipotético deductivo lo que en realidad realizamos es una evaluación de la probabilidad de certeza en la hipótesis. También cabe indicar que la mal llamada prueba de hipótesis  se realiza sobre las deducciones o implicancias de la hipótesis y no sobre la hipótesis misma. 


Las decisiones que se tomarán, a diferencia del intervalo de confianza, ya no se sustentan por una probabilidad de confianza sino por una PROBABILIDAD DE ERROR. Ya no estamos buscando que un IC contenga al parámetro sino que vamos de decidir si se rechaza o no un supuesto planteado(hipótesis), por el nivel de incertidumbre o error de la hipótesis. Aceptaremos o no la hipótesis según esta probabilidad de error, el análisis se centra en la probabilidad de equivocarnos al decidir aceptar o rechazar una hipótesis.


¿Alguien tiene la capacidad de saber si algo realmente está aconteciendo en una población? Nadie la tiene categóricamente. Salvo que se trabaje con una población pequeña y ya no se haga necesaria la obtención de una muestra. Cuando estudiamos variables mediante el método hipotético deductivo se plantean hipótesis que deben ser aceptadas o rechazadas. El método exige que para la prueba de hipótesis debemos saber  cual es la magnitud del error al conjeturar el valor de un acontecimiento(valor de un parámetro) en una población. Este error debe ser el menor posible para que el estudio tenga validez y se pueda generalizar. En otras palabras el error debe tener carácter probabilístico debido a la incertidumbre de trabajar con una muestra de la población.



Veamos lo que ocurre en el siguiente Ejemplo:





Población: personal de empresas financieras de LM (2013).

X: N° de días/mes, que ha faltado al trabajo por accidentes debido a caídas leves que han afectado a la mano Se observa que 7 días en promedio es el parámetro en estudio porque según se dice en el ejemplo es el promedio de días que falto el personal.



La conjetura es: para este año se incrementarán los días en el promedio de faltas. Esta variación debe ser producida por algún factor que el investigador considera en su estudio. Los investigadores se ven motivados a realizar una investigación cuando sospechan que existen diferencias entre lo que ocurrió y lo que va ha ocurrir. en caso contrario no habría la necesidad de realizar una investigación.



- µ: es el promedio poblacional de días/mes que han faltado al trabajo por caídas leves que han afectado a la mano.



- n: muestra aleatoria, de los trabajadores de empresas financieras en el año actual, para predecir si el parámetro se ha incrementado o no para el presente año.



El incremento de días que se presume faltarán los trabajadores por accidentes de mano es una HIPOTESIS.




PRUEBAS DE HIPÓTESIS


En el gráfico de arriba observamos como el investigador plantea una hipótesis (una suposición en base a algún dato que posee el investigador) respecto a un parámetro en la población representada por el circulo grande. Debido a cuestiones de tiempo y economía el investigador extrae una muestra aleatoriamente por el proceso de muestreo. Los resultados de la muestra le servirán al investigador para verificar la hipótesis y está representada por el circulo menor. Todo esto se hace por medio del mecanismo de la inferencia estadística.

La prueba de hipótesis es un procedimiento mediante el cual se contrasta lo empírico, es decir la realidad con la hipótesis del investigador o supuesto del parámetro.

En esté problema el investigador, a partir de los datos del año pasado y gracias a su investigación determina que el promedio de días faltados aumentará. Para verificar esta hipótesis el investigador debe tomar una muestra de la población de trabajadores representada por el circulo mayor. El circulo menor nos representa la muestra de la cual extraemos el promedio muestral para poder verificar nuestra hipótesis.   

Se sabe que el parámetro (promedio poblacional)es 7 respecto al año anterior, luego se conjetura que el parámetro se ha incrementado para este año y se quiere decidir si el valor del parámetro ha cambiado aumentando en valores mayores que 7. Este supuesto debe verificarse mediante la prueba de hipótesis realizada sobre la base de una muestra aleatoria de la población actual.


HIPÓTESIS ESTADÍSTICA: 



Conjetura o supuesto que el investigador platea para el parámetro, relativa a una o más poblaciones. En la investigación existen dos tipos de hipótesis: hipótesis nula o hipótesis alternativa. 

Ningún investigador puede afirmar si una hipótesis es verdadera o falsa en la práctica debido a que no se realizan los cálculos con la población sino solamente con una muestra.  Además en el método hipotético deductivo no se considera la demostración de la verdad de la hipótesis sino la de sus deducciones. Los resultados de la prueba de hipótesis a lo sumo pueden apoyar la hipótesis pero no demostrar la verdad.  En el área de la salud no se trabaja por lo general con poblaciones sino con muestras debido al gran tamaño de las poblaciones. Es por ello que realizan los estudios en base a conjeturas.

Las conjeturas pueden estimar el parámetro de una población o pueden relacionar por medio de esta  dos poblaciones. Para este último caso daremos un ejemplo: En base al caso anterior, podríamos proponer que el promedio de las inasistencias en Lima para una población del mismo tamaño es mayor que otra muestra tomada en la ciudad de Arequipa. Estamos comparando dos parámetros en donde se ha medido la misma variable.

*HIPOTESIS DEL INVESTIGADOR : Es la hipótesis que motiva toda la investigación y forma parte del planteamiento de la investigación. Cuando se realiza el análisis estadístico sirve como referencia para establecer la hipótesis alternativa.  Se puede decir que esta ultima es la operacionalización de la hipótesis del investigador. 

*HIPÓTESIS NULA: supuesto que indica que el valor del parámetro, es constante, es decir no ha sufrido cambios en la población bajo estudio, o es es nula. Se fórmula generalmente con la intención de rechazarla y así demostrar un cambio en la variable bajo estudio. Se presenta mediante Ho

La hipótesis nula se plantea con la intención de rechazar tal hipótesis planteada. Es necesaria en las investigaciones  de diseño analítico donde se trabaja con muestras aleatorias y forma parte del proceso de investigación. Todas las pruebas de hipótesis están diseñadas para encontrar resultados a partir de la hipótesis nula. Veremos más adelante como se rechazan o aceptan las hipótesis nulas con cierta probabilidad de error. Operativamente lo que el investigador busca al realizar la prueba de hipótesis es rechazar la hipótesis nula. Recordemos que la hipótesis nula puede ser rechazada pero nunca puede decirse que es falsa o verdadera debido a que los cálculos se realizan con una muestra probabilística en donde la presencia de la incertidumbre no ha desaparecido por lo tanto la posibilidad del  error sigue estando presente. 

*HIPÓTESIS ALTERNATIVA. Es opuesta a la hipótesis nula.  Se plantea con el objetivo de encontrar diferencias o relaciones estadísticas entre los datos  de diferentes muestras. Esta hipótesis es la razón por la que el investigador decidió realizar su investigación. Esta hipótesis no es sometida a prueba, como podría pensarse inicialmente debido a que las pruebas de hipótesis son realizadas sobre la hipótesis nula. 

Considerando el EJEMPLO 1  hipótesis estadísticas serian:
  • Ho(es la hipótesis  nula): µ=7 por lo tanto la media poblacional no ha cambiado.

  • H1(hipótesis alternativa): debemos dar un valor diferente que represente el cambio con respecto a lo anterior: µ>7, el valor promedio poblacional se ha incrementado.
PRUEBAS UNILATERAL Y BILATERAL

Cuando la hipótesis alternativa indica cambio en una sola dirección, con respecto a la hipótesis nula  (˃o˂), la prueba es unilateral. Cuando la hipótesis alternativa no indica una dirección determinada para el cambio se dice que la prueba es bilateral. 


En nuestro ejemplo estamos ante una prueba unilateral porque el cambio propuesto se da en un solo sentido.


En un procedimiento para una prueba bilateral tendríamos el siguiente caso: comparar la proporción poblacional (π) de diabéticos, entre dos ciudades: Cuzco(π1) y puno(π2) nuestra conjetura podría ser: Existen diferencias en la proporción poblacional de estas dos ciudades es decir : (π1) es diferente de (π2). Esto por supuesto ocurre cuando no existe suficiente información ya que trabajamos solamente con muestras. La hipótesis nula sería: no hay diferencias entre las proporciones poblacionales de estas dos ciudades.

La prueba será bilateral si comparamos un mismo parámetro de diferentes poblaciones porque  que (π1) puede ser mayor que(π2) o al revés. La diferencia podría presentarse en cualquiera de los dos sentidosCuando solo  se plantea diferencias entre los parámetros de dos poblaciones pudiendo ser una mayor que la otra entonces la prueba diseñada para demostrar la diferencia.  La unilateralidad se presenta cuando plantemos que el parámetro estimado es mayor en una población que en la otra. Toda la prueba estaría dirigida a  demostrar que el parámetro es mayor en una población. 



RECHAZAR LA HIPÓTESIS NULA

Sabemos en principio que toda hipótesis puede ser verdadera o falsa, entonces respecto a la hipótesis nula también podemos decir que esta es verdadera o falsa pero no podemos nunca dar cuenta de ello realmente. En consecuencia solamente  la aceptamos o la rechazamos, lo cual es diferente a decir que sea verdadera o falsa. Los datos pueden apoyar o no una hipótesis nula, pero jamás podrán  determinar la veracidad de una hipótesis. De esta manera el procedimiento es enteramente probabilístico. Cuando los datos son favorables a la hipótesis en un estudio puede ocurrir que en otro estudio sea todo lo contrario o al menos cabe esa posibilidad, recordemos que las investigaciones pueden estar sesgadas y dar resultados equivocados aunque la probabilidad de ello sea realmente baja. De forma similar cuando los datos no apoyan la hipótesis nula solo nos queda concluir que con los datos analizados no se pudo aceptar la hipótesis nula.



ERRORES DE TIPO I Y DE TIPO II


La estadística presta su ayuda a las ciencia de una manera importante. La incertidumbre y la variabilidad están presentes en nuestras investigaciones casi todo el tiempo por lo cual es imposible llegar a conclusiones razonables sin el concurso de la estadística. Una forma especial de ayuda se presenta gracias a que con la estadística podemos cuantificar incluso el error en una decisión importante como lo es el hecho de rechazar o aceptar una hipótesis. 

El error no es más que un valor indirecto de la incertidumbre inherente en la inferencia estadística. 

Según el cuadro de arriba existen dos tipos de errores que pueden cometer los investigadores con respecto a la hipótesis nula:


  • Error tipo 1: cuando rechazamos una hipótesis nula y la hipótesis nula en la población es verdadera
  • Error tipo 2: cuando no rechazamos una hipótesis nula y en la población es falsa.
Evidentemente cuando rechazamos una hipótesis nula que es falsa estamos haciendo lo correcto mientras que cuando no rechazamos una hipótesis nula que en la población es verdadera también estamos haciendo lo correcto.

Lo más importante que debemos saber es cuál es la probabilidad de error tipo 1. Es muy importante saber si la probabilidad de cometer error al  rechazar la hipótesis nula es alta o baja. Si realmente después de hacer la prueba de hipótesis verificamos que la probabilidad mencionada es baja no debemos temer entonces de equivocarnos y podríamos rechazar la hipótesis nula de forma que la hipótesis alternativa cobre un significado más importante en el estudio. Por lo tanto todos los esfuerzos en la prueba de hipótesis están dirigidos a determinar la probabilidad de equivocarlos al rechazar la hipótesis nula. Este hecho no quita que la decisión de rechazar o aceptar la hipótesis nula sea en el fondo un acto de fe debido a que en realidad no sabemos la condición real de las cosas. Sin embargo el comportamiento de los fenómenos y los datos extraídos de las observaciones cuidadosas no se presentan de forma irracional por lo cual podemos confiar en los procedimientos estadísticos basados en la probabilidad. 


En todo proceso de prueba de hipótesis nula siempre se puede cometer error de tipo 1 o error de tipo 2.





  • Cuanto es la probabilidad de rechazar la hipótesis nula  siendo la hipótesis nula verdadera: α, esta es la probabilidad de cometer el error tipo 1
  • Cuanto es la probabilidad de no rechazar la hipótesis nula dado que la hipótesis nula es falsa : β, esta es la probabilidad de cometer el error tipo 2
La probabilidad de cometer un error, debe ser siempre mínima. Debemos buscar minimizar el error, para ello debemos buscar probabilidades pequeñas. Formalmente el nivel de confianza se representa como: 1-α. En este caso también α es pequeña. Recordemos 1-α es la probabilidad de que el intervalo de confianza contenga al parámetro, pero cuando estudiamos la prueba de hipótesis significa algo diferente. 1-α constituye la probabilidad central de todos los valores de la variable que se encuentran próximos al parámetro poblacional. α es la probabilidad de cometer error tipo 1, si α toma un valor mínimo el error de tipo 1 es mínimo y es precisamente esta condición la que nos permite estar tranquilos al rechazar la hipótesis nula y confiar en el conocimiento que se genera constantemente en las ciencias. La posibilidad de equivocarnos sigue presente pero es mínima, sin embargo habrán ocasiones en que se cometa involuntariamente ese error, aun así los científicos consideran en que el perjuicio generado por estos errores no afecta de manera significativa al progreso científico.

A ciencia cierta no estamos en la capacidad de saber si estamos cometiendo algún de los dos tipos de error debido a la propia incertidumbre de  la investigación, pero al menos sabemos que la probabilidad de cometerlo es baja. Este hecho hace que podamos continuar con el desarrollo de la ciencia con tranquilidad. 

La probabilidad de error es propuesta por el investigador responsablemente. En el área de la salud salud el valor de error es de 0.01 por la naturaleza riesgosa del campo en que nos encontramos trabajando. Esto quiere decir que hay muy poca probabilidad de rechazar una hipótesis cuando esta sea verdadera o de aceptar una hipótesis que sea falsa. 

Alfa en la prueba de hipótesis toma un nombre propio, se le llama: NIVEL DE SIGNIFICACIÓN DE LA PRUEBA. El NSP puede ser controlable porque es elegido por el investigador. Es la confiabilidad de rechazar o no una hipótesis nula. Por ejemplo si se hace una ensayo clínico y se llega a un resultado en el que α tiene una valor de 0.15(para rechazarla o no) diremos que la prueba no es confiable por el tamaño de α.




NIVEL DE SIGNIFICACIÓN DE LA PRUEBA

α es el nivel de significación de la prueba; y es posible controlarlo, es la confiabilidad de la decisión de rechazar la hipótesis nula los más usados son: 0.01, 0.05 y 0.10. Cuando no se rechaza la hipótesis nula significa que no existe suficiente información como para rechazarla.

Por ejemplo los fármacos tienen que ser necesariamente sometidos a pruebas de hipótesis por ser cuestiones muy delicadas. En estos casos α debe tener un valor muy bajo. Por otro lado si dos ensayos  clínicos son cuantitativamente iguales en cuanto al nivel de confiabilidad (por ejemplo 0.3% de alfa)  esto no significa que los dos ensayos clínicos sean igualmente  buenos. Es importante observar el proceso cualitativo del ensayo clínico en la prueba de hipótesis para decidir cual de los dos ensayos clínicos es el mejor. Debemos estudiar todo el proceso de la experimentación y no solo basarnos en la significancia estadística.


¿Cómo decidimos si se rechaza o no una hipótesis nula? Empleando  un estadístico de prueba que es una expresión estadística matemática en donde se asignan valores de la muestra o de los parámetros. Se hace un cálculo de diferencia y empleando la probabilidad en donde se tiene que determinar la función de rechazo nosotros vamos a decidir si se rechaza o no la hipótesis nula.



ESTADÍSTICO DE PRUEBA Y REGIÓN DE RECHAZO: 


Para rechazar o no la hipótesis nula se toma una muestra aleatoria de la población bajo estudio y los resultados contenidos en ella se usan para calcular expresiones llamadas estadísticos de prueba  que nos indican el grado de discrepancia entre la hipótesis nula y los datos muestrales


La hipótesis nula se rechaza cuando haya mucha discrepancia entre el valor del parámetro(por ejemplo la media poblacional) con respecto al valor que se determina en la muestra(proporción media muestral etc....)  


  • la varianza poblacional es conocida
  • población normal
  • Ho:µ=7
  • H1: µ ˃7
Análisis del estadístico de prueba:

En la formula presentada arriba observamos la diferencia entre la media muestral y la media poblacional de Ho (esto se hace para comparar dos valores ). Si la media muestral está muy cercana a la media poblacional de Ho entonces Z tomara el valor de cero  por cual no se rechaza la hipótesis nula. En el caso contrario de que la media muestral y el valor de la media poblacional del Ho sean diferentes entonces la diferencia no es cero (Z no es cero) y la la hipótesis nula se rechaza.
Observamos que la distribución del  estadístico de prueba es normal estandarizado el cual constituye  su soporte estadístico.

ejemplo4 :para las siguientes hipótesis estadísticas:

Ho: µ=30
H1: µ ˃30
cuando la varianza poblacional se conoce, la región critica o de rechazo α es:



La hipótesis nula para el ejemplo 4 plantea que la media poblacional se mantenga en un valor de 30. Mientras que la hipótesis del investigador plantea que aumente este valor a más de 30. Como hemos dicho el investigador debe seguir un protocolo de investigación riguroso tratando de rechazar la hipótesis nula. Para ello lleva  cabo un estadístico de prueba o prueba estadística.

Observamos que el soporte probabilístico para esta población es la distribución normal. En esta vemos la curva normal estandarizada centrada en 0. Para las pruebas unilaterales la región de rechazo se encuentra en el extremo superior o inferior (área sombreada con valor alfa) como se observa en el gráfico más arriba. La región de rechazo se encontrará en el extremo superior cuando los valores propuestos en la hipótesis alternativa sean superiores al parámetro poblacional. Exactamente lo contrario ocurre cuando la región de rechazo se encuentra en el extremo de los valores inferiores de la distribución. En este caso la región de rechazo se encuentra en el extremo superior. A Zα  se le denomina valor critico porque es un punto frontera que divide en dos regiones al espacio de probabilidad: en una región de no rechazo y en una región para rechazar.

Empíricamente podemos observar lo siguiente:


  • Ho: µ=30   (µ-30=0)
  • H1: µ˃30    (µ-30 ˃0)

Esto quiere decir que si la media poblacional es: µ=30 entonces la diferencia entra la media poblacional y la media de la muestra (µ-30) es igual a cero. La hipótesis nula es que µ sea igual a 30. En este caso se mantiene constante la media poblacional.
Si µ es mayor que 30 entonces si µ-30 es lo suficientemente  mayor que cero por lo tanto Ho se rechaza. H1 es la hipótesis de que la media poblacional aumente esta es la hipótesis del investigador propuesta.
Por ello decimos que los valores para rechazar la hipótesis deben ser altos porque µ-30>0 y ello se evidencia en la gráfica de distribución normal estandarizada.

Observamos que Zα va a depender del valor de α.

¿Para que nos sirve el espacio de probabilidad? 
para decidir si se rechaza la hipótesis nula si el valor de la estadística Z es mayor que treinta. Si no lo es no podemos rechazar la Ho.





Pongamos un ejemplo para entenderlo mejor:



regla de decisión:
rechazar H0 si el valor de la estadística Z ˃1.645 en caso contrario no se rechaza.
evaluando:

para el ejemplo 4:
por ejemplo si Z fuera 2 (caso supuesto) entonces la Ho se rechaza por se mayor que 1.645 pero si Z valiera 0.22 entonces la Ho no se rechaza por ser menor que el valor del percentil de referencia.

Los factores que intervienen para rechazar una hipótesis nula son:

  • la elección del tamaño de la región de rechazo, es evidente que a mayor probabilidad de error mayor área de rechazo y a menor probabilidad de error menor área de rechazo.
  • el valor que asume la estadística en este caso la media muestral, mientras mayor sea el exceso de la media muestral con respecto a la media poblacional mayores son las probabilidades de rechazar la Ho.

8  PRUEBA DE HIPOTESIS (p-VALUE): Es la probabilidad que mide el riesgo(por ejemplo un riesgo es 0.03 de probabilidad) que tiene el investigador cuando, al obtener un cierto valor de la estadística de prueba, se rechaza la hipótesis nula. (SPSS le llama Sig.)

p-VALUE es el resultado de una prueba de hipótesis.
34 en este caso ya no vamos a comparar el valor crítico Zα de la abscisa de la distribución normal con Z que es el resultado de la prueba estadística y a cuyo valor denominamos valor de la prueba estadística como en el caso anterior.
35 en este caso lo que vamos a comparar es el α (riesgo en términos de probabilidad por la que se puede rechazar una Ho) que hemos elegido( por ejemplo 0.05) con la probabilidad que se obtiene al calcular el valor de la prueba estadística, al cual denominamos p-value
Observamos que para recharzar la Ho se debe calcular tanto el nivel de significancia como el p-VALUE. El nivel de significancia se expresa en función de una probabilidad, que como sabemos depende a su vez de una determinada distribucion (N o t). El p-VALUE tambien se expresa en función de la probabilidad de rechazo que nuevamente depende del tipo de distribución de probabilidad  Estos dos cálculos nos informaran si se rechaza o no la Ho.

Este ejemplo es similar al anterior, la diferencia es que en este caso la media muestral es menor que la media poblacional.


En este caso no se conoce la varianza poblacional de manera que utilizaremos la distribución t Student.
Apreciamos que se trata de una prueba de hipótesis unilateral

Observamos en la imagen de arriba que los grados de libertad son 24 por lo que deducimos que el tamaño de la muestra es 25 (grados de libertad=n-1).
Observamos que la región de rechazo se encuentra en la región de los valores inferiores por la forma que toma la hipótesis alternativa(µ˂30)
Esta prueba también es válida para calcular proporciones y varianzas.
Reiteramos que cuando no se conoce la varianza poblacional usamos la distribución t Student.
Para α= 0.05 su valor critico correspondiente es de 1.71 (percentil). este se ha determinado con excel.
Observamos que T(estadístico de prueba) tiene que ser menor que el valor de la abscisa en la distribución t Student para poder rechazar la hipótesis nula en caso contrario no se puede rechazar.




SOLUCIÓN: T=-3,8 ˂ -1.71.
  
Debemos aclarar que la estadística de prueba T se calcula del siguiente modo:



Como ya sabemos se rechaza la Ho, porque el valor de la estadística de pruenba T=-3,8 ˂ -1.71. es decir se puede asumir con el 5 % de nivel de significación (NS) que el tiempo promedio para resolver este tipo de problemas ha disminuido. Vemos que en esta forma de evaluar estamos considerando el valor critico en la distribución t Student para determinar en comparación con en el valor de T (valor de la prueba estadística) si se rechaza la hipótesis nula y efectivamente así es porque T ( resultado de la prueba estadística t de studen) es menor que el valor critico.


Hasta este punto hemos realizado los mismos procedimientos que para el calculo del estadístico de prueba , en lo sucesivo nos concentraremos en el calculo de la p-VALUE.

En la figuara de abajo observamos la manera de evaluar la hipótesis  nula considerando la probabilidad acumulada con un valor tope critico que ya conocemos (-3.8) en la distribución t Studen. Por ello decimos que esta probabilidad (en este caso 0.00043) esta asociado o depende del valor de la estadística de prueba T.


Una vez obtenida la probabilidad acumulada del valor de la prueba estadistica esta se debe compara con el valor de probabilidad de α en este caso 0.05, denominado nivel de significancia. Sabemos que el valor del primero debe ser menor que el segundo para que la hipótesis nula se pueda rechazar. También decimos que cada vez que p-Value es menor que el nivel de significancia α entonces la hipótesis se rechaza.
Es evidente que para saber el p-Value primero debemos saber el valor de la prueba estadistica(percentil).
Cuanto mas pequeño el p-value existirá una mayor diferencia y por lo tanto una mayor probabilidad de rechazar la Ho.

ETAPAS DE UNA PRUEBA DE HIPOTESSIS


  1. platear adecuadamente la hipótesis nula y alternativa 
  2. elegir el nivel de significación (α)
  3. elegir una prueba estadistica, de acuerdo a los requisitos que exige la teoría estadística inferencial 
  4. establecer la región de rechazo o nivel de significancia correspondiente 
  5. calcular el estadístico seleccionado para realizar la prueba de hipótesis
  6. compara el valor de la prueba estadistica(pecentil) con el valor critico(percentil), para decidir si se rechaza o no la hipótesis nula, o comparar el p-VALUE con el nivel de significación tomando en cuenta si la prueba es unilateral o bilateral 

EVALUACIÓN DE LA NORMALIDAD DE DATOS DE UNA VARIABLE CUANTITATIVA


Es importante saber con plena seguridad si estamos frente a una población con distribución normal de probabilidad para poder realizar las respectivas pruebas  estadísticas. Se evalúa la normalidad de los datos de una muestra( si los datos provienen de una población con distribución de probabilidad normal), para poder usar herramientas estadísticas que tienen como requisito que los datos tengan este tipo de distribución de probabilidad.


¿CÓMO SE EVALÚA LA NORMALIDAD DE DATOS EN UNA VARIABLE CUANTITATIVA?
Para esto existen dos herramientas:


  1. grafico cuartil-cuartil normal
  2. prueba de hipótesis
36 recordemos que los parametros y estadísticos con los que realizamos nuestros calculos tales como la media poblacional, la media muestral y la varianza  provienen de una población NORMAL.


GRAFICO CUARTIL-CUARTIL NORMAL

La idea básica consiste en enfrentar; en un mismo gráfico, los datos que han sido observados (graficados normalmente como puntos o círculos pequeños) frente a los datos teóricos que se obtendrían de una distribución normal(graficado como puntos en una recta). si la distribución de la variable coincide con la normal, los puntos se concentrarán en torno a una linea recta. En los gráficos P-P se confrontan las proporciones acumuladas de una variable con las de una distribución normal.
Los gráficos Q-Q se obtienen de modo análogo, esta vez representando las cuantilas muestrales respecto a las cuantilas de la distribución normal.

37 el gráfico cuartil- cuartil normal también se denomina gráfico de las abscisas
38  se compara los valores muestrales (asteriscos, puntos o círculos pequeños en la gráfica) con las abscisas de la normal(puntos sobre la recta), y si coinciden en gran medida observaremos los puntos de los valores muestrales  y los puntos de valor bajo el supuesto de que proviene de una distribución de probabilidad normal(abscisas) muy próximos. Este hecho nos llevara a concluir necesariamente que la población en estudio a través de la muestra posee una distribución normal de probabilidad,que es realmente lo que deseamos saber.  Recalcamos que estos dos elementos van a estar lo más cercano a la recta( la recta representa la media muestral) como vemos en el gráfico de abajo:



Si existen desvíos es un indicio de que no se trata de una distribución normal como en el caso que apreciamos en la gráfica de abajo donde dos de los datos se alejan de la recta.




En la gráfica de abajo observamos que los datos fluctúan sobre la recta por encima y por debajo y también apreciamos datos atípicos. Esta condición no nos da una garantía de que la muestra provenga de una población normal.





PRINCIPALES ALEJAMIENTOS RESPECTO DE LA DISTRIBUCIÓN NORMAL QUE PUEDEN VISUALIZARSE EN UN GRÁFICO CUARTIL-CUARTIL

Las colas en la distribución normal son bastante delgadas  de manera contraria a esto se dice que una distribución tiene cola pesada cuando la probabilidad de la cola es alta. recordemos que la probabilidad en las colas de una gráfica de distribución normal son bajas mientras que la probabilidad en la región central de la curva son bastante altas, siendo mayor alrededor de la media.
El gráfico de abajo se asemeja a una jota: a la derecha no se hace asíntota.



El grafico de abajo se asemeja a una jota invertida

Recordemos que las colas de la distribución normal son colas medianamente alargadas si la distribución no presenta esta forma entonces estamos ante estos dos casos abajo graficados:




PRUEBA DE HIPOTESIS (evaluar normalidad de datos de una variable cuantitativa)

39 en este caso ya no se evaluará el valor del parámetro lo que se evaluará si los datos de la muestra se ajustan a la distribución normal de probabilidad. Esta es una prueba para verificar si los datos cuantitativos se han extraído de una población  normal.


40 vamos a utilizar dos pruebas:
-prueba de Kolmogorov-smirnov
-prueba de Shapiro-Wilks

PRUEBA DE KOLMOGOROV-SMIRNOV
41 esta prueba se usa para variables netamente continuas. Para este tipo de variables la prueba en mención es adecuada para determinar si la muestra tiene o no distribución normal de probabilidad.
42 ¿Cuándo se rechazara la hipótesis nula? 
Si el p-value es grande no habra razones por tanto razones estadisticas  para suponer que los datos no proceden de una distribución normal. Pero si el p-value es muy pequeño no será aceptable suponer que tenga distribución normal de probabilidad como modelo probabilistico.

PRUEBA DE SHAPIRO WILKS
43 es muy buena para tamaño de muestras menores de 50. No nos dice nada acerca de si es mejor para variables continuas o discretas. Pero se usa en el caso de que se trate de una variable discreta.
44 en este caso si el p-value es grande no rechazaremos la Ho pero si es pequeño si se puede.

Variable aleatoria. Nivel de plomo en sangre
Población: niños de 6-11 años
Muestra aleatoria: 18 niños  
Lo primero que debemos hacer es determinar si los datos se han extraído de una población normal para estimar mediante intervalo de confianza el nivel de plomo en sangre en la población sabiendo que el valor permisibles es de 10 µg/dL   
Los cálculos se obtienen con spss.
Según el grafico vemos que los datos no se aproximan a la recta de la distribución normal:


45 El otro recurso que tenemos para seguir haciendo la evaluación son las pruebas de normalidad.
46  Recordemos que no siempre coincide el resultado del gráfico con el resultado de la prueba de hipótesis.
47 en este caso utilizaremos la prueba de kolmogorov porque se trata de una variable cuantitativa.
Prueba de normalidad:



Sabemos que se trata de una prueba estadística por lo cual seguimos el procedimiento :

1. primero debemos proponer la hipótesis nula:
Ho: el nivel de plomo tiene distribución normal
H1: el nivel de plomo no tiene distribución normal

2. en segundo lugar proponemos el valor de α: 0.05 o 5%

3. elegimos la prueba de kolmorov-smirnov debido a que la variable aleatoria es continua 


4. ya no debemos calcular buscando el valor critico hacemos la comparación de frente:
p-value:

Su valor es de :p-value=0.200
Entonces :
La regla nos dice: rechazar la hipótesis nula si el p-value es menor de α
0.200 >0.05…  debido a que el p-value es mayor que el nivel de significancia entonces no se cumple la condición para rechazar la hipotesis nula. La conclusión es: no se rechaza la hipótesis nula. Esto quiere decir que con 5 % de nivel de significación se asume que la muestra aleatoria o la variable se ha extraído de una población normal.

Ahora que ya sabemos que se trata de una población normal entonces pasamos a calcular el intervalo de confianza tranquilamente.
 -X: niveles de plomo en salgre (µg/dL) tiene distribución normal
-α:=0.05
-X~N(µ,σ2)
Por lo que vemos µ es desconocido y es lo que vamos a tratar de conocer con el intervalo de confianza.
La varianza poblacional tampoco se conoce por ello debemos utilizar  la distribución normal t Student. Trabajamos por lo tanto con la varianza muestral.
-muestra aleatoria :18 datos
-para calcular en intervalo de confianza necesitamos un limite inferior y uno superior:

1. Ahora calculemos la media: 13.35
2. Calculemos la desviación estándar:1.305
3. Ahora calculemos el nivel de confianza o probabilidad de confianza :1-α=0.93, α=0.07
4. Observamos que los grados de libertad es 17(n-1)







Vemos en el gráfico de arriba que la probabilidad de confianza se encuentra siempre en la parte central

5. Para calcular los valores de las abscisas en la distribución t Student debemos hacer uso del Excel:




-sabemos que la probabilidad cumulada de las colas es de 0.07
Por lo tanto en probabilidad digitamos la suma de las colas además de digitar los grados de libertada (17)

Respuesta:1.934
Por lo tanto este es el valor en la abscisa:







-tα/2=1.934
6. Con todos estos datos ya podemos determinar los limites inferior y superior del intervalo de confianza que necesitamos, y en el que se encuentra con un 93% de probabilidad la media poblacional.



Li=12.75
Ls=13.94

INTERPRETACION: con el 93% de probabilidad de confianza se espera que el promedio de nivel de plomo en sangre tome valores de 12.75 hasta 13.94.
Corolario: se estima que en esta población de escolares los niños tienen niveles de plomo fuera de la norma.


Como vemos se ha hecho una corrección : no se conoce la varianza poblacional:
resolución:
1. población: personal de empresas de L.M
2. muestra: constituida por 24 elementos
3. X: número de faltas laborales por caída leve (variable discreta)
4. los parámetros que podemos generará a partir de esta muestra aleatoria son
-media poblacional: 8.72
Varianza:1.72

¿Los datos se han extraído de una población normal?
Grafico para evaluar la normalidad:

Por lo que vemos en el grafico los datos se aproximan a la distribución normal
En este ejemplo tenemos los resultados de las pruebas estadística


Procedemos a hacer una segunda evaluación por la prueba de hipótesis:
Ho: el número de insistencias tiene distribución normal
H1: el número de inasistencias no tiene distribución normal
-α:0.05
-evaluaremos con Shapiro-Wirlk( la variable aleatoria no es continua)
-tomamos el p-valeu:
p-valeu: 0.310

REGLA: si el p-valeu es menor que α entonces se rechaza la hipótesis nula.

No se rechaza 
Interpretación : con el 5% de significación se asume que la m.a no tiene una población con distribución normal.

Estimar e interpretar el parámetro estadístico correspondiente
Estimar el intervalo de confianza para la media poblacional con varianza desconocida.

Con los datos debemos calcular.
Media muestral:8.72
Varianza muestral:2.9584
Para este caso el nivel de confianza será: 1-α=0.96, α=0.04 busquemos ahora los valores que delimitan la región de confianza con 23 grados de confianza:

Calculando en Excel:
Las colas extremas suman :0.04

Luego:

Tα/2=2.18
En el gráfico.



Ahora ya podemos calcular los límites inferior y superior:


Considerando que el ejemplo 1 la media poblacional era 7


Li=7.955
Ls=9.485

INTERPRETACIÓN: con 96 % de probabilidad de confianza se espera que el parámetro(numero de faltas) en esta población sea de 7.9 a 9.5.

AHORA PASEMOS A HACER LA PRUEBA DE HIPOTESIS:
-a) Ho=7
     H1>7
-b) α=0.04 (4%)
-c) estadística de prueba:
           
           
-d) por la forma la región de rechazo se encuentra en los valores altos: por α unilateral

Buscamos en excel:También con t inversa:



Luego: considerando la suma de las dos colas seria 0.08

Entonces:
-tα/2=1.83
REGLA: se rechaza la Ho si el valor de de la estadística de prueba es mayor de 1.83 en caso contrario no se rechaza.
Por lo tanto ahora hacemos el cálculo del estadístico de prueba:

DESICIÓN : como el valor de t: 4.89 es mayor que 1.83 entonces se rechaza la hipótesis nula:

Esto significa que con 4% de significación se asume que el promedio de inasistencias es mayor de 7 en la población. Recordemos que solo estamos asumiendo. Es suficiente con esto para tomar una decisión.

 ¿la media poblacional se ha incrementado?
afirmativo

No hay comentarios:

Publicar un comentario