DESCARGAR PDF
INTRODUCCIÓN
La inferencia estadística se realiza de dos formas: a través de los
intervalos de confianza para las investigaciones con una sola variable o a través de la prueba de hipótesis para las investigaciones analíticas(dos variables o más). Recordemos además que en las investigaciones con dos variables tambien se debe usar los intervalos de confianza además de las pruebas de hipótesis. Entonces debemos tener claro cuál es la diferencia entre estimación de parámetros y prueba de
hipótesis.
Para la prueba de hipótesis se debe verificar el supuesto (hipótesis) que se ha planteado para el parámetro a partir de los valores de la muestra, de esta manera sabremos si se rechaza o no el supuesto que se planteó. En este caso también nos encontramos con cierto nivel de incertidumbre ya que estamos trabajando con la muestra.
Es justo aclarar que en el fondo no se realiza de manera estricta una prueba de hipótesis debido a que es imposible probar una hipótesis definitivamente considerando el método hipotético deductivo lo que en realidad realizamos es una evaluación de la probabilidad de certeza en la hipótesis. También cabe indicar que la mal llamada prueba de hipótesis se realiza sobre las deducciones o implicancias de la hipótesis y no sobre la hipótesis misma.
Las decisiones que se
tomarán, a diferencia del intervalo de confianza, ya no se sustentan por una
probabilidad de confianza sino por una PROBABILIDAD DE ERROR. Ya no estamos
buscando que un IC contenga al parámetro sino que vamos de decidir si se
rechaza o no un supuesto planteado(hipótesis), por el nivel de incertidumbre o
error de la hipótesis. Aceptaremos o no la hipótesis según esta probabilidad de
error, el análisis se centra en la probabilidad de equivocarnos al decidir aceptar
o rechazar una hipótesis.
¿Alguien tiene la capacidad de saber si algo
realmente está aconteciendo en una población? Nadie la tiene categóricamente.
Salvo que se trabaje con una población pequeña y ya no se haga necesaria la
obtención de una muestra. Cuando estudiamos variables mediante el método hipotético deductivo se plantean hipótesis que deben ser aceptadas o rechazadas. El método exige que para la prueba de hipótesis debemos saber cual es la magnitud del error al conjeturar el valor de un acontecimiento(valor de un parámetro) en
una población. Este error debe ser el menor posible para que el estudio tenga
validez y se pueda generalizar. En otras palabras el error debe tener carácter
probabilístico debido a la incertidumbre de trabajar con una muestra de la
población.
Población: personal de
empresas financieras de LM (2013).
X: N° de días/mes, que ha
faltado al trabajo por accidentes debido a caídas leves que
han afectado a la mano Se observa que 7 días en
promedio es el parámetro en estudio porque según se dice en el ejemplo es el
promedio de días que falto el personal.
La conjetura es: para este
año se incrementarán los días en el promedio de faltas. Esta variación debe ser
producida por algún factor que el investigador considera en su estudio. Los investigadores se ven motivados a realizar una investigación cuando sospechan que existen diferencias entre lo que ocurrió y lo que va ha ocurrir. en caso contrario no habría la necesidad de realizar una investigación.
- µ: es el promedio
poblacional de días/mes que han faltado al trabajo por caídas leves que han
afectado a la mano.
- n: muestra aleatoria, de
los trabajadores de empresas financieras en el año actual, para predecir si el
parámetro se ha incrementado o no para el presente año.
El incremento de días
que se presume faltarán los trabajadores por accidentes de mano es una
HIPOTESIS.
PRUEBAS DE HIPÓTESIS
En el gráfico de arriba observamos como
el investigador plantea una hipótesis (una suposición en base a algún dato que posee el investigador) respecto a un parámetro en la población
representada por el circulo grande. Debido a cuestiones de tiempo y economía el
investigador extrae una muestra aleatoriamente por el proceso de muestreo. Los
resultados de la muestra le servirán al investigador para verificar la
hipótesis y está representada por el circulo menor. Todo esto se hace por medio
del mecanismo de la inferencia estadística.
La prueba de hipótesis es un procedimiento mediante el cual se contrasta lo empírico, es decir la realidad con la hipótesis del investigador o supuesto del parámetro.
En esté problema el investigador, a partir de los datos del año pasado y gracias a su investigación determina que el promedio de días faltados aumentará. Para verificar esta hipótesis el investigador debe tomar una muestra de la población de trabajadores representada por el circulo mayor. El circulo menor nos representa la muestra de la cual extraemos el promedio muestral para poder verificar nuestra hipótesis.
Se sabe que el parámetro (promedio poblacional)es 7 respecto al año anterior, luego se conjetura
que el parámetro se ha incrementado para este año y se quiere decidir si el valor del
parámetro ha cambiado aumentando en valores mayores que 7. Este supuesto debe
verificarse mediante la prueba de hipótesis realizada sobre la base de una muestra aleatoria de la población actual.
HIPÓTESIS ESTADÍSTICA:
HIPÓTESIS ESTADÍSTICA:
Conjetura o supuesto que el
investigador platea para el parámetro,
relativa a una o más poblaciones. En la investigación existen dos tipos de hipótesis: hipótesis nula o hipótesis
alternativa.
Las conjeturas pueden estimar el parámetro de una población o pueden relacionar por medio de esta dos poblaciones. Para este último caso daremos un ejemplo: En base al caso anterior, podríamos proponer que el promedio de las inasistencias en Lima para una población del mismo tamaño es mayor que otra muestra tomada en la ciudad de Arequipa. Estamos comparando dos parámetros en donde se ha medido la misma variable.
*HIPOTESIS DEL INVESTIGADOR : Es la hipótesis que motiva toda la investigación y forma parte del planteamiento de la investigación. Cuando se realiza el análisis estadístico sirve como referencia para establecer la hipótesis alternativa. Se puede decir que esta ultima es la operacionalización de la hipótesis del investigador.
*HIPÓTESIS NULA: supuesto que indica que el valor del parámetro, es constante, es decir no ha sufrido cambios en la población bajo estudio, o es es nula. Se fórmula generalmente con la intención de rechazarla y así demostrar un cambio en la variable bajo estudio. Se presenta mediante Ho
La hipótesis nula se plantea con la intención de rechazar tal hipótesis planteada. Es necesaria en las investigaciones de diseño analítico donde se trabaja con muestras aleatorias y forma parte del proceso de investigación. Todas las pruebas de hipótesis están diseñadas para encontrar resultados a partir de la hipótesis nula. Veremos más adelante como se rechazan o aceptan las hipótesis nulas con cierta probabilidad de error. Operativamente lo que el investigador busca al realizar la prueba de hipótesis es rechazar la hipótesis nula. Recordemos que la hipótesis nula puede ser rechazada pero nunca puede decirse que es falsa o verdadera debido a que los cálculos se realizan con una muestra probabilística en donde la presencia de la incertidumbre no ha desaparecido por lo tanto la posibilidad del error sigue estando presente.
*HIPÓTESIS ALTERNATIVA. Es opuesta a la hipótesis nula. Se plantea con el objetivo de encontrar diferencias o relaciones estadísticas entre los datos de diferentes muestras. Esta hipótesis es la razón por la que el investigador decidió realizar su investigación. Esta hipótesis no es sometida a prueba, como podría pensarse inicialmente debido a que las pruebas de hipótesis son realizadas sobre la hipótesis nula.
PRUEBAS UNILATERAL Y BILATERAL
Cuando la hipótesis alternativa indica cambio en una sola dirección, con respecto a la hipótesis nula (˃o˂), la prueba es unilateral. Cuando la hipótesis alternativa no indica una dirección determinada para el cambio se dice que la prueba es bilateral.
La hipótesis nula se plantea con la intención de rechazar tal hipótesis planteada. Es necesaria en las investigaciones de diseño analítico donde se trabaja con muestras aleatorias y forma parte del proceso de investigación. Todas las pruebas de hipótesis están diseñadas para encontrar resultados a partir de la hipótesis nula. Veremos más adelante como se rechazan o aceptan las hipótesis nulas con cierta probabilidad de error. Operativamente lo que el investigador busca al realizar la prueba de hipótesis es rechazar la hipótesis nula. Recordemos que la hipótesis nula puede ser rechazada pero nunca puede decirse que es falsa o verdadera debido a que los cálculos se realizan con una muestra probabilística en donde la presencia de la incertidumbre no ha desaparecido por lo tanto la posibilidad del error sigue estando presente.
*HIPÓTESIS ALTERNATIVA. Es opuesta a la hipótesis nula. Se plantea con el objetivo de encontrar diferencias o relaciones estadísticas entre los datos de diferentes muestras. Esta hipótesis es la razón por la que el investigador decidió realizar su investigación. Esta hipótesis no es sometida a prueba, como podría pensarse inicialmente debido a que las pruebas de hipótesis son realizadas sobre la hipótesis nula.
Considerando el EJEMPLO 1 hipótesis estadísticas serian:
- Ho(es la hipótesis nula): µ=7 por lo tanto la media poblacional no ha cambiado.
- H1(hipótesis alternativa): debemos dar un valor diferente que represente el cambio con respecto a lo anterior: µ>7, el valor promedio poblacional se ha incrementado.
Cuando la hipótesis alternativa indica cambio en una sola dirección, con respecto a la hipótesis nula (˃o˂), la prueba es unilateral. Cuando la hipótesis alternativa no indica una dirección determinada para el cambio se dice que la prueba es bilateral.
En nuestro ejemplo estamos ante una prueba unilateral porque el cambio propuesto se
da en un solo sentido.
En un procedimiento para una prueba bilateral tendríamos el siguiente caso: comparar la proporción poblacional (π) de diabéticos, entre dos ciudades: Cuzco(π1) y puno(π2) nuestra conjetura podría ser: Existen diferencias en la proporción poblacional de estas dos ciudades es decir : (π1) es diferente de (π2). Esto por supuesto ocurre cuando no existe suficiente información ya que trabajamos solamente con muestras. La hipótesis nula sería: no hay diferencias entre las proporciones poblacionales de estas dos ciudades.
La prueba será bilateral si comparamos un mismo parámetro de diferentes poblaciones porque que (π1) puede ser mayor que(π2) o al revés. La diferencia podría presentarse en cualquiera de los dos sentidos. Cuando solo se plantea diferencias entre los parámetros de dos poblaciones pudiendo ser una mayor que la otra entonces la prueba diseñada para demostrar la diferencia. La unilateralidad se presenta cuando plantemos que el parámetro estimado es mayor en una población que en la otra. Toda la prueba estaría dirigida a demostrar que el parámetro es mayor en una población.
RECHAZAR LA HIPÓTESIS NULA
Sabemos en principio que toda hipótesis puede ser verdadera o falsa, entonces respecto a la hipótesis nula también podemos decir que esta es verdadera o falsa pero no podemos nunca dar cuenta de ello realmente. En consecuencia solamente la aceptamos o la rechazamos, lo cual es diferente a decir que sea verdadera o falsa. Los datos pueden apoyar o no una hipótesis nula, pero jamás podrán determinar la veracidad de una hipótesis. De esta manera el procedimiento es enteramente probabilístico. Cuando los datos son favorables a la hipótesis en un estudio puede ocurrir que en otro estudio sea todo lo contrario o al menos cabe esa posibilidad, recordemos que las investigaciones pueden estar sesgadas y dar resultados equivocados aunque la probabilidad de ello sea realmente baja. De forma similar cuando los datos no apoyan la hipótesis nula solo nos queda concluir que con los datos analizados no se pudo aceptar la hipótesis nula.
ERRORES DE TIPO I Y DE TIPO II
La estadística presta su ayuda a las ciencia de una manera importante. La incertidumbre y la variabilidad están presentes en nuestras investigaciones casi todo el tiempo por lo cual es imposible llegar a conclusiones razonables sin el concurso de la estadística. Una forma especial de ayuda se presenta gracias a que con la estadística podemos cuantificar incluso el error en una decisión importante como lo es el hecho de rechazar o aceptar una hipótesis.
El error no es más que un valor indirecto de la incertidumbre inherente en la inferencia estadística.
Según el cuadro de arriba existen dos tipos de errores que pueden cometer
los investigadores con respecto a la hipótesis nula:
- Error tipo 1: cuando rechazamos una hipótesis nula y la hipótesis nula en la población es verdadera
- Error tipo 2: cuando no rechazamos una hipótesis nula y en la población es falsa.
Evidentemente cuando rechazamos una hipótesis nula que es falsa estamos
haciendo lo correcto mientras que cuando no rechazamos una hipótesis nula que
en la población es verdadera también estamos haciendo lo correcto.
Lo más importante que debemos saber es cuál es la probabilidad de error tipo 1. Es muy importante saber si la probabilidad de cometer error al rechazar la hipótesis nula es alta o baja. Si realmente después de hacer la prueba de hipótesis verificamos que la probabilidad mencionada es baja no debemos temer entonces de equivocarnos y podríamos rechazar la hipótesis nula de forma que la hipótesis alternativa cobre un significado más importante en el estudio. Por lo tanto todos los esfuerzos en la prueba de hipótesis están dirigidos a determinar la probabilidad de equivocarlos al rechazar la hipótesis nula. Este hecho no quita que la decisión de rechazar o aceptar la hipótesis nula sea en el fondo un acto de fe debido a que en realidad no sabemos la condición real de las cosas. Sin embargo el comportamiento de los fenómenos y los datos extraídos de las observaciones cuidadosas no se presentan de forma irracional por lo cual podemos confiar en los procedimientos estadísticos basados en la probabilidad.
Lo más importante que debemos saber es cuál es la probabilidad de error tipo 1. Es muy importante saber si la probabilidad de cometer error al rechazar la hipótesis nula es alta o baja. Si realmente después de hacer la prueba de hipótesis verificamos que la probabilidad mencionada es baja no debemos temer entonces de equivocarnos y podríamos rechazar la hipótesis nula de forma que la hipótesis alternativa cobre un significado más importante en el estudio. Por lo tanto todos los esfuerzos en la prueba de hipótesis están dirigidos a determinar la probabilidad de equivocarlos al rechazar la hipótesis nula. Este hecho no quita que la decisión de rechazar o aceptar la hipótesis nula sea en el fondo un acto de fe debido a que en realidad no sabemos la condición real de las cosas. Sin embargo el comportamiento de los fenómenos y los datos extraídos de las observaciones cuidadosas no se presentan de forma irracional por lo cual podemos confiar en los procedimientos estadísticos basados en la probabilidad.
En todo proceso de prueba de hipótesis nula siempre se puede cometer
error de tipo 1 o error de tipo 2.
- Cuanto es la probabilidad de rechazar la hipótesis nula siendo la hipótesis nula verdadera: α, esta es la probabilidad de cometer el error tipo 1
- Cuanto es la probabilidad de no rechazar la hipótesis nula dado que la hipótesis nula es falsa : β, esta es la probabilidad de cometer el error tipo 2
La probabilidad de cometer un error, debe ser siempre mínima. Debemos buscar minimizar el error, para ello
debemos buscar probabilidades pequeñas. Formalmente el nivel de confianza se representa como: 1-α. En este
caso también α es pequeña. Recordemos 1-α es la probabilidad de que el
intervalo de confianza contenga al parámetro, pero cuando estudiamos la prueba de hipótesis significa algo diferente. 1-α constituye la probabilidad central de todos los valores de la variable que se encuentran próximos al parámetro poblacional. α es la probabilidad de
cometer error tipo 1, si α toma un valor mínimo el error de tipo 1 es mínimo y es precisamente esta condición la que nos permite estar tranquilos al rechazar la hipótesis nula y confiar en el conocimiento que se genera constantemente en las ciencias. La posibilidad de equivocarnos sigue presente pero es mínima, sin embargo habrán ocasiones en que se cometa involuntariamente ese error, aun así los científicos consideran en que el perjuicio generado por estos errores no afecta de manera significativa al progreso científico.
A ciencia cierta no estamos en la capacidad de saber si estamos cometiendo algún de los dos tipos de error debido a la propia incertidumbre de la investigación, pero al menos sabemos que la probabilidad de cometerlo es baja. Este hecho hace que podamos continuar con el desarrollo de la ciencia con tranquilidad.
La probabilidad de error es propuesta por el investigador responsablemente. En el área de la salud salud el valor de error es de 0.01 por la naturaleza riesgosa del campo en que nos encontramos trabajando. Esto quiere decir que hay muy poca probabilidad de rechazar una hipótesis cuando esta sea verdadera o de aceptar una hipótesis que sea falsa.
Alfa en la prueba de hipótesis toma un nombre propio, se le llama: NIVEL DE SIGNIFICACIÓN DE LA PRUEBA. El NSP puede ser controlable porque es elegido por el investigador. Es la confiabilidad de rechazar o no una hipótesis nula. Por ejemplo si se hace una ensayo clínico y se llega a un resultado en el que α tiene una valor de 0.15(para rechazarla o no) diremos que la prueba no es confiable por el tamaño de α.
NIVEL DE SIGNIFICACIÓN DE LA PRUEBA
α es el nivel de significación de la prueba; y es posible controlarlo, es la confiabilidad de la decisión de rechazar la hipótesis nula los más usados son: 0.01, 0.05 y 0.10. Cuando no se rechaza la hipótesis nula significa que no existe suficiente información como para rechazarla.
Por ejemplo los fármacos tienen que ser necesariamente sometidos a pruebas de
hipótesis por ser cuestiones muy delicadas. En estos casos α debe tener un
valor muy bajo. Por otro lado si dos ensayos clínicos son cuantitativamente
iguales en cuanto al nivel de confiabilidad (por ejemplo 0.3% de alfa) esto
no significa que los dos ensayos clínicos sean igualmente buenos. Es importante observar
el proceso cualitativo del ensayo clínico en la prueba de hipótesis para decidir cual de los dos ensayos clínicos es el mejor. Debemos estudiar todo el proceso de la experimentación y no solo basarnos en la significancia estadística.
¿Cómo decidimos si se rechaza o no una hipótesis nula? Empleando un estadístico
de prueba que es una expresión estadística matemática en donde se asignan
valores de la muestra o de los parámetros. Se hace un cálculo de diferencia y
empleando la probabilidad en donde se tiene que determinar la función de
rechazo nosotros vamos a decidir si se rechaza o no la hipótesis nula.
ESTADÍSTICO DE PRUEBA Y REGIÓN DE RECHAZO:
Para rechazar o no la hipótesis nula se toma una muestra aleatoria de la población bajo estudio y los resultados contenidos en ella se usan para calcular expresiones llamadas estadísticos de prueba que nos indican el grado de discrepancia entre la hipótesis nula y los datos muestrales
ESTADÍSTICO DE PRUEBA Y REGIÓN DE RECHAZO:
Para rechazar o no la hipótesis nula se toma una muestra aleatoria de la población bajo estudio y los resultados contenidos en ella se usan para calcular expresiones llamadas estadísticos de prueba que nos indican el grado de discrepancia entre la hipótesis nula y los datos muestrales
La hipótesis nula se rechaza cuando haya mucha discrepancia entre el
valor del parámetro(por ejemplo la media poblacional) con respecto al valor que se determina
en la muestra(proporción media muestral etc....)
- la varianza poblacional es conocida
- población normal
- Ho:µ=7
- H1: µ ˃7
En la formula presentada arriba observamos la diferencia entre
la media muestral y la media poblacional de Ho (esto se hace para comparar dos
valores ). Si la media muestral está muy cercana a la media poblacional de Ho entonces Z tomara el valor de cero por
cual no se rechaza la hipótesis nula. En el caso contrario de que la media
muestral y el valor de la media poblacional del Ho sean diferentes entonces la
diferencia no es cero (Z no es cero) y la la hipótesis nula se rechaza.
Observamos que la distribución del estadístico de prueba es normal estandarizado el cual constituye su soporte estadístico.
ejemplo4 :para las siguientes hipótesis estadísticas:
Ho: µ=30
H1: µ ˃30
cuando la varianza poblacional se conoce, la región critica o de rechazo α es:
ejemplo4 :para las siguientes hipótesis estadísticas:
Ho: µ=30
H1: µ ˃30
cuando la varianza poblacional se conoce, la región critica o de rechazo α es:
La hipótesis nula para el ejemplo 4 plantea que la media poblacional se mantenga en un valor de
30. Mientras que la hipótesis del investigador plantea que aumente este valor a más
de 30. Como hemos dicho el investigador debe seguir un protocolo de
investigación riguroso tratando de rechazar la hipótesis nula. Para ello
lleva cabo un estadístico de prueba o prueba estadística.
Observamos que el soporte probabilístico para esta población es la
distribución normal. En esta vemos la curva normal estandarizada centrada en 0. Para las pruebas unilaterales la región de rechazo se
encuentra en el extremo superior o inferior (área sombreada con valor alfa) como se observa en el gráfico más arriba. La región de rechazo se encontrará en el extremo superior cuando los valores propuestos en la hipótesis alternativa sean superiores al parámetro poblacional. Exactamente lo contrario ocurre cuando la región de rechazo se encuentra en el extremo de los valores inferiores de la distribución. En este caso la región de rechazo se encuentra en el extremo superior. A Zα se le denomina valor critico porque es un punto frontera que
divide en dos regiones al espacio de probabilidad: en una región de no
rechazo y en una región para rechazar.
Empíricamente podemos observar lo siguiente:
- Ho: µ=30 (µ-30=0)
- H1: µ˃30 (µ-30 ˃0)
Esto quiere decir que si la media poblacional es: µ=30 entonces la diferencia entra la media poblacional y la media de la muestra (µ-30) es igual a cero. La hipótesis
nula es que µ sea igual a 30. En este caso se mantiene constante la media
poblacional.
Si µ es mayor que 30 entonces si µ-30 es lo suficientemente mayor que cero por lo tanto Ho se
rechaza. H1 es la hipótesis de que la media poblacional aumente esta es
la hipótesis del investigador propuesta.
Por ello decimos que los valores para rechazar la hipótesis deben ser altos
porque µ-30>0 y ello se evidencia en la gráfica de distribución normal
estandarizada.
Observamos que Zα va a depender del valor de α.
¿Para que nos sirve el espacio de probabilidad?
para decidir si se rechaza la hipótesis nula si el valor de la estadística Z es mayor que treinta. Si no lo es no podemos rechazar la Ho.
para decidir si se rechaza la hipótesis nula si el valor de la estadística Z es mayor que treinta. Si no lo es no podemos rechazar la Ho.
Pongamos un ejemplo para entenderlo mejor:
regla de decisión:
rechazar H0 si el valor de la estadística Z ˃1.645 en caso contrario no se rechaza.
evaluando:
para el ejemplo 4:
por ejemplo si Z fuera 2 (caso supuesto) entonces la Ho se rechaza por se mayor que 1.645 pero si Z valiera 0.22 entonces la Ho no se rechaza por ser menor que el valor del percentil de referencia.
Los factores que intervienen para rechazar una hipótesis nula son:
- la elección del tamaño de la región de rechazo, es evidente que a mayor probabilidad de error mayor área de rechazo y a menor probabilidad de error menor área de rechazo.
- el valor que asume la estadística en este caso la media muestral, mientras mayor sea el exceso de la media muestral con respecto a la media poblacional mayores son las probabilidades de rechazar la Ho.
8 PRUEBA DE HIPOTESIS (p-VALUE): Es la probabilidad que mide el riesgo(por ejemplo un riesgo es 0.03 de probabilidad) que tiene el investigador cuando, al obtener un cierto valor de la estadística de prueba, se rechaza la hipótesis nula. (SPSS le llama Sig.)
p-VALUE es el resultado de
una prueba de hipótesis.
34 en este caso ya no vamos a comparar el valor crítico Zα de la abscisa de
la distribución normal con Z que es el resultado de la prueba estadística y a cuyo valor denominamos valor de la prueba estadística como en el caso
anterior.
35 en este caso lo que vamos a comparar es el α (riesgo en términos de probabilidad por la que se puede rechazar una Ho) que hemos elegido( por ejemplo 0.05) con la
probabilidad que se obtiene al calcular el valor de la prueba estadística, al cual denominamos p-value.
Observamos que para recharzar la Ho se debe calcular tanto el nivel de significancia como el p-VALUE. El nivel de significancia se expresa en función de una probabilidad, que como sabemos depende a su vez de una determinada distribucion (N o t). El p-VALUE tambien se expresa en función de la probabilidad de rechazo que nuevamente depende del tipo de distribución de probabilidad Estos dos cálculos nos informaran si se rechaza o no la Ho.
Observamos que para recharzar la Ho se debe calcular tanto el nivel de significancia como el p-VALUE. El nivel de significancia se expresa en función de una probabilidad, que como sabemos depende a su vez de una determinada distribucion (N o t). El p-VALUE tambien se expresa en función de la probabilidad de rechazo que nuevamente depende del tipo de distribución de probabilidad Estos dos cálculos nos informaran si se rechaza o no la Ho.
Este ejemplo es similar al anterior, la diferencia es que en este caso la media muestral es menor que la media poblacional.
En este caso no se conoce la varianza poblacional de manera que
utilizaremos la distribución t Student.
Apreciamos que se trata de una prueba de hipótesis unilateral
Observamos en la imagen de arriba que los grados de libertad son 24 por lo
que deducimos que el tamaño de la muestra es 25 (grados de libertad=n-1).
Observamos que la región de rechazo se encuentra en la región de los
valores inferiores por la forma que toma la hipótesis alternativa(µ˂30)
Esta prueba también es válida para calcular proporciones y varianzas.
Reiteramos que cuando no se conoce la varianza poblacional usamos la
distribución t Student.
Para α= 0.05 su valor critico correspondiente es de 1.71 (percentil). este se ha
determinado con excel.
Observamos que T(estadístico de prueba) tiene que ser menor que el valor de la abscisa en la
distribución t Student para poder rechazar la hipótesis nula en caso contrario
no se puede rechazar.
SOLUCIÓN: T=-3,8 ˂ -1.71.
Debemos aclarar que la estadística de prueba T se calcula del siguiente modo:
Como ya sabemos se rechaza la Ho, porque el valor de la estadística de pruenba T=-3,8 ˂ -1.71. es decir se puede asumir con el 5 % de nivel de significación (NS) que el tiempo promedio para resolver este tipo de problemas ha disminuido. Vemos que en esta forma de evaluar estamos considerando el valor critico en la distribución t Student para determinar en comparación con en el valor de T (valor de la prueba estadística) si se rechaza la hipótesis nula y efectivamente así es porque T ( resultado de la prueba estadística t de studen) es menor que el valor critico.
SOLUCIÓN: T=-3,8 ˂ -1.71.
Debemos aclarar que la estadística de prueba T se calcula del siguiente modo:
Como ya sabemos se rechaza la Ho, porque el valor de la estadística de pruenba T=-3,8 ˂ -1.71. es decir se puede asumir con el 5 % de nivel de significación (NS) que el tiempo promedio para resolver este tipo de problemas ha disminuido. Vemos que en esta forma de evaluar estamos considerando el valor critico en la distribución t Student para determinar en comparación con en el valor de T (valor de la prueba estadística) si se rechaza la hipótesis nula y efectivamente así es porque T ( resultado de la prueba estadística t de studen) es menor que el valor critico.
Una vez obtenida la probabilidad
acumulada del valor de la prueba estadistica esta se debe compara con el
valor de probabilidad de α en este caso 0.05, denominado nivel de significancia. Sabemos que el valor del primero
debe ser menor que el segundo para que la hipótesis nula se pueda rechazar.
También decimos que cada vez que p-Value es menor que el nivel de significancia α entonces la hipótesis
se rechaza.
Es evidente que para saber el p-Value primero debemos saber el valor de la prueba estadistica(percentil).
Cuanto mas pequeño el p-value existirá una mayor diferencia y por lo tanto una mayor probabilidad de rechazar la Ho.
ETAPAS DE UNA PRUEBA DE HIPOTESSIS
- platear adecuadamente la hipótesis nula y alternativa
- elegir el nivel de significación (α)
- elegir una prueba estadistica, de acuerdo a los requisitos que exige la teoría estadística inferencial
- establecer la región de rechazo o nivel de significancia correspondiente
- calcular el estadístico seleccionado para realizar la prueba de hipótesis
- compara el valor de la prueba estadistica(pecentil) con el valor critico(percentil), para decidir si se rechaza o no la hipótesis nula, o comparar el p-VALUE con el nivel de significación tomando en cuenta si la prueba es unilateral o bilateral
EVALUACIÓN DE LA NORMALIDAD DE DATOS DE UNA VARIABLE CUANTITATIVA
Es importante saber con plena seguridad si estamos frente a una población con distribución normal de probabilidad para poder realizar las respectivas pruebas estadísticas. Se evalúa la normalidad de los datos de una muestra( si los datos provienen de una población con distribución de probabilidad normal), para poder usar herramientas estadísticas que tienen como requisito que los datos tengan este tipo de distribución de probabilidad.
¿CÓMO SE EVALÚA LA NORMALIDAD DE DATOS EN UNA VARIABLE CUANTITATIVA?
Para esto existen dos herramientas:
- grafico cuartil-cuartil normal
- prueba de hipótesis
36 recordemos que los parametros y estadísticos con los que realizamos nuestros calculos tales como la media poblacional, la media muestral y la
varianza provienen de una población NORMAL.
GRAFICO CUARTIL-CUARTIL NORMAL
La idea básica consiste en enfrentar; en un mismo gráfico, los datos que han sido observados (graficados normalmente como puntos o círculos pequeños) frente a los datos teóricos que se obtendrían de una distribución normal(graficado como puntos en una recta). si la distribución de la variable coincide con la normal, los puntos se concentrarán en torno a una linea recta. En los gráficos P-P se confrontan las proporciones acumuladas de una variable con las de una distribución normal.
Los gráficos Q-Q se obtienen de modo análogo, esta vez representando las cuantilas muestrales respecto a las cuantilas de la distribución normal.
37 el gráfico cuartil- cuartil normal también se denomina gráfico de las abscisas
38 se compara los valores muestrales (asteriscos, puntos o círculos pequeños en la gráfica) con las abscisas de la normal(puntos sobre la recta), y si
coinciden en gran medida observaremos los puntos de los valores muestrales y los
puntos de valor bajo el supuesto de que proviene de una distribución de probabilidad normal(abscisas) muy próximos. Este hecho nos llevara a concluir necesariamente que la población en estudio a través de la muestra posee una distribución normal de probabilidad,que es realmente lo que deseamos saber. Recalcamos que estos dos elementos van a estar lo más
cercano a la recta( la recta representa la media muestral) como vemos en el gráfico de abajo:
Si existen desvíos es un indicio de que no se trata de una distribución
normal como en el caso que apreciamos en la gráfica de abajo donde dos de los
datos se alejan de la recta.
En la gráfica de abajo observamos que los datos fluctúan sobre la recta por
encima y por debajo y también apreciamos datos atípicos. Esta condición no nos
da una garantía de que la muestra provenga de una población normal.
PRINCIPALES ALEJAMIENTOS RESPECTO DE LA DISTRIBUCIÓN NORMAL QUE PUEDEN VISUALIZARSE EN UN GRÁFICO CUARTIL-CUARTIL
Las colas en la distribución normal son bastante delgadas de manera contraria a esto se dice que una distribución tiene cola pesada cuando la probabilidad de la cola es alta. recordemos que la probabilidad en las colas de una gráfica de distribución normal son bajas mientras que la probabilidad en la región central de la curva son bastante altas, siendo mayor alrededor de la media.
El gráfico de abajo se asemeja a una jota: a la derecha no se hace asíntota.
El grafico de abajo se asemeja a una jota invertida
Recordemos que las colas de la distribución normal son colas medianamente
alargadas si la distribución no presenta esta forma entonces estamos ante estos
dos casos abajo graficados:
PRUEBA DE HIPOTESIS (evaluar normalidad de datos de una variable
cuantitativa)
39 en este caso ya no se evaluará el valor del parámetro lo que se evaluará
si los datos de la muestra se ajustan a la distribución normal de probabilidad. Esta es una prueba para verificar si los datos cuantitativos se han extraído de
una población normal.
40 vamos a utilizar dos pruebas:
-prueba de Kolmogorov-smirnov
-prueba de Shapiro-Wilks
PRUEBA DE KOLMOGOROV-SMIRNOV
41 esta prueba se usa para variables netamente continuas. Para este tipo de
variables la prueba en mención es adecuada para determinar si la muestra tiene
o no distribución normal de probabilidad.
42 ¿Cuándo se rechazara la hipótesis nula?
Si el p-value es grande no habra razones por tanto razones estadisticas para suponer que los datos no proceden de una distribución normal. Pero si el p-value es muy pequeño no será aceptable suponer que tenga distribución normal de probabilidad como modelo probabilistico.
Si el p-value es grande no habra razones por tanto razones estadisticas para suponer que los datos no proceden de una distribución normal. Pero si el p-value es muy pequeño no será aceptable suponer que tenga distribución normal de probabilidad como modelo probabilistico.
PRUEBA DE SHAPIRO WILKS
43 es muy buena para tamaño de muestras menores de 50. No nos dice nada
acerca de si es mejor para variables continuas o discretas. Pero se usa en el
caso de que se trate de una variable discreta.
44 en este caso si el p-value es grande no rechazaremos la Ho pero si es
pequeño si se puede.
Variable aleatoria. Nivel de plomo en sangre
Población: niños de 6-11 años
Muestra aleatoria: 18 niños
Lo primero que debemos hacer es determinar si los datos se han extraído de una población normal para estimar mediante intervalo de confianza el nivel de plomo en sangre en la población sabiendo que el valor permisibles es de 10 µg/dL
Lo primero que debemos hacer es determinar si los datos se han extraído de una población normal para estimar mediante intervalo de confianza el nivel de plomo en sangre en la población sabiendo que el valor permisibles es de 10 µg/dL
Los cálculos se obtienen con spss.
Según el grafico vemos que los datos no se aproximan a la recta de la
distribución normal:
45 El otro recurso que tenemos para seguir haciendo la evaluación son las
pruebas de normalidad.
46 Recordemos que no siempre coincide el resultado del gráfico con el resultado de la prueba de hipótesis.
47 en este caso utilizaremos la prueba de kolmogorov porque se trata de una
variable cuantitativa.
Prueba de normalidad:
Sabemos que se trata de una prueba
estadística por lo cual seguimos el procedimiento :
1. primero debemos proponer la hipótesis nula:
Ho: el nivel de plomo tiene distribución normal
H1: el nivel de plomo no tiene distribución normal
2. en segundo lugar proponemos el valor de α: 0.05 o 5%
3. elegimos la prueba de kolmorov-smirnov debido a que la variable aleatoria
es continua
4. ya no debemos calcular buscando el valor critico hacemos la comparación
de frente:
p-value:
Su valor es de :p-value=0.200
Entonces :
La regla nos dice: rechazar la hipótesis nula si el p-value es menor
de α
0.200 >0.05…
debido a que el p-value es mayor que el nivel de significancia entonces no se cumple la condición para rechazar la hipotesis nula. La conclusión es: no se rechaza la hipótesis nula. Esto
quiere decir que con 5 % de nivel de significación se asume que la muestra
aleatoria o la variable se ha extraído de una población normal.
Ahora que ya sabemos que se trata de
una población normal entonces pasamos a calcular el intervalo de confianza
tranquilamente.
-X: niveles de plomo en salgre
(µg/dL) tiene distribución normal
-α:=0.05
-X~N(µ,σ2)
Por lo que vemos µ es desconocido y es lo que vamos a tratar de conocer con
el intervalo de confianza.
La varianza poblacional tampoco se conoce por ello debemos utilizar la distribución normal t Student. Trabajamos
por lo tanto con la varianza muestral.
-muestra aleatoria :18 datos
-para calcular en intervalo de confianza necesitamos un limite inferior y
uno superior:
1. Ahora calculemos la media: 13.35
2. Calculemos la desviación estándar:1.305
3. Ahora calculemos el nivel de confianza o probabilidad de confianza
:1-α=0.93, α=0.07
Vemos en el gráfico de arriba que la probabilidad de confianza se encuentra siempre en la parte central
5. Para calcular los valores de las abscisas en la distribución t Student debemos hacer uso del Excel:
-sabemos que la probabilidad cumulada de las colas es de 0.07
Por lo tanto en probabilidad digitamos la suma de las colas además de
digitar los grados de libertada (17)
Respuesta:1.934
-tα/2=1.934
6. Con todos estos datos ya podemos determinar los limites inferior y superior
del intervalo de confianza que necesitamos, y en el que se encuentra con un 93%
de probabilidad la media poblacional.
Li=12.75
Ls=13.94
INTERPRETACION: con el 93% de probabilidad de confianza se espera que el promedio de nivel de plomo en sangre tome valores de 12.75 hasta 13.94.
Corolario: se estima que en esta población de escolares los niños tienen niveles
de plomo fuera de la norma.
Como vemos se ha hecho una corrección : no se conoce la varianza
poblacional:
resolución:
1. población: personal de empresas de L.M
2. muestra: constituida por 24 elementos
3. X: número de faltas laborales por caída leve (variable discreta)
4. los parámetros que podemos generará a partir de esta muestra aleatoria
son
-media poblacional: 8.72
Varianza:1.72
¿Los datos se han extraído de una
población normal?
Grafico para evaluar la normalidad:
Por lo que vemos en el grafico los datos se aproximan a la distribución
normal
En este ejemplo tenemos los resultados de las pruebas estadística
Procedemos a hacer una segunda evaluación por la prueba de hipótesis:
Ho: el número de insistencias tiene distribución normal
H1: el número de inasistencias no tiene distribución normal
-α:0.05
-evaluaremos con Shapiro-Wirlk( la variable aleatoria no es continua)
-tomamos el p-valeu:
p-valeu: 0.310REGLA: si el p-valeu es menor que α entonces se rechaza la hipótesis nula.
No se rechaza
Interpretación : con el 5% de significación se asume que la m.a no tiene
una población con distribución normal.
Estimar e interpretar el parámetro
estadístico correspondiente
Estimar el intervalo de confianza para la media poblacional con varianza
desconocida.
Con los datos debemos calcular.
Media muestral:8.72
Varianza muestral:2.9584
Para este caso el nivel de confianza será: 1-α=0.96, α=0.04 busquemos ahora
los valores que delimitan la región de confianza con 23 grados de confianza:
Calculando en Excel:
Las colas extremas suman :0.04
Luego:
Tα/2=2.18
En el gráfico.
Ahora ya podemos calcular los límites inferior y superior:
Considerando que el ejemplo 1 la media poblacional era 7
Li=7.955
Ls=9.485
INTERPRETACIÓN: con 96 % de
probabilidad de confianza se espera que el parámetro(numero de faltas) en esta
población sea de 7.9 a 9.5.
AHORA PASEMOS A HACER LA PRUEBA DE
HIPOTESIS:
-a) Ho=7
H1>7
-b) α=0.04 (4%)
-c) estadística de prueba:
-d) por la forma la región de rechazo se encuentra en los valores altos:
por α unilateral
Buscamos en excel:También con t inversa:
Luego: considerando la suma de las dos colas seria 0.08
Entonces:
-tα/2=1.83
REGLA: se rechaza la Ho si el valor de de la estadística de prueba es mayor
de 1.83 en caso contrario no se rechaza.
Por lo tanto ahora hacemos el cálculo del estadístico de prueba:
DESICIÓN : como el valor de t: 4.89 es mayor que 1.83
entonces se rechaza la hipótesis nula:
Esto significa que con 4% de significación se asume que
el promedio de inasistencias es mayor de 7 en la población. Recordemos que solo
estamos asumiendo. Es suficiente con esto para tomar una decisión.
¿la
media poblacional se ha incrementado?
afirmativo
No hay comentarios:
Publicar un comentario