1 / 50

INFERENCIA ESTADÍSTICA

INFERENCIA ESTADÍSTICA. Proceso y resultado de extraer conclusiones respecto a una población a partir de una o más muestras. obtención de la muestra. conclusiones. P. M. Problema de estimación: ¿Por qué una encuesta de 1500 personas permite predecir

brody
Télécharger la présentation

INFERENCIA ESTADÍSTICA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. INFERENCIA ESTADÍSTICA Proceso y resultado de extraer conclusiones respecto a una población a partir de una o más muestras. obtención de la muestra conclusiones P M

  2. Problema de estimación: ¿Por qué una encuesta de 1500 personas permite predecir bastante bien el resultado de una elección con 10 millones de votantes? ¿Cómo se consigue? ¿Cómo se mide la precisión del resultado? Problema de test de hipótesis: Las normas de calidad exigen que, en un lote de 5000bombillas, a lo sumo el 3% pueden durar menos de 1000 horas. En un estudio de control de calidad de una fabrica de bombillas sería muy costoso examinar cada una. Se decide usar una muestra de 500 bombillas. Si obtenemos el 3,2% de bombillas defectuosas, ¿deberíamos declarar el lote completo defectuoso?

  3. Problema de estimación: Se busca precisar una característica totalmente desconocida de la población a partir de los datos obtenidos sobre una muestra. Estimar el porcentaje de la población (10 millones) que votó a ZP a partir de una muestra de 1500 votantes. O estimar la duración promedio de las bombillas del lote de 5000, a partir de una muestra de 500.

  4. Problema de test de hipótesis: Se busca comprobar alguna información sobre la población a partir de los datos obtenidos de una muestra. ZP obtiene más del 65% de los votos. Menos del 3% de las bombillas del lote de 5000 duran menos de 1000 horas. Las bombillas duran más de 1000 horas en promedio.

  5. Muestra aleatoria simple con reemplazo Supongamos una población de tamaño N donde cierta característica se distribuye como la variable aleatoria X. Una muestra aleatoria simple con reemplazo de n observaciones de la variable aleatoria X es un conjunto de variables aleatorias X1, X2, ..., Xn independientes e idénticamente distribuidas (iid). Cada una de ellas tiene la misma distribución de probabilidad que la variable aleatoria X.

  6. Observa que las probabilidades de escoger cualquier elemento de la población para formar parte de la muestra son iguales (1/N) y que además las extracciones son independientes. Se puede escoger por azar varias veces al mismo elemento. Pero si la población N es muy superior al tamaño n de la muestra esa probabilidad es despreciable. En ese caso una muestra con reposición es equivalente a una muestra sin reposición. Trabajaremos siempre con reposición.

  7. Ejemplo: Sea una población compuesta por 5 unicornios con las siguientes longitudes de cuerno: 6, 8, 10, 12 y 14. Escribamos todas las muestras aleatorias con reemplazo posibles de tamaño 2. En total serán: 52 = 25.

  8. En el ejemplo la variable aleatoria X de la población puede tomar los valores 6, 8, 10, 12 y 14, cada uno con probabilidad 1/5. Es decir la variable aleatoria X tiene una densidad de probabilidad discreta uniforme. Una muestra consta de n = 2 observaciones de esa variable aleatoria X. Podemos interpretarla como una variable aleatoria bidimensional (X1, X2), donde X1y X2 son independientes y están idénticamente distribuidas (iid). De hecho cada una de ellas tiene la misma distribución de probabilidad que la variable aleatoria X.

  9. Estadísticos Cualquier función de las variables aleatorias observadas se denomina estadístico: Los dos estadísticos mas conocidos son la media muestral y la varianza muestral. La raíz cuadrada de la varianza muestral es la desviación estándar muestral.

  10. Los parámetros poblacionales son fijos, no aleatorios. Por ejemplo, la media de la población anterior es:  = (6 + 8 + 10 + 12 + 14) / 5 = 10. Mientras que los estadísticos son variables aleatorias (su valor depende de la muestra seleccionada: los estadísticos calculados para distintas muestras darán, en general, resultados distintos). Por ejemplo, la media de la muestra (6, 6) es: = (6 + 6) / 2 = 6. Y la de la muestra (6, 12) es: = (6 + 12) / 2 = 9. Etc...

  11. Como estos estadísticos son variables aleatorias, podemos entonces hablar de sus distribuciones. Si tomamos una muestra de tamaño n y calculamos la media de esta muestra obtenemos un valor determinado. Si repetimos este mismo experimento un gran número de veces obtendremos una gran cantidad de valores distintos para . A partir de esta “variedad” de valores distintos obtenidos para la media muestral, podemos obtener la distribución de probabilidad de la misma. Esta distribución será la distribución de la media muestral.

  12. Calculemos para el ejemplo anterior todas las medias muestrales posibles: donde i = 1, ..., 25 es ahora el índice de las posibles muestras.

  13. P 5/25 4/25 4/25 La distribución de medias muestrales es: 3/25 3/25 2/25 2/25 1/25 1/25 6 7 8 9 10 11 12 13 14

  14. Como es una variable aleatoria y ya conocemos su distribución, podemos calcular su esperanza, la media de medias muestrales: Y observa que coincide con la media poblacional: ¿Ocurre siempre?

  15. Estimación de parámetros Población: P. ej.: todas las familias españolas (N). Variable aleatoria de interés X: P. ej.: consumo de vino. La media de las N familias será: La varianza La desviación típica

  16. Tomemos una muestra. Sean las familias elegidas en la muestra y los consumos anuales de vino. Para simplificar los llamaremos La media muestral de las n familias que forman la muestra será:

  17. La desviación típica y la varianza muestral de las n familias de la muestra serán: Se llama a la media muestral un estimador de la media poblacional  y a la varianza muestral s2 un estimadorde la varianza poblacional2.

  18. Dado un muestreo, el valor xi será uno de los posibles valores que puede tomar la variable aleatoria Xi. ¿Cuál es su valor esperado? Como Xi sedistribuye como X. Para la distribución de la media muestral: De modo que: Cuando se cumple la igualdad, se dice que el estimador de  es insesgado.

  19. Calculemos para el ejemplo de los unicornios todas las varianzas muestrales posibles: donde i = 1, ..., 25 es ahora el índice de las posibles muestras.

  20. P Hemos obtenido de nuevo una distribución, ahora la distribución de varianzas muestrales: 8/25 6/25 5/25 4/25 2/25 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

  21. Como s2 es una variable aleatoria y ya conocemos su distribución, podemos calcular su esperanza, la media de las varianzas muestrales: La varianza poblacional es: Observa que ahora: Decimos entonces que el estimador s2 de 2 es sesgado.

  22. Definamos el estimador (seudovarianza muestral): que solo se distingue de la varianza muestral en dividir entre (n-1) en vez de n. Para el ejemplo de los unicornios tendremos ahora que: que si que es insesgado para la varianza poblacional:

  23. Muestreo desde una población Normal Sea X una variable aleatoria que se distribuye en una población como una normal con media  y varianza 2, es decir N(, ). Tomemos una muestra aleatoria de tamaño n de esta población normal. ¿Cuál es la distribución muestral de ?

  24. Observemos que: De modo que la varianza de la distribución de la media muestral será: Y además suponemos independencia entre las variables Xi

  25. Si la muestra aleatoria x1, x2, ..., xn se toma a partir de una población normal con media  y varianza 2, la media muestral tendrá distribución normal con media  y varianza 2/n, N(, /n). Vemos entonces que la distribución de la media muestral tiene una dispersión menor alrededor de la media poblacional y cuanto más grande es la muestra, menor es la varianza.

  26. Distribuciones para muestras grandes Cuando el tamaño de la muestra es grande, podemos derivar un número de propiedades que son muy útiles en la práctica. Dos de esas propiedades son la LEY DE LOS GRANDES NUMEROS y el TEOREMA CENTRAL DEL LIMITE.

  27. Ley de los grandes números Sea la media de una muestra aleatoria de valores z1, z2, ..., zn que son iid. Entonces a medida que aumenta el tamaño de la muestra, la media muestral se encuentra más y más cerca de su valor esperado E(Z). Como caso especial, cuando es , la media muestral, tenemos que E( ) =  y converge a  . De la misma manera, s2 converge a 2 cuando n tiende a infinito.

  28. Teorema central del límite Sea x1, x2, ..., xn una muestra aleatoria de observaciones tomadas de la misma distribución y sea E(Xi) =  y Var(Xi) = 2. Entonces la distribución muestral de la variable aleatoria converge a la normal standard N(0, 1) cuando n tiende a infinito. El TCL se cumple aún cuando la distribución desde la que se toman las observaciones no sea normal. Esto significa que si nosotros nos aseguramos que el tamaño de la muestra es grande, entonces podemos usar la variable Zn para responder preguntas acerca de la población de la cual provienen las observaciones.

  29. Distribución muestral de la media Veremos primero el caso de que la distribución subyacente sea normal, con media y varianza La media de la distribución muestral de medias es La varianza de la distribución muestral de medias es La forma de la distribución muestral de la media es normal. Nota: La desviación típica de la distribución muestral suele ser denominada: error típico de tal estadístico (v.g., “error típico de la media”, etc.) Veamos varios ejemplos donde iremos variando el tamaño n de las muestras.

  30. Distribución muestral de la media. Ejemplo 1 Distribución poblacional subyacente (dist. Normal): Media = 100 Varianza = 225 Desv. típica = 15 La línea (en este y sucesivos ejemplos) es una curva normal Distribución muestral de la media: Tamaño muestral =10 Media = 100 Varianza = 225/10 =22.5 Desv.típica = En este y sucesivos gráficos: Número de muestras n

  31. Distribución muestral de la media. Ejemplo 2 Distribución poblacional subyacente (dist. Normal): Media = 100 Desv. Típica = 15 Distribución muestral de la media: Tamaño muestral = 20 Media = 100 Varianza = 225/20 = 11.3 Desv. típica = 3.35

  32. Distribución muestral de la media. Ejemplo 3 Distribución poblacional subyacente (dist. Normal): Media = 100 Desv. Típica = 15 Distribución muestral de la media: Tamaño muestral = 50 Media = 100 Varianza = 225/50 = 4.5 Desv. típica = 2.12

  33. Distribución muestral de la media Veamos ahora el caso en que la distribución subyacente sea arbitraria, si bien sabemos que la media es y la varianza es La media de la distribución muestral de medias es La varianza de la distribución muestral de medias es La forma de la distribución muestral de la media TAMBIÉN tiende a ser normal. En concreto, la distribución muestral se acercará más y más a la distribución normal (media m y varianza s2/n) a medida que se aumente el tamaño de cada muestra.

  34. Distribución muestral de la media. Ejemplo 4 Distribución poblacional subyacente (dist. Gamma): Media = 100 Varianza = 100

  35. Distribución muestral de la media. Ejemplo 4 Distribución poblacional subyacente (dist. GAMMA): Media = 100 Varianza = 100 Distribución muestral de la media: Tamaño muestral = 10 Media = 100 Varianza = 100/10 = 10 Desv. típica =

  36. Distribución muestral de la media. Ejemplo 5 Distribución poblacional (dist. EXPONENCIAL): Media = 0.1 = 1/l Varianza = 0.01 = 1/l2 La distribución EXPONENCIAL tiene 1 parámetro: l (en el ejemplo: 10)

  37. Distribución muestral de la media. Ejemplo 5a Distribución poblacional (dist. EXPONENCIAL): Media = 0.1=1/l Varianza = 0.01 = 1/l2 Distribución muestral de la media: Tamaño muestral = 10 Media = 0.1 Varianza = 0.01/10 = 0.001 Desv. típica = 0.03 Observad que la dist. muestral se aproxima a la normal

  38. Distribución muestral de la media. Ejemplo 5b Distribución poblacional (dist. EXPONENCIAL): Media = 0.1 = 1/l Varianza = 0.01 = 1/l2 Distribución muestral de la media: Tamaño muestral = 20 Media = 0.1 Varianza = 0.01/20 = 0.0005 Desv. típica = 0.022 Observad que la distribución muestral se aproxima más a la normal (al elevar el tamaño muestral).

  39. Distribuciones usadas en inferencia Distribución Ji-Cuadrado o Chi-cuadrado o c2 de Pearson con “n” grados de libertad. Sean X1 , X2 , ... ,Xn n variables aleatorias continuas independientes tal que Xi = N (0,1) con i = 1, ..., n (i.i.d.). Definamos la variable aleatoria: Su densidad de probabilidad será:

  40. la función gamma es: 1. 2.

  41. TABLA DE c2 orden percentílico p c2n grados de libertad valores acumulados dec2n

  42. Distribución muestral del estadístico Cuando las distribución de la que obtenemos la varianza muestral es normal, el estadístico anterior se distribuye según la distribución chi-cuadrado con n -1 grados de libertad. Es fácil de demostrar

  43. Tipificando

  44. Otra distribución que aparece en inferencia es la t-Student, tn Student era el seudónimo de W.S. Gosset, un pionero estadista que trabajó en la Cervecería Guiness de Dublín. Sea X v.a.c. tal que X ~ N (0,1) Y v.a.c. tal que Y ~ 2n Con función de densidad de probabilidad:

  45. TABLA DE LA DISTRIBUCION DE t (Student) orden percentílico valores acumulados de tp grados de libertad tp

  46. Distribución muestral de Cuando la distribución de la que obtenemos las medias muestrales es normal, el estadístico anterior, se distribuye según la distribución t de Student con tn-1 grados de libertad. Cuando la distribución de la que obtenemos las medias muestrales no es normal, el estadístico anterior, se distribuye como una normal tipificada para valores de n > 30. Nota: comparar con el teorema central del límite.

  47. La distribución F de Fisher o F-Snedecor es otra distribución que aparece con frecuencia en inferencia: Sea X v.a.c. tal que X ~ 2n Y v.a.c. tal que Y ~ 2m independientes Definamos

  48. (m,n)

  49. Distribución muestral del estimador Cuando las distribuciones de la que obtenemos las varianzas muestrales son normales: y extraemos dos muestras de tamaño n y m respectivamente. El estadístico anterior se distribuye según la distribución F de Fisher con n- 1 grados de libertad en el numerador y m-1 grados de libertad en el denominador, Fn-1, m-1.

More Related