1 / 39

4. Distribuciones de Probabilidad

4. Distribuciones de Probabilidad. Probabilidad : Con una muestra aleatoria o experimento aleatorio , la probabilidad que una observación tome un valor en particular es la proporción de veces que el resultado ocurriría en una secuencia muy larga de observaciones .

daktari
Télécharger la présentation

4. Distribuciones de Probabilidad

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 4. Distribuciones de Probabilidad • Probabilidad: Con unamuestraaleatoria o experimentoaleatorio, la probabilidadqueunaobservación tome un valor en particular es la proporción de vecesque el resultadoocurriría en unasecuenciamuylarga de observaciones. • Generalmentecorresponde a la proporciónpoblacional (y por lo tanto, cae entre 0 y 1) ya sea paraunapoblación real o conceptual.

  2. Reglasbásicas de probabilidad Sean A, B posiblesresultados • P(no A) = 1 – P(A) • Para A y B, posiblesresultadosdistintos P(A o B) = P(A) + P(B) • P(A y B) = P(A)P(B dado A) • Para resultados “independientes” P(B dado A) = P(B), entonces P(A y B) = P(A)P(B)

  3. Datos de GSS 2006 Happiness Income Very Pretty Not too Total --------------------- Above Aver. 272 294 49 615 Average 454 835 131 1420 Below Aver. 185 527 208 920 --------------------- Total 911 1656 388 2955 Sea A = average income, B = very happy • P(A) estimadapor 1420/2955 = 0.481 (“probabilidad marginal”), P(no A) = 1 – P(A) = 0.519 • P(B dado A) estimadapor 454/1420 = 0.320 (“probabilidadcondicional ”) • P(A y B) = P(A)P(B dado A) estimadapor 0.481(0.320) = 0.154 (igual a 454/2955, “probabilidadconjunta”)

  4. B1: una persona selec. aleatoriamentees “very happy” B2: segunda persona selec. aleatoriamentees “very happy” • P(B1), P(B2) estimadapor 911/2955 = 0.308 • P(B1 y B2) = P(B1)P(B2) estimadapor (0.308)(0.308) = 0.095 • Si, porotrolado, B2 se refiere a la pareja de la persona B1, B1 y B2 probablemente no son independientes y estafórmula no esapropiada

  5. Distribución de probabilidad de una variable • Lista de los posiblesresultados de una “variable aleatoria” y susprobabilidades • Variable discreta: asignaprobabilidades P(y) a valoresindividualesy, con

  6. Ejemplo • Seleccionaunamuestraaleatoria de 3 personas y preguntasiestán a favor (F) o en contra (C) de un sistema de saludpúblico y = número a favor (0, 1, 2, ó 3) • Para posibles muestras de tamaño n = 3, MuestrayMuestray (C, C, C) 0 (C, F, F) 2 (C, C, F) 1 (F, C, F) 2 (C, F, C) 1 (F, F, C) 2 (F, C, C) 1 (F, F, F) 3

  7. Si la poblaciónestáigualmentedividida entre F y C, estasochomuestras son igualmenteposibles y la distribución de probabilidad de la variable aleatoriay (el número a favor) es y P(y) 0 1/8 1 3/8 2 3/8 3 1/8 • (Caso especial de la “distribución binomial”, en Cap. 6) • En la práctica, lasdistribuciones de probabilidad son estimadas de datosmuestrales y entoncestienenuna forma de distribuciones de frecuencias

  8. Datos GSS • Ejemplo: y = número de personas queconocen a alguienque se hayasuicidado en los últimos 12 meses (variable “suiknew”). Distribución de probabilidadestimadaes y P(y) 0 .895 1 .084 2 .015 3 .006

  9. Media (valor esperado) • Como lasdistribuciones de frecuencias, distribuciones de probabilidadtienenmedidasdescriptivas tales como media y desviaciónestándar • Media (valor esperado) • µ = 0(0.895) + 1(0.084) + 2(0.015) + 3 (0.006) = 0.13 representa un “resultadopromedio de unasecuencialarga” (media = moda = 0)

  10. Desviaciónestándar • Desviaciónestándar – medida de unadistancia “típica” de un resultado de la media, denotadapor (No vamos a necesitarcalcularestafórmula) • Si unadistribucióntieneaprox. forma de campana, entonces: • Toda o casitoda la distribucióncaedentro del intervaloµ - 3σ y µ + 3σ • Probabilidad del 0.68 caedentro de µ - σ y µ + σ

  11. Ejemplo • De un resultadomásadelante en el capítulo, si n personas son seleccionadasaleatoriamente de unapoblación con proporción quefavorecesistema de saludpúblico (1- , se oponen), entonces y = número de personas en la muestraqueestá a favor, tieneunadistribución de probabilidad con forma de campana con p. ej., con n = 1000,  = 0.50, obtenemosµ = 500, σ = 16 • Casitoda la distribucióncae entre 500 – 3(16) = 452 y 500 + 3(16) = 548 • Es decir, casiseguro entre 45% y 55% de la muestradiráestar a favor de un sistema de saludpública

  12. Variables continuas • Variables continuas: probabilidadesasignadas a intervalos de números • Ejemplo: Cuano y tomamuchosvalores, como en el últimoejemplo, se considera continua paratérminosprácticos. Entonces, si la distribución de probabilidadtieneaprox. forma de campana, • La distribución de probabilidadmásimportantepara variables continuases la distribución normal

  13. Distribución normal • Es simétrica y con forma de campana (fórmula en Ejercicio 4.56) • Se caracterizapor la media (m) y desviaciónestándar (s), representando el centro y la dispersión • La probabilidaddentro de un número particular de desviacionesestándar de la media mes la mismaparatodaslasdistribucionesnormales • Unaobservación individual de unadistribuciónaprox. normal tieneprobabilidad • 0.68 de caer a 1 desviaciónestándar de la media • 0.95 de caer a 2 desviacionesestándar • 0.997 de caer a 3 desviacionesestándar

  14. Tabla A • Tabla A da la probabilidad en la cola derechaarriba de µ + zσparavariosvalores de z. Segundo decimal del valor de z z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641 … … 1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0722 .0708 .0694 .0681 1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559 ... ...

  15. Ejemplo: ¿Cuáles la probabilidad de caer entre µ - 1.50σ y µ + 1.50σ ? • z = 1.50 tieneuna prob. a la derecha = 0.0668 • La prob. de la cola izq. = 0.0668 porsimetría • La prob. se las dos colas = 2(0.0668) = 0.1336 • Prob. entre µ - 1.50σ y µ + 1.50σ = 1 – 0.1336 = 0.87 Ejemplo: z = 2.0 da • Prob. de las dos colas = 2(0.0228) = 0.046 • Probabilidad entre µ ± 2σes 1 - 0.046 = 0.954

  16. Ejemplo: ¿Qué valor-z corresponde al percentil-99? Es decir, ¿qué valor-z resulta en µ + zσ = percentil-99? • Probabilidad de la cola derecha = 0.01 tiene z = 2.33 • 99% caeabajo de µ + 2.33σ Ejemplo: Si el coeficienteintelectual (IQ) tieneµ = 100, σ = 16, entonces percentil-99% µ + 2.33σ = 100 + 2.33(16) = 137 Nota: µ - 2.33σ = 100 – 2.33(16) = 63 es el percentil-1% 0.98 = probabilidadque IQ caiga entre 63 y 137

  17. Ejemplo ¿Qué valor de z haceque el intervaloµ ± zσincluyaexactamente el 95% de la curva normal? • Probabilidad total en las dos colas = 0.05 • Probabilidad en la cola derecha = 0.05/2 = 0.025 • z = 1.96 µ ± 1.96σcontieneprobabilidad 0.950 (µ ± 2σcontieneprobabilidad 0.954) Ejercicio: Intentapara 99%, 90% (debesobtener 2.58, 1.64)

  18. Ejemplo MinessotaMultiphasic Personality Inventory (MMPI), basado en respuestas de 500 preguntas de verdadero/falso, proveecalif. paravariasescalas (p.ej., depresión, ansiedad, abuso de sustancias), con µ = 50, σ = 10. Si la distribuciónes normal y unacalificación ≥ 65 esconsideradamuyalta, quéporcentajeeséste? • z = (65 - 50)/10 = 1.50 • Prob. de la cola derecha = 0.067 (menosque 7%)

  19. Notas de valores-z • Valor-z representa el número de desviacionesestándarque un valor está de la media de la distribución • Un valor y está z = (y - µ)/σdesviacionesestándar de µ Ejemplo: y = 65, µ = 50, σ = 10 z = (y - µ)/σ = (65 – 50)/10 = 1.5 • El valor-z esnegativocuando y estápordebajo de µ (p.ej., y = 35 tienez = -1.5)

  20. Distribución normal • La distribución normal estándaresunadistribución normal con µ = 0 y σ = 1 • Por la distribución, z = (y - )/ = (y - 0)/1 = y Es decir, valor original = valor-z; µ+ zσ = 0 + z(1) = z (usamos la normal estándarparainferenciaestadístcaempezando en Cap. 6, dondeciertasestadísticas son convertidasparatenerunadistribución normal estándar) • Porquées la distribución normal importante? Hoy aprenderemosquesiestudiosdiferentestomanmuestrasaleatorias y calculanestadísticas (p.ej., media muestral) paraestimar un parámetro (p.ej., media poblacional), la colección de los valores de lasestadísticas de estosestudiosusualmentetienenaprox. unadistribución normal. (Y?)

  21. Distribución muestral • Unadistribuciónmuestrallista los posiblesvalores de la estadística (p.ej., media muestral y proporciónmuestral) y susprobabilidades Ejemplo: y = 1 si a favor del sistemapúblico de salud y = 0 si se opone • Para posiblesmuestras de tamañon = 3, considera la media muestral Muestra Media Muestra Media (1, 1, 1) 1.0 (1, 0, 0 ) 1/3 (1, 1, 0) 2/3 (0, 1, 0) 1/3 (1, 0, 1) 2/3 (0, 0, 1) 1/3 (0, 1, 1) 2/3 (0, 0, 0) 0

  22. Para datosbinarios (0, 1), media muestralesigual a proporciónmuestral de casos “1”. Para la población es la proporciónpoblacional de casos “1” (p.ej., a favor del sistema de saludpública) • ¿Qué tan cercaestá la media muestral de la media poblacional µ? • Para responder esto, debemospoder responder, “¿Cuáles la distribución de probabilidad de la media muestral?”

  23. Distribuciónmuestral • Distribuciónmuestral de unaestadísticaes la distibución de probabilidadpara los posiblesvalores de la estadística • Ejemplo. Asume P(0) = P(1) = ½. Para una variable aleatoria de tamañon = 3, cadauno de las 8 possible muestras son igualmenteprobables. La distribuciónmuestral de la proporciónmuestrales ProporciónmuestralProbabilidad 0 1/8 1/3 3/8 2/3 3/8 1 1/8 (Intentaparan = 4)

  24. Distribución muestral de la media muestral • esuna variable, susvaloresvarian de muestra a muestraalrededor de la media poblacionalµ • La desviaciónestándar de la distribuciónmuestral de se llama error estándarde • Para el muetreoaleatorio, la distribuciónmuestral de tieneuna media µ y error estándar

  25. Ejemplo • Para datosbinarios (y =1 ó 0) con P(Y=1) =  (con 0 <  < 1), se puedemostrarque (Ej. 4.55b, y caso especial de la fórmula anterior en p.11 de estasnotas con n = 1) • Cuando = 0.50,  = 0.50, y el error estándares • nerror estándar • .289 • 100 .050 • 200 .035 • 1000 .016

  26. Nota el error estándardecrece a medidaquen crece (esdecir, tiende a caermáscerca de µ) • Con n = 1000, error estándar = 0.016, asíquesi la distribuciónmuestraltiene forma de campana, con unaaltaprobabilidad, la proporcióncae a 3(0.016) = 0.05 de la proporciónpoblacional de 0.50 (esdecir, entre 0.45 and 0.55) • Ejemplo: Número de vecesy = 1 (esdecir, número de personas a favor) es 1000×(proporción), asíque la variable que “cuenta” el número de personas tiene media = 1000(0.50) = 500 y desv. est. 1000(0.016) = 16 (como en un ejemplo anterior en p. 11)

  27. Consecuenciapráctica: Este capítulopresentaresultadosteóricosacerca de la dispersión (y forma) de lasdistribucionesmuestrales, peroestoimplicacómo, en la práctica, los diferentesestudios en el mismotemapuedenvariar de estudio a estudio (y, por lo tanto, qué tan precisocadaestudiotiende a ser) • Ejemplo: Túplaneasunamuestra de 200 personas paraestimar la proporciónpoblacionalqueestá a favor de un sistema de saludpúblico. Otrospuedenestarhaciendo lo mismo. Cómovariarán los resultados entre los estudios (y qué tan precisos son susresultados)? • La distribuciónmuestral de la proporciónmuestral a favor del sistema de saludpúblicotiene un error estándarque describe la variabilidad de estudio a estudio.

  28. Ejemplo Muchosestudiantestomanunamuestra de n = 200 paraestimarproporciónpoblacional • Lanzarunamoneda 200 vecessimula el procesocuando la proporciónpoblacional = 0.50. • En teoría, hemosvistoque la proporciónmuestralvaría de estudio a estudio (esdecir, de estudiante a estudiante) alrededor de 0.50 con un error estándar de 0.035 • Evidenciaempírica: Tomé los datosqueustedesgeneraron y calculéque el conjunto de todaslasproporcionesmuestrales (0.515 = 103/200, 0.470 = 94/200, etc.) tieneuna media de 0.488 y unadesviaciónestándar de 0.028. (OK, hicetrampa y borré un outlier de 0.67) • Forma? Parecida a forma de campana. Porqué?

  29. Teorema Central del Límite • Teorema Central del Límite: Para muestreoaleatorio con n “grande”, la distribuciónmuestral de la media muestraltieneaprox. unadistribución normal • Es aprox. normal sin importar la forma de la distribuciónpoblacional • Qué tan “grande” debe de ser n depende de qué tan asimétricasea la distribuciónpoblacional, perousualmente n ≥ 30essuficiente • Puedeverificarseempíricamente, haciendosimulaciones con el applet de “sampling distribution” en www.prenhall.com/agresti

  30. Ejemplo Muestraaleatoria de 100 estudiantesseleccionadosparaestimar la proporciónquehanparticipado en actividad A. Encuentra la probabilidad de la proporciónmuestralcaiga entre 0.04 de la proporciónpoblacional, si la proporciónpoblacional = 0.30 (esdecir, entre 0.26 y 0.34) y = 1, sí y = 0, no µ =  = 0.30 • Por el TCL, distribuciónmuestral de la media muestral (la proporción de “sí”) esaprox. normal con • media = 0.30, • error estándar =

  31. 0.26 tiene valor-z = (0.26 - 0.30)/0.0458 = -0.87 • 0.34 tiene valor-z = (0.34 - 0.30)/0.0458 = 0.87 • P(media muestral≥ 0.34) = 0.19 • P(media muestral ≤ 0.26) = 0.19 • P(0.26 ≤ media muestral ≤ 0.34) = 1 – 2(0.19) = 0.62 La probabilidades 0.62 que la proporciónmuestralcaiga a 0.04 de la proporciónpoblacional

  32. Ejemplo Lanzamiento de monedas, n = 200 porestudiante • Si la probabilidad de águila = 0.50, entonces la proporciónmuestral de águilas en 200 lanzamientosvaría de estudiante a estudiante de acuerdo a unadistribución normal con • media = 0.50, y • error estándar 0.035 (¿cómo?) • Seríainusualque la proporción de águilasestuvierapordebajo de 0.40 o porarriba de 0.60 (porqué?) • Cómocambiaría el intervalo de valoresfactibles (0.40, 0.60) a medidaquen crece? (p.ej., n = 1000 en unaencuesta)

  33. No se dejen “engañarporaleatoriedad” • Hemosvistoquealgunascosas son muypredecibles (esdecir, qué tan cerca la media muestralcae de la media poblacional, parauna n determinada) • Pero, en el cortoplazo, aleatoriedad no es “regular” comounoesperaría (Por lo general, yopuedepredecirquién “falsificó” los lanzamientos de monedas • En 200 lanzamientos de unamonedabalanceada, • P(la secuenciamáslarga de Carasconsecutivas < 5) = 0.04 • La distribución de probabilidad de Carasconsecutivastieneµ = 7 • Implicaciones: deportes (ganar/perder, éxito/fracaso individual), mercado de accionessube o bajadía con día, …

  34. Algunoscomentarios • Consecuencia del TCL: Cuando el valor de una variable esresultado de promediarmuchasinfluenciasindividuales, ningunadomina, la distribuciónesaprox. normal (p.ej., coef. intelectual, presión arterial) • En la práctica, no conocemosµ, peropodemosusar la dispersión de la distribuciónmuestralcomo base para la inferencia de parámetrosdesconocimos (veremoscómo en los próximos dos capítulos) • Ahorapodemosdiscutirtrestipos de distribuciones:

  35. Distribución de la población – descritaporparámetros tales comoµ, σ (generalmentedesconocidos) • Distribución de la muestra – descritaporestadísticas de la muestra tales como media muestral , desviaciónestándars • Distribuciónmuestral de unaestadística– distribuciones de la probabilidad de los posiblesvalores de la estadísticamuestral; determina la probabilidadqueunaestadísticacaigadentro a ciertadistancia del parámetropoblacional (gráficomostrandodiferencias)

  36. Ejemplo (categórica): Encuestasobresistema de salud • Estadística = proporciónmuestralqueestá a favor del plan de sistema de saludpropuesto • Cuáles (1) la distribuciónpoblacional, (2) distribución de la muestra, (3) distribuciónmuestral? • Ejemplo (cuantitativa): Experimentosobre el impacto de uso de celular en tiempos de reacción • Estadística =media muestral del tiempo de reacción • Cuáles (1) la distribuciónpoblacional, (2) distribución de la muestra, (3) distribuciónmuestral?

  37. Por el Teorema Central del Límite (opciónmúltiple) • Todaslas variables tienenaprox. distribucionesmuestralesnormalessiunamuestraaleatoriatiene al menos 30 observaciones • Distribucionespoblacionales son normalescuando el tamaño de la poblaciónesgrande (al menos 30 observ.) • Para muestrasgrandes, la distribuciónmuestral de la media muestralesaprox. normal, sin tomar en cuenta la forma de la distribuciónpoblacional • La distribuciónmuestral se parecemás a la distribuciónpoblacionalsi el tamaño de muestraaumenta • Todaslasopcionesanteriores

More Related