1 / 44

Curso de Estadística Básica

Curso de Estadística Básica. SESION 6 ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS DE DOS VARIABLES. MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez. Objetivo.

Télécharger la présentation

Curso de Estadística Básica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Curso de Estadística Básica SESION 6 ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS DE DOS VARIABLES MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez

  2. Objetivo • Representar datos de dos variables de forma tabular y gráfica. Comprender la distinción entre los propósitos básicos del análisis de correlación y regresión lineal. (Sesión 6 y 7)

  3. Agenda Sesión 6 • Datos de dos variables • Correlación lineal (Sesión 6) • Regresión lineal (Sesión 7) • Evaluación (Sesión 7)

  4. Casos • A medida que una persona crece, por lo general aumenta de peso. Alguien podría preguntar, “¿existe alguna relación entre la estatura y el peso?” • Médicos dedicados a la investigación, prueban fármacos nuevos y obsoletos prescribiendo dosis diferentes en pacientes y observando sus respuestas. Una de las preguntas podría ser, “¿la dosis del medicamento prescrito determina la cantidad de tiempo de recuperación que necesita el paciente?”

  5. Datos de dos variables • Estos datos constan de los valores de dos variables respuesta diferentes que se obtienen del mismo elemento de la población. Cada una puede ser cualitativa o cuantitativa. Como resultado, los datos bivariados pueden formarse mediante tres combinaciones de variable: • Ambas variables son cualitativas (de atributo) • Una variable es cualitativa y otra cuantitativa (numérica) • Ambas variables son cuantitativas

  6. Dos variables cualitativas • Cuando los datos bivariados resultan de dos variables cualitativas, los datos se disponen en una tabla cruzada o de contingencia.

  7. Ejemplo • Treinta estudiantes de una Universidad fueron identificados y clasificados aleatoriamente según dos variables: • Género (M/F) • Especialización (Filosofía y Letras, Administración de Empresas, Tecnología) • A continuación se muestran los datos en la tabla:

  8. Tabla cruzada Estos datos pueden resumirse en una tabla cruzada o de contingencia de 2 x 3 donde se presenta la frecuencia para cada categoría cruzada de las dos variables junto con los totales por renglón y por columna denominados totales marginales (o marginales). El total de los totales marginales es el gran total y es igual a n, el tamaño de la muestra.

  9. Tabla cruzada

  10. Frecuencias relativas Las tablas de contingencia a menudo presentan porcentajes (frecuencias relativas). Estos porcentajes pueden estar basados en toda la muestra o en las clasificaciones de la submuestra (renglones o columnas).

  11. Porcentajes basados en el gran total (toda la muestra) • La tabla de contingencia puede convertirse fácilmente en porcentajes del gran total, al dividir cada frecuencia entre el gran total y multiplicar por 100 el resultado.

  12. Porcentajes basados en el gran total • Con la tabla de contingencia expresada en porcentajes puede verse fácilmente que el 60% de la muestra son hombres, 40% mujeres, 30% están especializándose en tecnología, etc.

  13. Porcentajes basados en los totales por renglón • Los elementos de la misma tabla de contingencia pueden expresarse como porcentajes de los totales por renglón (o género), al dividir cada elemento del renglón entre el total de éste y multiplicar por 100 el resultado.

  14. Porcentajes basados en los totales por renglón • En la tabla anterior se observa que el 28% de los hombres están especializándose en Filosofía y Letras, mientras que el 42% de las mujeres están especializándose en la misma área.

  15. Porcentajes basados en los totales por columna • Los elementos de la tabla de contingencia también pueden expresarse como porcentajes de los totales por columna (o especialización), al dividir cada elemento de la columna entre el total de ésta y multiplicar por 100 el resultado.

  16. Porcentajes basados en los totales por columna • Con base en la tabla anterior, se observa que de todos los estudiantes de Filosofía y Letras, la mitad son hombres y la otra mitad son mujeres.

  17. Una variable cualitativa y otra cuantitativa • Cuando los datos bivariados se obtienen de una variable cuantitativa y otra cualitativa, los valores cuantitativos se consideran como muestras ajenas, cada una identificada por niveles de la variable cualitativa. Se aplica la estadística descriptiva vista en sesiones anteriores como, la media, varianza, desviación estándar, Q1, mediana, Q3, etc., y los resultados se presentan uno junto al otro para efectos de comparación.

  18. Ejemplo • Para comparar la capacidad de frenado de tres diseños de bandas de rodamiento, se midió la distancia necesaria para detener un automóvil de 3000 libras que se desplazaba sobre pavimento húmedo. Los neumáticos de cada diseño fueron probados en el mismo vehículo que circulaba sobre un pavimento húmedo controlado.

  19. Nota • El diseño de la banda de rodamiento es una variable cualitativa con tres niveles de respuesta y la distancia de frenado es una variable cuantitativa. La distribución de las distancias de frenado del diseño A, de la banda de rodamiento, debe compararse con las distribuciones de las distancias de frenado de cada uno de los diseños de la banda. Esta comparación puede efectuarse aplicando técnicas numéricas y gráficas.

  20. Resumen de cinco puntos para cada diseño

  21. Dos variables cuantitativas • Cuando los datos bivariados son resultado de dos variables cuantitativas, los datos matemáticos suelen expresarse como pares ordenados (x, y), donde x es la variable de entrada (variable independiente) y y es la variable de salida (variable dependiente). • En los problemas en que intervienen dos variables cuantitativas, los datos de la muestra se presentan gráficamente en un diagrama de dispersión

  22. Diagrama de dispersión • Es la gráfica de todos los pares ordenados de datos de dos variables que están en un sistema de ejes coordenados . La variable de entrada, x, se grafica en el eje horizontal y la variable de salida, y, se grafica en el eje vertical.

  23. Ejemplo • En la clase de educación física del señor Torres, se tomaron varios puntajes de condición física. La muestra siguiente es el número de “lagartijas” y “sentadillas” realizadas por 10 estudiantes elegidos aleatoriamente: • En la siguiente tabla se presentan estos datos muestrales y un diagrama de dispersión de los datos

  24. Correlación Lineal • El objetivo primordial del análisis de correlación lineal es medir la intensidad de una relación lineal entre dos variables. Se aplica en datos cuantitativos que muestran diferentes relaciones entre variables independientes o de entrada, x, y variables dependientes o de salida, y. Si a medida que crece x no hay un cambio definido en los valores de y, se dice que no hay correlación o relación entre x y y. Si a medida que crece x, hay un cambio en los valores de y, existe una correlación. La correlación es positiva cuando y tiende a crecer, y es negativa cuando y tiende a decrecer. Si los pares ordenados (x, y) tienden a seguir un patrón de línea recta, se tiene una correlación lineal. La precisión del cambio en y cuando crece x, determina la intensidad de la correlación lineal.

  25. Coeficiente de correlación lineal • El coeficiente de correlación lineal r, es la medida numérica de la intensidad de la relación lineal entre dos variables. El coeficiente refleja la consistencia del efecto que el cambio en una variable tiene sobre la otra. Este valor ayuda a responder a la pregunta ¿Existe una correlación lineal entre las dos variables en consideración? El coeficiente de correlación lineal, r, siempre tiene un valor entre -1 y +1. Un valor de +1 significa una correlación positiva perfecta, y un valor de -1 indica una correlación negativa perfecta.

  26. Cálculo de r • El valor de r está definido por la fórmula producto momento de Pearson: Donde: Son las desviaciones estándar de las variables x y y

  27. Cálculo de r • El valor de r se puede calcular con una fórmula alternativa equivalente al momento de Pearson como: Donde:

  28. Ejemplo • Encuentre el coeficiente de correlación lineal para los datos de “lagartijas” y “sentadillas” mostrados anteriormente. • Solución: • Primero, es necesario, elaborar una tabla de extensiones enumerando todos los pares de valores (x, y) para poder encontrar las extensiones x2, xy y y2, así como los totales en cada una de las cinco columnas.

  29. Tabla de extensiones

  30. Cálculos • A continuación se realizan los preliminares, sustituyendo las cinco sumatorias de la tabla de extensiones en sus correspondientes fórmulas:

  31. Cálculo de r • Finalmente se sustituyen las tres sumas de cuadrados en el cálculo de r y se obtiene el valor del coeficiente de correlación. Nota: El valor de r suele redondearse a la centésima más próxima

  32. Conclusión • El valor del coeficiente de correlación lineal calculado ayuda a responder a la pregunta: “¿existe una correlación lineal entre las dos variables en consideración?”. Cuando el valor calculado de r está próximo a cero, se concluye que hay poca correlación lineal o que no hay correlación lineal. A medida que el valor calculado de r cambia de 0 a +1 ó -1, indica una correlación lineal cada vez más fuerte entre las dos variables. • Desde el punto de vista gráfico, al calcular r, se mide qué tan bien una recta describe el diagrama de dispersión de los pares ordenados. Cuando el valor de r cambia de 0 a +1 ó -1, los puntos de datos que crean un patrón se acercan más a una recta.

  33. Estimación visual del coeficiente de correlación lineal • El siguiente método para estimar r es rápido y en general produce un estimado razonable cuando la “ventana de datos” es aproximadamente cuadrada. • Procedimiento • Coloque dos lápices sobre su diagrama de dispersión. Manténgalos paralelos y muévalos de modo que estén lo más cerca posible, de modo que todos los puntos del diagrama de dispersión están entre ellos. • Visualice una región rectangular acotada por los dos lápices y que termina de manera justa en los puntos extremos del diagrama de dispersión.

  34. Ventana de datos

  35. Estimación visual del coeficiente de correlación lineal • Estime cuántas veces más largo que ancho es el rectángulo. Una forma fácil de hacerlo es marcar mentalmente cuadrados en el rectángulo. Denomine k a este número de múltiplos. k=2.5

  36. Estimación visual del coeficiente de correlación lineal • El valor de r puede estimarse como: • El signo de r se determina por la posición general del largo de la región rectangular. Si el largo está en posición creciente, r es positivo; si está en posición decreciente, r es negativo. Si el rectángulo está en posición horizontal o vertical, entonces r es cero, sin importar la razón del largo al ancho.

  37. Estimación de r para la relación entre el número de lagartijas y sentadillas k=4

  38. Cálculo de r

  39. Coeficientes de correlación lineal

  40. Problema • Suponga que la compañía Trigos Excelentes, S.A. le haya pedido a varios de sus representantes regionales trabajar tiempo extra para incrementar las ventas. Usted no está convencido de que el tiempo extra sea necesario, ni que las horas extras estén correlacionadas con el incremento de ventas. La siguiente tabla de datos muestra el número de horas mensuales que los representantes trabajaban anteriormente junto con el promedio de ventas. La tabla de datos también muestra el incremento de horas y las nuevas ventas. Compare el incremento de horas con el incremento de ventas para determinar si están correlacionados.

  41. Problema

More Related