1 / 89

CURSO DE ESTADÍSTICA AVANZADA

CURSO DE ESTADÍSTICA AVANZADA. SESIÓN 2 REGRESIÓN LINEAL SIMPLE. 2. II. 2.1 Introducción a la regresión 2.2 Modelo de regresión 2.3 Errores comunes de la regresión . II. 2. 2.1 INTRODUCCIÓN A LA REGRESIÓN. 2.2 MODELO DE REGRESIÓN. 2.3 ERRORES COMUNES DE LA REGRESIÓN.

mae
Télécharger la présentation

CURSO DE ESTADÍSTICA AVANZADA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CURSO DE ESTADÍSTICA AVANZADA

  2. SESIÓN 2REGRESIÓN LINEAL SIMPLE 2 II 2.1 Introducción a la regresión2.2 Modelo de regresión2.3 Errores comunes de la regresión

  3. II 2 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN RECORDATORIO… ¿PARA QUÉ SIRVE EL ANOVA? variable independiente Para comprobar si una variable con más de dos categorías (“factores”) tiene relación con una segunda variable que es cuantitativa variable dependiente • A esta segunda variable que supone la respuesta al factor se le llama variable dependiente • Pretendemos demostrar que depende de la otra variable (factor) El factor es, por lo tanto, la variable independiente

  4. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN RECORDATORIO… LA REGRESIÓN VIENE A RESOLVER ESTOS DOS PROBLEMAS Hay dos problemas que no se pueden solucionar con el análisis de la varianza: El ANOVA se queda corto 1 ¿Cuánto aumenta la variable dependiente por cada unidad de aumento de la independiente? Indica si hay o no una asociación estadística entre dos variables, pero no define exactamente cuál es la magnitud de esa relación Hay factores que tienen tantas categorías que realmente se parecen más a una variable cuantitativa, o puede que nos interese usar como variable independiente una variable que es cuantitativa 2

  5. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN • Como hemos visto, la correlación sirve para medir la fuerza con que están asociadas dos variable cuantitativas • Esa fuerza se expresa con un número COEFICIENTE DE CORRELACIÓN La regresión sirve para detallar más… Está dirigida a describir de una manera más completa cómo es la relación entre ambas variables… …de tal manera que se puede predecir (con un cierto margen de error) cuál va a ser el valor de una variable una vez que se sabe el valor de la otra

  6. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN Esta predicción puede ser bastante imprecisa Si la asociación entre ambas variables es débil La regresión nos ofrece un modelo estadístico que puede alcanzar finalidades predictivas Pero cuando la asociación es fuerte…

  7. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN variable indepediente o predictora La regresión supone que hay una variable fija, controlada por el investigador y otra variable que no está controlada La regresión supone que hay una variable fija, controlada por el investigador y otra variable que no está controlada La regresión supone que hay una variable fija, controlada por el investigador y otra variable que no está controlada variable de respuesta o depediente La correlación supone que ninguna variabe es fija, las dos están fuera del control del investigador

  8. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN La regresión en su forma más sencilla se llama regresión lineal simple Técnica estadística que analiza la relación entre dos variables cuantitativas, tratando de verificar si dicha relación es lineal Sin embargo, a diferencia de lo que ocurría con la correlación, ahora no se puede considerar que ambas variables tengan un papel simétrico

  9. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN En la regresión, cada una de las dos variables desempeña una función diferente y en consecuencia tienen una consideración distinta: variable respuesta A la variable respuesta se le llama variable dependiente y ocupa el eje de ordenadas (eje vertical o de la ”y”) A la variable predictora o “causa” se le denomina variable independiente y ocupa el eje de abcisas (eje horizontal) variable predictora Suele ser un factor previamente determinado o una característica más fácil de medir que la que se pretende explicar a partir de ella

  10. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN ALGUNAS ACLARACIONES… • La correlación y la regresión tienen distintas finalidades • Es bastante raro que esté indicado aplicar simultáneamente ambas técnicas para alcanzar los objetivos de un determinado análisis estadístico • Con frecuencia se confunden ambas técnicas y se piensa que son una sola

  11. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN OBJETIVO DE LA CORRELACIÓN Medir el grado o fuerza de la asociación entre dos variables cuantitativas A través del coeficiente de correlación No estima la bondad del ajuste de unos datos a un modelo OBJETIVO DE LA REGRESIÓN Buscar la línea que mejor se ajusta a los puntos

  12. 2 II EJERCICIO REACCIÓN DE UN ALÉRGENO EN FUNCIÓN DE DISTINTAS DOSIS DE UN PRODUCTO

  13. 2 II Los datos de nuestra muestra serían los siguientes:

  14. 2 II 1er Paso: Diagrama de Dispersión

  15. 2 II 1er Paso: Diagrama de Dispersión

  16. 2 II Obtenemos el siguiente resultado… ¿Qué está pasando? ¿Cuál es el problema?

  17. 2 II Obtenemos el siguiente resultado… ¿Qué está pasando? ¿Cuál es el problema? Dispersión de los datos: los datos están muy separados Por eso no se observa ninguna tendencia ¿QUÉ HACER? Aplicamos transformaciones logarítmicas Es una opción siempre que tengamos datos dispersos

  18. 2 II Los datos para la regresión serían por tanto:

  19. 2 II El Diagrama de Dispersión obtenido ahora es: Ahora sí se intuye una relación

  20. 2 II 2º Paso: Estudio de Correlación

  21. 2 II 2º Paso: Estudio de Correlación Correlaciones ** La correlación es significativa al nivel 0,01 (bilateral). ¿Puedo calcular una recta de regresión lineal?

  22. 2 II 3er Paso: Cálculo de la Recta de Regresión

  23. 2 II 3er Paso: Cálculo de la Recta de Regresión

  24. 2 II RESULTADOS (I)

  25. 2 II RESULTADOS (II) La recta de regresión sería: CTs-BCRABL=41,343-3,943*logx

  26. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN EJEMPLO El ejemplo más intuitivo es cómo se relacionan la talla y la edad Por cada incremento de edad (por lo menos hasta los 25 años) se produce un incremento de altura. Es decir… y = a + b*x pendiente: incremento de y por cada unidad de incremento de x constante llamada ordenada en el origen (en nuestro caso: cuánto mediría un recién nacido) (en nuestro caso: cuántos centímetros crece un niño al año)

  27. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN EJEMPLO Sin embargo, a pesar de ser este un modelo de fácil comprensión, tiene errores… Nunca será posible hacer predicciones perfectas de la estatura que tendrá un niño una vez que se conoce su edad Aunque la edad tiene un efecto importante sobre la estatura, este efecto está afectado por un cierto grado de variabilidad aleatoria

  28. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN EJEMPLO Las observaciones de dos variables no suelen trazar una línea recta perfecta sino que existe un cierto grado de dispersión entorno a una imaginaria línea recta que los atravesaría por el centro y = a + b*x + e error residual: expresa el desajuste de los datos respecto al modelo lineal • es una cantidad variable de un sujeto a otro y puede ser positiva o negativa • equivale a lo que habría que añadir o quitar a la predicción que hace el modelo para que coincida exactamente con lo observado en cada sujeto e

  29. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN La ecuación anterior nos plantea una serie de preguntas… ¿Hasta qué punto es importante ese error? ¿Qué porcentaje de la variabilidad en la talla puede ser explicado por efecto de la edad y cuál no es explicado? Para resolver estos interrogantes nos adentramos en los modelos de regresión

  30. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN COEFICIENTE DE DETERMINACIÓN R2 Coeficiente muy importante en regresión, ya que compara lo explicado por la regresión lineal con la variabilidad total R2 Porcentaje de la variabilidad total de la variable dependiente que es explicada por la variable independiente INTERPRETACIÓN

  31. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN COEFICIENTE DE DETERMINACIÓN R2 Los posibles valores para R2 van desde 1, que es el máximo, a 0 que es el mínimo VALORES La recta daría una explicación perfecta, es decir, los valores de “y” están totalmente determinados por la “x” +1 La recta no explica nada, es decir, no existe asociación entre “x” e “y” 0

  32. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN COEFICIENTE DE DETERMINACIÓN R2 Los posibles valores para R2 van desde 1, que es el máximo, a 0 que es el mínimo VALORES Cuando más próximo a 1 sea R2 mayor es la fuerza de la asociación entre ambas variables +1 0

  33. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN COEFICIENTE DE DETERMINACIÓN R2 R2 = r La raíz cuadrada de R2 se llama r • Sólo se escribe con mayúscula (R) cuando hay varias variables independientes • Entonces se llama coeficiente de correlación múltiple o R múltiple Esta r es precisamente el coeficiente de correlación de Pearson

  34. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN COEFICIENTE DE DETERMINACIÓN R2 Salvo en los casos extremos de que R2 valga 0 o 1, la magnitud de r es siempre superior a la de R2 para R2 ≠ 0,1  r >R2 Una correlación puede parecer muy buena, por ejemplo r=0,7, y sin embargo el modelo lineal explicaría menos del 50% de lo observado REPERCURSIONES PRÁCTICAS R2 = 0,49

  35. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN ECUACIÓN DE REGRESIÓN El objetivo más importante de un análisis de regresión lineal suele ser el cálculo del valor de la pendiente de la recta b = pendiente de la recta o coeficiente de regresión mide el cambio de la variable “y” por cada unidad de cambio de “x” Su magnitud sirve para predecir en cuánto aumentará “y” cada vez que “x” se incremente en una unidad Su signo puede ser positivo o negativo, y en esto la interpretación coincide con la correlación

  36. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN SUPUESTOS DEL MODELO DE REGRESIÓN Para poder realizar una regresión lineal se deben asumir cuatro supuestos: Normalidad de la distribución condicional de la variable “y” 1 Linealidad 2 Homogeneidad de las varianzas 3 Independencia de las observaciones 4

  37. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN SUPUESTOS DEL MODELO DE REGRESIÓN Para poder realizar una regresión lineal se deben asumir cuatro supuestos: Normalidad de la distribución condicional de la variable “y” 1 Linealidad 2 Se refiere no sólo a que la variable “y” siga una distribución normal, sino que además, para cada valor de “x”, la distribución de posibles valores de “y” también siga una normal Homogeneidad de las varianzas 3 Independencia de las observaciones 4

  38. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN SUPUESTOS DEL MODELO DE REGRESIÓN Para poder realizar una regresión lineal se deben asumir cuatro supuestos: Normalidad de la distribución condicional de la variable “y” 1 Linealidad 2 Homogeneidad de las varianzas 3 Que exista una relación lineal subyacente entre la variable “x” y la variable “y” Independencia de las observaciones 4

  39. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN SUPUESTOS DEL MODELO DE REGRESIÓN Para poder realizar una regresión lineal se deben asumir cuatro supuestos: Normalidad de la distribución condicional de la variable “y” 1 Se conoce como homoscedasticidad Linealidad 2 Homogeneidad de las varianzas 3 Independencia de las observaciones 4

  40. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN SUPUESTOS DEL MODELO DE REGRESIÓN Para poder realizar una regresión lineal se deben asumir cuatro supuestos: Normalidad de la distribución condicional de la variable “y” 1 Linealidad 2 Cada observación de la variable “y” debe ser independiente de las demás Homogeneidad de las varianzas 3 Independencia de las observaciones 4

  41. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN SUPUESTOS DEL MODELO DE REGRESIÓN Un estudio en el que “y” que representa el número de lesiones cutáneas en un brazo POR EJEMPLO Si existiesen pacientes en los que se han estudiado ambos brazos… Hay dos observaciones por paciente que están autocorrelacionadas entre sí ¡No son independientes! Habría que considerar como N al número de pacientes y no al número de brazos POR TANTO…

  42. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN SUPUESTOS DEL MODELO DE REGRESIÓN Número de casos de meningitis en la región en un año OTRO EJEMPLO Puede influir mucho en el número de casos de meningitis del año siguiente Puede decidirse el vacunar a todos los niños porque hubo muchos casos el año anterior

  43. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN SUPUESTOS DEL MODELO DE REGRESIÓN Número de casos de meningitis en la región en un año OTRO EJEMPLO Es decir, el segundo valor “y” no es independiente sino que está condicionado por el primero, el tercero por el segundo y así sucesivamente A este efecto se le llama autocorrelación

  44. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN SUPUESTOS DEL MODELO DE REGRESIÓN Número de casos de meningitis en la región en un año OTRO EJEMPLO La autocorrelación exige aplicar técnicas especiales que se agrupan bajo el concepto de series temporales Estas series se utilizan mucho en economía, y cada vez van teniendo más interés para aplicaciones epidemiológicas

  45. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN REGRESIÓN LINEAL CON SPSS PRIMER PASO Pedir a SPSS un gráfico de dispersión OBJETIVO Apreciar visualmente si se puede asumir un modelo lineal entre ambas variables Cuando la nube de puntos nos sugiera que existe una relación lineal ¿Cuándo ajustaremos una regresión?

  46. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN REGRESIÓN LINEAL CON SPSS Una nube de puntos puede sugerir que no existe ninguna relación b = 0 Si no existe relación… También puede resultar una pendiente de 0 por otro motivo: que haya relación, pero que la relación no sea lineal sino que siga una curva u otro tipo de función PERO…

  47. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN REGRESIÓN LINEAL CON SPSS Por ejemplo, las nubes de puntos pueden tomar formas no lineales como las siguientes:

  48. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN REGRESIÓN LINEAL CON SPSS FORMA DE LA NUBE DE PUNTOS TIPO DE RELACIÓN ECUACIÓN y = a + b*x2 U o J CUADRÁTICA REPRESENTACIÓN GRÁFICA

  49. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN REGRESIÓN LINEAL CON SPSS FORMA DE LA NUBE DE PUNTOS TIPO DE RELACIÓN ECUACIÓN y = a + b*(1/x) HIPÉRBOLA HIPERBÓLICA REPRESENTACIÓN GRÁFICA

  50. 2 II 2.1 INTRODUCCIÓN A LA REGRESIÓN 2.2 MODELO DE REGRESIÓN 2.3 ERRORES COMUNES DE LA REGRESIÓN USOS E INTERPRETACIÓN DE UNA REGRESIÓN LINEAL Una vez que se ha comprobado que tenemos motivos razonables para pensar que no existe una transgresión importante de los supuestos de la regresión lineal… Hemos obtenido una línea recta que relaciona “x” e “y”

More Related