1 / 125

Técnicas graficas de exploración de datos

Estadística en el laboratorio. Técnicas graficas de exploración de datos. Técnicas graficas de exploración. Histogramas Gráfico de barras que representa una distribución de frecuencia.

ayasha
Télécharger la présentation

Técnicas graficas de exploración de datos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Estadística en el laboratorio Técnicas graficas de exploración de datos

  2. Técnicas graficas de exploración • Histogramas • Gráfico de barras que representa una distribución de frecuencia. • La altura de cada una de las barras representa la frecuencia de la observación identificada en el eje horizontal (x).

  3. Técnicas graficas de exploración • Histogramas

  4. Técnicas graficas de exploración • Gráfico de probabilidades • Es un histograma que muestra el número de veces que un resultado dado estuvo dentro de un rango específico, centrado alrededor de un valor medio.

  5. Técnicas graficas de exploración • Gráfico de probabilidades

  6. Técnicas graficas de exploración • Correlaciones • Nos ayuda a determinar si dos variables aleatorias son interdependientes. • Resulta de interés el conocer si existen alguna relación entre nuestra variables. • La herramienta estadística para este tipo de análisis son las correlaciones. • El método más común se basa en el coeficiente de Pearson.

  7. Técnicas graficas de exploración • Correlaciones

  8. Técnicas graficas de exploración • Correlaciones

  9. Apliquemos la estadística Hagamos un Ejercicio

  10. Ejercicio 1: Evaluemos un método • Pensemos en la comparación de un nuevo método de análisis con uno tradicional • La pregunta es: ¿Cuál es el mejor? • Mejor: menor error, menor límite de detección, menor tiempo de análisis, etc. • ¿Cómo lo haría? • ¿Por donde partimos?

  11. Ejercicio 1: Evaluemos un método • Resulta claro que es necesario un diseño experimental. • Sin embargo, en base a su diseño: • ¿Ha logrado comparar el desempeño de ambos métodos para el análisis de la muestra? • O • ¿Ha logrado comparar el desempeño del analista para el uso de ambos métodos? (Dado que es claro que el analista poseía más experiencia en su método que en el tradicional) • De aquí la importancia de realizar los experimentos con un adecuado diseño.

  12. Química y ciencia • La ciencia práctica no debe iniciar con la colección de datos, sino con una hipótesis acerca de un problema o técnica. • La data a ser colectada deber ser relevante para responder al problema o probar la hipótesis. • Una mala selección de los parámetros a evaluar resultará en un costo innecesario. • Un experimento correctamente realizado, nos permite identificar parámetros redundantes que serán omitidos en futuros análisis.

  13. Calidad de resultados • La calidad de cualquier resultado es dependiente de la muestra utilizada. • No existe técnica estadística que “recupere” un dato mal levantado. • El resultado de cualquier análisis estadístico es solo tan bueno como la calidad de los datos utilizados. • De aquí la importancia de contar con una muestra representativa y un adecuado diseño. • En casos donde el diseño experimental no es aplicable (ej. monitoreo ambiental), la muestra debe ser representativa del sistema.

  14. Calidad de resultados • Entonces, la pregunta inicial sería: • ¿Cuál es el propósito del experimento, y qué propongo como resultado? • Pregunta que deberá ser transformada en una hipótesis. • Finalmente la hipótesis deberá ser evaluada en base a técnicas estadísticas apropiadas e identificadas a priori.

  15. Calidad de resultados • Sin embargo, siempre es posible “torturar” sus datos, a fin de “escuchar” lo que desean. • Sin embargo, resultados obtenidos en base a una “tortura” estadística suelen ser difíciles de defender ante expertos (eg. transformaciones). • Mucho mejor cuando un correcto diseño y adecuados métodos son utilizados para dejar “hablar” por sí solos a sus datos.

  16. Evaluación estadística de datos Fuentes de error

  17. Fuentes de error • Una vez realizado el análisis químico, el resultado final será un valor, que predominantemente cuantifica los niveles de un parámetro de interés. • Sin embargo, ése valor está sujeto a variables que pueden incidir en su magnitud (i.e. fuentes de error). • Por tal motivo, consientes de la variabilidad en la naturaleza, es necesario contar con una medida de ese error o incertidumbre en la medida.

  18. Fuentes de error • Es importante también no sólo conformarse con el resultado arrojado por la estadística, sino también confrontar ese resultado con la población de la cual fue obtenido. • Ej. Se calcula el promedio de la estatura de los estudiantes del presente curso, y se determina una media de 296 cm. • ¿Lo aceptamos? • Es necesario confrontar ese valor con lo que nosotros observamos en base a un criterio experto en la población.

  19. Principales tipos de error • Los científicos generalmente consideran tres tipos de error: • Errores groseros o accidentales • Errores sistemáticos • Errores aleatorios.

  20. Principales tipos de error • Errores groseros • Causados por un daño en el equipo tales como fallas de voltaje, daño en la lámpara, contaminación severa de la muestra, soluciones contaminadas, etc. • Un error de este tipo en el experimento DEBE anular completamente los resultados • Sin embargo, ¿cómo los detectamos si no contamos con una réplica?

  21. Principales tipos de error • Errores sistemáticos: • Debidos a imperfecciones en el procedimiento, que conllevan un bias en la data (ej. datos superiores o inferiores) • Surgen por pobre calibración de instrumentos o uso incorrecto de la vidriería para medición de volúmenes. • Este tipo de errores pueden ser constantes o proporcionales. • Generalmente de fácil detección por medios gráficos (ej. recta de calibración). • Difíciles de detectar cuando existen errores sistemáticos positivos y negativos !

  22. Principales tipos de error • Principales tipos de errores sistemáticos: • De muestreo, en cuyo caso la muestra no es representativa de la población • Error del método, debido a sus limitaciones • Errores de medida, debido a la tolerancia de los instrumentos utilizados (ej. 25mL +/- 0.03mL) • Errores personales, debido a los sesgos introducidos por el analista

  23. Principales tipos de error • Principales tipos de errores sistemáticos: • Error sistemático constante, cuyo valor es igual en todas las muestras. • Error sistemático proporcional, cuyo valor depende de la cantidad de muestra analizada

  24. Principales tipos de error • Errores aleatorios (o ruido): • Generan resultados dispersos alrededor del valor promedio. • Mientras mayor la aleatoriedad mayor la dispersión. • Generalmente no tenemos control sobre ellos. • Pudiendo afectar la precisión (Reproductibilidad) de los resultados experimentales. • Nuestro objetivo: reducirlos. • La precisión es determinada a partir de réplicas.

  25. Algunos términos comunes • Generalmente referidos en laboratorio: • Exactitud • Precisión • Dentro de rachas (Within-run) • Entre rachas (Between-run) • Repetitividad • Reproducibilidad

  26. Algunos términos comunes • Exactitud: • Decimos que un resultado es exacto cuando las mediciones realizadas son cercanas al valor real (patrón). • La ISO define exactitud como el grado de concordancia entre el resultado de un ensayo y el valor de referencia aceptado del analito. • Esto implica que los errores sistemáticos son mínimos.

  27. Algunos términos comunes • Precisión: • Decimos que un análisis es preciso cuando las mediciones realizadas poseen una pequeña dispersión de sus valores. • Por lo tanto, es una medida de la reproducibilidad. • Es decir que los errores aleatorios son mínimos.

  28. Algunos términos comunes • Within-run: • Conjunto de mediciones realizadas en secuencia en el mismo laboratorio utilizando el mismo equipo.

  29. Algunos términos comunes • Between-run: • Conjunto de mediciones realizadas en diferentes ocasiones, posiblemente en diferentes laboratorios y bajo diferentes circunstancias

  30. Algunos términos comunes • Repetitividad: • Una medida de la precisión de dentro de rachas (within-run). • Reproducibilidad: • Una medida de la precisión de entre rachas (between-run).

  31. Evaluación estadística de datos Precisión y exactitud

  32. Precisión y exactitud • Para la química analítica, es vital realizar mediciones analíticas que provean resultados precisos y exactos. • Incluso, la calidad de la información puede ser evaluada mediante su precisión y exactitud. • La exactitud puede ser definida como la habilidad del resultado medido de ser igual al valor verdadero en la data [E= x̄-  ].

  33. Midiendo la exactitud y la precisión • Exactitud: • Evaluada en base al valor promedio. • Precisión: • Evaluada en base a la desviación estándar.

  34. Midiendo la exactitud y la precisión • Cuatro principales escenarios de precisión y exactitud para los resultados:

  35. Midiendo la exactitud y la precisión • En química analítica, se suele dar prioridad a la precisión más que a la exactitud. • Los resultados obtenidos con precisión podrían ser corregidos mediante comparación con estándares. • En cambio, resultados con baja precisión no pueden ser corregidos posteriormente.

  36. Midiendo la exactitud y la precisión • ¿Cómo evaluar la precisión de mis resultados? • La desviación estándar provee una medición útil de la dispersión de mis resultados alrededor de un valor central (¿y la forma de la distribución?). • Sin embargo, a fin de evaluar la precisión de los resultados se puede recurrir a las distribuciones de frecuencia. • Mientras más amplia sea la distribución, menor será la precisión de los resultados. • Se suele asumir que datos correctamente colectados presentarán una distribución normal, lo cual nos permite el posterior uso de modelos estadísticos basados en esta distribución (normal).

  37. Midiendo la exactitud y la precisión

  38. Midiendo la exactitud y la precisión • A fin de graficar un histograma que refleje la distribución de mis resultados, necesitaré una gran cantidad de datos (i.e. 500 observaciones). • Sin embargo, puedo hacer uso del teorema del límite central: • Un conjunto de datos (resultados) presentarán la misma distribución que la de la población a la que pertenecen. • Conforme el tamaño de la muestra se incrementa, los datos se aproximarán más a un distribución normal.

  39. Evaluación estadística de datos distribución de probabilidades

  40. Distribución normal • Obtenida al graficar una distribución de probabilidad en base a una gran cantidad (infinita) de observaciones. • Su forma y simetría alrededor de la media es función de la desviación estándar. • Independientemente de su media y desviación estándar, es siempre cierto que aproximadamente: • 68% de las observaciones recaen entre +/- 1 DS a partir de la media. • 95% de las observaciones entre +/- 2 DS. • 99.7% entre +/- 3 DS.

  41. Distribución normal • Responde a la fórmula:

  42. La Distribución normal estándar • Por conveniencia, la distribución normal puede ser transformada a una distribución normal estándar en términos de z, donde: • Y considerando: • Media ()= 0 • Desviación estándar ()= 1 • Donde:

  43. La Distribución normal estándar • De esta manera, conociendo  y , y asumiendo que dicha variable posee una distribución normal, es posible calcular (z) • Así, se puede determinar el área bajo la curva de la distribución.

  44. La Distribución normal estándar

  45. La Distribución normal estándar • Ejemplo: • Si las medidas repetidas de una valoración se distribuyen de forma normal con media de 10.15 mL y desviación estándar de 0.02 mL, encuentre: • La proporción de medidas que serán inferior a 10.20 mL. • La proporción de medidas que serán inferiores a 10.12 • La proporción de medidas que estarán entre 10.12 mL y 10.20 mL.

  46. Evaluación estadística de datos El problema de las muestras pequeñas

  47. La distribución t • La Distribución t • Nunca podremos muestrear a todos los representantes de la población. • Necesidad de estimar la  y la  de la población N en base a una muestra de tamaño n. • De aquí: •   x̄ •  s

  48. La distribución t • Sin embargo, toda estimación conlleva una incertidumbre. • La incertidumbre en la estimación de  y dependerá del tamaño de la muestra. • Es por esto que la distribución t [o (t)] nos sirve para “ajustar” esa incertidumbre en función de n. • Cuando n es pequeña (ej. 3 o 5) la incertidumbre es mayor que cuando n es grande (ej. 30 a 50).

  49. La distribución t • Ahora, el valor de  puede ser estimado a partir de x̄ mediante: • Donde: • sx̄ es la desviación estándar de la muestra • t/2 es el valor de t para el nivel de confianza deseado (ej. 95%) y con cierto número de grados de libertad (n - 1). • Obteniéndose un rango de posibles valores de .

More Related