400 likes | 555 Vues
NC STATE UNIVERSITY. Program for North American Mobility in Higher Education Introducing Process Integration for Environmental Control in Engineering Curricula MÓDULO 17: “Introducción al Análisis Multivariable”. Creado por: Ecole Polytechnique de Montreal &
E N D
NC STATE UNIVERSITY Program for North American Mobility in Higher Education Introducing Process Integration for Environmental Control in Engineering Curricula MÓDULO 17: “Introducción al Análisis Multivariable” Creado por: Ecole Polytechnique de Montreal & North Carolina State University, 2003.
Objetivo del Módulo 17 • ¿Cuál es el objetivo de este módulo? • Este módulo provee una introducción al análisis multivariable (multivariate analysis, “MVA”) aplicado a la ingeniería química. Al terminar este módulo el estudiante deberá tener suficientes conocimientos para aplicar este método estadístico a datos reales. • La audiencia a la que está dirigida este módulo es: • Estudiantes de ingeniería de años superiores, y • Ingenieros practicantes, particularmente aquellos en el ámbito industrial.
Prerrequisitos para el Módulo 17 ¿Cuáles son los prerrequisitos para este módulo? Antes de comenzar este módulo, el estudiante debe haber completado el Módulo 8, “Introducción a la Integración de Procesos”. Este módulo incluye conceptos básicos no explicados aquí, notablemente aquellos relacionados a la calidad de los datos. Aplicar el MVA para datos reales, sin comprender la calidad de los datos es una receta para el desastre. El software generará resultados, pero estos pueden carecer totalmente de sentido y ser confusos. Se asume que los estudiantes tienen un nivel introductorio que los respalda en estadística, lo que normalmente sería parte de cualquier programa de estudios de licenciatura de ingeniería.
Estructura del Módulo 17 • ¿Cuál es la estructura de este módulo? • El Módulo 17 está dividido en 3 “tiers” o partes, cada uno con un objetivo específico: • Tier 1: Introducción • Tier 2: Ejemplo resuelto • Tier 3: Problema Open-ended • Se prevé que estos tiers sean completados en orden. Los estudiantes son evaluados en diferentes puntos, para medir su grado de comprensión, antes de proceder. • Cada tier contiene un enunciado de intención al inicio, y un quiz al final.
TIER 1: Introducción
Tier 1: Enunciado de intención • Tier 1: Enunciado de intención: • La meta del Tier 1 es familiarizar al estudiante con los conceptos básicos del análisis multivariable (MVA). Al final de Tier 1, el estudiante debe ser capaz de responder las siguientes preguntas: • ¿Cuál es la diferencia entre estadística univariable y multivariable? • ¿Por qué el MVA es usado en el contexto de integración de procesos? • ¿Cómo se ajusta el MVA a la observación del panorama global (the bigger picture)? • ¿Cuáles son los tipos específicos de análisis MVA? • El Tier 1 también incluye algunas lecturas seleccionadas, para ayudar al estudiante a adquirir conocimiento profundo de este tema. Es imposible “alimentar con cuchara” a alguien sobre técnicas tan complejas como el MVA. El estudiante debe comenzar a indagar sobre el tema de manera independiente desde el inicio.
Tier 1: Contenido El Tier 1 está dividido en dos secciones: 1.1 ¿Para qué se usa el MVA? 1.2 ¿Cómo funciona el MVA? Al final del Tier 1 aparece un breve quiz de opción múltiple.
El Reto de la Integración de Procesos:Dar sentido a masas de datos • Ahogándose en datos! • Muchas organizaciones hoy en día enfrentan el mismo reto: DEMASIADOS DATOS. Estos incluyen: • Negocios – transacciones con los clientes • Comunicaciones – uso de website • Gobierno - inteligencia • Ciencia – datos astronómicos • Farmacéutica – configuraciones moleculares • Industria – datos de proceso • El último punto es el que resulta de interés para nosotros como ingenieros químicos.
Muchos Datos de Proceso… Una planta industrial típica tiene cientos de curvas de control, y miles de variables medidas, muchas de las cuales son actualizadas en lapsos de segundos. Esta situación genera decenas de millones de nuevos puntos de datos cada día, y billones de puntos de datos cada año. Obviamente, esto es demasiado para ser procesado por el cerebro humano. Por la manera en que visualizamos las cosas, estamos básicamente limitados a tratar con una o dos variables a la vez:
Rico en Datos pero Pobre en Conocimiento • Como resultado de esto, nos hemos vuelto “ricos en datos, pero pobres en conocimiento”. • El mayor problema es que patrones y relaciones interesantes y útiles que no son intuitivamente obvias yacen escondidas dentro de las enormes bases de datos. También muchas variables están correlacionadas. • Esto ha llevado a la creación de técnicas de “minería de datos”, orientadas a extraer este valioso conocimiento. Algunos ejemplos son: • Redes Neuronales • Regresión múltiple • Árboles de decisión • Algoritmos genéticos • Agrupación (clustering) • MVA Tema de este módulo “Minería” de datos
Datos Información Conocimiento El objetivo de la minería de datos puede ser ilustrado gráficamente como sigue: Principios científicos Conexión CONOCIMIENTO • Datos • Hechos no relacionados • Información • Hechos mas relaciones • Conocimiento • información mas patrones Asociaciones observadas + patrones INFORMACIÓN + relaciones Números crudos DATOS Comprensión
DENTRO FUERA Modelamiento de Procesos de Principios Primarios Modelo Teórico Los Ingenieros Químicos crean dos tipos de modelos para simular un proceso industrial. El primero de estos es un modelo teórico, que usa Principios Primarios para imitar las entradas del proceso. Estos modelos están basados en una hoja de cálculo de proceso, y cada unidad de operación es modelada por separado: reactores, tanques, mezcladores, intercambiadores de calor, y así sucesivamente. Los balances de masa y de calor son calculados, junto con otros factores termodinámicos. Las reacciones químicas son descritas para mayor claridad, así como son las propiedades físicas de varias corrientes de gases, líquidos y sólidos.
AFUERA ADENTRO Modelamiento de Procesos conducido por Datos Modelo Empírico El segundo tipo de modelo creado por los ingenieros químicos es el modelo empírico o de “caja negra”. Este enfoque usa los datos de proceso de la planta directamente, para establecer correlaciones matemáticas. A diferencia de los modelos teóricos, los modelos empíricos NO toman en cuenta las bases del proceso. Ellos solo usan matemáticas puras y técnicas estadísticas. El MVA es uno de tales métodos, porque revela patrones y correlaciones independientemente de cualquier noción preconcebida. Obviamente este enfoque es muy sensible a “basura dentro, basura afuera” y es por eso que la validación del modelo es tan importante.
¿Qué es MVA? El Análisis Multivariable (Multivariate analysis, MVA) es definido como el análisis simultáneo de mas de cinco variables. Algunas personas usan el término análisis “megavariable” (megavariate) para denotar casos donde hay mas de cien variables. El MVA usa TODOS los datos disponibles para capturar la mayor información posible. El principio básico es cocinar cientos de variables de una sola vez. MVA
El Análisis Multivariable esta Basado en la “Rasuradora de Ockham” Pluralitas non est ponenda sine necessitate. Traducción burda: “No hagas las cosas más complicadas de lo que necesitan ser.” William de Ockham fue un monje inglés que puso una de las piedras angulares del Método Científico con su famosa “rasuradora” (nombrada así porque sirve para cortar las partes innecesarias de una teoría científica). Esencialmente, Ockham, en el siglo 14, se dio cuenta que muy en el fondo, la Naturaleza es simple … William de Ockham (1285-1347)
Ejemplo: Manzanas y Naranjas • Un buen ejemplo de estas ideas es “Manzana contra Naranja”. • A los Científicos ingeniosos se les pudieran ocurrir fácilmente cientos de ideas diferentes para medir en manzanas y naranjas, por ejemplo: • Color, forma, firmeza,… • Piel: suavidad, grosor, morfología,… • Jugo: contenido de agua, pH, composición,… • Semillas: color, peso, tamaño, distribución,… • etc. • Sin embargo, nunca habrá mas de una diferencia: es una manzana o una naranja? En el idioma de MVA diríamos que hay solo unatributolatente. -1 +1
Representación Gráfica del MVA El elemento principal del MVA es la reducción en dimensionalidad. Llevado a su extremo, esto puede significar reducir cientos de dimensiones (variables) a solo dos, permitiéndonos crear una gráfica bidimensional. Usando estas gráficas, que nuestros ojos y cerebros pueden manejar fácilmente, podemos ‘ver’ dentro de la base de datos e identificar tendencias y correlaciones. Esto está ilustrado en la siguiente página… ‘Viendo” dentro de los datos
Representación Gráfica del MVA Modelo Estadístico (interno al software) . . . . . . . . . . . . Datos crudos: imposibles de interpretar Y tendencias tendencias X X tendencias X X Cientos de columnas Miles de renglones Sallidas Visuales en 2-D
Grupo de Datos Ilustrativo: Consumo de Alimentos en Países Europeos Para ilustrar estos conceptos, tomamos un ejemplo fácil de comprender involucrando alimentos. Datos de preferencias alimenticias en 16 países europeos diferentes son considerados, incluyendo los patrones de consumo para 18 grupos de alimentos diferentes. Observa la tabla en la página siguiente. ¿Puedes decir algo de los números crudos? Por supuesto que no. Nadie podría.
Tabla de Datos: Consumo de alimentos en Países Europeos Nota que el MVA puede manejar del 10-20% de los datos faltantes. Courtesy of Umetrics corp.
Gráfica de resultados El software de MVA genera dos tipos principales de gráficas para representar los datos: gráficas de Resultados y gráficas de Cargas. La primera de estas, la gráfica de Resultados, muestra todos los puntos de datos originales (observaciones) en un nuevo grupo de coordinados o componentes. Cada resultado es el valor de ese punto de datos en una de las nuevas dimensiones de componentes: Una gráfica de resultados muestra como las observaciones son arregladas en el nuevo espacio componente. La gráfica de resultados para los datos de alimentos se muestra en la siguiente página. Nota como los países similares se agrupan … La gráfica deresultados es la proyección de los puntos de datos originales en un plano definido por dos nuevos componentes. . . . . . . . . . .
Gráfica de Resultados para el Ejemplo de Alimentos 95% Intervalo de confianza (análogo al examen t) Gráfica de Resultados = observaciones
Gráfica de Cargas El segundo tipo de gráfica de datos generada por el software MVA es Gráfica de Entradas. Este es el equivalente a la gráfica de resultados, solo que desde el punto de vista de las variables originales. Cada componente tiene un grupo de cargas o pesos, que expresa la proyección de cada variable original en cada nuevo componente. Las cargas muestran que tan fuertemente se asocia cada variable con cada nuevo componente. La gráfica de cargas para el ejemplo de alimentos es mostrada en la siguiente página. Mientras más lejos del origen, más significativa la correlación. Nota que los cuadrantes son los mismos en cada tipo de gráfica. Suecia y Dinamarca se encuentran en la esquina superior derecha, asi como el pescado congelado y los vegetales. Usando ambas gráficas, las variables y las observaciones pueden ser correlacionadas entre sí.
¡Demasiados Datos es bueno! Otra analogía es la brújula de juguete usada como premio en una caja de Cracker Jack. Una de estas brújulas por si sola era casi inservible. Sin embargo, si alguien tuviera mil brújulas y tomara un promedio, un resultado útil podría ser obtenido. Hora de Diccionario: Revisa las definiciones de “inducción” y “deducción” …
Análisis Multivariable: Beneficios ¿Cuál es el objetivo de aplicar el MVA? El primer beneficio potencial es explorar las inter-relaciones entre las diferentes variables de proceso. Es bien sabido que simplemente crear un modelo puede proveer información del proceso en si mismo (“Aprender modelando”). Una vez que un modelo representativo ha sido creado, el ingeniero puede ejecutar ejercicios de tipo “ ¿y si?” sin afectar el proceso real. Esta es una manera de bajo costo para investigar opciones. Algunos parámetros importantes, como la calidad final del producto, no pueden ser medidos en tiempo real. Sin embargo, éstos pueden ser inferidos de otras variables que son medidas en-línea. Cuando se ha incorporado en el sistema de control del proceso, este controlador inferencial o “sensor suave” puede mejorar en gran manera el rendimiento del proceso.
Lista de Lecturas No existe una manera “descrita con números” de aprender MVA. Se impulsa a los estudiantes a leer los siguientes artículos, para comenzar a desarrollar un aprendizaje independiente de para que se usa el MVA y como trabaja éste. Después de este curso en línea, la lectura de referencias y de jugar con datos reales, el estudiante debe experimentar en algún punto un momento “¡Eureka!” cuando de pronto el MVA tenga sentido. Desafortunadamente, no existe un atajo para conseguir este aprendizaje: Broderick, G., J. Paris, J.L. Valade and J. Wood. Applying Latent Vector Analysis to Pulp Characterization, Paperi ja Puu, 77 (6-7): 410-419. Saltin, J. F., and B. C. Strand. Analysis and Control of Newsprint Quality and Paper Machine Operation Using Integrated Factor Networks, Pulp and Paper Canada 96(7): 48-51
Lista de Lecturas (continuación) Kooi, S. Adaptive Inferential Control of Wood Chip Refiner, Tappi Journal 77(11):185-194. Kresta, J. V., T. E. Marlin and J. F. MacGregor (1994). Development of Inferential Process Models Using PLS, Computers and Chemical Engineering 18 (7):597-611. Marklund, A. Prediction of Strength Parameters for Softwood Kraft Pulps. Nordic Pulp & Paper Research Journal, 13 (3): 211-219. Tessier, P., G. Broderick, P. Plouffe (2001). Competitive Analysis of North American Newsprint Producers Using Composite Statistical Indicators of Product and Process Performance. TAPPI Journal, 84 (3).
Bases Estadísticas Se asume que el estudiante está familiarizado con los siguientes conceptos estadísticos básicos: • Media / mediana / moda • Desviación estándar / varianza • Normalidad / simetría • Grado de asociación • Coeficiente de correlación • Grado de explicación • R2, examen F • Importancia de las diferencias • Examen t, Chi-cuadrada Si no es así, o lo estuvo hace mucho tiempo, es aconsejable consultar un libro de texto de estadística introductoria y realizar una revisión.
Pruebas Estadísticas • La estadística clásica es severamente obstaculizada por ciertas suposiciones acerca de los datos: • Todos los valores son precisos • Todas las variables son no correlacionadas • No hay faltantes de datos • Para datos de proceso reales, tales suposiciones son totalmente irreales. Las pruebas estadísticas ayudan a caracterizar un grupo de datos existente. NO permiten hacer predicciones sobre datos futuros. Para esto debemos consultar las técnicas de regresión …
Toma un grupo de datos, cada uno descrito por un vector de valores (y, x1, x2, … xn) Encuentra una ecuación algebraicay = b1x1 + b2x2 + … + bnxn + eque “mejor exprese” la relación entre “y” y las xi’s. Esta ecuación puede ser usada para predecir un nuevo valor de y dado por nuevas xi’s. Regresión La Regresión puede ser resumida como sigue:
Las xi’s en la ecuación que precede son llamadas variables independientes. Son usadas para predecir y. Y es llamada variable dependiente, debido a la manera en que la ecuación está escrita, su valor depende de las xi’s. Variables Independientes vs. Variables Dependientes X X X Y Y X Y X Y X X
La Regresión Simple tiene solo una x: y = bx + e La Regresión Múltiple tiene mas de una x: y = b1x1 + b2x2 + … + bnxn + e Regresión Simple vs. Regresión Múltiple X X X X X X X X
Regresión Lineal vs. Regresión No lineal • La regresión Lineal implica que xi no tiene potencias (cuadro, cubo etc.) ni términos de producto cruz de forma xixj • Si tales términos están presentes, estamos tratando con regresión no lineal. XiXj X3 X2
El término error expresa la incertidumbre en una ecuación empírica predictiva derivada de observaciones imperfectas. Los factores que contribuyen al término de error incluyen: Error de medición Ruido de medición Variaciones naturales con las que no se contaba Perturbaciones en el proceso medido El término de Error e ERROR
La Regresión trata de producir una “ecuación que mejor ajuste” --- pero ¿cuál es “la mejor”? Criterio: minimizar la suma de desviaciones cuadradas de puntos de datos de la línea de regresión. El Principio de Mínimos Cuadrados Mínimos Cuadrados