1.2k likes | 1.86k Vues
Creando el próximo Data Warehouse: Integración y Calidad de Datos. Sesión 1: Fundamentos del DWH Alberto Collado. Agenda. Sesión 1: Fundamentos del DWH Sesión 2: Fundamentos de la Calidad de Datos Sesión 3: Caso práctico: Un DWH con Calidad. Agenda Sesión 1. Presentación PowerData
E N D
Creando el próximo Data Warehouse: Integración y Calidad de Datos Sesión 1: Fundamentos del DWH Alberto Collado
Agenda • Sesión 1: • Fundamentos del DWH • Sesión 2: • Fundamentos de la Calidad de Datos • Sesión 3: • Caso práctico: Un DWH con Calidad
Agenda Sesión 1 • Presentación PowerData • Presentación asistentes: Conocimientos y Expectativas • Fundamentos DWH • Introducción al DWH • Arquitectura de un DWH • Modelado de Datos y Metadatos • Esquemas en Estrella • Procesos y Estrategias de carga del DWH • Herramientas de Integración de Datos • Herramientas de Reporting y Análisis
Presentación PowerData • Empresa lider especializada en Data Management • Colaboradores de Informatica Corporation en España (Elite Partner), Chile, Argentina, Perú y Uruguay (Distributor) • www.powerdata.es • www.informatica.com • Informatica • Nacida en 1993, en California • +1.400 colaboradores • Powerdata • Nacida en 1999, en Barcelona • 90 empleados
Necesidades empresariales Inteligencia empresarial Consolidación de aplicaciones Eliminación de sistemas heredados Hubs de productos, proveedores y clientes BPO SaaS Iniciativas de TI Servicios de datos Mejorar decisiones y cumplir con la normativa Modernizar el negocio y reducir los costes de TI Aumentar la rentabilidad del negocio Subcontratar funciones secundarias Fusiones y adquisiciones Proyectos de integración de datos Plataforma de productos de Informatica Migración de datos Almacenamiento de datos Gestión de datos maestros Consolidación de datos Sincronización de datos Informatica PowerExchange Informatica Data Explorer Informatica PowerCenter Informatica Data Quality La solución: los servicios de datos Servicios de datos
PowerCenter Integración Entrega Transformar y conciliar datos de todo tipo Entregar los datos adecuados en el momento y formato adecuados Data Explorer Data Quality PowerExchange La plataforma de productos de InformaticaAutomatización de todo el ciclo de vida de la integración de datos Auditoría, control y creación de informes Garantizar la coherencia de los datos, realizar análisis de impacto y supervisar constantemente la calidad de la información Detección Limpieza Acceso Buscar y perfilar cualquier tipo de datos de cualquier fuente Validar, corregir y estandarizar datos de todo tipo A cualquier sistema, por lotes o en tiempo real Desarrollo y gestión Desarrollar y colaborar con un repositorio común y metadatos compartidos
Presentación Asistentes: Conocimientos y Expectativas 8
Fundamentos del DWH • Introducción al DWH: ¿Qué es? • Arquitectura de un DWH • Modelado de Datos y Metadatos • Esquemas en Estrella • Procesos y Estrategias de carga del DWH • Herramientas de Integración de Datos • Herramientas de Reporting y Análisis
Fundamentos del DWH Introducción al DWH: ¿Qué es?
¿Qué es un Data Warehouse? • Orientado a un Tema • Colección de información relacionada organizada alrededor de un tema central • Integrado • Datos de múltiples orígenes; consistencia de datos • Variable en el tiempo • ‘Fotos’ en el tiempo • Basado en fechas/periodos • No-volátil • Sólo lectura para usuarios finales • Menos frecuencia de cambios/actualizaciones • Usado para el Soporte a Decisiones y Análisis de Negocio
Orientado a Tema Los usuarios piensan en términos de ‘cosas’ y sus ‘relaciones’, no en términos de procesos, funciones o aplicaciones. Realiza Proveedor Pedido Cliente Proporciona Contiene Orden de Compra Inventario Producto Recuperado desde Compuesta por
Marketing Admin. Datos Operaciones Cuentas Ventas Integrado • Contiene • Convenciones de Nombres • Descripciones • Atributos físicos de los datos • Valores de los datos Consistentes
Variable en el tiempo • Data Warehouse • Datos en ‘fotos’ • Horizonte de 5 – 10 años • Refleja la perspectiva desde un momento en el tiempo • Entorno Operacional • Datos con valores actuales • Horizonte de 30 - 90 días • Exactitud en los accesos Id de cliente fecha desde fecha hasta nombre dirección teléfono ratio de crédito Id de cliente nombre dirección teléfono ratio de crédito
cambio inserción lectura carga borrado No-Volátil Sistema OLTP (dinámico) Sistema DSS (más estático)
Un Data Warehouse es ... • … un modelo de datos de soporte a decisiones que representa la información que una compañía necesita para tomar BUENAS decisiones estratégicas. • … basado en la estructura de un sistema de gestión de base de datos relacional el cual puede ser usado para INTER-RELACIONAR los datos contenidos en él. • … con el propósito de proporcionar a los usuarios finales un acceso SENCILLO a la información. … un CONCEPTO, no una COSA
¿Para qué construir un Warehouse? • Para tener un mayor conocimiento del negocio • Para tomar mejores decisiones y en un tiempo menor • Para mejorar y ser más efectivos • Para no perder distancia con la competencia • … en definitiva … €€€
Visión del Usuario Panel de Consulta Representación de Negocio Usuarios Finales • Solución integrada de: Consultas, informes y análisis. • Capa semántica que da una representación de los datos desde el punto de vista de negocio. • Los usuarios utilizan términos de negocio, no términos informáticos. Base de Datos
Fundamentos del DWH Arquitectura de un DWH
Arquitectura de un DWH • Nomenclatura • DWH: Data Warehouse • DataMart • OLTP: On-Line Transaction Processing • OLAP: On-Line Analytic Processing • ROLAP: Relational On-Line Analytic Processing • MOLAP: Multidimensional On-Line Analytic Processing • ODS: Object Data Store • DSS: Decision Support System • ETL: Extract, Transform and Load • ETQL: Extract, Transform, Quality and Load • EII: Enterprise Information Integration • EAI: Enterprise Application Integration • ERP: Enterprise Resource Planning
Directo de OLTP a OLAP • Es bueno, si los datos lo son. • Horizonte de tiempo limitado • Compite con OLTP por los recursos • Uso frecuente para hojas de cálculo • No tiene metadatos (o sólo implícitos) • Principalmente, para jefes de departamentos, no se considera información “para las masas” • No hay información cruzada entre los diferentes sistemas
OLAP (Online Analytic Processing) • Herramientas orientadas a consulta/análisis • Puede ser ROLAP o MOLAP • 'Multi-dimensional', es decir, puede ser visualizada como ’cuadrículas' o 'cubos' • Consulta interactiva de datos, siguiendo un “hilo” a través de múltiples pasos -- 'drill-down' • Visualización como tablas cruzadas, y tablas pivotantes • Actualización de la base de datos • Capacidad de modelización (motor de cálculo) • Pronósticos, tendencias y análisis estadístico.
Información solicitada Información disponible Condiciones Ejemplo uso de una herramienta de consulta • El interfaz de usuario simple • Trabaja contra representación de negocio de los datos • Todos los componentes en una pantalla
Los informes son la capa visible … • Integración Datos no sólo en entornos analíticos • Importancia de la Calidad Herramientas de OLAP / Business Intelligence / Cuadro de Mando Servidores Extracción Red Limpieza de Datos Bases de Datos Transformación Middleware Carga de Datos
Fundamentos del DWH Modelado de Datos y Metadatos
Técnicas de Modelización Estructural • En esta sección veremos técnicas que afectarán a diversos puntos • Consideraciones de Tiempo • Técnicas de Optimización
Consideraciones de Tiempo • Todo el DW se ve afectado por cambios temporales porque por definición es “Tiempo-dependiente” • Preguntas importantes: • ¿Cuan actual deben ser los datos para satisfacer las necesidades de negocio? • ¿Cuánta historia necesitamos en nuestro negocio? • ¿Qué niveles de agregación son necesarios para qué ciclos de negocio?
Técnicas de Modelización Temporal • Unidades de tiempo • Calendarios de negocio • Técnicas • Foto (Snapshot) • Trazado de Auditoría • Metadatos temporales • Fechas Efectivas de Inicio y Fin • Fecha de cambio en Fuentes (evento) • Fecha de cambio en Destinos (carga)
Dos técnicas diferentes Múltiples Tablas Tabla Única Uso de Fecha Efectiva Inicio en un ejemplo. Metadatos a nivel de registro Foto (Snapshot)
Una tabla para cada período Se guardan TODOS los datos (cambien o no) Nombre de la tabla refleja el período Buen enfoque de (extracción/carga/modelado) para Data Marts. Cada mes, en el ejemplo, representa los datos tal y como estaban Mal enfoque para Staging, ya que hay mucha replicación de datos Foto (Snapshot) Múltiple
Se guardan TODOS los datos (cambien o no) Buen enfoque para Data Marts y puede ser útil en el Warehouse. Mal enfoque para Staging, ya que hay mucha replicación de datos Time Stamps imprescindibles Foto (Snapshot) Única
Foto (Snapshot) Única • Fechas (Time Stamps) necesarias para identificar la validez de los datos: • Fecha efectiva de Inicio • Fecha efectiva de Fin (no está en el ejemplo) • Fecha de Carga
Trazado de Auditoría • Guarda los cambios de los datos de interés • Información: • Fecha del cambio • Razón del cambio • Cómo se ha detectado • ... • Sólo se extraen/cargan valores modificados
Trazado de Auditoría • Sólo cambios en la tabla • Usado en Staging Area y Data Warehouse • Posible en Data Marts, pero no es habitual ya que no es claro para un usuario final
Técnicas de Optimización • Derivación • Data Warehouse y Data Marts • Usos • Facilitar acceso • Consistencia resultados
Data Warehouse Data Marts Técnicas de Optimización • Agregación • No cambio de granularidad • Objetivo: Facilitar el acceso a los datos
Técnicas de Optimización • Sumarización • Histórica • Agrupada
Técnicas de Optimización • Particionamiento Horizontal • Particiones por filas • Todos los campos repetidos en las nuevas tablas • Uso • Aislar datos sensibles • Reducción tamaño tablas
Técnicas de Optimización • Particionamiento Vertical • División por columnas • Posibilidad de columnas redundantes • Uso • Seguridad • Distribución • Puede ser que tengamos Horizontal y Vertical a la vez
Técnicas de Optimización • Particionamiento por Estabilidad • Basado en frecuencia de cambio • Uso en Staging Area • Velocidad de carga • Separar datos más volátiles minimiza cambios Claves Primarias en ambas tablas Metadatos a Nivel Registro en ambas tablas
Técnicas de Optimización • Claves Alternativas • Caso especial de derivación • Creada artificialmente para identificar entidades • Habitualmente un entero • Staging DW DM • Hay que mantener un mapeo Generación Claves Alternativas
Técnicas de Optimización • Pre-Joins • Caso especial de Agregación • Data Warehouse y Data Marts • Existe redundancia de Información • Incrementeo uso espacio • Acceso mucho más rápido • En el DW • Mantendremos también las tablas separadas para cuando no necesitemos la Join