Download
creando el pr ximo data warehouse integraci n y calidad de datos n.
Skip this Video
Loading SlideShow in 5 Seconds..
Creando el próximo Data Warehouse: Integración y Calidad de Datos PowerPoint Presentation
Download Presentation
Creando el próximo Data Warehouse: Integración y Calidad de Datos

Creando el próximo Data Warehouse: Integración y Calidad de Datos

391 Views Download Presentation
Download Presentation

Creando el próximo Data Warehouse: Integración y Calidad de Datos

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Creando el próximo Data Warehouse: Integración y Calidad de Datos Sesión 1: Fundamentos del DWH Alberto Collado

  2. Agenda • Sesión 1: • Fundamentos del DWH • Sesión 2: • Fundamentos de la Calidad de Datos • Sesión 3: • Caso práctico: Un DWH con Calidad

  3. Agenda Sesión 1 • Presentación PowerData • Presentación asistentes: Conocimientos y Expectativas • Fundamentos DWH • Introducción al DWH • Arquitectura de un DWH • Modelado de Datos y Metadatos • Esquemas en Estrella • Procesos y Estrategias de carga del DWH • Herramientas de Integración de Datos • Herramientas de Reporting y Análisis

  4. Presentación PowerData 4

  5. Presentación PowerData • Empresa lider especializada en Data Management • Colaboradores de Informatica Corporation en España (Elite Partner), Chile, Argentina, Perú y Uruguay (Distributor) • www.powerdata.es • www.informatica.com • Informatica • Nacida en 1993, en California • +1.400 colaboradores • Powerdata • Nacida en 1999, en Barcelona • 90 empleados

  6. Necesidades empresariales Inteligencia empresarial Consolidación de aplicaciones Eliminación de sistemas heredados Hubs de productos, proveedores y clientes BPO SaaS Iniciativas de TI Servicios de datos Mejorar decisiones y cumplir con la normativa Modernizar el negocio y reducir los costes de TI Aumentar la rentabilidad del negocio Subcontratar funciones secundarias Fusiones y adquisiciones Proyectos de integración de datos Plataforma de productos de Informatica Migración de datos Almacenamiento de datos Gestión de datos maestros Consolidación de datos Sincronización de datos Informatica PowerExchange Informatica Data Explorer Informatica PowerCenter Informatica Data Quality La solución: los servicios de datos Servicios de datos

  7. PowerCenter Integración Entrega Transformar y conciliar datos de todo tipo Entregar los datos adecuados en el momento y formato adecuados Data Explorer Data Quality PowerExchange La plataforma de productos de InformaticaAutomatización de todo el ciclo de vida de la integración de datos Auditoría, control y creación de informes Garantizar la coherencia de los datos, realizar análisis de impacto y supervisar constantemente la calidad de la información Detección Limpieza Acceso Buscar y perfilar cualquier tipo de datos de cualquier fuente Validar, corregir y estandarizar datos de todo tipo A cualquier sistema, por lotes o en tiempo real Desarrollo y gestión Desarrollar y colaborar con un repositorio común y metadatos compartidos

  8. Presentación Asistentes: Conocimientos y Expectativas 8

  9. Fundamentos del DWH 9

  10. Fundamentos del DWH • Introducción al DWH: ¿Qué es? • Arquitectura de un DWH • Modelado de Datos y Metadatos • Esquemas en Estrella • Procesos y Estrategias de carga del DWH • Herramientas de Integración de Datos • Herramientas de Reporting y Análisis

  11. Fundamentos del DWH Introducción al DWH: ¿Qué es?

  12. ¿Qué es un Data Warehouse? • Orientado a un Tema • Colección de información relacionada organizada alrededor de un tema central • Integrado • Datos de múltiples orígenes; consistencia de datos • Variable en el tiempo • ‘Fotos’ en el tiempo • Basado en fechas/periodos • No-volátil • Sólo lectura para usuarios finales • Menos frecuencia de cambios/actualizaciones • Usado para el Soporte a Decisiones y Análisis de Negocio

  13. Orientado a Tema Los usuarios piensan en términos de ‘cosas’ y sus ‘relaciones’, no en términos de procesos, funciones o aplicaciones. Realiza Proveedor Pedido Cliente Proporciona Contiene Orden de Compra Inventario Producto Recuperado desde Compuesta por

  14. Marketing Admin. Datos Operaciones Cuentas Ventas Integrado • Contiene • Convenciones de Nombres • Descripciones • Atributos físicos de los datos • Valores de los datos Consistentes

  15. Variable en el tiempo • Data Warehouse • Datos en ‘fotos’ • Horizonte de 5 – 10 años • Refleja la perspectiva desde un momento en el tiempo • Entorno Operacional • Datos con valores actuales • Horizonte de 30 - 90 días • Exactitud en los accesos Id de cliente fecha desde fecha hasta nombre dirección teléfono ratio de crédito Id de cliente nombre dirección teléfono ratio de crédito

  16. cambio inserción lectura carga borrado No-Volátil Sistema OLTP (dinámico) Sistema DSS (más estático)

  17. Un Data Warehouse es ... • … un modelo de datos de soporte a decisiones que representa la información que una compañía necesita para tomar BUENAS decisiones estratégicas. • … basado en la estructura de un sistema de gestión de base de datos relacional el cual puede ser usado para INTER-RELACIONAR los datos contenidos en él. • … con el propósito de proporcionar a los usuarios finales un acceso SENCILLO a la información. … un CONCEPTO, no una COSA

  18. ¿Para qué construir un Warehouse? • Para tener un mayor conocimiento del negocio • Para tomar mejores decisiones y en un tiempo menor • Para mejorar y ser más efectivos • Para no perder distancia con la competencia • … en definitiva … €€€

  19. Visión del Usuario Panel de Consulta Representación de Negocio Usuarios Finales • Solución integrada de: Consultas, informes y análisis. • Capa semántica que da una representación de los datos desde el punto de vista de negocio. • Los usuarios utilizan términos de negocio, no términos informáticos. Base de Datos

  20. Fundamentos del DWH Arquitectura de un DWH

  21. Arquitectura de un DWH • Nomenclatura • DWH: Data Warehouse • DataMart • OLTP: On-Line Transaction Processing • OLAP: On-Line Analytic Processing • ROLAP: Relational On-Line Analytic Processing • MOLAP: Multidimensional On-Line Analytic Processing • ODS: Object Data Store • DSS: Decision Support System • ETL: Extract, Transform and Load • ETQL: Extract, Transform, Quality and Load • EII: Enterprise Information Integration • EAI: Enterprise Application Integration • ERP: Enterprise Resource Planning

  22. Directo de OLTP a OLAP

  23. Directo de OLTP a OLAP • Es bueno, si los datos lo son. • Horizonte de tiempo limitado • Compite con OLTP por los recursos • Uso frecuente para hojas de cálculo • No tiene metadatos (o sólo implícitos) • Principalmente, para jefes de departamentos, no se considera información “para las masas” • No hay información cruzada entre los diferentes sistemas

  24. Data Warehouse Virtual: Directo o Federado EII

  25. Data Warehouse “Total”

  26. Data Marts No Estructurados

  27. Data Marts Estructurados

  28. OLAP (Online Analytic Processing) • Herramientas orientadas a consulta/análisis • Puede ser ROLAP o MOLAP • 'Multi-dimensional', es decir, puede ser visualizada como ’cuadrículas' o 'cubos' • Consulta interactiva de datos, siguiendo un “hilo” a través de múltiples pasos -- 'drill-down' • Visualización como tablas cruzadas, y tablas pivotantes • Actualización de la base de datos • Capacidad de modelización (motor de cálculo) • Pronósticos, tendencias y análisis estadístico.

  29. Información solicitada Información disponible Condiciones Ejemplo uso de una herramienta de consulta • El interfaz de usuario simple • Trabaja contra representación de negocio de los datos • Todos los componentes en una pantalla

  30. Los informes son la capa visible … • Integración Datos no sólo en entornos analíticos • Importancia de la Calidad Herramientas de OLAP / Business Intelligence / Cuadro de Mando Servidores Extracción Red Limpieza de Datos Bases de Datos Transformación Middleware Carga de Datos

  31. Data Marts Estructurados: Visión Completa

  32. Fundamentos del DWH Modelado de Datos y Metadatos

  33. Técnicas de Modelización Estructural • En esta sección veremos técnicas que afectarán a diversos puntos • Consideraciones de Tiempo • Técnicas de Optimización

  34. Consideraciones de Tiempo • Todo el DW se ve afectado por cambios temporales porque por definición es “Tiempo-dependiente” • Preguntas importantes: • ¿Cuan actual deben ser los datos para satisfacer las necesidades de negocio? • ¿Cuánta historia necesitamos en nuestro negocio? • ¿Qué niveles de agregación son necesarios para qué ciclos de negocio?

  35. Técnicas de Modelización Temporal • Unidades de tiempo • Calendarios de negocio • Técnicas • Foto (Snapshot) • Trazado de Auditoría • Metadatos temporales • Fechas Efectivas de Inicio y Fin • Fecha de cambio en Fuentes (evento) • Fecha de cambio en Destinos (carga)

  36. Dos técnicas diferentes Múltiples Tablas Tabla Única Uso de Fecha Efectiva Inicio en un ejemplo. Metadatos a nivel de registro Foto (Snapshot)

  37. Una tabla para cada período Se guardan TODOS los datos (cambien o no) Nombre de la tabla refleja el período Buen enfoque de (extracción/carga/modelado) para Data Marts. Cada mes, en el ejemplo, representa los datos tal y como estaban Mal enfoque para Staging, ya que hay mucha replicación de datos Foto (Snapshot) Múltiple

  38. Se guardan TODOS los datos (cambien o no) Buen enfoque para Data Marts y puede ser útil en el Warehouse. Mal enfoque para Staging, ya que hay mucha replicación de datos Time Stamps imprescindibles Foto (Snapshot) Única

  39. Foto (Snapshot) Única • Fechas (Time Stamps) necesarias para identificar la validez de los datos: • Fecha efectiva de Inicio • Fecha efectiva de Fin (no está en el ejemplo) • Fecha de Carga

  40. Trazado de Auditoría • Guarda los cambios de los datos de interés • Información: • Fecha del cambio • Razón del cambio • Cómo se ha detectado • ... • Sólo se extraen/cargan valores modificados

  41. Trazado de Auditoría • Sólo cambios en la tabla • Usado en Staging Area y Data Warehouse • Posible en Data Marts, pero no es habitual ya que no es claro para un usuario final

  42. Técnicas de Optimización Estructural y Física

  43. Técnicas de Optimización • Derivación • Data Warehouse y Data Marts • Usos • Facilitar acceso • Consistencia resultados

  44. Data Warehouse Data Marts Técnicas de Optimización • Agregación • No cambio de granularidad • Objetivo: Facilitar el acceso a los datos

  45. Técnicas de Optimización • Sumarización • Histórica • Agrupada

  46. Técnicas de Optimización • Particionamiento Horizontal • Particiones por filas • Todos los campos repetidos en las nuevas tablas • Uso • Aislar datos sensibles • Reducción tamaño tablas

  47. Técnicas de Optimización • Particionamiento Vertical • División por columnas • Posibilidad de columnas redundantes • Uso • Seguridad • Distribución • Puede ser que tengamos Horizontal y Vertical a la vez

  48. Técnicas de Optimización • Particionamiento por Estabilidad • Basado en frecuencia de cambio • Uso en Staging Area • Velocidad de carga • Separar datos más volátiles minimiza cambios Claves Primarias en ambas tablas Metadatos a Nivel Registro en ambas tablas

  49. Técnicas de Optimización • Claves Alternativas • Caso especial de derivación • Creada artificialmente para identificar entidades • Habitualmente un entero • Staging DW  DM • Hay que mantener un mapeo Generación Claves Alternativas

  50. Técnicas de Optimización • Pre-Joins • Caso especial de Agregación • Data Warehouse y Data Marts • Existe redundancia de Información • Incrementeo uso espacio • Acceso mucho más rápido • En el DW • Mantendremos también las tablas separadas para cuando no necesitemos la Join