170 likes | 521 Vues
B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE. InfoSphere DataStage. I processi ETL ( Extraction , Transformation and Loading ).
E N D
B.I. StrategyETL A SUPPORTO DELLABUSINESS INTELLIGENCE InfoSphereDataStage
I processi ETL (Extraction, Transformation and Loading) • Estrazione, trasformazione e caricamentosono i componenti più importanti e con più valore aggiunto di un'infrastruttura di Business Intelligence (BI). Sebbene siano per lo più invisibili agli utenti della piattaforma di BI,i processi ETL recuperano i dati da tutti i sistemi e li pre-elaborano per i tool di analisi e di reporting. La precisione e la tempestività dell´intera piattaforma di BI dipendono in larga misura dai processi ETL.
ETL (Extraction, Transformation and Loading) • I processi di estrazione, trasformazione e caricamento comprendono step multipli che hanno come obiettivo il trasferimento dei dati dalle applicazioni di produzione ai sistemi di Business Intelligence : • Estrazione dei dati dalle applicazioni di produzione e dai database (ERP, CRM, RDBMS, file ecc.) • Trasformazione di questi dati per la loro riconciliazione su tutti i sistemi sorgente, unione dei dati provenienti da sistemi eterogenei, eseguire calcoli o parsing di stringhe, arricchirli con informazioni di lookup esterne e confrontare il formato richiesto dal sistema target (ThirdNormalForm, Star Schema, SlowlyChangingDimensions, ecc.) • Caricamento dei dati risultanti nelle varie applicazioni BI: Data Warehouse o Enterprise Data Warehouse, Data Mart, applicazioni Online Analytical Processing (OLAP) o “cubi”, ecc. • La latenza dei processi ETL varia da batch (a volte mensilmente o settimanalmente, ma più spesso quotidianamente), in near-real-time con aggiornamenti più frequenti (ogni ora, ogni minuto, ecc).
IBM InfoSphereDataStage • Ambientegraficodisviluppo con generazioneautomatica del codice e componentiriutilizzabili • Engine ditrasformazionescalabileda SMP a clusters/MPP e grid • Facilitàdi deploy dagliambientidisviluppo a quellidiproduzione • Riutilizzodellalogicadi business attraverso le applicazioni • Disponibilitàdiaccessonativo a mainframe, SAP ecc.
Targets Operational Data Business Intelligence SAS CRM Exploration Warehouse Data Mart Data Mart IBM InfoSphereDataStage • Integra idatiprovenientidasorgentieterogenee • Processae trasformagrandiquantitàdidati in real-time o in modalità batch • Gestisceprocessimultiplidiintegrazione • Gestiscetutte le tipologiediintegrazionedaquellapiùsemplice a quellaenterprise • Fornisceconnettivitàdirettaaidatidelleapplicazioniaziendaliviste come sorgenti o come destinazioni • Agevolal’utilizzodei meta dati per analisidiimpattocross-tool e manutenzione CRM SCM ERP External Lists Distribution Demographic Contact Billing / Accounts
Architettura DataStage Sistemi destinazione Sistemi sorgenti
IBM InfoSphereDataStage Sempliceflussodiesempio Estraedadue DB Oracle diversi Stage di Join, Transform e Aggregate Produzione Vendite Scriveirisultatisuun DB/DWH Teradata (SQL Server – DB2 – MySqlecc.)
IBM InfoSphereDataStage • monitoring e schedulazione grafica delle procedure • Gestioneattività a livello di ‘stage’ (non solo a livello di ‘job’) • Monitoraggio in tempo reale • Dettaglio di ognisingoloevento • Ottimizzazionedelprocesso • Segnalazione di ognianomalia o interruzzione di caricamento
Sistemi enterprise scalabili: caratteristichediDataStage • Un’architettura “data flow” chepermettel’elaborazionedeidati, dall’inputall’output, minimizzandol’usodidispositividi storage, in scenari batch e real-time • Partizionamentodinamico e Ripartizionamento “on the fly” deidati • Scalabilitàrispettoagliambienti hardware, portabilitàattraversosistemi SMP, Clustered SMP, MPP senza la necessitàdimodificheaiprocessigiàsviluppati • Supporto nativoagli RDBMS paralleli, includendo IBM DB2 UDB, Oracle, SQL Server e Teradata in configurazioniparallele e partizionate
DataStage: ilparallelismo in pratica …DataStagecrean processi Unix a runtime per ogni stage, dove n è ilnumerodeinodilogicidefinitinellaconfigurazione
DataStage: monitoraggiodellerisorse Tempo totale di CPU e tempo di sistema Distribuzione media dei processi pie-chart del tempo di CPU
DataStage: connettivitàsupportate • Oracle, DB2, Informix, Teradata, SQLServer, Sybase, DB2 Z/OS, edaltri… • Supporto per sintassi SQL standard: • autocostruzionedegli statement SELECT • autocostruzionedelleclausole WHERE, ORDER BY, GROUP BY, etc. • costruzione SQL via SQL Builder • Supporto per comandi SQL ditipouser defined, oppurespecifici in relazioneall’RDBMSutilizzato • Insert, update, delete, update/insert, insert/update, clear & insert, delete & insert • Supporto per scritture transazionali • Supporto per stored procedures • ERP: SAP R/3 & SAP BW • ….. e molto altro!