1 / 17

Strumenti e metodologie per la qualità dei dati

Strumenti e metodologie per la qualità dei dati. Luigi Fabbris Università di Padova Comstat. Outline. La qualità dei dati I nuovi contesti e le nuove tendenze nella produzione di statistiche ufficiali La qualità dei dati traibili dai sistemi informativi (le nuove anagrafi nazionali)

conan
Télécharger la présentation

Strumenti e metodologie per la qualità dei dati

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

  2. Outline • La qualità dei dati • I nuovi contesti e le nuove tendenze nella produzione di statistiche ufficiali • La qualità dei dati traibili dai sistemi informativi (le nuove anagrafi nazionali) • Il ruolo dell’Istat – Sistan nel controllo della qualità dei dati • Il ruolo degli Uffici di Statistica nel controllo della qualità dei dati di provenienza amministrativa • Alcune conclusioni XI Conferenza nazionale di statistica, 2013

  3. La qualità dei dati ufficiali • Dimensioni della qualità (Statistics Canada, 2002; National Statistics, 2007; Eurostat, 2009; Kenett & Shmueli, 2013): • Pertinenza (relevance): grado di concordanza tra il prodotto statistico e il costrutto atteso in termini di copertura e contenuto delle informazioni • Accuratezza: prossimità al valore vero • Tempestività: pubblicazione entro il tempo pre-determinato • Accessibilità fisica e intellettuale (comprensibilità) • Comparabilità nel tempo e tra domini di studio • Coerenza tra misure del medesimo fenomeno provenienti da diverse fonti e prodotte con metodi diversi Errore di III tipo: prodotto corretto per l’obiettivo sbagliato Errore di I e II tipo XI Conferenza nazionale di statistica, 2013 Errore di IV tipo: prodotto corretto, ma troppo in ritardo

  4. La qualità statistica dei dati ufficiali • Dimensioni della qualità (Statistics Canada, 2002; National Statistics, 2007; Eurostat, 2009): • Pertinenza (relevance): grado di concordanza tra il prodotto statistico e il costrutto atteso in termini di copertura e contenuto delle informazioni • Attendibilità: prossimità al valore vero, funzione di: • Precisione campionaria • Accuratezza della rilevazione e dell’elaborazione dei dati • Tempestività: pubblicazione entro il tempo pre-determinato • Accessibilità fisica e intellettuale (comprensibilità) • Comparabilità nel tempo e tra domini di studio e coerenza tra misure del medesimo fenomeno provenienti da diverse fonti e prodotte con metodi diversi (“armonizzazione”) XI Conferenza nazionale di statistica, 2013

  5. Il nuovo contesto • La tecnologia sta rendendo scambiabili le basi di dati locali e invita a costruire basi di dati nazionali: • Anagrafe nazionale della popolazione (delle famiglie) • Anagrafe nazionale delle abitazioni (numeri civici) • Anagrafe nazionale delle imprese (ASIA) • Pertanto, • scompaiono i censimenti tradizionali e sono invece create ed alimentate nel continuo anagrafi nazionali (“censimenti continui”) per confluenza di quelle locali, • scompaiono molte indagini campionarie e cambia il ruolo delle indagini campionarie nel processo di formazione delle statistiche ufficiali • Assume un ruolo ancora più importante il controllo della qualità dei dati XI Conferenza nazionale di statistica, 2013

  6. La confluenza delle anagrafi This is a bias This is a “hot point”

  7. Che cosa interessa allo statistico ufficiale? • La qualità media dell’acqua alla foce o lungo la pianura (la qualità delle statistiche tratte dall’anagrafe nazionale)? • La qualità dell’acqua dei singoli affluenti (la qualità delle statistiche a livello locale)? • Scoprire “hot point” inquinanti (le fonti locali i cui errori possono minare l’attendibilità delle statistiche nazionali)? • La presenza di coccodrilli nell’acqua stagnante (i rischi di distorsione nelle stime traibili dalle anagrafi nazionali, spesso causate da chi organizza le rilevazioni dei dati)? SI Forse SI SI

  8. Sistema di assicurazione qualità • Alla foce (Istat: indagini periodiche per la valutazione della qualità media uscente) • Revisione metodologica • Metadati e buone prassi ? ISTAT (controllo periodico) • Interventi sulle fonti locali SISTAN (auto-controllo, controllo su richiesta) Alla sorgente (Sistan: un sistema di “chiuse” attraverso le quali passa/non passa l’acqua)

  9. Il controllo continuo della qualità • Ente realizzatore: Istat, oppure COGIS, o ente terzo (v. UK) • Periodicità: ogni anno, oppure ogni due anni • Obiettivi: • Valutazione della qualità di statistiche “di riferimento” in dati domini di studio • Controllo, a fini di miglioramento, del sistema di produzione delle statistiche nazionali • Campionamento: batch (lotti) di dati prodotti da fonti locali (es: comune, UdS) per stimare anche l’accuratezza locale, campionando più intensamente le fonti che, si ipotizza (in base ai dati noti), danno tassi d’errore più alti (“hot points”) XI Conferenza nazionale di statistica, 2013

  10. Il sistema di controllo locale • Gli Uffici di statistica, gangli del SISTAN, per essere funzionali al sistema di controllo, dovrebbero: • Essere pochi e di riconosciuta autorità, soprattutto nei confronti del sistema amministrativo di produzione dei dati (es: sistema periferico del Ministero dell’Interno, oppure CCIAA) • Essere in posizione tale da poter intercettare i flussi di dati locali e poter intervenire in tempi rapidi (es: province, grandi comuni, regioni) • Essere formati sul piano statistico e normativo (e relazionale), tanto da essere in grado di elaborare i dati che transitano dall’UdS, di comprenderne la qualità e di farla comprendere • Sentirsi parte del Sistema statistico nazionale XI Conferenza nazionale di statistica, 2013

  11. I metadati • Sono dati di quadro sul metodo e sui tempi di produzione dei dati, compreso il questionario, sui metodi di controllo ed analisi dei dati e sull’esito della verifica della qualità dei dati, comprese indicazioni sulla loro utilizzabilità • L’Eurostat (Pellegrino, 2006) ha posto in essere il sistema SDMX standardizzato, a valenza europea, per l’accesso a file di metadati generali (es: Transparency of practices, Accessibility, etc.) • Un sistema di metadati è il cuore di un sistema nazionale di formazione dei dati; va alimentato con gli esiti del controllo della qualità e con le relative riflessioni in termini di buone pratiche XI Conferenza nazionale di statistica, 2013

  12. La formazione delle fonti dei dati • Formazione di carattere metodologico generale sulle rilevazioni statistiche e sul tipo e conseguenza degli errori nei dati • Lavoro condiviso sui propri dati: dalla pratica di analisi dei dati e dalla costruzione di indicatori e di report nasce formazione on the job efficace; dalla collaborazione all’attività degli amministrativi produttori dei dati si corrobora la consapevolezza della qualità e dei problemi che pone la formazione del dato • Review (self, peer, user); peer review: forme di valutazione reciproche tra produttori di dati; user review: sistema di raccolta delle osservazioni sui dati da parte degli utenti • Applicare il manuale di metadati, le buone pratiche XI Conferenza nazionale di statistica, 2013

  13. La diffusione delle informazioni sulla qualità • Interna al sistema: il sistema deve mantenere la sua credibilità complessiva • Forma sintetica: Indicatori di qualità, da valutare in serie storica, con interesse preminente per le cause degli errori, per i processi più vulnerabili e per i prodotti più a rischio • Gestione dei metadati (v. FBI, http://www.fbi.gov/about-us/cjis/ucr/data_quality_guidelines) finalizzata al raggiungimento di buone pratiche (insieme di coerenze e di ammissibilità, standard metodologici, …) • Periodicità: 3-5 anni XI Conferenza nazionale di statistica, 2013

  14. Problemi del sistema di controllo • L’integrazione tra fonti di origine amministrativa permette di scoprire incoerenze (inconsistency) tra dati. Altri errori si scoprono in base alla incoerenza o alla inammissibilità probabilistica tra variabili diverse dello stesso o di altri archivi. Come si utilizzano incoerenze e inammissibilità? Eventualmente a livello locale? • Il sistema di controllo ex-post non permette la valutazione della completezza della rilevazione. L’integrazione tra fonti può, invece, portare alla scoperta di incompletezze. Come si utilizza l’informazione sull’incompletezza? • Che fare dei lotti con tanti errori? • La scoperta di errori si può tradurre in metadati (“warning”). Come si può tradurre in suggerimenti per buone pratiche? XI Conferenza nazionale di statistica, 2013

  15. Risorse necessarie • Il minor costo del procacciamento dei dati ha liberato risorse. Tuttavia, la qualità costa, va messa a bilancio. • Il controllo della qualità richiede indagini interne (svolte dall’Istat stesso o da un ente esterno) • La verifica interna dei possibili errori nei dati (microdati, batch di dati) richiede tempo e impegno del personale dedicato, anche se diventasse attività di routine degli UdS XI Conferenza nazionale di statistica, 2013

  16. Concludendo…. • La qualità dei dati è, e ancor più sarà, uno degli impegni principali dei produttori di dati, come conseguenza del nuovo quadro tecnologico e normativo di produzione di grandi basi di dati statistici a livello nazionale • I sistemi di controllo della qualità sviluppati da organismi statistici internazionali e nazionali di vari paesi, anche in ottemperanza a norme ISO 9000 e ISO 20252, mirano a sviluppare, armonizzare e rendere trasparenti i processi, non si interessano ai prodotti • Per sviluppare un sistema italiano di controllo della qualità dei dati ufficiali è necessario coinvolgere e attrezzare il Sistan • Molte aree rimangono da sviluppare sul piano metodologico se si vuole mettere in piedi un sistema specifico XI Conferenza nazionale di statistica, 2013

  17. Ringrazio per l’attenzione

More Related