590 likes | 877 Vues
Statistični urad Republike Slovenije Predstavitev za študente podiplomskega študija statistike Ljubljana, 20.03.2003. Vsebina predstavitve. Metodologija raziskovanj na SURS-u (Metka Zaletel, Rudi Seljak) Proces pretoka podatkov na SURS-u (Pavle Kozjek)
E N D
Statistični urad Republike Slovenije Predstavitev za študente podiplomskega študija statistike Ljubljana, 20.03.2003
Vsebina predstavitve • Metodologija raziskovanj na SURS-u (Metka Zaletel, Rudi Seljak) • Proces pretoka podatkov na SURS-u (Pavle Kozjek) • Časovne vrste in zakrivanje podatkov (Nina Jukić) • Diseminacija podatkov (Uta Kuhar)
GENERALNI DIREKTOR NAMESTNICA GENERALNEGA DIREKTORJA SAMOSTOJNI IZVAJALCI TAJNIŠTVO GENERALNEGA DIREKTORJA SLUŽBA ZA MEDNARODNE ODNOSE IN EVROPSKE ZADEVE SLUŽBA ZA PROGRAM STATISTIČNIH RAZISKOVANJ SLUŽBA ZA SPRS*, KLASIFIKACIJE IN STATISTIKO PODJETIJ SEKTOR 1 Skupne statistične storitve SEKTOR 2 Nacionalni računi In cene SEKTOR 3 Ekonomske statistike SEKTOR 4 Demografske in socialne statistike SEKTOR 5 Statistika naravnih virov in okolja SEKTOR 6 Izkazovanje statističnih podatkov in metod SEKTOR 7 Produkcija lastnih statističnih baz podatkov SEKTOR 8 Statistična informacijska infrastr. In tehn. SEKTOR 9 Skupne službe Oddelek za vzorčenje, anketno metodologijo in modele
Delo oddelka • Anketna metodologija • Priprava vzorčnih okvirov • Vzorčni načrti in izbor vzorcev • Uteževanje zbranih podatkov • Analiza podatkov(neodgovor, natančnost ocen, vpliv uteži, kakovost podatkov) • Analiza časovnih vrst • Statistična zaščita podatkov • Kakovost podatkov, procesov in storitev • Razvoj in uporaba metod imputacij podatkov
Glavna orodja • SAS • CALMAR (kalibracija) • IVEWARE (imputacije, variance) • DEMETRA (analiza časovnih vrst) • -ARGUS in -ARGUS (zaščita podatkov) • MS-Office (Excel, Word, Access, PPT)
Metodološki del procesa • Definicija ciljnih spremenljivk in ciljne populacije • Določitev vzorčnega okvira • Določitev vzorčnega načrta in velikosti vzorca • Izbor vzorca Terenska faza Vnos, kontrola in obdelava podatkov • Uteževanje in analiza vpliva uteži • Analiza neodgovora • Natančnost ciljnih spremenljivk • Poročilo o kakovosti
Vrste anket (glede na ciljno populacijo) • Ankete oseb in gospodinjstev • Centralni register prebivalstva (CRP) • Baza telefonskih naročnikov v RS • Ankete podjetij • Poslovni register (PRS) skupaj z drugimi viri (npr. zaključni računi) • Ankete kmetij • Statistični register kmetij (SRK)
Podatkovne baze za vzorčne okvire terenskih anket oseb in gospodinjstev • Glavni vir je Centralni register prebivalstva (CRP), kombiniran z Registrom prostorskih enot (RPE), ki ga ureja Geodetska uprava Republike Slovenije.
Centralni register prebivalstva • V CRP-ju so vsi državljani Republike Slovenije in tujci, ki imajo v Sloveniji stalno bivališče. Njihova identifikacijska številka je emšo. • Podatki v CRP-ju: ime, priimek, datum in kraj rojstva, naslov, zakonski stan, šifra in datum zadnjega dogodka (poroka, rojstvo, selitev, sprememba imena...) • Problemi s pokritjem: v CRP-ju ni začasno prijavljenih tujcev, beguncev, osebe stanujejo drugje, kot so prijavljene.
Vzorčni okviri pri terenskih anketah oseb in gospodinjstev • Odvisni od vzorčnega načrta • Vzorčni načrti so navadno stratificirani sistematični (izbor po seznamu)ali stratificirani dvostopenjski • Na prvi stopnji izbiramo vzorčne enote znotraj stratumov z verjetnostjo proporcionalno njihovi velikosti (PPS) • Na drugi stopnji pa izberemo fiksno število odraslih oseb iz izbranih vzorčnih enot. • Koliko oseb izbiramo na drugi stopnji, je odvisno od ankete (pri APG 4, APČ 6)
Stratifikacija • po statističnih regijah (12) • po tipu naselja in deležu kmečkega prebivalstva • nekmečka z manj kot 2000 prebivalci (število kmetij/št.hišnih številk <0,3) • kmečka z manj kot 2000 prebivalci(število kmetij/št.hišnih številk >=0,3) • 2,000-10,000 prebivalcev • 10,000-100,000 prebivalcev • Maribor • Ljubljana
Okvir vzorčnih enot • Izhajamo iz popisnih okolišev • Problem: premajhni popisni okoliši (število gospodinjstev<30) • Rešitev: združevanje premajhnih popisnih okolišev v vzorčne enote • Rezultat: okvir vzorčnih enot, ki je stratificiranpo statističnih regijah ter po tipu naselja in deležu kmečkega prebivalstva.
Vzorci oseb in gospodinjstev • Izbrane osebe predstavljajo (odvisno od ankete) • vzorec oseb ali • nas vodijo do gospodinjstva, katerega člani so oz. • nas vodijo na naslov, na katerem prebiva gospodinjstvo, ki nas zanima. • Pri vzorcih gospodinjstev imajo večja gospodinjstva večjo verjetnost, da so izbrana • Problem rešimo z uteževanjem
Terenske ankete oseb in gospodinjstev na SURS-u • Anketa o delovni sili (ADS) • Anketa o porabi v gospodinjstvih (APG) • Anketa o porabi energije in goriv v gospodinjstvih (APEGG, 2003) • Anketa o porabi časa (APČ, 2001) • Anketa o najetih stanovanjih (ANS, 2003)
APG • Zbiramo podatke o razpoložljivih in porabljenih sredstvih v zasebnih gospodinjstvih v Sloveniji. • Namen: izdelava ponderjev za izračunavanje indeksa cen življenjskih potrebščin, struktura porabe, itd. • Podatke zbiramo z vprašalniki in dvotedenskimi dnevniki izdatkov.
APG - vzorec • Bruto vzorec 1600 gospodinjstev • Neto vzorec 1200 izpolnjenih anket • Vzorec je stratificiran po statističnih regijah in tipih naselja • Uporabljamo dva vzorčna načrta • v manjših naseljih je vzorec dvostopenjski • v večjih naseljih pa sistematično izbiramo osebe po stratumih
APG - obdelava podatkov • Letna velikost vzorca (1200 gospodinjstev) je premajhna za natančne ocene. • Danski model pri obdelavi podatkov: združevanje treh zaporednih let, preračunanih na srednje leto. Ocene na 3600 gospodinjstvih.
APG - uteževanje Dve vrsti uteži: • vzorčna utež, ki je produkt uteži: • utež zaradi neenake verjetnosti izbora gospodinjstev, • utež za neodgovora, • poststratifikacijske uteži (popravek stratumske alokacije), • raking: popravek porazdelitve oseb v anketiranih gospodinjstvih glede na spol in starost inpopravek strukture velikosti gospodinjstev glede na večjo anketo o delovni sili iz leta 1995. • utež zaradi različnega časa anketiranja in različnih referenčnih obdobij spremenljivk
Anketa o delovni sili (ADS) • Namen: zagotavljanje zanesljivih podatkov o stanju in spremembah na slovenskem trgu dela: • število in stopnjo delovno aktivnega prebivalstva • število in stopnja brezposelnih • število in stopnja aktivnih • Začetki ADS v Sloveniji segajo v leto 1989, današnja metodologija je v veljavi od 1997.
Anketa o delovni sili (ADS) • Metodologija je harmonizirana in primerljiva z zahtevami: • Mednarodne organizacije za delo (ILO) • Statističnega urade Evropske unije (EUROSTAT) • Največja anketa gospodinjstev v Sloveniji.
Metodologija ADS (od leta 1997) • Kontinuirana, izbor vzorca in objavarezultatatov je četrtletna • Vzorčni načrt: • panel (5 ponovitev po modelu 3-1-2) • stratificiran SRS (47 stratumov glede na tip naseljein statistično regijo) • četrtletno anketiramo ~2000 novih gospodinjstev (CAPI) in ~5000 gospodinjstev ponovno anketiramo (CATI)
Zakaj panel? • spremljanje prehodov med stanji vrazličnih časovnih točkah, ocena razlik
Uteži pri ADS • uteži zaradi različnih verjetnosti izbora • uteži zaradi neodgovora • prilagoditev populacijskim vrednostim (spol, starostni razredi, statistične regije) iz drugih virov • post-stratifikacija
Analiza neodgovorov ADS 2002/Q4 • Stopnja ustreznosti 98,5% • Stopnja anketiranja 88,3% • Stopnja odgovora 89,6% • Stopnja neodgovora 10,4% • Stopnja zavračanja 7,2% • Stopnja nekontaktiranja 2,2%
Vzorčni okvir za telefonske ankete • Telefonski imenik zasebnih telefonskih naročnikov v Republiki Sloveniji (vir: Telekom d.d.) • podatki o omrežni skupini, tel. številki, imenu naročnika, naslovu naročnika, šifra občine, naselja... • Okvir popisnih okolišev • Pridobimo podatke: • tipu naselja (6 tipov), • številu oseb stalno prijavljenih oseb.
Vzorčni načrt za telefonske vzorce • Vzorčni načrt: stratificiran sistematični slučajni vzorec • Stratumi so definirani s statistično regijo (12 regij) ins tipom in velikostjo naselja (6 tipov). • V vsakem stratumu vzorčimo neodvisno • Število enot v vzorcu (telefonskih naročnikov) v vsakem stratumu je sorazmerno deležu oseb v posameznem stratumu.
Izbor ciljne osebe v okviru gospodinjstva • Izbor ciljne osebe v okviru gospodinjstva • Metoda naslednjega rojstnega dne • Boljše rezultate (socio-demografska struktura vzorca) daje nekoliko bolj zamuden Kishev postopek izbora ciljne osebe, ki pa ga na uradu še nismo testirali.
Uteževanje rezultatov pri telefonskih anketah • Podatke utežimo zaradi neenakih verjetnosti izbora ciljne osebe. • Uteži zaradi različne verjetnosti izbora še dodatno popravimo tako, da upoštevamo kar največ znanih informacij o populaciji.
Kakovost vzorčnega okvira • Pokritje: • gospodinjstva s telefoni: preko 90 % • zaenkrat še narašča • Nepokritje: • gospodinjstva brez telefona: manj kot 10 % • tajne številke okrog 3 % • Mobilna telefonija???
Telefonske ankete na statističnem uradu • Anketa o mnenju potrošnikov (AMP) • Mesečna anketa, n=1500 • Četrtletna anketa o potovanju domačega prebivalstva (ČAP) • 1.četrtletje, n=3000 • 2.četrtletje, n=3000 • 3.četrtletje, n=3000 • 4.četrtletje, n=6000 • Anketa o žrtvah kriminala (AŽK) • Izvaja se na 3 leta. Zadnjič izvedena marca 2001. • n=6000 oseb
Predstavitev vzorčnih napak • Objava podatkov običajno ne vsebuje standardnih napak za vse opazovane spremenljivke • Stroški in čas ocenjevanja varianc • Napake pogosto ocenjujemo z modeli in diagrami
Načini objave standardnih napak • Možni načini objav st. napak: • Standardne napake in intervali zaupanja so objavljeni v tabelah skupaj z osnovnimi podatki • Tabele povprečnih standardnih napak ali koeficientov variacije v dodatkih ali metodoloških pojasnilih • Komentar o natančnosti nekaterih spremenljivk v metodoloških pojasnilih • Nenatančne ocene so objavljene v oklepajih
Anketna metodologija • Sodelovanje oddelka pri načrtovanju novih anket • Predhodno testiranje ankete na manjšem vzorcu: • oblikovanje vprašalnika, • testiranje posameznih vprašanj, časa anketiranja, neodgovora na posamezna vprašanja, • vpliv načina anketiranja (CAPI, CATI, PAPI...), • sodelovanje respondentov, • odzivi na obvestilno pismo, • darila za respondente, • načrt za tabele...
Kakovost državne statistike • 5 posebnosti: • državna uprava • “statistika” je produkt in servis • “statistika” je po definiciji “okužena” z napakami • stranke v procesu produkcije statističnih podatkov • upravljanje v državni upravi
Definicija kakovosti v statistiki • “Forerunners” • US Bureau of Census • Statistics Canada (policy for informing users) • Statistics Sweden (Quality Declaration) • Dalenius: Total Survey Design - optimal design not limited to the sampling errors • “New-comers” • ONS - guide of practice (seznam nevzorčnih napak) • ABS • NZ - pridobitev standarda ISO 9000 • Stat. Finland: TQM-culture • Eurostat: workgroup on quality assessment
7 komponent definicije po ESS • ustreznost statističnih konceptov (relevance), • točnost ocen (accuracy), • pravočasnost in točnost (timelinessandpunctuality), • dostopnost in jasnost informacij (accessibilityandclarity), • primerljivost statistik (comparability), • enotnost (coherence), • dovršenost (completeness).
ANKETEPODJETIJ MESEČNE IN ČETRTLETNE ANKETE LETNE (ALI VEČLETNE) ANKETE TRG/M TRG/ČL GO/M NR-PODJ/M PA-IND/M PA-TRG/M ZAPM-SP IND/M ZAP/L ZAP/3L ZAP-SD/4L ZAP-SP/4L INV-1; INV-2 ŠOL-ZAP INOV IND/L
VZORČNIOKVIR Običajno uporabimo kombinacijo več različnih virov: • Poslovni register Slovenije - PRS • Statistični register delovno aktivnega prebivalstva - SRDAP • Zaključni računi • Podatki DURS-a (predvsem za samostojne podjetnike)
CILJNA POPULACIJA IN VZORČNI OKVIR • Ciljna populacija in vzorčni okvir sovpadata le v redkih idealnih situacijah. Ponavadi smo soočeni s situacijo, ki jo prikazuje slika.
VZORČNI NAČRT • Preden izberemo vzorec moramo: • zagotoviti čim večje število virov informacij, ki nam pomagajo tako pri izgradnji vzorčnega okvirja kot pri izbiri vzorca. • izračunati velikost vzorca. Velikost vzorca določimo na podlagi : • variabilnosti pojava, ki ga želimo izmeriti • želene natančnosti rezultatov • finančnih sredstev, ki so na voljo • določiti način izbire vzorca.
VELIKOST VZORCA (1) • Velikost določimo preko formule : ... za SRS vzorec ... vzorčni učinek (design effect) ... izhodiščna velikost za vzorčni načrt ... velikost vzorca z upoštevanjem predvidene stopnje odgovora
VELIKOST VZORCA (2) • Velikost določimo s simulacijo • Primer: Anketa o strukturi plač. Vzorec smo izbirali dvostopenjsko. Na prvi stopnji smo izbrali vzorec podjetij, na drugi stopnji pa v vsakem izbranem podjetju vzorec zaposlenih delavcev. Ker smo za večino zaposlenih v okviru imeli podatek o njihovi letni bruto plači, smo iz simuliranega dvostopenjskega vzorca izračunali natančnost ocen pri različnih velikostih vzorca (na prvi in drugi stopnji).
VELIKOST VZORCA (3) • Histogram ocen pri eni od simulacij:
STRATIFIKACIJA IN ALOKACIJA (1) • Pri anketah podjetij je vzorec običajno enostopenjski stratificiran. • Stratifikacijske spremenljivke: • Dejavnost - SKD • Velikostni razred • število zaposlenih in/ali • prihodek • Statistična regija (redko)
STRATIFIKACIJA IN ALOKACIJA (2) • Alokacija • Optimalna (Neymanova) alokacija • v stratumu, kjer je variabilnost pomožne spremenljivke, korelirane s ciljno spremenljivko, večja, izberemo več enot • Proporcionalna alokacija • V stratumu, ki vsebuje več enot okvira, izberemo v vzorec več enot