1 / 59

Statistični urad Republike Slovenije Predstavitev za študente podiplomskega študija statistike Ljubljana, 20.03.2003

Statistični urad Republike Slovenije Predstavitev za študente podiplomskega študija statistike Ljubljana, 20.03.2003. Vsebina predstavitve. Metodologija raziskovanj na SURS-u (Metka Zaletel, Rudi Seljak) Proces pretoka podatkov na SURS-u (Pavle Kozjek)

arion
Télécharger la présentation

Statistični urad Republike Slovenije Predstavitev za študente podiplomskega študija statistike Ljubljana, 20.03.2003

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistični urad Republike Slovenije Predstavitev za študente podiplomskega študija statistike Ljubljana, 20.03.2003

  2. Vsebina predstavitve • Metodologija raziskovanj na SURS-u (Metka Zaletel, Rudi Seljak) • Proces pretoka podatkov na SURS-u (Pavle Kozjek) • Časovne vrste in zakrivanje podatkov (Nina Jukić) • Diseminacija podatkov (Uta Kuhar)

  3. GENERALNI DIREKTOR NAMESTNICA GENERALNEGA DIREKTORJA SAMOSTOJNI IZVAJALCI TAJNIŠTVO GENERALNEGA DIREKTORJA SLUŽBA ZA MEDNARODNE ODNOSE IN EVROPSKE ZADEVE SLUŽBA ZA PROGRAM STATISTIČNIH RAZISKOVANJ SLUŽBA ZA SPRS*, KLASIFIKACIJE IN STATISTIKO PODJETIJ SEKTOR 1 Skupne statistične storitve SEKTOR 2 Nacionalni računi In cene SEKTOR 3 Ekonomske statistike SEKTOR 4 Demografske in socialne statistike SEKTOR 5 Statistika naravnih virov in okolja SEKTOR 6 Izkazovanje statističnih podatkov in metod SEKTOR 7 Produkcija lastnih statističnih baz podatkov SEKTOR 8 Statistična informacijska infrastr. In tehn. SEKTOR 9 Skupne službe Oddelek za vzorčenje, anketno metodologijo in modele

  4. Delo oddelka • Anketna metodologija • Priprava vzorčnih okvirov • Vzorčni načrti in izbor vzorcev • Uteževanje zbranih podatkov • Analiza podatkov(neodgovor, natančnost ocen, vpliv uteži, kakovost podatkov) • Analiza časovnih vrst • Statistična zaščita podatkov • Kakovost podatkov, procesov in storitev • Razvoj in uporaba metod imputacij podatkov

  5. Glavna orodja • SAS • CALMAR (kalibracija) • IVEWARE (imputacije, variance) • DEMETRA (analiza časovnih vrst) • -ARGUS in -ARGUS (zaščita podatkov) • MS-Office (Excel, Word, Access, PPT)

  6. Metodološki del procesa • Definicija ciljnih spremenljivk in ciljne populacije • Določitev vzorčnega okvira • Določitev vzorčnega načrta in velikosti vzorca • Izbor vzorca Terenska faza Vnos, kontrola in obdelava podatkov • Uteževanje in analiza vpliva uteži • Analiza neodgovora • Natančnost ciljnih spremenljivk • Poročilo o kakovosti

  7. Vrste anket (glede na ciljno populacijo) • Ankete oseb in gospodinjstev • Centralni register prebivalstva (CRP) • Baza telefonskih naročnikov v RS • Ankete podjetij • Poslovni register (PRS) skupaj z drugimi viri (npr. zaključni računi) • Ankete kmetij • Statistični register kmetij (SRK)

  8. Podatkovne baze za vzorčne okvire terenskih anket oseb in gospodinjstev • Glavni vir je Centralni register prebivalstva (CRP), kombiniran z Registrom prostorskih enot (RPE), ki ga ureja Geodetska uprava Republike Slovenije.

  9. Centralni register prebivalstva • V CRP-ju so vsi državljani Republike Slovenije in tujci, ki imajo v Sloveniji stalno bivališče. Njihova identifikacijska številka je emšo. • Podatki v CRP-ju: ime, priimek, datum in kraj rojstva, naslov, zakonski stan, šifra in datum zadnjega dogodka (poroka, rojstvo, selitev, sprememba imena...) • Problemi s pokritjem: v CRP-ju ni začasno prijavljenih tujcev, beguncev, osebe stanujejo drugje, kot so prijavljene.

  10. Vzorčni okviri pri terenskih anketah oseb in gospodinjstev • Odvisni od vzorčnega načrta • Vzorčni načrti so navadno stratificirani sistematični (izbor po seznamu)ali stratificirani dvostopenjski • Na prvi stopnji izbiramo vzorčne enote znotraj stratumov z verjetnostjo proporcionalno njihovi velikosti (PPS) • Na drugi stopnji pa izberemo fiksno število odraslih oseb iz izbranih vzorčnih enot. • Koliko oseb izbiramo na drugi stopnji, je odvisno od ankete (pri APG 4, APČ 6)

  11. Stratifikacija • po statističnih regijah (12) • po tipu naselja in deležu kmečkega prebivalstva • nekmečka z manj kot 2000 prebivalci (število kmetij/št.hišnih številk <0,3) • kmečka z manj kot 2000 prebivalci(število kmetij/št.hišnih številk >=0,3) • 2,000-10,000 prebivalcev • 10,000-100,000 prebivalcev • Maribor • Ljubljana

  12. Okvir vzorčnih enot • Izhajamo iz popisnih okolišev • Problem: premajhni popisni okoliši (število gospodinjstev<30) • Rešitev: združevanje premajhnih popisnih okolišev v vzorčne enote • Rezultat: okvir vzorčnih enot, ki je stratificiranpo statističnih regijah ter po tipu naselja in deležu kmečkega prebivalstva.

  13. Vzorci oseb in gospodinjstev • Izbrane osebe predstavljajo (odvisno od ankete) • vzorec oseb ali • nas vodijo do gospodinjstva, katerega člani so oz. • nas vodijo na naslov, na katerem prebiva gospodinjstvo, ki nas zanima. • Pri vzorcih gospodinjstev imajo večja gospodinjstva večjo verjetnost, da so izbrana • Problem rešimo z uteževanjem

  14. Terenske ankete oseb in gospodinjstev na SURS-u • Anketa o delovni sili (ADS) • Anketa o porabi v gospodinjstvih (APG) • Anketa o porabi energije in goriv v gospodinjstvih (APEGG, 2003) • Anketa o porabi časa (APČ, 2001) • Anketa o najetih stanovanjih (ANS, 2003)

  15. APG • Zbiramo podatke o razpoložljivih in porabljenih sredstvih v zasebnih gospodinjstvih v Sloveniji. • Namen: izdelava ponderjev za izračunavanje indeksa cen življenjskih potrebščin, struktura porabe, itd. • Podatke zbiramo z vprašalniki in dvotedenskimi dnevniki izdatkov.

  16. APG - vzorec • Bruto vzorec 1600 gospodinjstev • Neto vzorec 1200 izpolnjenih anket • Vzorec je stratificiran po statističnih regijah in tipih naselja • Uporabljamo dva vzorčna načrta • v manjših naseljih je vzorec dvostopenjski • v večjih naseljih pa sistematično izbiramo osebe po stratumih

  17. APG - obdelava podatkov • Letna velikost vzorca (1200 gospodinjstev) je premajhna za natančne ocene. • Danski model pri obdelavi podatkov: združevanje treh zaporednih let, preračunanih na srednje leto. Ocene na 3600 gospodinjstvih.

  18. APG - uteževanje Dve vrsti uteži: • vzorčna utež, ki je produkt uteži: • utež zaradi neenake verjetnosti izbora gospodinjstev, • utež za neodgovora, • poststratifikacijske uteži (popravek stratumske alokacije), • raking: popravek porazdelitve oseb v anketiranih gospodinjstvih glede na spol in starost inpopravek strukture velikosti gospodinjstev glede na večjo anketo o delovni sili iz leta 1995. • utež zaradi različnega časa anketiranja in različnih referenčnih obdobij spremenljivk

  19. APG - analiza neodgovora

  20. Anketa o delovni sili (ADS) • Namen: zagotavljanje zanesljivih podatkov o stanju in spremembah na slovenskem trgu dela: • število in stopnjo delovno aktivnega prebivalstva • število in stopnja brezposelnih • število in stopnja aktivnih • Začetki ADS v Sloveniji segajo v leto 1989, današnja metodologija je v veljavi od 1997.

  21. Anketa o delovni sili (ADS) • Metodologija je harmonizirana in primerljiva z zahtevami: • Mednarodne organizacije za delo (ILO) • Statističnega urade Evropske unije (EUROSTAT) • Največja anketa gospodinjstev v Sloveniji.

  22. Metodologija ADS (od leta 1997) • Kontinuirana, izbor vzorca in objavarezultatatov je četrtletna • Vzorčni načrt: • panel (5 ponovitev po modelu 3-1-2) • stratificiran SRS (47 stratumov glede na tip naseljein statistično regijo) • četrtletno anketiramo ~2000 novih gospodinjstev (CAPI) in ~5000 gospodinjstev ponovno anketiramo (CATI)

  23. Zakaj panel? • spremljanje prehodov med stanji vrazličnih časovnih točkah, ocena razlik

  24. Uteži pri ADS • uteži zaradi različnih verjetnosti izbora • uteži zaradi neodgovora • prilagoditev populacijskim vrednostim (spol, starostni razredi, statistične regije) iz drugih virov • post-stratifikacija

  25. Natančnost ocen v letu 2001

  26. Objava rezultatov ADS 2001

  27. Analiza neodgovorov ADS 2002/Q4 • Stopnja ustreznosti 98,5% • Stopnja anketiranja 88,3% • Stopnja odgovora 89,6% • Stopnja neodgovora 10,4% • Stopnja zavračanja 7,2% • Stopnja nekontaktiranja 2,2%

  28. Vzorčni okvir za telefonske ankete • Telefonski imenik zasebnih telefonskih naročnikov v Republiki Sloveniji (vir: Telekom d.d.) • podatki o omrežni skupini, tel. številki, imenu naročnika, naslovu naročnika, šifra občine, naselja... • Okvir popisnih okolišev • Pridobimo podatke: • tipu naselja (6 tipov), • številu oseb stalno prijavljenih oseb.

  29. Vzorčni načrt za telefonske vzorce • Vzorčni načrt: stratificiran sistematični slučajni vzorec • Stratumi so definirani s statistično regijo (12 regij) ins tipom in velikostjo naselja (6 tipov). • V vsakem stratumu vzorčimo neodvisno • Število enot v vzorcu (telefonskih naročnikov) v vsakem stratumu je sorazmerno deležu oseb v posameznem stratumu.

  30. Izbor ciljne osebe v okviru gospodinjstva • Izbor ciljne osebe v okviru gospodinjstva • Metoda naslednjega rojstnega dne • Boljše rezultate (socio-demografska struktura vzorca) daje nekoliko bolj zamuden Kishev postopek izbora ciljne osebe, ki pa ga na uradu še nismo testirali.

  31. Uteževanje rezultatov pri telefonskih anketah • Podatke utežimo zaradi neenakih verjetnosti izbora ciljne osebe. • Uteži zaradi različne verjetnosti izbora še dodatno popravimo tako, da upoštevamo kar največ znanih informacij o populaciji.

  32. Kakovost vzorčnega okvira • Pokritje: • gospodinjstva s telefoni: preko 90 % • zaenkrat še narašča • Nepokritje: • gospodinjstva brez telefona: manj kot 10 % • tajne številke okrog 3 % • Mobilna telefonija???

  33. Telefonske ankete na statističnem uradu • Anketa o mnenju potrošnikov (AMP) • Mesečna anketa, n=1500 • Četrtletna anketa o potovanju domačega prebivalstva (ČAP) • 1.četrtletje, n=3000 • 2.četrtletje, n=3000 • 3.četrtletje, n=3000 • 4.četrtletje, n=6000 • Anketa o žrtvah kriminala (AŽK) • Izvaja se na 3 leta. Zadnjič izvedena marca 2001. • n=6000 oseb

  34. Analiza neodgovora - AMP

  35. Analiza neodgovora - ČAP

  36. Predstavitev vzorčnih napak • Objava podatkov običajno ne vsebuje standardnih napak za vse opazovane spremenljivke • Stroški in čas ocenjevanja varianc • Napake pogosto ocenjujemo z modeli in diagrami

  37. Načini objave standardnih napak • Možni načini objav st. napak: • Standardne napake in intervali zaupanja so objavljeni v tabelah skupaj z osnovnimi podatki • Tabele povprečnih standardnih napak ali koeficientov variacije v dodatkih ali metodoloških pojasnilih • Komentar o natančnosti nekaterih spremenljivk v metodoloških pojasnilih • Nenatančne ocene so objavljene v oklepajih

  38. Anketna metodologija • Sodelovanje oddelka pri načrtovanju novih anket • Predhodno testiranje ankete na manjšem vzorcu: • oblikovanje vprašalnika, • testiranje posameznih vprašanj, časa anketiranja, neodgovora na posamezna vprašanja, • vpliv načina anketiranja (CAPI, CATI, PAPI...), • sodelovanje respondentov, • odzivi na obvestilno pismo, • darila za respondente, • načrt za tabele...

  39. Kakovost državne statistike • 5 posebnosti: • državna uprava • “statistika” je produkt in servis • “statistika” je po definiciji “okužena” z napakami • stranke v procesu produkcije statističnih podatkov • upravljanje v državni upravi

  40. Definicija kakovosti v statistiki • “Forerunners” • US Bureau of Census • Statistics Canada (policy for informing users) • Statistics Sweden (Quality Declaration) • Dalenius: Total Survey Design - optimal design not limited to the sampling errors • “New-comers” • ONS - guide of practice (seznam nevzorčnih napak) • ABS • NZ - pridobitev standarda ISO 9000 • Stat. Finland: TQM-culture • Eurostat: workgroup on quality assessment

  41. 7 komponent definicije po ESS • ustreznost statističnih konceptov (relevance), • točnost ocen (accuracy), • pravočasnost in točnost (timelinessandpunctuality), • dostopnost in jasnost informacij (accessibilityandclarity), • primerljivost statistik (comparability), • enotnost (coherence), • dovršenost (completeness).

  42. ANKETEPODJETIJ MESEČNE IN ČETRTLETNE ANKETE LETNE (ALI VEČLETNE) ANKETE TRG/M TRG/ČL GO/M NR-PODJ/M PA-IND/M PA-TRG/M ZAPM-SP IND/M ZAP/L ZAP/3L ZAP-SD/4L ZAP-SP/4L INV-1; INV-2 ŠOL-ZAP INOV IND/L

  43. VZORČNIOKVIR Običajno uporabimo kombinacijo več različnih virov: • Poslovni register Slovenije - PRS • Statistični register delovno aktivnega prebivalstva - SRDAP • Zaključni računi • Podatki DURS-a (predvsem za samostojne podjetnike)

  44. CILJNA POPULACIJA IN VZORČNI OKVIR • Ciljna populacija in vzorčni okvir sovpadata le v redkih idealnih situacijah. Ponavadi smo soočeni s situacijo, ki jo prikazuje slika.

  45. VZORČNI NAČRT • Preden izberemo vzorec moramo: • zagotoviti čim večje število virov informacij, ki nam pomagajo tako pri izgradnji vzorčnega okvirja kot pri izbiri vzorca. • izračunati velikost vzorca. Velikost vzorca določimo na podlagi : • variabilnosti pojava, ki ga želimo izmeriti • želene natančnosti rezultatov • finančnih sredstev, ki so na voljo • določiti način izbire vzorca.

  46. VELIKOST VZORCA (1) • Velikost določimo preko formule : ... za SRS vzorec ... vzorčni učinek (design effect) ... izhodiščna velikost za vzorčni načrt ... velikost vzorca z upoštevanjem predvidene stopnje odgovora

  47. VELIKOST VZORCA (2) • Velikost določimo s simulacijo • Primer: Anketa o strukturi plač. Vzorec smo izbirali dvostopenjsko. Na prvi stopnji smo izbrali vzorec podjetij, na drugi stopnji pa v vsakem izbranem podjetju vzorec zaposlenih delavcev. Ker smo za večino zaposlenih v okviru imeli podatek o njihovi letni bruto plači, smo iz simuliranega dvostopenjskega vzorca izračunali natančnost ocen pri različnih velikostih vzorca (na prvi in drugi stopnji).

  48. VELIKOST VZORCA (3) • Histogram ocen pri eni od simulacij:

  49. STRATIFIKACIJA IN ALOKACIJA (1) • Pri anketah podjetij je vzorec običajno enostopenjski stratificiran. • Stratifikacijske spremenljivke: • Dejavnost - SKD • Velikostni razred • število zaposlenih in/ali • prihodek • Statistična regija (redko)

  50. STRATIFIKACIJA IN ALOKACIJA (2) • Alokacija • Optimalna (Neymanova) alokacija • v stratumu, kjer je variabilnost pomožne spremenljivke, korelirane s ciljno spremenljivko, večja, izberemo več enot • Proporcionalna alokacija • V stratumu, ki vsebuje več enot okvira, izberemo v vzorec več enot

More Related