Jan Paradysz, Statystyka

Jan Paradysz, Statystyka Wykład 1 Cele wykładu i ćwiczeń laboratoryjnych ze Statystyki Struktura wykładu Literatura obowiązkowa Literatura fakultatywna Kryteria zaliczenia ćwiczeń Kryteria zaliczenia przedmiotu Możliwość zwolnienia z testu komputerowego Dyżury (blok C ; pokój 412) • Wtorek 17,15 – 18,00 • Środa 10,30 – 11,15

Cele wykładu i ćwiczeń laboratoryjnych ze Statystyki  •Nauczenie formułowania problemów badawczych i celów dochodzenia statystycznego,  •Zaznajomienie z podstawowymi metodami statystycznymi,  •Wyrobienie umiejętności właściwego doboru metod statystycznych oraz interpretowania wyników,  •Wyrobienie krytycznego stosunku do danych statystycznych wykorzystywanych w badaniach statystycznych.

Struktura wykładu Przedmiot i zadania statystyki Statystyka jako nauka o metodach badania zjawisk masowych Przedmiot badania statystycznego Proces badania statystycznego Metody i techniki opracowania materiału statystycznego Grupowanie statystyczne Prezentacja danych statystycznych Metody analizy struktury zbiorowości statystycznych Typy rozkładów empirycznych Charakterystyka parametrów opisowych rozkładu jednej zmiennej Kompleksowa analiza struktury Analiza koncentracji – krzywa Lorenza

Struktura wykładu (cd.) Metody badania współzależności zjawisk Istota związku korelacyjnego Rachunek korelacji i regresji dwóch zmiennych Korelacja i regresja wielu zmiennych Korelacja cech jakościowych Metody analizy szeregów czasowych Metoda indeksowa Wyrównywanie szeregów czasowych Analiza wahań sezonowych

Literatura obowiązkowa J. Paradysz (red.), Statystyka, Wyd. AE w Poznaniu, Poznań 2005 M. Sobczyk, Statystyka, PWN, Warszawa 2002

Literatura fakultatywna Hamburg M., Statistical Analysis for Decision Making. HBJ, New York 1983. Wyd. 3. JóźwiakJ., Pogórski J., Statystyka od podstaw. PWE, Warszawa 2001 i późniejsze wydania. Kassyk-Rokicka H. (red.), Zbiór zadań. PWE, Warszawa 2005. Keller G., Warrack B., Bartel H., Statistics for Management and Economics. A Systematic Approach. Belmont 1988. Kenkel J. M., Introductory Statistics for Management and Economics. PWS Publishers, Boston 1984, wyd. 2. Puchalski T., Statystyka, PWN, Warszawa1969 i późniejsze wydania. Rószkiewicz M., Statystyka. Kurs podstawowy. Wyd. Efekt, Warszawa 2002. Sobczyk M., Statystyka – aspekty praktyczne i teoretyczne. Wyd. UMCS, Lublin 2006. Szulc S., Metody statystyczne. PWE, Warszawa 1968. Yule G. U., Kendall M. G., Wstęp do teorii statystyki. PWN, Warszawa 1966 Zeliaś A., Pawełek B., Wanat S., Metody Statystyczne. Zadania i sprawdziany. PWE, Warszawa 2002.

Kryteria zaliczenia ćwiczeń • 2 testy: po analizie struktury (listopad); po analizie współzależności (styczeń) • obowiązkowa obecność na ćwiczeniach

Kryteria zaliczenia przedmiotu • zaliczenie ćwiczeń (zc minimum dst) • egzamin pisemny (ep) • test komputerowy (tk) • ostateczna ocena = 0,2*zc + 0,4*ep + 0,4*tk

Możliwość zwolnienia z testu komputerowego • zaliczenie ćwiczeń minimum dobry plus • egzamin pisemny minimum dobry plus • do indeksu wpisuje się ocenę z egzaminu pisemnego

Geneza nazwy „statystyka” i trochę jej historii Gottfried Achenwall (1719-1772), H. Balzak w powieści „Stracone złudzenia” (Illusions perdues publié en trois parties entre 1836 et 1843). Włożył tam w usta jednego z bohaterów „fais un peu de statistique, science assez utile quand on n’en abuse pas ”. Powyższe zdanie H. Balzak napisał około 1840r. Zatem już wówczas wiedziano, że: statystyka jest nauką, jest ona dość użyteczna, zdarza się jej nadużywać.

Geneza nazwy „statystyka” i trochę jej historii (cd.) G. Calot (1977, s.1), za początek nowoczesnej statystyki uważa prace J. Graunta (1662), zapoczątkowały rozwój metodologii badań statystycznych. W. Petty (1623-1687) używa metody statystycznej w badaniu zjawisk gospodarczych. G. King (1648-1712) dokonuje analizy demograficznej Anglii i Londynu oraz konstrukcje pierwszą znaną w dziejach ludzkości prognozę demograficzną dla Anglii. W wykonanej w 1696r. prognozie demograficznej przewidywał, że ludność Anglii w 2000r. będzie wynosić 8,3 miliona osób a w 2300 11 milionów .

Geneza nazwy „statystyka” i trochę jej historii (cd.) Astronom angielski E. Halley (1656-1742). Na podstawie ksiąg zgonów i urodzeń dla miasta Wrocławia i korzystając z metodologii Graunta w 1693r. E. Halley zbudował pierwszą w nowożytnych czasach tablicę trwania życia. Podkreślając pionierskość Halleya pamiętamy, że rzymski prawnik Domitius Ulpianus (170-228) już na początku III wieku także skonstruował, prawdopodobnie dla celów aktuaryjnych, tablicę trwania życia. Jednakże jego praca nie miała wpływu na rozwój ówczesnej metodologii badań statystycznych.

Geneza nazwy „statystyka” i trochę jej historii (cd.) Matematyk, fizyk i astronom szwajcarski L. Euler (1707-1783) skonstruował matematyczne podstawy tablic trwania życia oraz model ludności ustabilizowanej. Do problemów demograficznych nawiązywał też blisko spokrewniony ze statystyką matematyczną rachunek prawdopodobieństwa . Można tutaj wymienić takich ówczesnych uczonych jak: B. Pascal (1623-1662), J. Bernoulli (1654-1705), D. Bernoulli (1700-1782), P-S. de Laplace (1749-1827). .

Historia statystyki jako gromadzenie informacji Spisy ludności dla celów administracji państwowej. Sumeryjskie gliniane tabliczki klinowe dowodzą, że spisy ludności przeprowadzano już 3-4 tysiące lat przed Chrystusem. W Egipcie przeprowadzano spisy co najmniej 3 tysiące lat p.n.e. wraz ze spisem majątków. Kilkakrotnie o spisach ludności wspomina Biblia. W księdze liczb (Numerii) mówi się o kilku spisach ludności. Pierwszy z nich przeprowadził Mojżesz z Aaronem na rozkaz Pana, spisując „wszystkich mężczyzn od dwudziestu lat zdolnych do walki”. Było ich 603550 .

Historia statystyki jako gromadzenie informacji (cd.) Dość często, a w niektórych okresach regularnie, spisywano ludności w starożytnym Rzymie już od VI wieku przed Chrystusem. Cesarz August w ciągu swojego długiego panowania w latach od 43 p.n.e. do 14 n.e. nakazał 3 razy przeprowadzenia spisu, z czego drugi przeszedł do historii dzięki św. Łukaszowi . Z wielu innych spisów w różnych krajach czasami wymienia się spis w 786 r. we Francji w czasach Karola Wielkiego, który obejmował poddanych powyżej 12 roku życia. Słynny i często wymieniany w literaturze historycznej jest szczegółowy opis Anglii-Domesday Book – na polecenie Wilhelma Zdobywcy w 1085r.

Historia statystyki jako gromadzenie informacji (cd.) Za pierwszy nowoczesny spis ludności, którego celem było rozpoznanie procesów demograficzny, jest uważany spis szwedzki z 1749r. W Polsce pierwszy powszechny spis ludności zarządził Sejm Czteroletni w 1790r. pozostałe spisy przeprowadzono u nas w latach 1921, 1931, 1950, 1960, 1970, 1978, 1988 i w 2002r. Między spisami od lat siedemdziesiątych XX wieku przeprowadza się mikrospisy za pomocą metody reprezentacyjnej. Dotychczas było ich 3: 1974, 1984 i 1995. W 1846r. w Belgii przeprowadzono spis ludności według projektu A.Quetelet, który stał się wzorcem dla innych krajów.

Historia statystyki jako gromadzenie informacji (cd.) Do kategorii spisów należy zaliczyć także przeprowadzane na polecenia biskupów tak zwane „stany dusz” (status animarum) oraz wykazy osób komunikujących się. Często status animarum był imienny oraz zawierał także wiek osób. Stanowią one obecnie bardzo cenne źródło informacji w badaniach demograficzno-historycznych: 1) dostarczają struktur demograficznych dla obliczania cząstkowych współczynników urodzeń, małżeństw i zgonów, 2) pozwalają na rekonstrukcję rodzin w okresie prestatystycznym.

Historia statystyki jako gromadzenie informacji (cd.) Na przełomie XV i XVI wieku w ustawodawstwie synodalnym kilku krajów europejskich zalecano prowadzenie przez proboszczów ksiąg metrykalnych chrztów, ślubów i zmarłych a w 1563 r. Sobór trydencki powyższe zalecania zmienił na obowiązek. Dotyczyło to chrztów i ślubów. Potem w 1614 r. tak zwany „Rytuał rzymski” dołączył do tego obowiązek rejestracji pochówków (księga zgonów). Dało to początek nowoczesnej rejestracji ruchu naturalnego ludności dla celów analizy demograficznej.

Wykład 3. Analiza struktury 3.1. Podstawowe pojęcia a) zbiorowość statystyczna b) jednostka statystyczna c) cechy statystyczne

Wykład 3. Analiza struktury 3.2. Klasyfikacja zbiorowości statystycznych a) stopień złożoności jednostek statystycznych - jednostki proste (naturalne) - jednostki złożone b) rodzaj wewnętrznej konstrukcji jednostek statystycznych - jednostki przedmiotowe (osoby, rodziny, gospodarstwa domowe, firmy, gałęzie gospodarki narodowej), - jednostki przestrzenne (gminy, powiaty, województwa, kraje) - jednostki czasowe (miesiące, kwartały, lata) - jednostki kombinowane (czasowo-przestrzenne)

Wykład 3. Analiza struktury

Wykład 3. Analiza struktury 3.2. Cechy statystyczne 3.2.1. Klasyfikacja cech statystycznych - rys.3.1. 3.3. Rozkład zbiorowości statystycznej według cechy ilościowej 3.3.1. Średnie klasyczne a) średnia arytmetyczna - w szeregu statystycznym szczegółowym, prostym (3.1)

Wykład 3. Analiza struktury w szeregu statystycznym rozdzielczym dla zmiennej dyskretnej(3.2)

Wykład 3. Analiza struktury gdzie: i – numer klasy, k – liczba przedziałów klasowych, oraz (3.3):

Wykład 3. Analiza struktury -w szeregu statystycznym rozdzielczym dla zmiennej ciągłej (3.4) gdzie: x'i - środek przedziału i-tej klasy.

Wykład 3. Analiza struktury Jeśli, zamiast liczebności bezwzględnych, dysponujemy wskaźnikami struktury, to wówczas wzory (3.2) i (3.4) przybierają następującą postać (3.5), gdzie (3.6):

Wykład 3. Analiza struktury oraz (3.7): W szczególnym przypadku, gdy wskaźniki struktury zostały przedstawione w postaci procentów, to przypadku zmiennej dyskretnej (3.8)

Wykład 3. Analiza struktury oraz w przypadku zmiennej ciągłej (3.9):

Wykład 3. Analiza struktury W niektórych dyscyplinach naukowych, jak demografia i ekonomika gospodarstwa domowego, wykorzystuje się jako liczebności szeregu statystycznego pewnego rodzaju współczynniki. Np. przeciętny wiek w chwili ślubu oblicza się według wzoru (3.10)

Wykład 3. Analiza struktury gdzie M(xi) jest cząstkowym współczynnikiem zawierania małżeństw (3.11) gdzie: MAL(xi) – liczba małżeństw zawartych w danym roku przez osoby w i-tym przedziale wieku x, K(xi) - liczba osób w połowie określonego roku kalendarzowego w i-tym przedziale wieku x.

Wykład 3. Analiza struktury b) średnia harmoniczna - szereg szczegółowy, prosty (3.12)

Wykład 3. Analiza struktury Przykład 2 Zastosowania średniej harmonicznej ilość zużytego czasu (w minutach) na wykonanie pewnego produktu przez 5 robotników była następująca: 2, 2, 4, 4,5. Średni czas oblicza się następująco

Wykład 3. Analiza struktury c) średnia geometryczna Średnia geometryczna odnosi się do pewnego rodzaju wskaźników i zostanie objaśniona później przy analizie współzależności i dynamiki

Wykład 3. Analiza struktury 3.3.2 Średnie pozycyjne a) Dominanta (modalna, moda lub wartość najczęstsza) W szeregu szczegółowym, prostym, dominantą jest wartość występująca najczęściej. Przykład 3. W szeregu liczb 1, 2, 3, 4, 4, 4, 5, 5, 6, 6, 7 dominantą jest liczba 4. Istnieje wiele wzorów interpolacyjnych na wyznaczenie dominanty jednakże najpowszechniej stosuje się następujący (3.13):

Wykład 3. Analiza struktury lub (3.14)

Wykład 3. Analiza struktury Uwaga: jeśli szerokość przedziałów nie jest jednakowa, wówczas należy przeliczyć liczebność poszczególnych klas na jednostkę interwału klasowego. Po takiej operacji może się zdarzyć, że dominanta wypadnie w innej klasie niż to początkowo wynikało z nierównych przedziałów. Interpolacji dominanty dokonujemy na podstawie liczebności klasowych przeliczonych na jednostkę przedziału.

Wykład 3. Analiza struktury W badaniach demograficznych, rynku pracy i wszędzie tam, gdzie posługujemy się cząstkowymi współczynnikami natężenia, wyznaczamy dominantę za pomocą tych współczynników. Na przykładzie współczynników zawierania małżeństw można pokazać wyznaczanie dominanty wieku zamążpójścia (ożenku) (3.15:

Wykład 3. Analiza struktury b) Mediana (wartość środkowa) Mediana jest to taka wartość w szeregu statystycznym uporządkowanym bądź rosnąco bądź malejąco, która dzieli zbiorowość statystyczną na dwie równe części. W przykładzie 3 w populacji złożonej z 11 elementów medianą jest jednostka statystyczna szósta w szeregu, która charakteryzuje się liczbą 4. Potocznie, aczkolwiek niezbyt precyzyjnie mówi się, że medianą jest 4. Jeśli w szeregu jest parzysta liczba jednostek statystycznych, to medianę wyznacza się jako średnią arytmetyczną z wartości danej cech dla dwóch jednostek stojących w środku uporządkowanego szeregu.

Wykład 3. Analiza struktury W szeregu rozdzielczym dla zmiennej ciągłej z przedziałami klasowymi wyznacza się medianę za pomocą wzoru interpolacyjnego (3.16):

Wykład 3. Analiza struktury c) Kwantyle Wśród kwantyli wyróżnia się kwartyle, decyle i percentyle. Najczęściej poprzestaje się na kwartylach i decylach. Mamy 3 kwartyle, które dzielą zbiorowość na 4 ćwiartki. I kwartyl (Q1) dzieli populację na 2 nierówne części: poniżej I kwartyla znajduje się 25% zbiorowości a powyżej 75%. II kwartyl (Q2) jest jednocześnie medianą i dzieli zbiorowość na dwie równe części. III kwartyl także dzieli populację na 2 nierówne części, z których elementy przyjmujące wartości poniżej Q3 stanowią 75% a te powyżej 25%. Wzór na Me został podany jako (3.16), to ograniczymy się do kwartyli 1 i 2 (3.17):

Wykład 3. Analiza struktury Trzeci kwartyl dany jest wzorem (3.18):

Wykład 3. Analiza struktury Decyle, których jest 9, dzielą zbiorowość na 10 części. Pierwszy decyl dzieli zbiorowość na 2 nierówne części 10 i 90%, drugi 20 i 80%, trzeci 30 i 70%, czwarty 40 i 60%, piąty jest jednocześnie drugim kwartylem i medianą. Szósty decyl dzieli populację na 60 i 40%, siódmy 70 i 30%, ósmy 80 i 20% i dziewiąty na 90 i 10%. Percentyli jest 99. Pierwszy dzieli zbiorowość na 2 nierówne części 1 i 99%. 50-ty percentyl jest medianą. Przykład wzoru interpolacyjnego na siódmy decyl(3.19):

Wykład 3. Analiza struktury 3.4. Miary dyspersji rozkładu zmiennej ilościowej. Na określenie dyspersji posiadamy także inne nazwy, których będziemy używać jako synonimy: wariancja (w szerszym znaczeniu), zmienność, rozrzut oraz rozproszenie. Dla każdemu rodzajowi miar tendencji centralnej odpowiadają właściwe mu miary dyspersji. Najprostszą i najprymitywniejszą miarą dyspersji jest rozstęp, czyli różnica pomiędzy największą i najmniejszą wartością w szeregu statystycznym. 3.4.1 Miary klasyczne. wariancja rozkładu(3.20):

Wykład 3. Analiza struktury oraz odchylenia standardowe (3.21): gdzie różnica (xj – m) nosi nazwę odchyłki.

Wykład 3. Analiza struktury W przypadku szeregu rozdzielczego dla zmiennej dyskretnej wariancja rozkładu x dana jest wzorem (3.22):

Wykład 3. Analiza struktury Wstawiając w miejsce wariantu cechy x środki przedziałów klasowych x’ otrzymujemy wzór dla szeregu rozdzielczego zmiennej ciągłej(3.23):

Wykład 3. Analiza struktury W tym ostatnim przypadku zbytnia szerokość przedziałów klasowych może istotnie zawyżyć wielkość wariancji i odchylenia standardowego. Jest to efektem błędu grupowania. W. F. Sheppard wykazał, że przy rozsądnych założeniach, zastosowanie poprawki może zmniejszyć ten błąd. Wzór na wariancję z poprawką Shepparda jest (3.24) gdzie int jest szerokością interwału klasowego. Warunkiem zastosowania poprawki Shepparda są równe interwały klasowe:

Wykład 3. Analiza struktury Wariancja rozkładu doliczona według dowolnego ze wzorów (3.20-24) ma zastosowanie w różnych działach statystyki. Wyrażając kwadraty wartości cechy jest trudna do interpretacji. W tym celu lepiej posługiwać odchyleniem standardowym. Odchylenie standardowe jest wyrażone w tych samych jednostkach miary jak dana cecha statystyczna, czyli w jednostkach naturalnych. Mówimy, że odchylenie standardowe jest wyrażone w jednostkach naturalnych i jest miarą mianowaną. W przykładzie 2 licząc średni wiek kobiet w chwili zamążpójścia w latach, również odchylenie standardowe będzie wyrażone w latach. Odchylenie standardowe interpretuje się jako średnią kwadratową rozrzutu między wariantami cechy i jej średnią arytmetyczną.

Wykład 3. Analiza struktury Niekiedy powstaje potrzeba porównania dyspersji dwóch lub więcej różnych cech statystycznych. Na przykład rozkład mieszkań według liczby izb i rozkład tych samych mieszkań według powierzchni mieszkaniowej. Pierwsza z tych cech wyrażona jest w liczbie izb a druga metrach kwadratowych. Zatem trudno byłoby powiedzieć na podstawie bezwzględnych miar zmienności, jaką są odchylenia standardowe, w którym przypadku wariancja rozkładu jest większa. Dlatego też zaproponowano w literaturze przedmiotu względne miary dyspersji. Są nimi współczynniki zmienności (3.25):

Wykład 3. Analiza struktury Na koniec warto wspomnieć o jednej z tych miar adekwatnych dla średniej arytmetycznej, które mają coraz mniejsze znaczenie. Należy tutaj odchylenie przeciętne. Nie będziemy go jednak wykorzystywali w naszej analizie struktury, gdyż posiada wszystkie jego zalety posiada odchylenie standardowe, które ponadto może być wykorzystane we wnioskowaniu statystycznym oraz analizie współzależności. W literaturze przedmiotu spotyka się, co prawda bardzo rzadko, pod nazwą odchylenia przeciętnego średnią ważoną bezwzględnych różnic pomiędzy wariantami cechy a jej średnią. Odchylenie przeciętne było częściej stosowane w okresie przedkomputerowym, kiedy można było go znacznie łatwiej obliczyć niż odchylenie standardowe. Obecnie z uwagi na łatwość obliczeń odchylenie przeciętne nie ma już większego znaczenia.

Jan Paradysz, Statystyka

Jan Paradysz, Statystyka

Presentation Transcript

Statystyka

Statystyka - to nie boli

Statystyka opisowa

Statystyka – zadania, część 2

Statystyka

Statystyka – zadania 4

STATYSTYKA OPISOWA

Statystyka w doświadczalnictwie

STATYSTYKA TURYSTYKI

Statystyka w doświadczalnictwie

STATYSTYKA

Statystyka społeczna - edukacja

Statystyka w tys.

Statystyka â€“ zadania 4

Statystyka w tys.

Statystyka

STATYSTYKA

Statystyka przy kawie

STATYSTYKA

Statystyka

Statystyka

Statystyka w doświadczalnictwie