230 likes | 440 Vues
Prezentacja danych liczbowych Wykład 2 dr Małgorzata Radziukiewicz. Prezentacja danych liczbowych. Materiał liczbowy zebrany w trakcie badania statystycznego może być przedstawiony na trzy sposoby: 1. tabelarycznie 2. graficznie 3. parametrycznie.
E N D
Prezentacja danych liczbowychWykład 2dr Małgorzata Radziukiewicz
Prezentacja danych liczbowych • Materiał liczbowy zebrany w trakcie badania statystycznego może być przedstawiony na trzy sposoby: • 1. tabelarycznie • 2. graficznie • 3. parametrycznie
Podstawowym narzędziem opisu badanej populacji jest tzw. szereg statystyczny (szereg liczbowy, szereg empiryczny) • Szczególną rolę wśród szeregów statystycznych odgrywa szereg rozdzielczy - Szereg rozdzielczy rozdziela całą populację na grupy według wariantów badanej cechy - Zazwyczaj szeregi rozdzielcze przedstawiamy w formie tablic
Zestawienie danych w tablicę statystyczną • Tablica statystyczna składa się z 2-óch kolumn - 1-a kolumna – podajemy warianty badanej cechy w formie uporządkowanej, tzn. od najmniejszej do największej lub odwrotnie - 2-ga kolumna – podajemy liczbę jednostek posiadających dany wariant cechy Tablica 1. Schemat tablicy wynikowej
Przykład 1.populacja – ludność Polski w 2000 roku wg. stanu na 31.06.2000 r. (38646 tys.)badana cecha – płećwarianty cechy – mężczyźni, kobiety
Niekiedy zamiast liczebności przyporządkowanych poszczególnym wariantom cechy posługujemy się częstościamiCzęstości to udziały liczebności poszczególnych grup w ogólnej liczebności całej populacjiTablica 2. Schemat tablicy wynikowej
Przykład 2.populacja – ludność Polski w 2000 roku wg. stanu na 31.06.2000 r. (38646 tys.)badana cecha – miejsce zamieszkaniawarianty cechy – miasto (M), wieś (W)
Dwa podstawowe kanony szeregowania zbioru • musi być ono rozłączne, tzn. poszczególne warianty cechy (grupy) nie mogą wzajemnie zachodzić na siebie (w przykładzie 1 osoba może być albo kobietą albo mężczyzną, w przykładzie 2 jedna i ta sama osoba może być mieszkańcem miasta albo wsi) • musi być ono zupełne, tzn. warianty cechy muszą wyczerpać wszystkie jednostki wchodzące w skład populacji. ( z ogólnej liczebności 38646 tys. mieszkańców Polski przyporządkowano je w całości poszczególnym odmianom cechy)
Przykład 3 populacja –studenci statystyki WSMiZ w Sochaczewie badana cecha – waga (w kg) ilość wariantów cechy bardzo duża -68,63,67,65,69,72,62,64,66,68,66,62,60,70,71,63,67,63,66,65,69,67,72,68,74,65,66,61,64,61,62,64,65,65,71,64. Komentarz: Przyglądając się powyższym liczbom bardzo trudno określić jakieś wzory czy relacje między studentami.
Aby odkryć pewne relacje należy uporządkować liczby w następującej kolejności: 60,61,61,62,62,62,63,63,63,64,64,64,64,65,65,65,65,65,66,66,66,66,67,67,68,68,68,68,69,69,70,71,71,72,72,74. Wartości te porządkujemy tak, aby xmin = x1 < x2 < … < xk = xmax , gdzie xmin oraz xmax oznaczają kolejno najmniejszą i największą wartość cechy zaobserwowanej w badanej zbiorowości. Komentarz: Najmniejsza waga studenta to 60 kg, największa to 74 kg.
Różnica między maksymalną a minimalną wagą wynosi 14 kg. Różnica powyższa jest znana w statystyce jako rozstęp. Rozstęp = największa wartość cechy - najmniejsza wartość cechy Komentarz: Studentów z najniższą wagą - 60 i 61 kg - jest niewielu, również niewielu jest studentów z wagą powyżej 70 kg. Najwięcej studentów ma wagę od 62 do 68 kg. Pytanie? Jak często dana miara występuje? Ilu studentów ma tę samą wagę?
Liczebność = liczba wystąpień pomiaruPokażemy liczbę występowania każdej z wag w tablicy 1.Tablica 1.
Wadą tablicy 1 jest to, iż liczba poszczególnych miar wagowych jest duża, zaś częstość ich wystąpień niewielka. Np. waga równa 73 kg w ogóle nie występuje. W tej sytuacji lepiej połączyć dane dotyczące wagi studentów w grupy lub klasy. Np. możemy pogrupować je w następujące klasy: 60-62, 63-65, 66-68, 69-71, 72-74. Powyższe liczby pokazują początek (x0i) i koniec każdej klasy (x1i) i znane są jako przedziały klasowe ( x0i - x1i )dla i=1,2,…k gdzie k – liczba klas
Przedziały klasowe są najmniejszymi i największymi wartościami danych dla klasyObecnie możemy skonstruować tablicę 2, która powie nam ile zdarzeń jest w każdej klasieTablica 2.
Tablica 2 pokazuje nam jak miary wagowe są rozłożone i jaką mają rozpiętość. • Tablicę 2 nazywamy tablicą rozkładu liczebności lub prościej rozkładem liczebności. Uwaga!!! • Rozkład liczebności (częstości absolutnych) możemy skonstruować dla każdego zbioru danych wcześniej porządkowanego rosnąco lub malejąco.
Przy konstrukcji tablicy rozkładu liczebności należy uwzględnić: • rozkład liczebności powinien zawierać minimum 5 klas i nie przekraczać 20. Dane o niewielkiej liczebności powinny zawierać od 5 do 10 klas. Dla dużych zbiorów danych przyjmuje się liczbę klas nie większą niż 20. • każda miara może trafić tylko do jednej klasy. • największa wartość w klasie powinna być o 1 mniejsza od najmniejszej wartości w następnej klasie. Jeśli w danej klasie nie występują żadne wartości (zerowa liczebność), wtedy klasa ma zerową częstość. • poszczególne klasy powinny mieć tę samą rozpiętość. Rozpiętość przedziału klasowego możemy obliczyć następująco: rozpiętość klasy = (max – min) / liczba klas
Przy konstrukcji tablicy rozkładu liczebności należy uwzględnić: • jeżeli z obliczeń nie otrzymamy liczby całkowitej, zwykle zaokrąglamy do kolejnej liczby całkowitej (w naszym przypadku (74-60) / 5 = 2,8 3 ) • czasami pożądane jest aby przedział pierwszy miał tylko górną granicę, a przedział ostatni tylko dolną granicę ( np. „poniżej 60” i „powyżej 74” ) • czasami pożądana jest znajomość częstości względnych (stosunkowych) tj. udziału części do całości zbiorowości. W naszym przypadku w pierwszym przedziale klasowym znalazło się 6 studentów na ogólną ich liczbę 36 ( wagę od 60 do 62 kg miało 6-iu spośród 36 studentów). Obliczamy to następująco: 6 / 36 = 0,167 = 16,7% 17%. Wartość 0,167 lub 16,7% jest częstością względną dla pierwszej klasy.
Częstość względna klasy = liczebność klasy / liczebność ogółu zbiorowościTablica 3
● tablica rozkładu liczebności może zawierać również kolumnę pokazującą skumulowane liczebności dla wszystkich klas● końcowa wartość skumulowanych liczebności jest dokładnie równa całkowitej liczebności badanej zbiorowościTablica 5
● tablica rozkładu liczebności może zawierać również kolumnę pokazującą skumulowane częstości dla wszystkich klas● suma względnych częstości nie jest zawsze dokładnie równa 1 (100%). Dlatego powinniśmy oczekiwać przybliżonych wartości dla częstości względnychTablica 6
Wybór co do liczby klas jest zawsze subiektywny. • Brak jest zasad dotyczących stosowanych granic przedziałów klasowych, ale zawsze pożądana jest ta sama rozpiętość przedziałów klasowych. • Jeśli rozpatrzymy tę samą zbiorowość danych i uporządkujemy je według innych granic przedziałów klasowych to rezultaty będą zupełnie inne. • Przykład 3 c.d. populacja – studenci statystyki WSMiZ w Sochaczewie (36 studentów) badana cecha – waga (w kg) ilość wariantów cechy bardzo duża -68,63,67,65,69,72,62,64,66,68,66,62,60,70,71,63,67,63,66,65,69,67,72,68,74,65,66,61,64,61,62,64,65,65,71,64. Dla powyższego zestawu danych zbudować rozkład częstości dla k=8 klas.
Tablica 7.rozpiętość przedziałów klasowych - (74-60)/8= 1,75 ≈ 2