1 / 84

Rachunek P-stwa i Statystyka

Rachunek P-stwa i Statystyka. Kurs powtórkowy dla Inżynierii Biomedycznej Strona internetowa : http:// im.pwr.wroc.pl /~ mbogdan. Wykładowca : Małgorzata Bogdan Biuro : C-11 204 Godziny konsultacji : Pon 1 4 :00-1 6 :00 , Pt 13:00 – 15:00 (lub indywidualnie)

keene
Télécharger la présentation

Rachunek P-stwa i Statystyka

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Rachunek P-stwa i Statystyka Kurs powtórkowy dla Inżynierii Biomedycznej Strona internetowa: http://im.pwr.wroc.pl/~mbogdan

  2. Wykładowca : Małgorzata Bogdan • Biuro: C-11 204 • Godziny konsultacji: Pon 14:00-16:00, Pt 13:00 – 15:00 (lub indywidualnie) • Telefon: 320 21 03 • Email: mbogdan@im.pwr.wroc.pl

  3. Oceny • Dwa kolokwia na wykładzie (22 listopad i 24 styczeń) • Aktywność na ćwiczeniach • Zaliczenie ćwiczeń gwarantuje zaliczenie wykładu • Egzamin • Egzamin zalicza ćwiczenia na ocenę najwyżej dostateczną

  4. Książka • Statistics for the Life Sciences, 3rd edition, Myra L. Samuels i Jeffrey A. Witmer, 2003 • Listy zadań dostępne w internecie • Wykłady napisane w oparciu o materiały z cyklu wykładów ``Statystyka dla biologów (STAT 503)’’ autorstwa Dr. K. Simonsen, Dr. B. Johnsona i innych statystyków z Purdue University, USA.

  5. Dane • Używamy danych aby odpowiedzieć na różne pytania naukowe • Na ogół dane charakteryzują się losową zmiennością • Oceniamy informację zawartą w danych • Chcemy odróżnić sygnał od szumu

  6. Co to jest statystyka? • Nauka dotycząca zrozumienia danych i podejmowania decyzji w obliczu losowości • Zbiór metod do planowania eksperymentu i analizy danych służących do uzyskania maksimum informacji i ilościowej oceny ich wiarygodności

  7. Przykład 1 • Badania dotyczące wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie. Czy poziom cholesterolu jest niższy u osób, które ćwiczą ? • Ludzie mają naturalnie różne poziomy cholesterolu • Reagują różnie na tą samą dawkę ćwiczeń (np. genetyka) • Różny stopnień zaangażowania w realizację planu ćwiczeń • Wpływ diety • Ćwiczenia mogą wpływać na inne czynniki (np. apetyt)

  8. Przykład 2 • Eksperyment mikromacierzowy porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji ? • Czy mamy powtórzenia eksperymentu ? Czy w kolejnych powtórzeniach wyniki są podobne ? • Dlaczego dwukrotna zmiana, a nie trzy lub czterokrotna ? Jak ustalić właściwą wartość krytyczną ?

  9. Przykład 3 (Lokalizacja genów) • Gen o dwóch allelach – trzy genotypy AA, Aa, aa • Dzielimy kłosy żyta odpowiednio na trzy grupy • Czy różnice w przeciętnej wydajności między tymi trzema grupami są wystarczająco duże aby stwierdzić bliskość genu odpowiadającego za wydajność

  10. Przykład 4 • W artykule wyczytaliśmy, że stwierdzono, że 80 % pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania a 20 % jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. • Czy przeprowadzone badania upoważniają do takiej konkluzji ?

  11. Przykład 5Reakcja owiec na bakterie wąglika

  12. Przykład 6Rozwój raka wątroby u myszy

  13. Przykład 5 – brak zmienności (?) – mocna konkluzja • Przykład 6 – duża zmienność – słaba konkluzja • Jak duża musi być próba abyśmy w oparciu o nią mogli dowieść wpływu czynnika na wynik eksperymentu ?

  14. Losowość • Dane na ogół charakteryzują się zmiennością • Matematycznie modelujemy tą zmienność używając rachunku prawdopodobieństwa

  15. Przykłady • Prognoza pogody- prawdopodobieństwo deszczu wynosi 80% • Prawdopodobieństwo wyrzucenia “orła” wynosi ½ • Prawdopodobieństwo heterozygoty Aa wynosi 2p(1-p), gdzie p i (1-p) są częstościami alleli A i a

  16. Proces naukowy/statystyczny • Pytanie naukowe • Planowanie eksperymentu • Eksperyment / zbieranie danych • Analiza danych • Wnioski statystyczne • Wnioski naukowe

  17. Próba, Zmienna • Próba • Obserwacje lub wyniki eksperymentu • Reprezentuje kolejne realizacje eksperymentu • Przykłady • Wysokości 10 kłosów żyta (10 obserwacji) • Poziom hemoglobiny u 35 dawców • Kolor i kształt 556 fasolekw drugiej generacji (żółte/zielone, gładkie/pomarszczone)

  18. Rozmiar próby • “n” • n=10,n=35,n=556 • Zmienna • To co mierzymy • Wysokość, poziom hemoglobiny, kolor/kształt

  19. Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne Rodzaje zmiennych

  20. Rodzaje zmiennych • Jakościowe – kwalifikujące do kategorii • Porządkowe : wybory w ankiecie ; nigdy, rzadko, czasami, często, zawsze • Nie porządkowe : gładkie & żółte, gładkie & zielone, pomarszczone & żółte, pomarszczone & zielone

  21. Ilościowe – wynik jest liczbą • Ciągłe : wzrost, waga, stężenie • Dyskretne : liczba wadliwych elementów, liczbagładkich iżółtych fasolek

  22. Oznaczenia • Rozmiar próby= n, czasami n1,n2 • zmienne : X,Y,Z; Y=wzrost, pojęcie • obserwacje(wyniki) : x,y,z • Wielokrotne obserwacje y1,y2,…,yn

  23. Próba a Próba • Biolog mierzy poziom glukozy we krwi 20 ludzi. • 20 próbek krwi ? (biolog) • Jedna próba 20 pomiarów glukozy ? (statystyk) • Będziemy używali “pomiar” tam gdzie biolog użyłby słowa “próba”.

  24. Tabela częstości Fasolki:gładkie/pomarszczone, zielone/żółte

  25. Wykres słupkowy (dane jakościowe)

  26. Dane ilościowe dyskretne • Liczba potomstwa u n=36 macior. Liczba potomstwa jest liczbącałkowitą (zmienna dyskretna).

  27. Dane

  28. Rozkład częstości

  29. Histogram • Zwykle jest pomocne grupowanie podobnych obserwacji • Tak prawie zawsze postępujemy z danymi ciągłymi • Definiujemy “klasy” obserwacji i zliczamy liczbę obserwacji w każdej klasie

  30. Jak wybierać klasy • Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy są rozłączne, nie ma ``dużych’’ dziur) • Rozmiar (szerokość) wszystkich klas jest zwykle taki sam • Używamy wygodnych granic, np. 20-29 a nie 19.82 – 29.26 • Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n  50); więcej gdy próba jest duża

  31. Przykład • Dane : długość łodygi papryki (n=15)

  32. Min=10.9, max=14.1, zakres=max-min=3.2 • Wybieramy szerokość klasy, np. 0.5 ipunkt początkowy 10.5 aby pokryć przedział 10.5 – 14.5. • Liczymy rozkład częstości i rysujemy histogram. • Zmieniamy szerokość klas aby uzyskać pożądany kształt • Za mała szerokość klas = ``postrzępiony’’, za duża = tracimy informację

  33. Tabela częstości

  34. Czasami rysujemy histogramy częstości względnej = częstość / n Użyteczne gdy chcemy porównać kilka zbiorów o różnych rozmiarach

  35. Przykład Serum CK

  36. Min=25, max=203 • Rozstęp =178 • Szerokość klasy =20 • Punkt początkowy=20

  37. Centralny szczyt (moda) w okolicach 100 U/Li • Zasadnicza masa rozkładu między 40 a 140 U/Li • Nie symetryczny – skośny na prawo

  38. Całkowanie powierzchni pod histogramem (równa szerokość klas) • Odcinek 60 -100 U/Li • 42 % całkowitej powierzchni pod histogramem • 42 % (16 out of 36) wartości CK

  39. Nierówna szerokość klas • Powierzchnia pod histogramem nie jest proporcjonalna do częstości • W tak ``spaczonym’’ histogramie (patrz następna strona) powierzchnia między 140 – 220 stanowi 39 % całkowitej powierzchni (tylko 14 % obserwacji) • Rozwiązanie – Podzielić odpowiednią częstość przez liczbę zgrupowanych klas • Oś Y na przekształconym histogramie – średnia częstość w zgrupowanych klasach

  40. Diagram pnia i liścia (Stem and leaf plot) • Inny sposób podsumowania danych; zachowuje ``prawie’’ wszystkie informacje. • Wybieramy podstawę lub ``pień’’; zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie danych • Zapisujemy wszystkie bazy w kolumnie, w kolejności rosnącej i rysujemy pionową linię

  41. Przeglądamy dane. Znajdujemy ``pień’’ odpowiadający każdej obserwacji. Za linią pionową zapisujemy pozostałe (bez pnia) cyfry danej obserwacji. Ta część zapisu obserwacji nazywana jest liściem. • Dostajemy ``obrócony’’ histogram • Ograniczenia – ciężko kontrolować liczbę klas

  42. Przykład Stężenie glukozy w przedniej komorze prawego oka u 31 zdrowych psów

  43. Opis histogramu (rozkładu) • Symetryczny / asymetryczny • W kształcie dzwonu (normalny) / ciężkie ogony • Skośny na prawo lub lewo • Jednomodalny (jeden główny wierzchołek) • Dwumodalny (dwa główne wierzchołki) • Wykładniczy (malejący) • Rozrzut (duży lub mały)

More Related