ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Μπεττίνα Χάιδιτς Λέκτορας Υγιεινής-Ιατρικής Στατιστικής Ιατρικής Σχολής ΑΠΘ haidich@med.auth.gr

Οι φοιτητές της ιατρικής σχολής δεν συμπαθούν τη στατιστική αλλά ως γιατροί θα τη συμπαθήσουν

Είδη μεταβλητών • Ποσοτικά δεδομένα (π.χ. ηλικία, ύψος, αιμοσφαιρίνη) • Ποιοτικά δεδομένα (π.χ. άνδρας/γυναίκα, ναι/όχι) →Διατεταγμένα (π.χ. καλό/μέτριο/κακό)

Περιγραφή ποσοτικών δεδομένων • Γραφική απεικόνιση για τον έλεγχο κατανομής και ακραίων τιμών (π.χ. ιστόγραμμα, θηκόγραμμα) • Κατάλληλη σύνοψη και ανάλυση

Ιστόγραμμα

Θηκόγραμμα (boxplot)

Καμπύλη της κανονικής κατανομής 99.7% Τιμή z -4 -3 -2 -1 0 1 2 3 μ ± 1σ μ ± 2σ μ ± 3σ 95% 68% x

Θετικά ασύμμετρη κατανομή Επικρατούσα τιμή < διάμεση τιμή < μέση τιμή

Αρνητικά ασύμμετρη κατανομή μέση τιμή < διάμεση τιμή < επικρατούσα τιμή

Σύνοψη ποσοτικών δεδομένων Δεδομένα Κανονικά Μη κανονικά Μέση τιμή Διάμεση τιμή τυπική απόκλιση ενδοτεταρτημοριακό εύρος Mean (SD) Median (IQR)

Σύνοψη ποιoτικών δεδομένων

Ραβδόγραμμα

Κυκλικό διάγραμμα

Δειγματοληπτική κατανομή • Παίρνουμε πολλά επαναλαμβανόμενα, τυχαία δείγματα πληθυσμό • x1, x2, x3, . . ., xn • s1, s2, s3, . . ., sn • Τυπικό σφάλμα • Ακρίβεια της δειγματοληπτικής μέσης τιμής N (μ, σ2/n )

Τυπικό σφάλμα (Standard error) • ανακριβής εκτίμηση • ακριβής εκτίμηση • σ μεταβλητότητα των παρατηρήσεων • μεταβλητότητα της μέσης τιμής

Καμπύλη της δειγματοληπτικής κανονικής κατανομής 99.7% Τιμή z -4 -3 -2 -1 0 1 2 3 μ ± 1σ/√n μ ± 2σ /√n μ ± 3σ /√n 95% 68% x

Διάστημα εμπιστοσύνης • 95% διάστημα εμπιστοσύνης • Αν επαναλάβουμε το πείραμα 100 φορές τότε στα 95 από αυτά τα διαστήματα αναμένουμε να βρίσκεται η πραγματική τιμή της παραμέτρου. • Το διάστημα εμπιστοσύνης μας δίνει ένα λογικό εύρος τιμών της παραμέτρου που υποστηρίζεται από τα δεδομένα

Ερευνητικά ερωτήματα • Στόχος: Συνήθως η σύγκριση μεταξύ δύο ή περισσοτέρων θεραπειώνή η σχέση μεταξύ μεταβλητών. • Η απάντηση γίνεται με την πραγματοποίηση κλινικών δοκιμών ή μελετών (συγχρονική, κοόρτης, ασθενών-μαρτύρων). • Ο έλεγχος ερευνητικών ερωτημάτων οδηγεί σε ελέγχους υποθέσεων.

Έλεγχος υποθέσεων • Ελέγχους υποθέσεων κάνουμε για να δούμε αν τα δεδομένα φαίνεται να υποστηρίζουν ή όχι κάποια ιδέα που έχουμε για το μηχανισμό που γεννάει τα δεδομένα. • Κάνουμε δύο υποθέσεις: τη μηδενική υπόθεση και την εναλλακτική υπόθεση

Έλεγχος υποθέσεων • Μηδενική υπόθεση, Η0, είναι η συντηρητική υπόθεση του ερευνητικού προβλήματος. • Εναλλακτική υπόθεση, Hα, είναι η υπόθεση την οποία θα θέλαμε να δείξουμε ότι ισχύει ή αυτή στην οποία στρεφόμαστε αν δεν ισχύει η μηδενική υπόθεση.

Έλεγχος υποθέσεων • Αν απορριφθεί η Η0 τότε ισχύει η Ηα(στατιστικό σημαντικό αποτέλεσμα P<0,05) • Αν δεν απορριφθεί η Η0 τότε παραμένουμε σε αυτή (χωρίς αυτό να σημαίνει ότι η Η0 είναι αληθινή)

Παράδειγμα • Θέλουμε να συγκρίνουμε 2 φάρμακα και η απόδοσή τους μετράται με τις μέσες τιμές μ1 και μ2 (1=νέο φάρμακο, 2=παλαιό φάρμακο). • Η0: μ1=μ2→ μ1-μ2 =0, Η1: μ1-μ2≠0 (αμφίπλευρη) • Η0: μ1-μ2≤0, Η1: μ1-μ2>0 (μονόπλευρη)

Τύποι σφαλμάτων • Σφάλμα τύπου Ι: η πιθανότητα να απορρίψουμε τη μηδενική υπόθεση ενώ αυτή είναι αληθινή (συμβολίζεται με α και είναι το επίπεδο σημαντικότητας). • Σφάλμα τύπου ΙΙ, είναι η πιθανότητα να γίνει αποδεκτή η μηδενική υπόθεση ενώ δεν είναι αληθινή (συμβολίζεται με β) • 1-β είναι η ισχύς του ελέγχου.

Σφάλματα τύπου Ι και ΙΙ

Διαδικασία ελέγχου • Έστω ότι λαμβάνουμε δείγμα μεγέθους n=25από πληθυσμό που ακολουθεί κανονική κατανομή με άγνωστη μέση τιμή και διακύμανση σ2=400. Ο στόχος είναι να εκτιμηθεί η άγνωστη μέση τιμή του πληθυσμού. • Η0: μ=100, Η1: μ≠100 (αμφίπλευρος) • Θεωρούμε κάποιο επίπεδο σημαντικότητας. Συνήθως (α=5%).

Διαδικασία ελέγχου • Αρχικά αποδεχόμαστε την Η0 (μ=100) • Θα θέλαμε να δούμε αν ο δειγματικός μέσος 110 είναι συμβατός με την Η0. • Αν τυποποιήσουμε • Η τυποποίηση δίνει 2.5

Διαδικασία ελέγχου • Έτσι ορίζεται η περιοχή απόρριψης η οποία είναι όλοι οι αριθμοί ≥1.96 και ≤-1.96. • Αν το στατιστικό κριτήριο υπολογιστεί να είναι 2.5, τότε βρίσκεται στην περιοχή απόρριψης και έτσι υπάρχει λόγος από το δείγμα ώστε να απορριφθεί η Η0. • Εναλλακτικά ποσοτικοποιούμε το πόσο ακραίο είναι το σημείο 2.5 υπολογίζοντας την πιθανότητα να βρεθούμε ακόμα πιο πέρα από το σημείο που έδειξε ο έλεγχος. Αυτό είναι το p-value. Εδώ το p-value=0.012.

Παράδειγμα • Έστω ότι θέλουμε να ελέγξουμε τη διαφορά μεταξύ δύο θεραπειών. • Από το δείγμα βρίσκουμε ότι η μέση διαφορά είναι 7.5 μονάδες (π.χ. στη συστολική πίεση). • Από το δείγμα πάλι υπολογίζουμε ότι το τυπικό σφάλμα είναι 3 μονάδες (ακρίβεια εκτίμησης)

Παράδειγμα • Αν η πραγματική μέση διαφορά είναι μηδέν τότε ο έλεγχος (t=7.5/3=2.5) θα είχε μεγάλο p-value. Εδώ είναι p=0.006.→ Άρα Η0 → P<0.05. • Oι δύο θεραπείες διαφέρουν στατιστικά σημαντικά μεταξύ τους (p=0.006).

Παράδειγμα ανάλυσης ισχύος • Έστω ότι διαθέτουμε δεδομένα από δύο θεραπείες για τις οποίες υποθέτουμε ότι η μέση διαφορά είναι (Η0: μ1-μ2=0) • Η δειγματική διαφορά βρέθηκε ίση με 10. • Η δειγματική τυπική απόκλιση ήταν 30. • Το μέγεθος δείγματος που χρησιμοποιήθηκε ήταν 100, επίπεδο σημαντικότητας 5%. • Ποια είναι η ισχύς του ελέγχου?

Παράδειγμα ανάλυσης ισχύος

Αν όμως η τυπική απόκλιση ήταν 50

Μέγεθος δείγματος • Σχεδιασμός τυχαιοποιημένης κλινικής δοκιμής με στόχο να συγκρίνει νέα θεραπεία σε σχέση με την τυπική. • Ο πρωτεύον στόχος θα κριθεί στη βάση μιας μέτρησης που ακολουθεί κανονική κατανομή. • Κάτω από την τυπική θεραπεία η μέση τιμή της μέτρησης είναι 100.

Η υπάρχουσα βιβλιογραφία δε είναι ακριβής όσον αφορά την επίδραση της νέας θεραπείας στη μέτρηση. Οι ερευνητές θεωρούν ότι θα ήταν αποδεκτή μια αύξηση της μέσης τιμής της μέτρησης κατά 15 μονάδες. • Η τυπική απόκλιση δεν είναι επίσης γνωστή. Αποφασίστηκε να χρησιμοποιηθεί η τυπική απόκλιση της μέτρησης κάτω από την τυπική θεραπεία (σ=15) μαζί με μερικές άλλες τιμές (σ=10,12.5,17.5,20).

Προτεινόμενο μέγεθος δείγματος για κάθε ομάδα

Σύγκριση ομάδων • Η σύγκριση των ομάδων γίνεται στη βάση μιας εξαρτημένης μεταβλητής (μέτρησης). • Οι ομάδες ασθενών συνήθως ορίζονται με βάση τις τιμές μιας ποιοτικής μεταβλητής (φύλο, ηλικιακή ομάδα). • Η σύγκριση των ομάδων είναι η ποσοτικοποίηση της σχέσης που υπάρχει μεταξύ των δύο μεταβλητών.

Επιλογή κατάλληλης δοκιμασίας • Εξαρτημένη μεταβλητή: συνεχής • Δύο ανεξάρτητες ομάδες: δοκιμασία t-test για ανεξάρτητα δείγματα (μη παραμετρική δοκιμασία: Mann-Whitney) π.χ. Σύγκριση χοληστερίνης μεταξύ ανδρών και γυναικών • Τρεις ή περισσότερες ανεξάρτητες ομάδες: απλή ANOVA (μη παραμετρική δοκιμασία: Kruskal-Wallis) π.χ. Σύγκριση χοληστερίνης σε 3 ηλικιακές ομάδες (<20, 20-50, ≥ 50 ετών)

Επιλογή κατάλληλης δοκιμασίας • Πολλές ανεξάρτητες ομάδες οι οποίες προκύπτουν από συνδυασμό επιπέδων πολλών μεταβλητών : πολυπαραγοντική ANOVA ή πολυπαραγοντική γραμμική εξάρτηση (multivariable regression analysis). π.χ. Πώς επηρεάζουν τα επίπεδα χοληστερίνης από το φύλο και την ηλικιακή ομάδα

Επιλογή κατάλληλης δοκιμασίας • Δύο εξαρτημένες ομάδες: paired t-test (μη παραμετρική δοκιμασία: Wilcoxon) π.χ. Σύγκριση χοληστερίνης πριν και μετά τη χορήγηση ενός φαρμάκου • Πολλές εξαρτημένες ομάδες: ANOVA επαναλαμβανόμενων μετρήσεων (repeated measures ANOVA) (μη παραμετρική δοκιμασία: Friedman) π.χ. Μετρήθηκε η χοληστερίνη σε 3 χρονικές στιγμές και συγκρίθηκε

Επιλογή κατάλληλης δοκιμασίας • Εξαρτημένη μεταβλητή: κατηγορική (με δύο κατηγορίες, φυσιολογικά ή παθολογικά επίπεδα χοληστερίνης). • Δύο ή περισσότερες ανεξάρτητες ομάδες: Δοκιμασία χ2 αν ο αναμενόμενος αριθμός συχνοτήτων (ΑΑΣ) > 5 αλλιώς ακριβή δοκιμασία Fisher (Fisher’s exact test) π.χ. Σχέση φυσιολογικών ή παθολογικών επιπέδων χοληστερίνης μεταξύ 2 ομάδων ασθενών, 1 ομάδα έλαβε τη νέα θεραπεία και η άλλη τη τυπική θεραπεία

Επιλογή κατάλληλης δοκιμασίας • Δύο εξαρτημένες ομάδες ή η μέτρηση γίνεται στο ίδιο άτομο σε δύο διαφορετικές στιγμές: δοκιμασία McNemar. π.χ. Συγκρίθηκε στην ίδια ομάδα ασθενών το ποσοστό παθολογικών επιπέδων χοληστερίνης πριν και μετά τη χορήγηση του φαρμάκου • Πολλές εξαρτημένες ομάδες ή η μέτρηση γίνεται στο ίδιο άτομο σε πολλές διαφορετικές στιγμές: δοκιμασία Cochran’s Q. π.χ. Συγκρίθηκε στην ίδια ομάδα ασθενών το ποσοστό παθολογικών επιπέδων χοληστερίνης σε 3 χρονικές στιγμές

Στατιστικές δοκιμασίες που χρησιμοποιούνται συχνά

Μοντέλα εξαρτήσεων

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Presentation Transcript