Παρουσίαση/Προβολή

Ανάλυση δεδομένων με ελλειπούσες τιμές

(MED2217) - Χρήστος Θωμαδάκης

Περιγραφή Μαθήματος

Σκοπός του μαθήματος

Ο κύριος στόχος του μαθήματος είναι η εξοικείωση των φοιτητών με τις βασικές έννοιες και τις σύγχρονες στατιστικές μεθόδους που χρησιμοποιούνται για την ανάλυση δεδομένων με ελλείπουσες τιμές. Ιδιαίτερη έμφαση δίνεται στην κατανόηση των μηχανισμών που οδηγούν στην εμφάνιση ελλειπουσών τιμών, στις συνέπειες που μπορεί να έχουν για τη στατιστική συμπερασματολογία, καθώς και στη σωστή επιλογή και εφαρμογή κατάλληλων μεθόδων αντιμετώπισής τους. Η παρουσίαση των στατιστικών μεθόδων συνοδεύεται από εργαστηριακή εκπαίδευση στο στατιστικό πακέτο R, με εφαρμογές σε πραγματικά ή ρεαλιστικά βιο-ιατρικά και επιδημιολογικά δεδομένα.

Περιεχόμενο

Εισαγωγή στα δεδομένα με ελλείπουσες τιμές: παραδείγματα από κλινικές μελέτες, επιδημιολογικές έρευνες και βιο-ιατρικά δεδομένα. Επιπτώσεις των ελλειπουσών τιμών στη στατιστική συμπερασματολογία.
Μηχανισμοί έλλειψης δεδομένων: δεδομένα που λείπουν εντελώς τυχαία (Missing Completely at Random, MCAR), τυχαίος μηχανισμός έλλειψης (Missing at Random, MAR) και μη τυχαίος μηχανισμός έλλειψης (Missing Not at Random, MNAR).
Απλές μέθοδοι αντιμετώπισης ελλειπουσών τιμών: ανάλυση πλήρων περιπτώσεων (complete-case analysis/listwise deletion), ανάλυση διαθέσιμων περιπτώσεων (available-case analysis/pairwise deletion) και μέθοδος δείκτη απόκρισης (indicator method).
Μέθοδοι πιθανοφάνειας για δεδομένα με ελλείπουσες τιμές: πιθανοφάνεια παρατηρούμενων δεδομένων, αγνοησιμότητα του μηχανισμού έλλειψης και ανάλυση υπό τυχαίο μηχανισμό έλλειψης.
Συμπλήρωση ελλειπουσών τιμών: συμπλήρωση μέσω παλινδρόμησης (regression imputation), περιορισμοί απλών μεθόδων συμπλήρωσης και αντιστοίχιση προβλεπόμενων μέσων (predictive mean matching).
Πολλαπλή συμπλήρωση (multiple imputation): βασικές αρχές, δημιουργία πολλαπλών συμπληρωμένων συνόλων δεδομένων, ανάλυση και συνδυασμός αποτελεσμάτων με τους κανόνες του Rubin (Rubin’s rules).
Πολλαπλή συμπλήρωση μέσω αλυσιδωτών εξισώσεων (Multiple Imputation by Chained Equations, MICE) και μέσω από κοινού μοντελοποίησης (joint modelling multiple imputation). Επιλογή μεταβλητών στο μοντέλο συμπλήρωσης.
Στάθμιση αντίστροφης πιθανότητας (Inverse Probability Weighting, IPW) για δεδομένα με ελλείπουσες τιμές. Εφαρμογές σε εκτίμηση μέσων τιμών και σε μοντέλα παλινδρόμησης.

Μέθοδοι διδασκαλίας

Το περιεχόμενο του μαθήματος καλύπτεται σε 8 διαλέξεις, καθεμία από τις οποίες περιλαμβάνει 2 ώρες θεωρίας και 2 ώρες εργαστηρίου. Στα εργαστήρια χρησιμοποιείται το στατιστικό πακέτο R για την εφαρμογή των μεθόδων σε πραγματικά ή ρεαλιστικά σύνολα δεδομένων με ελλείπουσες τιμές. Αποτελέσματα από αναλύσεις μέσω R παρουσιάζονται και στο θεωρητικό μέρος του μαθήματος, ώστε να συνδέεται η μεθοδολογική παρουσίαση με την πρακτική εφαρμογή. Κατά τη διάρκεια του μαθήματος δίνονται δύο υποχρεωτικές εργασίες.

Μέθοδος αξιολόγησης

Ο μέσος όρος των δύο υποχρεωτικών εργασιών αναλογεί στο 20% του τελικού βαθμού, ενώ η τελική εξέταση αναλογεί στο 80% του τελικού βαθμού. Στην τελική εξέταση οι φοιτητές καλούνται να αναλύσουν σε πραγματικό χρόνο ένα ή περισσότερα σύνολα δεδομένων με ελλείπουσες τιμές, να εφαρμόσουν κατάλληλες μεθόδους αντιμετώπισης των ελλειπουσών τιμών και να ερμηνεύσουν σύντομα τα αποτελέσματα. Ένα μικρό μαθηματικό ή μεθοδολογικό πρόβλημα δίνεται επίσης, καλύπτοντας περίπου 1–1,5/10 μονάδες.

Σημειώνεται ότι για να θεωρηθεί η παρακολούθηση του μαθήματος επιτυχής, ο βαθμός στην τελική εξέταση πρέπει να είναι 5/10 ή μεγαλύτερος, χωρίς στρογγυλοποίηση.

Προτεινόμενη βιβλιογραφία

Molenberghs, G., Fitzmaurice, G., Kenward, M., Tsiatis, A. & Verbeke, G. (2014), Handbook of Missing Data Methodology, Chapman & Hall/CRC Handbooks of Modern Statistical Methods, CRC Press.
van Buuren, S. (2018), Flexible Imputation of Missing Data, A Chapman & Hall book, CRC Press.

Ημερομηνία δημιουργίας

Παρασκευή 2 Φεβρουαρίου 2024

Σελίδα μαθήματος

Περίγραμμα

Δεν υπάρχει περίγραμμα

Παρουσίαση/Προβολή

Ανάλυση δεδομένων με ελλειπούσες τιμές

Περιγραφή Μαθήματος

Ημερομηνία δημιουργίας

Περίγραμμα