260 likes | 400 Views
Methodische Richtlinien. Transparenz (Dokumentiert) Vergleichbarkeit (Standardisiert) Nachvollziehbarkeit (Begründet) Wiederholbarkeit (Replizierbar) Bewertbar (Evaluierbar). Vortrag zum Umgang mit Missing Data in wissenschaftlichen Studien. Jörg Michael Müller Universität Bremen RFNB.
E N D
Methodische Richtlinien • Transparenz (Dokumentiert) • Vergleichbarkeit (Standardisiert) • Nachvollziehbarkeit (Begründet) • Wiederholbarkeit (Replizierbar) • Bewertbar (Evaluierbar)
Vortrag zum Umgang mit Missing Data in wissenschaftlichen Studien Jörg Michael Müller Universität Bremen RFNB
Ziele des Vortrags • Überblick: Probleme durch MD • Vorschlag: Leitfaden für MD • ‚Werkzeuge‘: SAS-Makros
MD führen in folgenden Bereichen zu Problemen: Auswertung: Software Statistik (nonparametrische Tests) Interne Validität: MD als ‚Drittvariable‘ Externe Validität: Stichprobenbeschreibung Darstellung innerhalb von Veröffentlichungen
Hinzu kommende spezifische statistische Probleme: Welche Voraussetzung sind vor einer Ersetzung zu beachten? Welche Ersetzungsmethoden gibt es? Welche Besonderheiten der Daten sind wichtig (Anteil an MD; Design vs Effektvariable; Auswertungsstrategien, etc.)? Welchen Effekt haben die MD auf die Ergebnisse?
Beispiel anhand der Mittelwertsersetzung: • Variable x mit 20 % MD • Ersetzung durch Designzellenmittelwert • Effekt auf Parameter: Stabilisierung der Mittelwertsunterschiede bei gleichzeitiger Verringerung der Varianz und Erhöhung des N‘s • Effekt auf Ergebnisse: Mittelwertsunterschiede werden schneller signifikant. Je mehr MD, desto besser für die Ergebnisse?
Das Abfolge-Problem: • MD-Behandlung ist keine 1. Schritt-Prozedur • Wiederholung von Teilschritten (Analyse & Ersetzung) • Die Reihenfolge bestimmt das Ergebnis • Die Reihenfolge sollte standardisiert sein
Konsequenzen • MD-Probleme werden ‚individuell‘ ‚gelöst‘ • Das Vorgehen ist meist weder einheitlich noch dokumentiert • Keine Analyse der MD • Pragmatische Lösung nach den Möglichkeiten der Software
Zusammenfassung der MD-Problematik • Es fehlt ein Leitfaden, wie mit MD umgegangen werden soll. • Es fehlen technische Hilfsmittel zur Umsetzung des Leitfadens
Leitfadenüberblick Teil1: Vorbereitung der Daten Teil2: Analyse der M(C)AR-Bedingung Teil3: Herstellung der M(C)AR-Bedingung Teil4: Ersetzung Teil5: Überprüfung
Leitfaden Teil I: Vorbereitung 1. Datenscreening - Datencheck 2. Datenreduktion • Auswertung der Fragebögen • Index-Bildung 3. Datencodierung: ‚echte‘vs ‚intentional‘ 4. Erstellen einer Indikatormatrix
Datenscreening Alle Verteilungen auf einen Blick ... Verteilung einer Variablen und der MD
Ergebnis der Vorbereitung • OBS PERSON TREAT SEX ITEM1 ITEM2 ITEM3 KRIT MIS6 MIS5 MIS1 MIS2 MIS3 MIS4 • 1 VP2 . 1 . . . . 1 0 1 1 1 1 • 2 VP1 1 1 4 4 5 34 0 0 0 0 0 0 • 3 VP3 1 1 3 3 3 23 0 0 0 0 0 0 • 4 VP4 1 2 5 . . 34 0 0 0 1 1 0 • 5 VP5 1 2 5 1 . 35 0 0 0 0 1 0 • 6 VP6 1 2 1 2 3 43 0 0 0 0 0 0 • 7 VP10 2 2 S 4 6 20 0 0 0 0 0 0 • 8 VP11 2 2 S 3 5 33 0 0 0 0 0 0 • 9 VP12 2 2 S 2 6 20 0 0 0 0 0 0 • 10 VP7 2 1 S 1 . 42 0 0 0 0 1 0 • 11 VP8 2 1 S 2 . 23 0 0 0 0 1 0 • 12 VP9 2 1 S 5 . 33 0 0 0 0 1 0 MCAR? ? ? ? ? ? ? ? ? ? ? ? ? ? MAR? Rohdaten Indikatormatrix ? ? ? ? ? ?
Leitfaden Teil II: Analyse 6. Analysieren der MD-Gesamtmenge 7. Check der MAR-Bedingung = Klärung der Herkunft von Missing Data 8. Probanden (Niedrige Compliance) 9. Variablen (unverständliche Items) 10. Identifizierung, Lokalisierung
Ergebnis des SAS-Makros %missingi Wie ‚massiv‘ ist das MD-Problem? Wie verteilen sich die MD je Person? Um welche Personen handelt es sich?
Leitfaden Teil III: Herstellung der M(C)AR-Bedingung OBS PERSON TREAT SEX ITEM1 ITEM2 ITEM3 KRIT 1 VP2 . 1 . . . . 2 VP1 1 1 4 4 5 34 3 VP3 1 1 3 3 3 23 4 VP4 1 2 5 . . 34 5 VP5 1 2 5 1 . 35 6 VP6 1 2 1 2 3 43 7 VP10 2 2 S 4 6 20 8 VP11 2 2 S 3 5 33 9 VP12 2 2 S 2 6 20 10 VP7 2 1 S 1 . 42 11 VP8 2 1 S 2 . 23 12 VP9 2 1 S 5 . 33 11. Löschung nicht informativer Spalten und Zeilen 12. Check der MAR-Bedingung 13. Zusätzliche Prüfung der MCAR-Bedingung • Häufung von MD in Designzellen
Grundsätze zur Ersetzungsmethode • MD in Designvariablen werden nicht ersetzt • Keine Ersetzung nach Modellannahmen • Prädiktion in AV‘s durch verbleibende AV‘s • Beibehaltung von Dateneigenschaften (z.B. Minimum, Maximum)
Leitfaden Teil IV: Ablauf der Imputation I1 I2 I3 K P1 P2 P3 PK . . . . 5.81 -1.09 4.35 39.28 4 4 5 34 3.61 3.98 5.08 28.92 3 3 3 23 1.66 2.97 2.14 28.92 5 . . 34 4.44 2.56 5.58 28.92 5 1 . 35 4.44 2.39 4.84 30.09 1 2 3 43 -0.84 2.76 2.14 51.02 S 4 6 20 4.01 3.98 6.25 20.46 S 3 5 33 4.01 2.97 5.08 28.92 S 2 6 20 4.01 2.76 6.25 20.46 S 1 . 42 4.01 2.39 3.82 36.09 S 2 . 23 4.01 2.76 5.02 28.92 S 5 . 33 4.01 3.98 5.46 28.92 O O Predicted Value AV
Leitfaden Teil V: Kontrolle der Ersetzung O O O ITEM1 ITEM2 ITEM3 KRIT 6 -1 4 39 4 4 5 34 3 3 3 23 5 3 6 34 5 1 5 35 1 2 3 43 . 4 6 20 . 3 5 33 . 2 6 20 . 1 4 42 . 2 5 23 . 5 5 33 ITEM1 ITEM2 ITEM3 KRIT 5 1 4 39 4 4 5 34 3 3 3 23 5 3 6 34 5 1 5 35 1 2 3 43 . 4 6 20 . 3 5 33 . 2 6 20 . 1 4 42 . 2 5 23 . 5 5 33 ITEM1 ITEM2 ITEM3 KRIT . . . . 4 4 5 34 3 3 3 23 5 . . 34 5 1 . 35 1 2 3 43 S 4 6 20 S 3 5 33 S 2 6 20 S 1 . 42 S 2 . 23 S 5 . 33 Rohdaten Vorhergesagte Werte Korrigierte Werte
Rückblick • Leitfaden zur Behandlung von MD • ‚Werkzeuge‘ zur Analyse und Ersetzung von MD • Standardisierung und Dokumentation der MD-Behandlung
Bewertung des Leitfadens aufgrund methodische Richtlinien Der Leitfaden ist • transparent (dokumentierbar) • vergleichbar (standardisiert) • nachvollziehbar (begründet) • wiederholbar (replizierbar) • bewertbar (evaluierbar)
Ausblick • Vom experimentellen Stand zum allgemein einsetzbaren ‚Werkzeug‘ • Kontinuierliche Verbesserung der MD-Behandlung nach transparenten Leifäden zur Qualitätssicherung in der Auswertung rehabilitationswissenschaftlicher Studien