2.06k likes | 2.17k Views
Seminar, Übung, Schulung: Umgang mit komplexen und umfangreichen Datensätzen Stichworte: Zu zahlreichen Fragestellungen und Forschungsthemen existieren umfangreiche Datenbestände
E N D
Seminar, Übung, Schulung: • Umgang mit komplexen und umfangreichen Datensätzen • Stichworte: • Zu zahlreichen Fragestellungen und Forschungsthemen existieren umfangreiche Datenbestände • Beispiel: PISA, SOEP (Socio-Economic-Panel), Daten über den Studienverlauf/die Benotungen, Statistisches Bundesamt • Es bedarf besonderer Techniken, um mit derartig umfangreichen Datenbeständen angemessen umzugehen, nicht in den Mengen zu versinken: • Syntax • Macros • Data-Mining • Automatisierung von Abläufen, Erzeugung von Routinen
Eine bekannte Daumenregel im Analysegeschäftlautet: Etwa 80% der Arbeit liegt in der Datenbereinigungund -aufbereitung!Ungeachtet dieser Erkenntnis dominieren in der Wissensvermittlung Einführungen in deskriptiverStatistik und multivariaten Verfahren, die meist„saubere“ und entsprechend aufbereitete Datenvoraussetzen. Fragen der Datenqualität und ihrer Auswirkung werden hingegen kaum thematisiert. Das Seminar setzt genau an diesem Missverhältnis an.
In diesem Seminar, Übung, Schulung werden basale Techniken zu diesem Thema vorgestellt und eingeübt. • Dazu sollten wir uns über eine dafür geeignete Form derVermittlung verständigen! • Der geplante grobe inhaltliche Ablauf: • Einführung in die Thematik • Einlesen von verschiedenen Datensätzen • Syntax und Macro-Prozeduren zum • Einlesen • Zusammenstellen unterschiedlichster Variablensätze • Generieren neuer Variablen • Makroskopischen Analysen • Techniken der EDA (Explorative Daten Analyse), Data-Mining
Datenmanagement ist die Grundlage jeder Datenverarbeitung. • Datenmanagement bedeutet u.a.: • Transponieren • Bilden von Subsets • Bilden von Subsets über Filter/Bedingungen • Bilden neuer Variablen oder Werte über Umkodieren oder arithmetische Operationen • Zusammenfügen von Datensätzen • Bereinigen der Datensätze (Missing values, Ausreißer, Anpassungen bei Nicht-Normalverteilung)
Die Phasen im Data Mining Prozess Transformation Interpretation Selektion Vorverarbeitung Data Mining Vorbereitete Daten Wissen/Modelle Selektierte Daten Transformierte Daten Muster Daten
Was ist die generelle Idee, das generelle hier behandelte Konzept? • Es gibt selbstverständlich eine ganze Reihe höchst unterschiedlicher Fragestellungen.Ich behandele mit Ihnen eine Form wie bspw.: • Was unterscheidet Schüler mit hoher und mit niedriger Leistung? • Wann wird viel, wann wird wenig Kaffee verkauft und wovon ist dies abhängig? • Wie lassen sich Kunden mit einem hohen Kreditrisiko von denen mit geringem Kreditrisiko unterscheiden? • Wo liegen die Gründe eines schnellen, erfolgreichen Studiums? • Wovon ist bei einem Schiffsuntergang das Überleben abhängig? Betrachten wir zunächst kategoriale Daten:
Ihnen liegt bspw. EinDatensatz von 2201Personen vor, die aufder Titanic unterwegswaren.Sie haben Angaben zu: • Kabinenklasse • Altersgruppe • Geschlecht • Überlebt/Vermisst • (siehe Tabelle) • Wie können Sie dereben gestellten Fragenachgehen?
Durch die Berechnung von sog. Klassifikationsbäumen können Sie der Frage so nach-gehen: Sie sehen, welcher Faktor der wichtigste ist und können weitere Abhängigkeitenerkennen:
Was ist die generelle Idee, das generelle hier behandelte Konzept? Betrachten wir jetzt metrische Daten: Erster Schritt: Verteilung anschauen, Daten inspizieren
Ggf. Daten verändern, hier als ein Beispiel: alle Werte in absolute Werte umrechnen.Sie müssen „etwas sehen“!!
Zweiter Schritt: Unterteilungen vornehmen, Bewertungen vornehmen
Dritter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Dazu nach den Variablen suchen, die zwischen diesen beiden Kategorie trennen
Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Hierarchie aller „gut“ „schlecht“ beeinflussenden Faktoren betrachten
Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Güte der erreichten Aufklärung überprüfen
„Wie geht Erkenntnisgewinn?“ Ein erster, flüchtiger Blick Transformation Interpretation Data Mining Vorbereitete Daten Wissen/Modelle Transformierte Daten Muster
Fisher (1936) Irisdaten: Länge und Breite von Blättern und Kelchen für 3 Iristypen
CART(classificationand regression trees) • Kategoriale Werte (gut/schlecht) • Metrische Werte (1, 2, 3, 4, ..)[Nominale, Ordinale Werte] Split: Welche Variable trennt am besten bei welchem Wert?
Fehlklassifikationsmatrix Lernstichprobe (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150 Prognost. Klasse x Beob. Klasse n's (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150
Daten Trainings-daten Daten teilen Validierungs-daten Modell-bewertung
Eine Alternative: ROC Kurven (Receiver Operating Characteristic) Richtig Positive Sensitivität t = Richtig Positive + Falsch Negative Richtig Negative Spezifität = Richtig Negative + Falsch Positive
„richtig positiven“ Kriterium „falsch negative“ erfolgreich 50 50 50 50 „falsch positiven“ nicht-erfolgreich „richtig negative“ abgelehnt angenommen Prediktor
Vorbereitung: Zunächst müssen wir gemeinsam unsere Rechner vorbereiten,um die Einstellungen des SPSS so zu konfigurieren, dassder automatisch generierte Programmiercode auch gefundenund genutzt werden kann. Zugleich benötigt jeder von Ihnen einen eigenen Ordner imVerzeichnis „Komplexe Daten“ auf dem Laufwerk ‚N:\‘. Diese beiden Einstellungen müssen wir nun vornehmen.
Sie können alle im Programm auf der Windows-Oberfläche durchgeführtenArbeiten in einem ‚Journal‘ aufzeichnen lassen. Dazu stehen zwei Optionenzur Verfügung. ‚Überschreiben‘ oder ‚Anhängen‘ • Der Speicherortdes Syntax-Journals findenSie unter: • Bearbeiten • Optionen/Options • File Locations
Selektion Erster Teil: Vorverarbeitung Vorbereitete Daten Selektierte Daten Daten • Es gibt verschiedene Möglichkeiten: • Datenbanken, Abfrage und Zusammenstellung mit SQL (Structured Query Language) • Nutzung von Syntax- und Macro-Prozeduren, bspw. aus SPSS herausDie Vorteile/Nachteile: • SQL ist oft schneller, mächtiger. Hat aber Einschränkungen, weniger Transparenz • Syntax, Macros erlauben mehr Operationen, geben Einblick in Zwischenresultate; sind entsprechend aufwändiger und (etwas) langsamer, erfordern Zwischenschritte
Die hier favorisierte Alternative, Variante: Zusammenführen und -fügen der Arbeitsdatensätze mit Hilfe vonSyntax- und Macro-Prozeduren aus verschiedenen Datensätzen Selektion Vorverarbeitung Syntax- und Macro-Prozeduren Vorbereitete Daten Selektierte Daten Daten Selektion & Vorverarbeitung Vorbereitete Daten Selektierte Daten Daten