140 likes | 310 Views
Data Mining Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open-Source Software KNIME. Zur Veranstaltung Business Intelligence. Vorgetragen von: Sina Maria Viehhofer Sophie Wieckowski Betreuer: Prof. Dr. Jürgen Cleve
E N D
Data Mining Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open-Source Software KNIME Zur Veranstaltung Business Intelligence • Vorgetragen von: Sina Maria Viehhofer • Sophie Wieckowski • Betreuer: Prof. Dr. Jürgen Cleve • Datum: 07.01.2013
Gliederung • Datenvorbereitung • Data Mining • Clustering • Klassifikation • Assoziationsanalyse • Fazit
Datenvorbereitung Vollständigkeit Überprüfung auf Vollständigkeit Ermittlung fehlender Werte mithilfe von kNN Konsistenz Widersprüche identifizieren Wenn möglich korrigieren ggf. als fehlerhaft markieren
Datenvorbereitung Detaillierungsgrad Detaillierungsgrad reduzieren Fragen zusammenfassen Antwortmöglichkeiten zusammenfassen Frage 6+7 (Erststudium und vorheriger Studiengang) Frage 6 Erststudium Frage 6.2 nominal Erststudium Frage 13+14 (Arbeit und Stundenzahl) Frage 13 Arbeit Frage 22+23 (Fernseher und Stundenzahl) Frage 22 Fernseher Frage 24+25 (Videospiele und Stundenzahl) Frage 24 Videospiele Frage 16 Antwortmöglichkeit WG in Mietwohnung ergänzt Transformation Umwandlung in numerische Daten
Gliederung • Datenvorbereitung • Data Mining • Clustering • Klassifikation • Assoziationsanalyse • Fazit
Data Mining Clustering k-Means Keine sinnvollen Ergebnisse Sinnvolle Kategorisierung bereits bei der Erstellung des Fragebogens vorgenommen
Data Mining Klassifikation Entscheidungsbaum Vergleich DecisionTreeLearner – Node (Gini- Index, Gain-Ratio) mit dem J48-Node (C4.5-Algorithmus) Fehlerfreiheit > 80 Prozent
Data Mining Klassifikation k- NearestNeighbor Überprüfung auf Vollständigkeit Ermittlung fehlender Wert emit Hilfe von kNN Fehlerfreiheit • Spanne von 25% bis 100% • In Summe 61% • Höchste Genauigkeit bei Multiple-Choice Fragen
Data Mining Klassifikation Naive Bayes Attribute müssen voneinander unabhängig sein Ausgabe über Scorer möglich Attribut: Leistung Fehlerfreiheit 61% Distanz 74 Durchschnittliche Distanz 1,17 Fehlerfreiheit Gesamt: 63%
Data Mining Assoziationsanalyse A-Priori Interessantheitsmaße: Konfidenz + Support Ausgabe in Assoziationsregeln Assoziationsregeln Bsp.: 1. Alter=21-25 + finanz.. Unterstützung=ja (109 DS) ==> Erststudium=ja conf:(0.97) 2. Alter=21-25 + Bafög=nein + Mit Leistung zufrieden=ja + ausreichend?=ja (38 DS) ==> finanz. Unterstützung=ja (37 DS) Conf:(0.97)
Gliederung • Datenvorbereitung • Data Mining • Clustering • Klassifikation • Assoziationsanalyse • Fazit
Fazit Auswahl des richtigen Verfahrens von großer Bedeutung. Die Beurteilung ob ein Fehlerfreiheitsmaß ausreichend ist, muss individuell anhand der Daten und des Verfahrens erfolgen. Eine allgemeingültige Definition existiert nicht. Data Mining als unterstützendes Werkzeug