250 likes | 452 Views
Data Mining Cup 2012. Wissensextraktion – Multimedia Engineering deck using PDA or similar devices . Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de. Gliederung. Software Vorverarbeitung Analyse Algorithmen Verfeinerung Auswahl. Software.
E N D
Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering deck using PDA or similar devices Fakultät für IngenieurwissenschaftenJevgenij Jakunschin Christian Meweswww.hs-wismar.de
Gliederung • Software • Vorverarbeitung • Analyse • Algorithmen • Verfeinerung • Auswahl
Software • Daten wurden in .csv Format gespeichert • Excel für frühe Analysen und Umwandlung • Knime + Weka + Math plugins für Datamining, Clusterung und die meisten Algorithmen • Matlab für für Regression, Interpolation und ApproximationverfahrenDropbox für Synchronisation
Vorverarbeitung • Keine fehlenden Werte • Keine Duplikate • Keine fehlerhaften Werte • Rein syntaxisch her Daten komplett korrekt • Allerdings...
Vorverarbeitung • Allerdings... • Starke Schwankungen, mit „Peaks“ • Keine zusätzlichen/abgeleiteten Informationen (wie Wochentag oder Gewinn) • Werte nicht normalisiert und/oder nominalisiert
Vorverarbeitung • Erstellen von CSV Dateien mit Zusätzlichen Informationen: -Gewinn,Wochentag, Durschnittlicher Gewinn (soweit) • Zusätzliche nominalisierten und normalisierten Werte • Durschnittswerte für Diagramme und Statistiken • Strukturieren und Anlegen von Zwischentabellen/Resultaten • Tabellen mit allen Wochenwerten in einer Zeile (pro Produkt)
Analysis • Erstellen von Tabellen mit Mittelwerten und Summen • Darstellen von Diagrammen • Notieren von Abweichungen, Min/Max-Werten • Überprüfen auf Auffälligkeiten durch gruppierte Tabellen • Starker Exceleinsatz
Algorithmen • Erstellen von Matlab und Knime Umgebungen • Möglichkeiten schnell Module und Algorithmen zu tauschen • Schnelles Anpassen der Daten... • ... für Noralisieren, Partitonieren, Splitten, Clusterung... • ...und schließlich Auswertung
Algorithmen: • Regression (linear, logistic, polynom, WEKA versions) • Bayes (Naive, WEKA versions, Multinomial) • Neuronal Network (MLP, PNN, WEKA Voted Perceptron • Kstar, LWL • Decission Trees • Clustering: Kmeans, Xmeans .. (usw.)
Algorithmen: • Regression (linear, logistic, polynom, WEKA versions) • Bayes (Naive, WEKA versions, Multinomial) • Neuronal Network (MLP, PNN, WEKA Voted Perceptron • Kstar, LWL • Decission Trees • Clustering: Kmeans, Xmeans .. (usw.)
Algorithmen • Ergebnisse meist sehr ungenau (accuracy <<10%) • aber 2 Algorithmen waren klar im Vorteil: • Kstar – WEKA plugin – ungenau aber erkennt Tendenz • Regressionen (Polynom/Linear) Accuracy Werte bis zu 20% • Beide trotzdem bei weitem nicht genau genug
Verfeinerung • Verbesserung der Resultate auf viele Weisen • Veränderung interner Variablen • Clusterung nach Wochentagen verbessert Ergebnisse stark • Zusätzliche Einbindung von Neuronalen Netzwerken • Entfernen oder skalieren mancher Daten
Verfeinerung • Größte Veränderung durch Sortierung nach Wochentagen • Durch mehr als 7 Cluster allerdings noch bessere Resultate • Clustersuche schlägt sich vor • K-means • Relativ gute Ergebnisse bei Regression und Kstar
Testen - Knime 1)Allgemeiner Workflow und WEKA Workflow 2)AnwendungenmeisterAlgorithmen 3)Entscheidung: Regression(Matlab) und Kstar(Knime) 4) Kstar – Anpassung der Variablen (++) 5) Kstar+MLP – HinzufügeneinesneuronalenNetzes (--) 6) Kstar – ClusterungnachWochetagen (++) 7) Kstar+Kmeans – Automatische Clusterung (++) 8) Kstar+Kmeans – Skalierung/Filterung (++) Beste Kstar Ergebnisse in 600ter Bereich...
Verfeinern - Matlab • 1. Durchschnitt Tag/Menge pro Produkt • 2. DS Wochentag/Menge pro Produkt (~16%) • 3. MIN, MAX statt DS (ca.30%) • 4. Ausreißerbeseitigen (+ca.1.5%) • 5. IdentischeDatensätze (+ca.1.5%) • 6. Durchschnittspreis (+ca.0.5%) • 7. Approximation Menge (30-40%, aber E:NaN, M:NaN) • (8.Clustering Menge) • (9.Clustering Produkt) • 10.Zusammenführung allerAnsätze
Auswahl • Bis man zwischen Regression und Kstar wählen musste • (Bei Aufteilung 4:2 Wochen) • Kstar: EuklD: 650, ManD: 20000, Accuracy bis 25%Regression: EuklD: 462, ManD: 20948, Accuracy bis 16.4% • Regression kann konfiguriert werden, auf Kosten von der EuklD und ManD höhere Accuracy zu bekommen (30+)Endentscheidung: Regression
Quellen und Zusatzinformationen • http://www.knime.org/ • http://www.data-mining-cup.de/ • http://www.knime.org/files/weka.jpg • http://www.mathworks.de/products/matlab/ • https://www.dropbox.com/home • http://www.kreditrechner-kostenlos.de/wp-content/uploads/2012/03/Microsoft-Excel-2011-Logo.png