1 / 10

Data Mining Cup 2012

Hochschule Wismar University of Applied Sciences Technology, Business and Design Fakultät für Ingenieurwissenschaften, Bereich EuI. Data Mining Cup 2012. Bearbeiter: Maren Sötebier , Hannes Neumann, Oliver Böhm. Ausgangsszenario. 570 Produkte mit Informationen über: Tag

thane-gay
Download Presentation

Data Mining Cup 2012

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hochschule Wismar University of Applied Sciences Technology, Business and Design Fakultät für Ingenieurwissenschaften, Bereich EuI Data Mining Cup 2012 Bearbeiter: Maren Sötebier, Hannes Neumann, Oliver Böhm

  2. Ausgangsszenario • 570 Produkte mit Informationen über: • Tag • Produkt ID • Verkaufspreis • verkauft Menge an diesem Tag • Trainingsdaten: 42 Tage (intern 28) • Validierungsdaten: 14 Tage

  3. Analyse der gegebenen Daten • Aufbereitung und Vorbetrachtung der Daten in MATLAB • Sortierung und statistische Analyse • Ermitteln der Korrelationskoeffizienten zwischen Preis und Verkaufsmenge

  4. Ergebnisse der Analyse (1) • keine Anhaltspunkte für Clustering durch: • fehlende Produktbezeichnungen • „unrealistische Schwankungen“ • unbekannter Wochenrhythmus • Preis und Verkauf zeigen keinerlei direkte Wechselwirkung • geringe Beeinflussung des Verkaufsverlaufes eines Produktes durch den Preis- oder Verkaufsverlauf eines anderen Produktes • ø Abhängigkeit vom Preisverlauf: ≈ 0,39 • ø Abhängigkeit vom Verkaufsverlauf: ≈ 0,45

  5. Ergebnisse der Analyse (2) • Preisverläufe zwischen Trainings- und Validierungsdaten teilweise sehr unterschiedlich • Vermutung: • 7-Tage Rhythmus (beginnend mit Freitag)

  6. Erreichte Resultate in MATLAB

  7. Erreichte Resultate in KNIME

  8. Gewonnene Erkenntnisse • 28 Datensätze mit 3 Informationen pro Produkt nicht ausreichend für treffsichere Vorhersage • keine Abhängigkeiten zwischen Preisverlauf und Mengenverlauf erkennbar • Zufallsbasierte Vorhersage mit akzeptablen Ergebnissen

  9. Endergebnis • Beste erreichte Punktzahl: 477.36 • Manhattan-Distanz: 20628.24

  10. Vielen Dank für Ihre Aufmerksamkeit!

More Related