1 / 17

Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de. FernUniversität in Hagen. Übersicht. Einordnung in das Themengebiet Datamining Ähnlichkeitssuche Zeitreihen Anwendungen

rey
Download Presentation

Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de FernUniversität in Hagen

  2. Übersicht • Einordnung in das Themengebiet Datamining • Ähnlichkeitssuche • Zeitreihen • Anwendungen • Effiziente Ähnlichkeitssuche auf Zeitreihennach Rakesh Agrawal, Christos Faloutsos, Arun N. Swami • Fouriertransformation • R*-Tree • Suche auf Teil-Zeitreihen

  3. Datamining Eine von vielen Definitionen: Datamining ist ... ... „die Anwendung (mathematischer) Methoden auf einen [üblicherweise großen] Datenbestand, mit dem Ziel der Mustererkennung“. Wikipedia - Die freie Enzyklopädie (Hrsg.) Wikipedia DVD-Ausgabe vom 20. September 2006 Artikel “Data-Mining“

  4. Techniken und Methoden • Entscheidungs- und Klassifikationsbäume • Neuronale Netze • Rule-Induction • Clustering und Ähnlichkeitssuche • k-Means-Clustering • k-Nearest-Neighbours • Range-Query

  5. Zeitreihen

  6. Agrawal, Faloutsos, Swami • Erlaubt • Range-Queries • All-Pairs-Queries • Restriktionen • äquidistante Zeitreihen • identischer Länge • Keine Suche auf Teil-Zeitreihen • Grundidee • Abbildung der Zeitreihen auf Frequenz-Spektrenmittels Diskreter Fourier-Transformation • Indizierung anhand von drei bis fünf Frequenzen mit einem R*-Tree

  7. Fourieranalyse: Basis

  8. Fourieranalyse: Fourierreihen

  9. Fourieranalyse: Ähnlichkeit

  10. Fourieranalyse: Rauschen

  11. Fourieranalyse: Folgerungen • Ähnliche Zeitreihen → Ähnliche Spektren • Niedrige Frequenzen sind signifikant • auch bei braunem Rauschen • Störungen = (weißes) Rauschen • damit ist (als Überlagerung) immer zu rechnen • weißes Rauschen ist „Worst Case“ → Verwendung der niedrigen Frequenzen zur Indizierung der Zeitreihen möglich! →Es kann zu false alerts im Index kommen Es kann nicht zu false dismissals kommen

  12. R*-Tree: Bounding Boxes • Ursprünglich real-räumliche ausgedehnte Objekte • Nutzung minimaler Bounding-Boxes • Übertragung auf • Feature-Räume (ggf. multi-dimensional) • Punkte als degenerierte Objekte

  13. R*-Tree: Index • Bounding Boxes um Objekt-Gruppen • Gruppierung nachminimalen • Flächen • Überschneidungen • ... • Hierarchisch, d.h.Gruppen von Gruppen →Baum-Struktur • Suche nur in Zweigen, deren Bounding Box das gesuchte Objekt umfasst

  14. R*-Tree: Suche Suche nur in Zweigen, deren Bounding Box ... • das gesuchte Objekt vollständig umfasst • sich mit dem Suchbereich überschneidet

  15. R*-Tree: Updates • Aufwände für • Berechnung der minimalen Bounding Boxesüber den gesamten Zugriffspfad • Zuordnung zu Gruppen • Reorganisation der Gruppen • bei überfüllten Knoten • bei degenerierter Gruppierung → Tradeoff zwischen • Such-Beschleunigung und • Update-Verzögerung • Hier liegen Unterschiede zwischen Mitgliedern derR-Tree Familie

  16. Agrawal, Faloutsos, Swami • Einfügen einer Zeitreihe • Diskrete Fourier-Transformation durchführen • Eintrag im R*-Tree • Range-Query zu einer Anfrage-Zeitreihe durchführen • Diskrete Fourier-Transformation durchführen • Suche im R*-Tree nach TreffernKann false alarms enthalten • PostprocessingBerechnung der wahren Distanz anhand der Zeitreihen • Ergebnis:Liste von Zeitreihen, die in der Range liegen

  17. Fortentwicklungen • Zeitreihen unterschiedlicher Länge / Abtast-Rate:Resampling • Abfrage auf Teil-Zeitreihen • Indizierung • Minimale Länge für Abfrage-Zeitreihen festlegen: length • “Fenster“ der Länge lenght über die Zeitreihen bewegen → Traces von Punkten im Feature-Raum • Teil-Traces als ausgedehnte Objekte im R*-Tree indiziert • Suche • Länge length: → Einfache Suche im Index • Länge größer length: → Prefix-Suche (ineffektiv)→ Multi-Suche auf Teil-Stücke mit reduzierter Range; Ergebnis: Vereinigungsmenge

More Related