140 likes | 314 Views
Spracovanie prúdu dát. Jakub Ševcech p rof . M ária Bieliková. Prúd dát. Množstvo rôznych typov údajov: Finančné transakcie Logy webových aplikácií Merania zo senzorov (Fyzikálne experimenty, medicínske údaje, Eye-tracking ...) Potencionálne neohraničený prúd udalostí
E N D
Spracovanie prúdu dát Jakub Ševcech prof. Mária Bieliková
Prúd dát • Množstvo rôznych typov údajov: • Finančné transakcie • Logy webových aplikácií • Merania zo senzorov (Fyzikálne experimenty, medicínske údaje, Eye-tracking ...) • Potencionálne neohraničený prúd udalostí • Veľká rýchlosť, premenlivosť a objem • Obmedzenia výpočtových zdrojov
Oblasti výskumu • Analýza časových radov • Detekcia anomálií v prichádzajúcom prúde údajov • Klasifikácia stavu prichádzajúceho prúdu údajov
Kroky spracovania prúdu dát • Reprezentácia prúdu údajov • Výpočet podobnosti medzi časovými radmi • Rôzne úlohy analýzy časových radov • Zhlukovanie, klasifikácia, detekcia anomálií, objavovanie frekventovaných vzorov ...
Reprezentácia časových radov SAX Lin, J., Keogh, E., Lonardi, S., & Chiu, B. (2003). A symbolic representation of time series, with implications for streaming algorithms. Proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery - DMKD ’03, 2.
Problémy • Problémy so šumom, posunutím a natiahnutím • Metódy pre spracovanie statických kolekcií údajov, nie prúdov dát
Navrhnuté riešenie • Symbolická reprezentácia • Opakujúce sa vzory ako symboly • Porovnávanie vzorov metódou odolnou voči posunutiu, natiahnutiu a šumu
Podobnosť časových radov Chen, Y., Nascimento, M. a., Ooi, B. C., & Tung, A. K. H. (2007). SpADe: On Shape-basedPatternDetection in StreamingTimeSeries. 2007 IEEE 23rd International Conference on DataEngineering, 786–795.
Porovnanie vzoru - SpADe • Odolná voči škálovaniu • -||- posunutiu • -||- natiahnutiu • -||- šumu • Schopná nájsť podsekvencie • Pracuje nad prúdom dát
Použitie Analytika nad prúdom dát: • Kategorizácia stavu prichádzajúceho prúdu dát • horizontálne / vertikálne • Detekcia anomálnych stavov • Predikcia ďalšieho vývoja
Ďalšia práca • Podobnosť na úrovni sekvencií symbolov • Analýza prúdu dát pomocou navrhnutej reprezentácie • Porovnanie s inými reprezentáciami na rôznych typoch údajov