1 / 44

Synteza logiczna w eksploracji danych

Eksploracja danych (Data mining). jest dynamicznie rozwijającą się dziedziną informatyki o coraz szerszych zastosowaniach niemal w każdej dziedzinie życia. Synteza logiczna w eksploracji danych. • bankowości • lingwistyce • marketing • farmakologii • telekomunikacji.

kata
Download Presentation

Synteza logiczna w eksploracji danych

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Eksploracja danych (Data mining) jest dynamicznie rozwijającą się dziedziną informatyki o coraz szerszych zastosowaniach niemal w każdej dziedzinie życia Synteza logiczna w eksploracji danych • bankowości • lingwistyce • marketing • farmakologii • telekomunikacji Również w MEDYCYNIE 1

  2. Zastosowania

  3. Zastosowania LERS LERS (Learning fromExamplesBased on RoughSets) J. Grzymała-Busse, LERS– a Data Mining System, in Data Mining and Knowledge Discovery Handbook, 2005, VIII, 1347-1351, DOI: 10.1007/0-387-25465-X_65 J. Grzymała-Busse, et al., Melanoma Prediction Using Data Mining System LERS,Proc. 25th Ann. International Conference Computer Software and Applications (COMPSAC). Chicago (Illinois, USA), IEEE Comp. Soc., Los Alamitos (California, USA) 2001, pp. 615-620. 3

  4. Potrafi zdiagnozować pacjenta Potrafi przeprowadzić sondaż Potrafi wykryć anomalie w sieci Potrafi podjąć decyzję o przyznaniu kredytu klientowi banku Eksploracja danych…. Przez eksplorację danych rozumie się proces automatycznego odkrywania znaczących i dotychczas nieznanych informacji z dużych baz danych, czyli informacji ujawniających ukrytą wiedzę o badanym przedmiocie. Eksploracja danych Nazywa się również odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases).

  5. na abstrakcyjnym poziomie algorytmów polega na Pozyskiwanie wiedzy z baz danych • Redukcji atrybutów • Generacji reguł decyzyjnych • i wielu innych procedurach… Są to algorytmy przetwarzające ogromne bazy danych… 5

  6. Komputerowe systemy eksploracji danych ROSETTA http://logic.mimuw.edu.pl/~rses/ Rough Set Toolkit forAnalysis of Data: Biomedical Centre (BMC), Uppsala, Sweden. http://www.lcb.uu.se/tools/rosetta/ 6

  7. WEKA, ROSE University of Waikato, Hamilton, New Zealand • Preprocess - wczytanie i wstępne przetwarzanie danych, • Classify-klasyfikacja danych, • Cluster - klasteryzacja, inaczej analiza skupień, • Associate - indukcja reguł asocjacyjnych, • Select attributes — selekcja cech znaczących, • Visualize - wizualizacja danych.

  8. Znaczenie eksploracji danych Wiele rzeczywistych zjawisk opisuje się tablicami danych Ob i e k t y Klasyfikacja (Decyzja) W tablicach takich obiekty reprezentowane w poszczególnych wierszach opisywane są wartościami atrybutów a, b, d. Jednocześnie obiekty są klasyfikowane, kolumna e.

  9. U1: (a,1) (b,0)(d,1) (e,1) U5: (a,1) (b,1)(d,2) (e,2) Tablice i reguły decyzyjne Tablice takie można również reprezentować za pomocą wyrażeń logicznych zwanych regułami decyzyjnymi: redukcja atrybutów redukcja (generacja) reguł decyzyjnych

  10. Generacja reguł Wyrażenia takie można „upraszczać” za pomocą metod stosowanych w syntezie logicznej. Np. metodą analogiczną do ekspansji można uogólniać (minimalizować) reguły decyzyjne. Metoda uogólniania reguł decyzyjnych: Tworzy się macierz porównań M, Wyznacza minimalne pokrycie M, Atrybutami reguły minimalnej są atrybuty należące do minimalnego pokrycia M.

  11. Przykład generacji reguł Tablica decyzyjna Tablica reguł minimalnych

  12. a b c d 1 0 0 1 0 1 0 0 = M 0 1 0 1 1 1 0 1 1 1 1 1 Przykład: uogólniamy U1 Macierz M powstaje przez porównanie obiektów: (u1, u3), (u1, u4), ..., (u1, u7). Wynikiem porównania są wiersze M. Dla takich samych wartości atrybutów odpowiedni m=0, dla różnych m=1.

  13. a b c d a, d 1 0 0 1 b 0 1 0 0 = M b, d 0 1 0 1 a, b, d 1 1 0 1 a, b, c, d 1 1 1 1 Przykład: uogólniamy U1 Minimalne pokrycia są: {a,b} oraz {b,d}, Wyznaczone na ich podstawie minimalne reguły: (a,1) & (b,0)  (e,1) (b,0) & (d,1)  (e,1)

  14. Przykład generacji reguł cd. Po uogólnieniu obiektu u1 u2. u2możnausunąć

  15. Przykład generacji reguł c.d. Dla obiektu u3 Dla obiektu u4 (a,0)  (e,0) (b,1) & (d,1)  (e,0) Niestety po uogólnieniu ani u3 nie pokrywa u4, ani u4 nie pokrywa u3

  16. Przykład generacji reguł c.d. Dla obiektu u5 u6, u7 (d,2)  (e,2)

  17. Reguły minimalne Uogólnione reguły decyzyjne: (a,1) & (b,0)  (e,1) (a,0)  (e,0) (b,1) & (d,1)  (e,0) (d,2)  (e,2) w innym zapisie: (a,1) & (b,0)  (e,1) (a,0)  (b,1) & (d,1)  (e,0) (d,2)  (e,2)

  18. Interpretacja reguł uogólnionych Takie metody stosuje się w przypadkach, gdy dysponuje się zbiorem obiektów, których przynależność do odpowiedniej klasy jest znana, a celem jest klasyfikacja nowych danych. Pierwotna tablica decyzyjna: zapisane są w niej dane zebrane do tej pory i już sklasyfikowane Ale pojawia się nowy zestaw danych a=1,b=1, c=1, d= 1 Jaka decyzja? Na uogólnionych regułach jest to oczywiste! e = 0

  19. Przykładowa baza (tablica) danych Wyniki badań i diagnozy 7 pacjentów Wyniki badań i symptomy choroby zapisane są symbolicznymi wartościami atrybutów Reguły decyzyjne (Bad_1=1)&(Bad_2=1)…&(Bad_5=1)…&(Bad_8=0)=>(Diagnoza=D3)

  20. Uogólnione reguły decyzyjne Reguły decyzyjne: (Bad_2=1)&(Bad_4=1)=>(Diagnoza=D3) (Bad_4=1)&(Bad_7=0)=>(Diagnoza=D3) (Bad_1=0)&(Bad_3=1)&(Bad_6=0)=>(Diagnoza=D1) ( (Bad_3=1)&(Bad_5=0)&(Bad_6=0)=>(Diagnoza=D1) (Bad_2=0)=>(Diagnoza=D2) (Bad_1=0)&(Bad_4=1)&(Bad_6=0)&(Bad_8=0)=>(Diagnoza=D2) Reguły decyzyjne wygenerowane z pierwotnej bazy danych używane są do klasyfikowania nowych obiektów.

  21. Uogólnione reguły decyzyjne… …mogą być zastosowane do zdiagnozowania nowego pacjenta. (Bad_2=1)&(Bad_4=1)=>(Diagnoza=D3) (Bad_4=1)&(Bad_7=0)=>(Diagnoza=D3) (Bad_1=0)&(Bad_3=1)&(Bad_6=0)=>(Diagnoza=D1) (Bad_3=1)&(Bad_5=0)&(Bad_6=0)=>(Diagnoza=D1) (Bad_2=0)=>(Diagnoza=D2) (Bad_1=0)&(Bad_4=1)&(Bad_6=0)&(Bad_8=0)=>(Diagnoza=D2) Dla nowego pacjenta Diagnoza = D3

  22. Redukcja atrybutów Poszukiwanie takich podzbiorów atrybutów, które zachowują podział obiektów na klasy decyzyjne taki sam, jak wszystkie atrybuty { Bad_1 Bad_4 Bad_6 Bad_8 } { Bad_1 Bad_6 Bad_7 Bad_8 } { Bad_1 Bad_3 Bad_6 } { Bad_1 Bad_2 Bad_6 Bad_8 }

  23. UC Irvine Machine Learning Repository Rosnące wymagania Wymagania na przetwarzanie coraz większych baz danych rosną, natomiast metody i narzędzia eksploracji danych stają się coraz mniej skuteczne BreastCancerDatabase Audiology Database Dermatology Database

  24. Breast Cancer Database: Diagnostyka raka piersi • Instancje (obiekty): 699 (dane poszczególnych pacjentów) • Liczba atrybutów: 10 • Klasyfikacja (2 klasy) Ocena spoistości masy nowotworowej Ocena jednolitości rozmiaru komórek Ocena jednolitości kształtu komórek …. 9. Występowanie podziałów komórkowych (mitoza) Sources: Dr. WIlliam H. Wolberg (physician); University of Wisconsin Hospital ;Madison; Wisconsin; USA

  25. Breast Cancer Database (fragment) Są to dane po procesie dyskretyzacji 25

  26. RULE_SET breast_cancer RULES 35 (x9=1)&(x8=1)&(x2=1)&(x6=1)=>(x10=2) (x9=1)&(x2=1)&(x3=1)&(x6=1)=>(x10=2) (x9=1)&(x8=1)&(x4=1)&(x3=1)=>(x10=2) (x9=1)&(x4=1)&(x6=1)&(x5=2)=>(x10=2) ………………….. (x9=1)&(x6=10)&(x1=10)=>(x10=4) (x9=1)&(x6=10)&(x5=4)=>(x10=4) (x9=1)&(x6=10)&(x1=8)=>(x10=4) REDUCTS (27) { x1, x2, x3, x4, x6 } { x1, x2, x3, x5, x6 } { x2, x3, x4, x6, x7 } { x1, x3, x4, x6, x7 } { x1, x2, x4, x6, x7 } ……………. { x3, x4, x5, x6, x7, x8 } { x3, x4, x6, x7, x8, x9 } { x4, x5, x6, x7, x8, x9 }

  27. Diagnostyka raka piersi Reguły decyzyjne dla Breast Cancer Database (dla danych numerycznych) LERS (p8,1..1.5) & (p3,1..1.5) & (p4,1..1.5) -> (diagnoza.zdrowy) (p9,1..1.5) & (p6,1..1.5) & (p2,1.5..3.5) -> (diagnoza,zdrowy) (p7,1..2.5) & (p5,2.5..4.5) -> (diagnoza,zdrowy) (p5,1..2.5) & (p8,1..1.5) & (p2,1.5..3.5) -> (diagnoza,zdrowy) (p9,1..1.5) & (p8,5.5..10) & (p5,4.5..10) & (p1,1.5..3.5) -> (diagnoza,zdrowy) (p6,3.5..10) & (p8,1.5..5.5) & (p7,3.5..5.5) -> (diagnoza,rak) (p8,5.5..10) & (p4,1.5..2.5) -> (diagnoza,rak) (p6,3.5..10) & (p8,5.5..10) & (p3,1.5..3.5) -> (diagnoza,rak) (p9,1..1.5) & (p8,5.5..10) & (p1,7.5..11) -> (diagnoza,rak) (p6,3.5. . 10) & (p9,1.5..2.5) & (p8,1.5..5.5) -> (diagnoza,rak)

  28. Audiology Database Inne bazy danych z zakresu medycyny Dermatology Database • Number of instances: 200 training cases • Number of attributes: 71 • Classification (24 classes) • Number of Instances: 366 • Number of attributes: 34 • Classification (6 classes) Source Information: Nilsel Ilter, M.D., Ph.D., Gazi University, School of Medicine 06510 Ankara, Turkey Phone: +90 (312) 214 1080 Sources: (a) Original Owner: Professor Jergen at Baylor College of Medicine (b) Donor: Bruce Porter (porter@fall.cs.utexas.EDU) 28

  29. UC Irvine Machine Learning Repository BreastCancerDatabase Audiology Database Dermatology Database

  30. Porównanie Espresso i RSES RSES ESPRESSO .i 7 .o 1 .type fr .p 9 1000101 0 1011110 0 1101110 0 1110111 0 0100101 1 1000110 1 1010000 1 1010110 1 1110101 1 .e TABLE extlbis ATTRIBUTES 8 x1 numeric 0 x2 numeric 0 x3 numeric 0 x4 numeric 0 x5 numeric 0 x6 numeric 0 x7 numeric 0 x8 numeric 0 OBJECTS 9 1 0 0 0 1 0 1 0 1 0 1 1 1 1 0 0 1 1 0 1 1 1 0 0 1 1 1 0 1 1 1 0 0 1 0 0 1 0 1 1 1 0 0 0 1 1 0 1 1 0 1 0 0 0 0 1 1 0 1 0 1 1 0 1 1 1 1 0 1 0 1 1 (x1=1)&(x5=1)&(x6=1)&(x2=1)=>(x8=0) (x1=1)&(x2=0)&(x5=1)&(x3=0)&(x4=0)&(x6=0)=>(x8=0) (x4=0)&(x1=1)&(x2=0)&(x7=0)=>(x8=1) (x2=1)&(x4=0)&(x5=1)&(x6=0)=>(x8=1)

  31. … co uzyskamy stosując RSES do realizacji sprzętu ESPRESSO RSES

  32. Porównanie… Przykład sugeruje, że algorytmy stosowane w komputerowych systemach eksploracji danych nie są najskuteczniejsze. I być może warto je opracować na nowo korzystając z lepszych metod syntezy logicznej. Przykładem potwierdzającym tę tezę jest redukcja atrybutów, stosowana w RSES, ROSE, WEKA… 32

  33. Inna metoda obliczania reduktów… Klasyczną metodę można znacznie usprawnić wykorzystując stosowaną w syntezie logicznej procedurę uzupełniania funkcji boolowskiej. Twierdzenie: Każdy wiersz i macierzy , stanowiącej uzupełnienie macierzy porównań M reprezentuje pokrycie kolumnowe M, gdzie jL wtedy i tylko wtedy, gdy Powyższe twierdzenie sprowadza proces obliczania reduktów do obliczania uzupełnienia jednorodnej funkcji boolowskiej. Procedura ta (nazwana UNATE_COMPLEMENT) została opracowana jako fragment procedury COMPLEMENT programu Espresso. Nigdy nie była stosowana do obliczania reduktów 33

  34. Przykład – metoda klasyczna Pokrycie kolumnowe (przypomnienie) M: x1 x2 x4 x3 x4x1 x2x1x4 (x1 + x2 + x4) (x3 + x4) (x1 + x2) (x1 + x4) = = x1x3+ x2x4 +x1x4 To są wszystkie minimalne pokrycia kolumnowe macierzy M 34

  35. Przykład – metoda uzupełniania M: x1x3+ x2x4 +x1x4 To samo co poprzednio! 35

  36. Metoda obliczania reduktów… jest równoważna obliczaniu Complementu (Uzupełnienia) funkcji boolowskiej, reprezentowanej Tablicą porównań. Espresso 36

  37. Eksperymenty Bezwzględna przewaga metody uzupełniania!

  38. Redukcja argumentów/atrybutów Ile jest takich rozwiązań Funkcja KAZ Przed redukcją .type fr .i 21 .o 1 .p 31 100110010110011111101 1 111011111011110111100 1 001010101000111100000 1 001001101100110110001 1 100110010011011001101 1 100101100100110110011 1 001100100111010011011 1 001101100011011011001 1 110110010011001001101 1 100110110011010010011 1 110011011011010001100 1 010001010000001100111 0 100110101011111110100 0 111001111011110011000 0 101101011100010111100 0 110110000001010100000 0 110110110111100010111 0 110000100011110010001 0 001001000101111101101 0 100100011111100110110 0 100011000110011011110 0 110101000110101100001 0 110110001101101100111 0 010000111001000000001 0 001001100101111110000 0 100100111111001110010 0 000010001110001101101 0 101000010100001110000 0 101000110101010011111 0 101010000001100011001 0 011100111110111101111 0 .end Po redukcji 01010 1 10110 1 00100 1 01001 1 01000 1 11010 1 10011 0 01110 0 10100 0 11000 0 11011 0 10000 0 00010 0 01111 0 00011 0 11111 0 00000 0 01101 0 00110 0 Jedno z wielu rozwiązań po redukcji argumentów

  39. Funkcja KAZ .type fr .i 21 .o 1 .p 31 100110010110011111101 1 111011111011110111100 1 001010101000111100000 1 001001101100110110001 1 100110010011011001101 1 100101100100110110011 1 001100100111010011011 1 001101100011011011001 1 110110010011001001101 1 100110110011010010011 1 110011011011010001100 1 010001010000001100111 0 100110101011111110100 0 111001111011110011000 0 101101011100010111100 0 110110000001010100000 0 110110110111100010111 0 110000100011110010001 0 001001000101111101101 0 100100011111100110110 0 100011000110011011110 0 110101000110101100001 0 110110001101101100111 0 010000111001000000001 0 001001100101111110000 0 100100111111001110010 0 000010001110001101101 0 101000010100001110000 0 101000110101010011111 0 101010000001100011001 0 011100111110111101111 0 .end Wszystkich rozwiązań: z minimalną i najmniejszą liczbą argumentów jest 35, z minimalną liczbą argumentów jest: 5574 Czas obliczeń RSES = 70 min. Czas obliczeń dla nowej metody= 234 ms. 18 tysięcy razy szybciej!

  40. Wniosek Wprowadzenie metody uzupełniania funkcji boolowskich do procedury obliczania reduktów zmniejsza czas obliczeń o rząd, a niekiedy o kilka rzędów wielkości RSES

  41. Podsumowanie Metody syntezy logicznej wypracowane dla potrzeb projektowania układów cyfrowych są skuteczne również w eksploracji danych Dają rewelacyjne wyniki Są proste w implementacji Są źródłem ciekawych prac dyplomowych 41

  42. Wnioski • Są źródłem ciekawych prac dyplomowych WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA pod auspicjami Polskiej Akademii Nauk WYDZIAŁ INFORMATYKI STUDIA I STOPNIA (INŻYNIERSKIE) PRACA DYPLOMOWA Piotr Decyk Implementacja algorytmu obliczania reduktów wielowartościowych funkcji logicznych 42

  43. Prace dyplomowe WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA pod auspicjami Polskiej Akademii Nauk Konrad Królikowski IMPLEMENTACJA ALGORYTMU OBLICZANIA REDUKTÓW METODĄ UZUPEŁNIANIA FUNKCJI BOOLOWSKICH Andrzej Kisiel UOGÓLNIANIE REGUŁ DECYZYJNYCH BINARNYCH TABLIC DANYCH METODĄ UZUPEŁNIANIA FUNKCJI BOOLOWSKICH http://zpt2.tele.pw.edu.pl/luba/eksper.htm 43

  44. Prace dyplomowe… Expert Systems with Applications 37 (2010) 2081–2091 journal homepage: www.elsevier.com/locate/eswa Hierarchical decision rules mining Qinrong Feng, Duoqian Miao, Yi Cheng Department of Computer Science and Technology, Tongji University, Shanghai 201804, PR China

More Related