330 likes | 529 Views
Metody analizy i odkrywania wiedzy w niekompletynych zbiorach danych. Łukasz Ryniewicz 25.04.2007. Plan prezentacji. Typy niekompletności informacji Metody uzupełniania danych Statystyczne k-najbliższych sąsiadów, drzewa decyzyjne Metody analizy niekompletnych danych
E N D
Metody analizy i odkrywania wiedzy w niekompletynych zbiorach danych Łukasz Ryniewicz 25.04.2007
Plan prezentacji • Typy niekompletności informacji • Metody uzupełniania danych • Statystyczne • k-najbliższych sąsiadów, drzewa decyzyjne • Metody analizy niekompletnych danych • Rozmyte reguły asocjacyjne • Zbiory przybliżone i modyfikacje • Modyfikacje algorytmów
Etapy eksploracji danych Analiza problemu dane Selekcja i czyszczenie danych dane wyselekcjonowane Transformacja danych • Wybór strategii co do badania danych • Konwersja • Dyskretyzacja • Zmiana reprezentacji z relacyjnej na transakcyjną dane przetworzone
Etapy eksploracji danych Eksploracja danych • Wybór narzędzi • Wybór algorytmów • Zastosowania ich wzorce Przygotowanie wyników do oceny dane wygodne do analizowania Obróbka żeby było miłe dla oka Analiza wyników Zastosowanie uzyskanej wiedzy w praktyce
Typy niepełności danych • Niepewność – gdy nie wiemy czy dane są poprawne • Niedokładność – np. gdy mamy dane w postaci przedziałów: 100-200, dane opisowe : dość ciepło • Niekompletność – nie znamy wartości atrybutu • Niespójność – np. jednemu obiektowi są przypisane różne wartości • Ignorancja – gdy mamy brak wiedzy
Niekompletność • Brakujące dane – są możliwe do uzupełnienia • chwilowa – nie jest dostępna dana w momencie jej wstawiania • niedokładność urządzeń, metod – możliwe do oszacowania • Niedostępne dane • nie są możliwe do uzupełnienia, • gdy są instancje do których nie mają zastosowania wartości atrybutów (np. baza z polami: bramki, strzelcy w przypadku meczu bezbramkowego)
Model transakcyjny danych U – zbiór obiektów A – zbiór atrybutów d - atrybut decyzyjny dziedzina - zbiór klas decyzyjnych
Metody stosowane podczas transformacji danych • Usuwanie niekompletności danych • Pomijanie obiektów zawierających braki danych • W bazach traznsakcyjnych pomijanie brakującego atrybutu • Zastępowanie brakujących wartości • Użycie stałej – np. nowej nie występującej w zbiorze wartości danego atrybutu • Użycie mody, mediany, wartości średniej dla wartości danego atrybutu • Użycie metod data mining – np. k-najbliższych sąsiadów gdzie porównujemy obiekt z brakującą wartością z obiektami sąsiednimi i na ich podstawie odtwarzamy brakujący atrybut
Metody statystyczne • Procedury oparte na kompletnych rekordach – gdy mało braków • Procedury ważące – ustawiane są wagi rekordów by zminimalizować odchylenia związane z brakami • Procedury oparte o uzupełnianie danych • Jawne w postaci formalnego modelu (średnia, mediana, regresja, badanie korelacji) • Niejawne ukierunkowane na algorytmy implikujące modele (uzupełnianie na podstawie podobieństw, zastępowanie innymi rekordami, zastępowanie stałymi) • Procedury oparte o modele – definiuje się model kompletnych danych i zależności są wyliczane na podstawie rozkładu prawdopodobieństw
Metody statystyczne - przykład • Podziel zbiór U na klasy decyzyjne • Dla każdej klasy wyznacz za pomocą statystyki S • Dla każdego braku uzupełnij według przynależności do odpowiedniej klasy decyzyjnej
k-najbliższych sąsiadów • Bazę – U dzielimy na 2 podzbiory • - przynajmniej 1 wartość atrybutu nie jest znana • - pozostałe • Dla każdego rekordu r należącego do znajdujemy k najbliższych sąsiadów z Odległość liczona tylko przy wykorzystaniu znanych w r atrybutów. Uzupełnienie braku (np. poprzez wyznaczenie mody z wartości atrybutów k sąsiadów i wstawienie jej do r)
Drzewa decyzyjne • Bazę – U dzielimy na 2 podzbiory • - przynajmniej 1 wartość atrybutu nie jest znana • - pozostałe • Wyznaczamy zbiór atrybutów gdzie pojawiła sie wartość nieznana – • Dla każdego atrybutu a należącego do tworzymy drzewo decyzyjne na podstawie gdzie każda wartość a tworzy klasę decyzyjną • Klasyfikujemy rekord r z z brakującym atrybutem a do odpowiedniej klasy • W przypadku gdy rekord r ma więcej niż jeden brak to: • Dla braku a klasyfikacja • W r uzupełnienie braku tylko wtedy gdy osiągnięto liść • Powrót do 5.1 • Gdy nie osiągamy już liści klasyfikujemy na podstawie najbardziej licznego zbioru
Metody stosowane na etapie odkrywania wiedzy • Użycie standardowych metod gdy przeprowadziliśmy już proces uzupełniania danych • Użycie zmodyfikowanych metod analizy pod kątem braków danych • Użycie metod używających podejście do danych i klasyfikacji zbiorów rozmytych i przybliżonych • Podejście probabilistycznie
Reguły asocjacyjne oparte na zbiorach rozmytych • Dla każdego atrybutu jest definiowany zbiór lingwistycznych termów które określają jakieś pojęcie z dziedziny, np wysoki • jest reprezentowany przez zbiór rozmyty na dziedzinie A, ozn: d(A), o funkcji przynależności
Reguły asocjacyjne oparte na zbiorach rozmytych • Stopień w jakim term charakteryzuje pewien rekord r to wartość funkcji przynależności: • Stopień w jakim zbiór termów charakteryzuje rekord r to: • Reprezentacja termów za pomocą zbiorów rozmytych pozwala obliczyć stopień gdy potrzebna wartość nie jest znana. Wtedy funkcja zwraca wartość ½
Reguły asocjacyjne oparte na zbiorach rozmytych • Generacja reguł dla różnych atrybutów i w postaci: • Zamiast wsparcia jest liczona różnica między prawdopodobieństwami: -liczba termów zdefiniowana dla atrybutów Ai
Reguły asocjacyjne oparte na zbiorach rozmytych • Jeżeli różnica ta jest statystycznie istotna, wtedy jest akceptowana taka reguła i jest obliczane zaufanie reguły
Definicje reguł asocjacyjnych uwzględniające braki danych • Dane wykluczone Dis(X) • Obowiązująca baza vdb(X) • Rekord r jest wykluczony dla danego zbioru X jeśli zawiera przynajmniej jedną wartość nieznaną dla jednego atrybutu który znajduje się w zbiorze X. Zbiór tych rekordów – Dis(X),vdb(X) = U\Dis(X)
Podejście probabilistyczne I • Nieznane wartości atrybutu są zastępowane przez wszystkie znane wartości. Każda wartość w zastępuje nieznaną daną dla której prawdopodobieństwo prob(w,a) jest równe względnej częstości jej występowaniu w wektorach dla których jest określona wartość tego atrybutu. • Wsparcie elementu elem(w,a) o wartości w z dziedziny atrybutu a dla pojedynczego rekordu r: • Wsparcie zbioru dla pojedynczego rekordu r: { 1 gdy r.a = w prob(w,a) gdy r.a = ? 0 w p. p.
Podejście probabilistyczne II • Normalnie transakcja t wspiera zbiór X albo nie • Każdy element występujący w transakcji t wspieranej przez k-elementowy zbiór Zk wnosi 1/k do wartości całkowitego wsparcia zbioru Zk • Całkowita wartość wsparcia Zk jest sumą wsparć wnoszone przez poszczególne elementy • Znalezienie rozkładu prawdopodobieństwa na brakującym atrybucie, i wtedy przemnażamy wartość wnoszoną przez to prawdopodobieństwo • Zk={a,b,c} t={a,b,*} p(c)=3/5 => wsp(Zk)=1/3+1/3+(1/3)*(3/5)
Podejścia wykorzystujące zbiory przybliżone – relacja nierozróżnialności Współczynnik aproksymacji: Używana w algorytmach generacji reguł indukcyjnych
Podejścia wykorzystujące zbiory przybliżone – relacja nierozróżnialności Przybliżenia zbiorów klas decyzyjnych służy do utworzenia zbioru reguł decyzyjnych w postaci: Gdzie Relacja nierozróżnialności może być stosowana jedynie w kompletnych zbiorach, dlatego istnieją jej modyfikacje
Podejścia wykorzystujące zbiory przybliżone - relacja tolerancji Używana przy uzupełnianiu braków Używana w algorytmach generacji reguł indukcyjnych
Podejścia wykorzystujące zbiory przybliżone - relacja podobieństwa y podobny do x Dla każdego x są definiowane 2 klasy: • Elementów podobnych do x • Elementów do których x jest podobny Używana w algorytmach generacji reguł indukcyjnych
Podejścia wykorzystujące zbiory przybliżone – rozmyta relacja podobieństwa • Intuicja- x2 jest bardziej podobny do x1 niż x3 do x1 • Zwykła relacja tolerancji nie rozróżnia • Zakładamy że pod brakującymi wartościami dla ustalonego atrybutu może występować znana wartość z jednakowym prawdopodobieństwem • Podobieństwo obiektów x,y względem a można zapisać: { I możemy zapisać rozmytą relacje podobieństwa:
Metoda kwadratowa • Metoda polega na klasyfikacji n>2 klas decyzyjnych • Tworzone są klasyfikatory niezależne Cij których celem jest stwierdzenie czy nowy obiekt należy do klasy i-tej czy j-tej (odpowiednio Cij = 1, Cij = 0) • Do budowy klasyfikatorów są wykorzystywane powyższe relacje które pozwalają stwierdzić do której klasy bardziej obiekt klasyfikowany należy • Do każdego klasyfikatora określa sie współczynnik wiarygodności w fazie uczenia • Decyzja klasyfikacyjna:
Drzewa decyzyjne – C4.5 Oczekiwana ilość informacji potrzebna do klasyfikacji: Maksymalizujemy przyrost informacji G(U,T) w wyniku podziału testem T: Żeby uniknąć zbyt wielkiej ilości podziałów wprowadzamy współczynnik: Gdzie P(U,T) – wartość informacyjna testu:
Drzewa decyzyjne – C4.5 modyfikacja Uo – zbiór tych obiektów w których występuje brak na atrybucie potrzebnym do testu T Przyrost informacji Wartość informacyjna testu
Drzewa decyzyjne – podejście probabilistyczne T: n1 t1 -liść r1 n2 -węzły t2 r2 -testy n3 t3 -wyniki testów Dla przykładu x (bez braków danych) prawdopodobieństwo osiągnięcia liścia I wynosi: nm tm rm I Gdy wyniki testów są znane (x nie zawiera braków potrzebnych przy testach) to prawdopodobieństwo osiągnięcia liścia wynosi 0 lub 1
Drzewa decyzyjne – podejście probabilistyczne Jeżeli test tk w węźle nk nie może być ustalony dokładnie (występuje brak danych) to możemy przyjąć prawdopodobieństwo z rozkładu Ω określone następująco: Gdzie podzbiór przykładów dla których wartość testu jest znana
Metoda podziału Polega na podzieleniu danych na mniejsze porcje tak by nie zawierały one braków i niosły maksymalną ilość informacji o klasyfikacji. Następnie dla każdej porcji jest stosowany odrębny model klasyfikacji, i następuje synteza wyników
Literatura • Imieliński T., Lipiński W., Incomplete Information in Relational Databases, Journal of the AEM, tom 31, 1984 • Chan K. C. C., Wai-Ho A., Mining Fuzzy Association Rules, Proceedings of the Sixth International Conference on Information and Knowledge Managment, Las Vegas, 1997 • Regel A., Cremilleux B., Treatment of Missing Values for Association Rules, Proceedings of Research and Development in Knowledge Discovery and Data Mining, Second Pacific-Asia Conference, PAKDD-98, Melbourne, 1998 • Protaziuk G., Odkrywanie wiedzy w niekopletnych zbiorach danych, rozprawa doktorska, Warszawa 2005 • Kryszewicz M., Rybiński H., Incomplete database issues for representative association rules, Proceedings of Foundations of Inteligent Systems, 11th International Symposium, Warszawa 1999 • Nayak J. R., Cook D. J., Approximate Association Rule Mining, Proceedings of the Fourteenth International Articital Inteligence Research Society Conference, Key West, Floryda, 2001 • Feelders A., Handling missing data in trees: surrogate splits of statistical ipmutation?, Proceedings of Principles of Data Mining and Knowledge Discovery Third European Confereance, PKDD ’99, Praga, 1999