1 / 60

Komputerowe wspomaganie podejmowania decyzji

Komputerowe wspomaganie podejmowania decyzji. Wykład dla V roku Geoinformacji rok akademicki 2007/2008 Alfred Stach Instytut Paleogeografii i Geoekologii UAM. Niepewność procesu decyzyjnego. Niepewność jest nieodłączną częścią procesu decyzyjnego; jej efektem jest ryzyko decyzji

halden
Download Presentation

Komputerowe wspomaganie podejmowania decyzji

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Komputerowe wspomaganie podejmowania decyzji Wykład dla V roku Geoinformacji rok akademicki 2007/2008 Alfred Stach Instytut Paleogeografii i Geoekologii UAM

  2. Niepewność procesu decyzyjnego • Niepewność jest nieodłączną częścią procesu decyzyjnego; jej efektem jest ryzyko decyzji • Lepsze zrozumienie poszczególnych źródeł niepewności i ich końcowego wpływu na ryzyko decyzji powoduje odchodzenie od „ostrych” rozwiązań typowych w tradycyjnym GIS (gdzie zakłada się, że zarówno baza danych jest dokładna i kompletna, jak i wykorzystywane modele są optymalne) do procedur dających wyniki „miękkie”. • Zamiast stanowczych stwierdzeń typu „coś jest” lub „czegoś nie ma” uzyskuje się nieprecyzyjne stwierdzenia o stopniu prawdopodobieństwa, czy też natężeniu „możliwości” • Przejście do „miękkich” zasad podejmowania decyzji wymaga rozwoju zdolności systemów GID do przetwarzania niepewnych danych przy pomocy niepewnych reguł i metod, i zachowywania informacji co jest źródłem niepewności i jakim zmianom ona podlega w trakcie całego procesu decyzyjnego

  3. Typologia źródeł niepewności • Niepewność związana jest ze wszystkimi znanymi i nieznanymi błędami w danych i w regułach ich przetwarzania i interpretacji; wynika też z ich niejednoznaczności i zróżnicowania • Może zatem wynikać z błędów pomiarowych, wewnętrznej zmienności, niestabilności czasowej, niejednoznaczności pojęć, nadmiernego uproszczenia modelu lub zwykłej niewiedzy dotyczącej istotnych jego parametrów

  4. Typologia źródeł niepewności • Traktując proces decyzyjny jak zbiór „problemów przynależności / braku przynależności” możemy dokonać klasyfikacji źródeł i roli niepewności występujących w jego ramach. • Zakres decyzyjny (decision frame) zawiera wszystkie uwzględniane alternatywy (lub hipotezy), natomiast „dowody” (evidence) to taka informacja na podstawie której można dokonać oceny szeregu funkcji przynależności określonych lokalizacji do zbioru decyzyjnego (decision set) • Proces decyzyjny zawiera zatem trzy podstawowe elementy które są źródłem niepewności – dowody, sam zbiór decyzyjny i relacje pomiędzy nimi

  5. Niepewność dowodów (evidence) • Dowody to wszelkie informacje (ilościowe i jakościowe) o obiektach zbioru kandydackiego które poddawane są ocenie przydatności w świetle zakresu decyzyjnego (analizowanych alternatyw lub hipotez) • Niepewność wynika w tym przypadku z błędów pomiarowych i/lub obserwacyjnych • Ten rodzaj niepewności przedstawiany jest zazwyczaj w postaci RMSE (pierwiastka średniego błędu kwadratowego – root mean square error) w przypadku danych ilościowych, i błędu proporcji (proportional error) – danych jakościowych • Ocena tych źródeł błędu dokonywana jest na podstawie klasycznej teorii pomiaru oraz teorii prawdopodobieństwa i wnioskowania matematyczno-statystycznego do ich szacowania i propagacji w trakcie analizy

  6. Niepewność relacji I Drugim podstawowym elementem procesu decyzyjnego jest specyfikacja relacji zachodzących pomiędzy dowodami a zbiorem decyzyjnym. Na tym etapie niepewność może pochodzić z trzech źródeł: • Niepewność związana z definicją kryteriów: „jeśli wyznaczoną granicą dużego spadku terenu jest 10% i więcej, to czy spadek 9,99999% nie jest duży?”. Ten problem związany jest z częstych występowaniem kryteriów o charakterze nieostrym, stopniowym. Przy takich problemach zastosowanie znajduje teoria zbiorów rozmytych • Niepewność wynikająca z pośredniej i niejednoznacznej relacji między dowodami, a zbiorem decyzyjnym, na przykład określanie użytkowania terenu na podstawie obrazów satelitarnych, a nie bezpośredniego kartowania terenowego. Dysponujemy wówczas nie pewnością, ale przekonaniem (belief) że dowody sugerują istnienie określonego zbioru (kategorii użytkowania terenu). Do analizy takich problemów wykorzystuje się teorię prawdopodobieństwa Bayesa i/lub Dempstera-Shafera.

  7. Niepewność relacji II • Niepewność związana z błędem specyfikacji modelu wynikająca najczęściej z konieczności agregacji wielu kryteriów aby określić zbiór decyzyjny: czy kryteria są adekwatne do problemu i w jaki sposób je zagregować aby uzyskać syntetyczny wskaźnik. • W metodzie WLC stosujemy średnią ważoną, ale czy jest ona w każdej sytuacji najlepsza i jedyna? Jeśli musimy zagregować dwa kryteria o takiej samej ważności (wadze): jedno o przydatności 0,6, a drugie 0,7 to WLC daje końcowy wynik przydatności 0,65. Zastosowanie do tych samych danych klasycznej teorii prawdopodobieństwa daje 0,42, teorii zbiorów rozmytych – 0,6, teorii Bayesa 0,78, a teorii Dempstera-Shafera – 0,88. Która wartość jest bardziej prawidłowa?

  8. Niepewność zbioru decyzyjnego • Niepewność końcowa – zbioru decyzyjnego jest rodzajem agregacji niepewności dowodów i niepewności specyfikacji relacji pomiędzy nimi a zbiorem decyzyjnym • Jeśli zatem istnieje niepewność co do stopnia przynależności obiektu kandydackiego do zbioru decyzyjnego to do podjęcia końcowej decyzji potrzebna jest dodatkowa operacja – określenie progu niepewności który jesteśmy w stanie zaakceptować. • Należy zatem ocenić możliwość podjęcia złej decyzji, czyli jej ryzyko

  9. Niepewność danych a ryzyko decyzji: ocena błędów • Niezbędnym aspektem oceny niepewności decyzji jest znajomość błędów pomiarowych i ich propagacji w trakcie przetwarzania danych i łączenia poszczególnych ich zbiorów (warstw) • Szacowanie błędów pomiarowych jest zazwyczaj wykonywane poprzez selekcję próby lokalizacji terenowych, i wykonanie w ich miejscu ponownego pomiaru analizowanej cechy (parametru). Wyniki tych pomiarów testowych są następnie porównywane z wcześniej posiadanymi danymi z bazy. • W oparciu o zbiór pomiarów testowych i posiadanych poprzednio, możliwe jest dokonanie szacunku błędów. W przypadku danych ilościowych posługujemy się pierwiastkiem średniego błędu kwadratowego (Root Mean Square Error:RMSE) obliczanym według następującej formuły: Gdzie: xi – to wynik pomiaru dotychczasowego ti– wynik pomiaru testowego (sprawdzającego)

  10. Niepewność danych a ryzyko decyzji: ocena błędów • W przypadku danych jakościowych konstruuje się macierz błędów zawierającą ilość zidentyfikowanych punktów (lokalizacji) dla każdej możliwej kombinacji wartości istniejących w bazie danych z uzyskanymi z pomiarów testowych Dane testowe (weryfikujące) Dane posiadane Błędy nadmiaru – Errors of commission Błędy pominięcia – Errors of omission

  11. Niepewność danych a ryzyko decyzji: ocena błędów • Wartości ułożone na przekątnej reprezentują przypadki kiedy pomiary testowe są zgodne z posiadanymi już danymi. Wartości umieszczone w tabeli poza przekątnymi podają ilość błędów i są podsumowane na marginesach. Są one podawane także jako błędy względne określeń każdej kategorii. Całkowity błąd względny (proporcjonalny) jest umieszczony w prawym dolnym rogu tabeli. Dane testowe (weryfikujące) Dane posiadane Błędy nadmiaru – Errors of commission Błędy pominięcia – Errors of omission

  12. Niepewność danych a ryzyko decyzji: ocena błędów • Błędy względne znajdujące się w dolnej części tabeli nazywa się „błędami pominięcia”, a po prawej – „błędami nadmiaru”. Pierwsze określają przypadki kiedy lokalizacje konkretnej kategorii stwierdzone w badaniach testowych były w istniejącej bazie danych zaklasyfikowane inaczej, drugie zaś kiedy lokalizacje należące w bazie do określonej kategorii zostały w badaniach testowych zakwalifikowane inaczej. Dane testowe (weryfikujące) Dane posiadane Błędy nadmiaru – Errors of commission Błędy pominięcia – Errors of omission

  13. Propagacja błędów w trakcie analizy • Jeśli w wartości zapisane w warstwach danych są niepewne, to wtedy ich błąd jest przenoszony (ulega propagacji) w trakcie każdego kroku analizy i łączy się z błędami pochodzącymi z innych źródeł • W pakietach rastrowego GIS istnieją specjalne wzory propagacji błędów powstających w trakcie typowych operacji matematycznych (takich jakie na przykład można wykonać za pomocą modułów SCALAR i OVERLAY w Idrisi). Ich użyteczność jest jednak ograniczona ze względu: • Propagacja błędów jest silnie uzależniona od istnienia korelacji pomiędzy zmiennymi, a „siła” takiej korelacji często nie jest znana na początku analizy • Dla wielu operacji GIS nie poznano do tej pory charakterystyk propagacji błędów i nie opracowano formuł umożliwiających ich obliczenie.

  14. Typowe formuły propagacji błędów: operacje arytmetyczne • S oznacza błąd RMSE; Sx – błąd RMSE mapy (warstwy) X; Sy – błąd mapy Y; Sz – błąd wynikowej mapy Z; K – stała podana przez operatora • Zazwyczaj obliczony błąd wynikowy jest stały w obrębie całej mapy. W niektórych jednak przypadkach jest on jednak uzależniony od wartości odpowiadających komórek na mapach składowych. Są one wówczas wyrażone jako X i Y. W takich sytuacjach błąd jest zróżnicowany w obrębie mapy wynikowej, i musi być obliczany oddzielnie dla każdego piksela. • Podane formuły znajdują zastosowanie przy założeniu, że mapy składowe nie są ze sobą skorelowane

  15. Typowe formuły propagacji błędów: operacje arytmetyczne • Dodawania / odejmowanie map to znaczy Z = X + Y lub Z = X – Y: • Mnożenie / dzielenie map to znaczy Z = X * Y lub Z = X / Y:

  16. Typowe formuły propagacji błędów: operacje arytmetyczne • Skalarne dodawanie i odejmowanie to znaczy Z = X + k lub Z = X – k: • Mnożenie skalarne to znaczy Z = X * k

  17. Typowe formuły propagacji błędów: operacje arytmetyczne • Skalarne dzielenie to znaczy Z = X / k: • Potęgowanie skalarne to znaczy Z = Xk:

  18. Typowe formuły propagacji błędów: operacje logiczne • W trakcie działań logicznych, błędy mogą być wyrażone w postaci oczekiwanej wartości proporcji komórek (pikseli) błędnych w kategorii która jest przetwarzana. Jeśli na przykład wartość logiczna „1” na mapie oznacza przynależność do kategorii „lasy” , a „0” – przynależność do wszystkich innych kategorii, to wartość błędu 0,05 oznacza ocenę, że 5% pikseli należących do kategorii „lasy” zostało źle zaklasyfikowane. • Ponieważ operacje logiczne wykonuje się na dwóch mapach, błąd na mapie wynikowej jest funkcją błędów obu map wyjściowych i typu wykonywanej operacji

  19. Typowe formuły propagacji błędów: operacje logiczne • Logiczne „AND”: lub równoważne: • Logiczne „OR”:

  20. Ocena wielkości próby potrzebnejdo obliczenia RMSEo zadanym poziomie ufności • Jeśli wartość RMSE lub błędu proporcjonalnego nie jest znana z góry to konieczne jest zaplanowanie dodatkowych badań. Aby były optymalne konieczne jest zbilansowanie dwóch sprzecznych celów: • minimalizacji kosztów dodatkowych badań, • uzyskanie oceny RMSE / błędu proporcjonalnego o zadawalającej dokładności • Do takiej optymalizacji dodatkowego próbkowania wykorzystuje się następujące formuły: n – liczebność próby, z – stała zależna od pożądanego ufności (np. dla 95% przedziału ufności z = 1,96), s – szacowana wartość błędu standardowego potrzebnej charakterystyki statystycznej, e – pożądany przedział ufności (np. dla przedziału ufności  10% e = 0,01), p – szacowany błąd względny, q = (1 – p)

  21. Ocena propagacji błędówprzy pomocy symulacji Monte Carlo • Analiza wykonywana jest dwukrotnie: • Pierwszy raz w sposób „zwykły” • Za drugim razem przy użyciu warstw (map cyfrowych) zawierających symulowane błędy • Porównanie obu wyników umożliwia ocenę wpływu błędów – ponieważ jedyną przyczyną różnic jest wprowadzony „sztucznie” błąd • Badany jest rozkład statystyczny błędów dla wszystkich pikseli wynikowej mapy. Jeśli jest to rozkład normalny, to odchylenie standardowe błędów może być uznane za dobre przybliżenie RMSE mapy wynikowej • Na przykład jeśli jedną ze składowych analizy jest model DEM o RMSE równym 3, to w procedurze Monte Carlo generowana jest losowo powierzchnia wartości o rozkładzie normalnym, średniej równej 0 i odchyleniu standardowym równym 3. Powierzchnia ta (symulowany błąd) dodawana jest do oryginalnego DEM i używana w dalszym toku analizy • Rezultaty analizy Monte Carlo mogą dać bardziej wiarygodne rezultaty jeśli zostaną powtórzone wiele razy, a wyniki uśrednione • Należy jednakże pamiętać, że jakość wyników metody MC zależy od prawidłowego wyboru typu rozkładu statystycznego który zastosujemy jako model częstości i wielkości błędów

  22. Niepewność bazy danych a ryzyko decyzji – finalna ocena • Posiadając ocenę błędu pomiaru i wyniki obliczeń jego propagacji w trakcie analizy decyzyjnej można w pełni ocenić związane z nimi ryzyko decyzji. • Zazwyczaj polega to obliczeniu prawdopodobieństwa przekroczenia / nie przekroczenia wartości poszczególnych pikseli mapy wynikowej określonej wartości granicznej (progowej) • Procedura opiera się na założeniu losowości błędów i używa obliczonej wartości RMSE do wygenerowania ich rozkładu statystycznego (SD = RMSE). Dzięki temu otrzymujemy mapę prawdopodobieństwa przynależności każdego piksela mapy wynikowej do zbioru decyzyjnego. Jest to „miekki” odpowiednik zwykłego przeklasyfikowania danych.

  23. Niepewność bazy danych a ryzyko decyzji – finalna ocena (przykład) • Ocena zasięgu obszarów zagrożonych zalaniem w rejonie portu bostońskiego w wyniku prognozowanego wzrostu poziomu oceanu światowego (pod wpływem globalnego ocieplenia) • Prognoza wzrostu poziomu o 1,9 m do końca obecnego stulecia • Model DEM zawiera znany błąd – można zatem ocenić niepewność zasięgu obszarów zagrożonych zalaniem. Prawdopodobieństwo zalania Obszar o 5% ryzyka zalania Obszar o 25% ryzyka zalania

  24. Niepewność relacji(zasady decyzyjnej) Drugim podstawowym elementem procesu decyzyjnego jest specyfikacja relacji zachodzących pomiędzy dowodami a zbiorem decyzyjnym • Niepewność zawarta jest w ocenie kiedy obiekt należy do finalnego zbioru decyzyjnego i jako taka stanowi ogólną kategorię niepewnej przynależności, nazywaną miarami rozmytymi • Miary rozmyte to jakiekolwiek funkcje przynależności do zbiorów, które są monotoniczne • Najważniejszymi przykładami miar rozmytychsą prawdopodobieństwo Bayesa, przekonanie (belief) i wiarygodność (plausibility) Dempstera-Shafera i możliwość(possibility)zbiorów rozmytych

  25. Niepewność relacji:Reguły agregacji danych rozmytych • Zazwyczaj uznaje się, że rozmyte cechy stosują się do praw DeMorgana dotyczących tworzenie operatorów iloczynu and sumy zbiorów, a poprzez to podstawowych reguł propagacji niepewności w trakcie agregacji danych. Prawo DeMorgana zakłada relację trójkątną pomiędzy operatorami iloczynu, sumy i negacji w postaci: Gdzie: T = Iloczyn (AND) = T-norma S = Suma (OR) = T-CoNorma  = Negacja (NOT)

  26. Niepewność relacji:Reguły agregacji danych rozmytych • Operatory iloczynu są w tym kontekście nazywane normami trójkątnymi (triangular norms), lub prosto T-Norms, natomast operatory sumowania – ko-normami trójkątnymi (triangular co-norms) lub T-CoNorms. • T-Normy można definiować następująco: odwzorowanie T: [0,1] * [0,1] -> [0,1] takie że: T(a,b) = T(b,a) przemienne T(a,b) >= T(c,d) jeśli a >= c i b >= d monotoniczne T(a,T(b,c)) = T(T(a,b),c) łączne T(1,a) = a Wybrane przykłady T-Norm: min(a,b) operator iloczynów zbiorów rozmytych a * b operator iloczynów prawdopodobieństw

  27. Niepewność relacji:Reguły agregacji danych rozmytych • Wybrane przykłady T-norm (kontynuacja): 1 - min(1,((1-a)p + (1-b)p )(1/p)) dla p>=1 max(0,a+b-1) • T-CoNormy można definiować następująco: odwzorowanie S: [0,1] * [0,1] -> [0,1] S(a,b) = S(b,a) przemienne S(a,b) >= S(c,d) jeśli a >= c i b >= d monotoniczne S(a,S(b,c)) = S(S(a,b),c) łączne S(0,a) = a

  28. Niepewność relacji:Reguły agregacji danych rozmytych • Wybrane przykłady T-CoNorm: max(a,b)operator sum zbiorów rozmytych a + b - a*boperator sum prawdopodobieństw min(1,(ap + bp )(1/p))(dla p≥1) min(1,a+b) • Przedstawione przykłady pokazują że agregacja cech rozmytych może być dokonywana przy użyciu bardzo szerokiego zestawu operatorów, stwarzając duże możliwości przy zestawianiu kryteriów w procesie decyzyjnym.Wśród różnych dostępnych operatorów najbardziej skrajnymi (to jest dającymi najbardziej zróżnicowane wyniki numeryczne)są operator minimalnej T-Normyi maksymalnej T-CoNormy. Mają one specjalne znaczenie również z powodu że stosowane są najczęściej wśród tych, które mają zastosowanie do zbiorów rozmytych. Poza tym wykazano, że stanowią one ekstremalne przypadki kontinuum pokrewnych operatorów agregacji które można generować w trakcie procedury średniej ważonej porządkowej (OWA).

  29. Niepewność relacji(zasady decyzyjnej) • Aktualnie do wyrażania niepewności zasady decyzyjnej stosowane są trzy główne reguły logiczne: teoria zbiorów rozmytych, teoria prawdopodobieństwa Bayesa i jej modyfikacja w postaci teorii Dempstera-Shafera.Każda z nich jest odmienna i charakteryzuje się własnym, specyficznym zestawem operatorów T-Norm/T-CoNorm. • Stwierdzono, że nie ma określonej grupy operatorów agregacji, która byłaby poprawna lub lepsza od innych. Różne sposoby wyrażania niepewności zasady decyzyjnej wymagają odmiennych procedur agregacji. • Kontekst w którym jedna z nich powinna być użyta zamiast innej nie zawsze jest jasny. Jest to częściowo efektem faktu iż zasady decyzyjne mogą obejmować więcej niż jedną formę niepewności.

  30. Niepewność relacji(zasady decyzyjnej) • Ogólne zalecenia dotyczące wyboru metody dla wyrażenia niepewności zasady decyzyjnej są następujące: • Problemy decyzyjne znajdujące się w zakresie kartowania przydatności do określonego celu można efektywnie rozwiązywać używając logiki zbiorów rozmytych. Jeśli definiujemy przydatność za pomocą czynników ciągłych (odległość od dróg, nachylenie terenu itp.), również sama przydatność jest ciągła. Nie ma wówczas sposobu wyraźnego odróżnienia obszarów które są jeszcze przydatne, o tych, które już są nieprzydatne. Wiele problemów alokacji zasobów w ramach GIS należy do tej kategorii, a zatem konsekwentnie do sfery zastosowań teorii zbiorów rozmytych.

  31. Niepewność relacji(zasady decyzyjnej) • Ogólne zalecenia dotyczące wyboru metody dla wyrażenia niepewności zasady decyzyjnej są następujące (kontynuacja): • Obecność problemów „nieostrych” w znaczeniu niejednoznacznych, nie zawsze oznacza, że należą one do zakresu stosowalności teorii zbiorów rozmytych. Niedokładność pomiarów na przykład, dotyczących obiektu (zbioru) o charakterze „ostrym” może spowodować konieczność użycia funkcji przynależności o identycznym charakterze jak te używane w przypadku zbiorów rozmytych.Decydującym kryterium użycia teorii zbiorów rozmytych powinno być stwierdzenie, że analizowany zbiór jest sam w sobie niejednoznaczny (nieostry: gorąco/ciepło/chłodno/zimno itp.).

  32. Niepewność relacji(zasady decyzyjnej) • Ogólne zalecenia dotyczące wyboru metody dla wyrażenia niepewności zasady decyzyjnej są następujące (kontynuacja): • Rozmyta charakterystyka mająca postać braku przekonania to w zasadzie dziedzina teorii prawdopodobieństwa Bayesa i jej wariantu zwanego teorią Dempstera-Shafera.Problem stanowi tutaj pośredni charakter posiadanych informacji (danych). Posiadane dane nie dają możliwości bezpośredniego określenia przynależności do zbioru, lecz jedynie stanowią podstawę do przypuszczania o tej przynależności, a więc obarczone w pewnym stopniu niepewnością. • W swojej pierwotnej formie jednakże obie owe metody logiczne dotyczą potwierdzenia istnienia zbiorów ostrych – budzi wątpliwości jedynie siła relacji między posiadanymi danymi a zbiorem decyzyjnym. • Najbardziej typowym przykładem jest procedura klasyfikacji nadzorowanej obrazów teledetekcyjnych.Na podstawie powierzchni testowych (tzw. training site)metoda bayesowska klasyfikacji prowadzi do uzyskania relacji statystycznej pomiędzy danymi testowymi a wyznaczonymi klasami (zbiorem decyzyjnym), która ma postać warunkowej funkcji gęstości prawdopodobieństwa.W taki sposób uzyskujemy relację (nie w pełni precyzyjną, a więc niepewną), która umożliwia ocenę przynależności poszczególnych pikseli obrazu teledetekcyjnego do wyróżnionych klas (kategorii).

  33. Niepewność relacji(zasady decyzyjnej) • Ogólne zalecenia dotyczące wyboru metody dla wyrażenia niepewności zasady decyzyjnej są następujące (kontynuacja): • Niezależnie od ich wspólnej genezy agregacja danych przy użyciu narzędzi teorii Bayesa i Dempstera-Shafera może dawać znacząco różne wyniki. • Podstawowa różnica dotyczy znaczenia braku informacji (danych). W teorii B. brak danych popierających konkretną hipotezę stanowi poparcie hipotezy alternatywnej. W teorii D.-S. takiego założenia nie ma. • Z tego powodu mimo, że obie teorie zakładają że hipotezy rozważane w ramach analizy decyzyjnej są kompletne (to znaczy wyczerpują wszystkie istniejące możliwości)to teoria D.-S. uwzględnia możliwość braku wiedzy (ignorancji); a teoria B. tego nie dopuszcza. • Inne różnica wiąże się z w podejściu bayesowskim łączone są informacje które są warunkowane hipotezami zbioru decyzyjnego (czyli oparte o bezpośrednie pomiary testowe), podczas gdy w ramach teorii D.-S. agregowane są informacje (dane) pochodzące z niezależnych źródeł (dane pośrednie).

  34. Niepewność relacji:logika zbiorów rozmytych Iloczyn Rozmyte T-norm Suma Rozmyte T-conorm Zaprzeczenie log. Rozmyte dopełnienie

  35. Niepewność relacji:logika zbiorów rozmytych

  36. Niepewność relacjiteoria prawdopodobieństwa Bayesa • Kiedy zakładamy, że dostępna informacja jest kompletna, lub kiedy rzeczywiście mamy do czynienia z takim faktem wówczas zasadniczym narzędziem służącym do oceny relacji między pośrednimi dowodami a zbiorem decyzyjnym jest teoria prawdopodobieństwa Bayesa. Jest ona rozszerzeniem klasycznej teorii prawdopodobieństwa które pozwala na połączenie nowych danych dotyczących analizowanej hipotezy z wiedzą uprzednią aby uzyskać ocenę prawdopodobieństwa że hipoteza jest prawdziwa. • Podstawą tej teorii jest twierdzenie Bayesa które określa że: p(h|e) = prawdopodobieństwo prawdziwości hipotezy uwzględniające istniejące dowody (prawdopodobieństwo posteriori) p(e|h) = prawdopodobieństwo znalezienia dowodów prawdziwości hipotezy p(h) = prawdopodobieństwo prawdziwości hipotezy niezależne od dowodów (p. uprzednie = a priori)

  37. Niepewność relacjiteoria prawdopodobieństwa Bayesa • Najprostszy przypadek obejmuje jedynie dwie hipotezy do wyboru: hipotezę hi jej dopełnienie~h (nieprawda że h), prawdopodobieństwa których określane są odpowiednio jako p(h) i p(~h).Przykładem może niepewność czy dany obszar zostanie zalany w trakcie corocznej powodzi. • Pierwszy problem który musimy rozważyć dotyczy istnienia jakiejś wiedzy uprzedniej o możliwości że jedna, lub druga hipoteza jest prawdziwa. Nazywana ona jest prawdopodobieństwem a priori.Jeśli takiej wiedzy nie mamy wtedy zakładamy, że obydwie hipotezy są jednakowo prawdopodobne. Na przykład jeśli w ciągu ostatnich stu lat analizowany obszar był zalany 65 razy to możemy przyjąć że prawdopodobieństwo a priori hipotezy h wynosi 0,65.

  38. Niepewność relacjiteoria prawdopodobieństwa Bayesa • Wyrażenie p(e|h) oznacza prawdopodobieństwo, że posiadane dowody (dane) popierają możliwość, że oceniana hipoteza jest prawdziwa. Nazywane jest ono prawdopodobieństwem warunkowym i uzyskiwane jest na podstawie znanych faktów z obszarów pokrewnych wskazujących na prawdziwość hipotezy i zbierania danych do oceny, że dowody którymi dysponujemy są zgodne z hipotezą. Nazywamy je danymi „twardymi” mimo że często uzyskiwane są one na podstawie teoretycznej lub przy pomocy symulacji. Na przykład dysponujemy wynikami pomiarów stanów wody, które mają bardzo silny związek z prawdopodobieństwem wylewu wody. • Wyrażenie p(h|e) jest prawdopodobieństwem posterioritworzonym z połączenia wiedzy uprzedniej (a priori) i danych potwierdzających hipotezę. Dzięki uwzględnieniu dodatkowych informacji dotyczących hipotez prawdopodobieństwo każdej z nich jest modyfikowane aby uwzględnić nowe dane. Opiera się to na założeniu Teorii Bayesa że dostęp do pełnej informacji jest możliwy, a jedynym powodem braku dokładnej oceny prawdopodobieństwa jest niedostatek danych. Poprzez dodawanie kolejnych faktów do wiedzy uprzedniej teoretycznie można osiągnąć prawdziwą ocenę prawdopodobieństwa każdej z analizowanych hipotez.

  39. Niepewność relacjiteoria prawdopodobieństwa Dempstera - Shafera • Teoria Dempstera – Shafera, rozszerzenie teorii prawdopodobieństwa Bayesa, pozwala w ramach oceny niepewności na wyrażenie niewiedzy. Podstawowym założeniem tej teorii jest istnienie w zakresie wiedzy obszarów ignorancji, oraz że przekonanie o prawdziwości danej hipotezy nie musi być koniecznie uzupełnieniem przekonania o jej negacji. • W ramach teorii D-S hipotezy są zdefiniowane w postaci hierarchicznej struktury wywodzącej się z podstawowego zbioru hipotez tworzących zakres „domysłu”. • Jeśli na przykład zakres domysłu składa się z trzech podstawowych hipotez:{A, B, C}, to wówczas struktura hipotez dla których w ramach teorii D-S akceptowane są dowody, zawiera wszystkie możliwe kombinacje: [A], [B], [C], [A, B], [A, C], [B, C], i [A, B, C]. Pierwsze trzy z nich są nazywane hipotezami pojedynczymi (singleton) ponieważ zawierają tylko jeden podstawowy element. Pozostałe to hipotezy zbiorcze (non-singleton) składające się z więcej niż jednego elementu podstawowego.

  40. Niepewność relacjiteoria prawdopodobieństwa Dempstera - Shafera • Przykładem może być decyzja o wydzielaniu klas [las liściasty] i [las iglasty] dla potrzeb kartowania pokrycia terenu. Dane pochodzące z panchromatycznego zdjęcia lotniczego umożliwiają jednak jedynie odróżnienie lasu od terenu bezleśnego, ale nie typu lasu. W tym właśnie przypadku możemy użyć takiego źródła danych do uzasadnienia hierarchicznej kombinacji [las liściasty, las iglasty]. Jasne jest, że wyraża to niepewność naszej wiedzy. Mimo to jest to jednak wartościowa informacja, która może być wykorzystana z dużą korzyścią przez procedurę D-S wraz innymi dowodami świadczącymi za tymi hipotezami. Hierarchiczna struktura hipotez w ramach teorii prawdopodobieństwa Dempstera - Shafera • W ramach teorii D-S rozróżnia się te hierarchiczne zestawienia ponieważ często bywa tak, iż dowody którymi dysponujemy potwierdzają jakąś z kombinacji hipotez bez możliwości ich pojedynczego rozróżnienia.

  41. Niepewność relacjiteoria prawdopodobieństwa Dempstera - Shafera • Do wyrażania stopnia zaangażowania w odniesieniu do jakiejkolwiek z tych hipotez w ramach teorii D-S używane jest sześć podstawowych pojęć: podstawowy przydział prawdopodobieństwa (basicprobability assignment: BPA), niewiedza (ignorance), przekonanie (belief), brak przekonania (disbelief), wiarygodność(plausibility), izakres przekonań (belief interval). • Podstawowy przydział prawdopodobieństwa(BPA) stanowi potwierdzenie, że posiadana porcja informacji „popiera” jedną z tych hipotez lecz nie ich podzbiory. Tak więc BPA dla [A,B] stanowi całość dowodów za [A,B], ale nie [A] lub [B] – to jest potwierdzeniem pewnej nierozróżnialnej kombinacji [A] i [B]. Jest to zazwyczaj zapisywane literą „m” (od masy) to jest: m(A,B) = podstawowy przydział prawdopodobieństwa dla [A, B]. • Podstawowy przydział prawdopodobieństwa dla danej hipotezy może pochodzić z subiektywnych opinii lub danych empirycznych.

  42. Niepewność relacjiteoria prawdopodobieństwa Dempstera - Shafera • Suma wszystkich BPA równa się zawsze 1. Tym samym BPA dla najwyższego super-zbioru (w podanym przykładzie [A, B, C]) będzie się równać dopełnieniu sumy wszystkich pozostałych BPA. Ten element zatem reprezentuje niewiedzę – niezdolność do dopuszczenia jakiegokolwiek zróżnicowania między elementami zakresu domysłu. • Przekonanie (belief)stanowi sumę dowodów za daną hipotezą, i uzyskiwane może być z BPA wszystkich podzbiorów hipotezy, to jest: • Stąd wynika, że przekonanie o [A, B] może być obliczane jako suma BPA dla [A, B], [A], i [B]. W tym przykładzie przekonanie reprezentuje prawdopodobieństwo że obiekt jest A lub B. W przypadku hipotezy pojedynczej (singleton) podstawowy przydział prawdopodobieństwa (BPA) i przekonanie (belief) są takie same.

  43. Niepewność relacjiteoria prawdopodobieństwa Dempstera - Shafera • W przeciwieństwie do przekonania, wiarygodność reprezentuje stopień do jakiego hipoteza nie może być kwestionowana. W odróżnieniu od teorii prawdopodobieństwa Bayesa brak przekonania nie jest automatycznie dopełnieniem przekonania, lecz reprezentuje raczej poziom poparcia dla wszystkich hipotez które nie mają żadnego związku z hipotezą główną. Z tego wynika: • Można zatem stwierdzić że przekonanie obejmuje „twarde” dowody potwierdzające hipotezę, wiarygodność zaś stopień w jakim ogólne warunki (informacje) wydają się potwierdzać hipotezę, nawet jeśli brak jest „twardych” dowodów. W odniesieniu do każdej hipotezy przekonanie stanowi dolną granicę jej „poparcia” podczas gdy wiarygodność – górną. Różnica między nimi nazywana jest zakresem przekonań (belief interval). Stanowi on rozmiar niepewności co spełnienia się hipotezy.

  44. Niepewność relacjiteoria prawdopodobieństwa Dempstera - Shafera • Nowe dowody (dane) największy przyrost informacji dają w obrębie obszarów o najszerszym zakresie przekonań.Teoria D-S jest zatem bardzo użyteczna przy ustalaniu wartości informacji i do planowania takiej strategii pozyskiwania danych która najbardziej efektywnie będzie zmniejszać zakres niepewności. • Przewaga teorii D-S w porównaniu do teorii Bayesa dotyczy lepszego radzenia sobie z problemem niepewności wynikającej z niewiedzy. W teorii prawdopodobieństwa Bayesa wyróżnia się jedynie hipotezy pojedyncze (singleton) i zakłada się, że razem wyczerpują one wszystkie możliwości (ich sumaryczne prawdopodobieństwo równa się 1). Niewiedza nie jest tu uwzględniana, a brak dowodów (danych) za hipotezą stanowi dowód przeciw niej (na rzecz hipotezy alternatywnej). Te wymagania i założenia często nie są spełniane w realnym świecie. • Przykładem może być ustalanie zasięgu siedliska określonego gatunku ptaka, na podstawie danych z raportów jego pojawiania się. Brak jednakże zapisu o jego zaobserwowaniu w danej lokalizacji nie musi koniecznie oznaczać, że on tam nie występuje. Może na przykład jedynie sugerować że obserwator nie był obecny w momencie kiedy ptak się tam pojawił, lub nie potrafił go zidentyfikować (dokonał błędnej identyfikacji).

  45. Niepewność relacjiteoria prawdopodobieństwa Dempstera - Shafera • Pełna hierarchia hipotez i związanych z nimi BPA stanowi aktualny stan wiedzy, który może być rozszerzony w każdym momencie przez dodanie nowych informacji. W trakcie agregacji określeń prawdopodobieństwa pochodzących z różnych źródeł informacji w ramach teorii D-S stosowane są następujące reguły: jeśli: to wówczas równanie przybiera postać:

  46. Niepewność relacjiteoria prawdopodobieństwa Dempstera - Shafera • Końcowe przekonanie, wiarygodność i zakres przekonania dla każdej hipotezy może zostać obliczona w oparciu o podstawowy przydział prawdopodobieństwa wyliczony w oparciu o powyższe równania. Można wówczas również ocenić niewiedzę w odniesieniu do całego zbioru. W większości przypadków po dodaniu nowych danych, zakres niewiedzy ulega redukcji. • Podsumowanie teorii prawdopodobieństwa Dempstera – Shafera: • wywodzi się z teorii Bayesa • nie zakłada kompletności wiedzy na dany temat • rozróżnia: • przekonanie (belief) = dowody potwierdzające hipotezę, • wiarygodność (plausibility) = brak dowodów przeciw hipotezie • zakres przekonań(belief interval) = niepewność pojedynczej hipotezy

  47. Prognozowanie podatności ludności Sudanu na zakażenie robaczycą gwinejską (Guinea worm) Robaczyca gwinejska to choroba wywoływana przez pasożyta żyjącego w wodzie. Rozprzestrzenia się w efekcie picia zanieczyszczonej wody.Zakażenie można łatwo uniknąć pijąc wodę ze studni lub filtrując tą która pochodzi ze źródeł powierzchniowych. Carter Center Źródło: Elliott, S., and Lazar, A.,: Predicting the Vulnerability of Populations in Sudan to the Guinea Worm Parasite using Dempster-Shafer Weight-of-Evidence Theory. IDCE and Geography DepartmentsGIS for Development and Environment, Clark University, 950 Main Street, Worcester, MA 01610 Carter Center

  48. Wojny domowe w Sudanie Od dziesięcioleci trwa konflikt północ – południe, pomiędzy muzułmańskim rządem w Chartumie, a chrześcijańskimi lub animistycznymi ludami południa Sudanu. Kilka lat temu rozpoczęła się nowa wojna domowa obejmująca zachodnie prowincje państwa - Darfur.

  49. Dziesięć krajów afrykańskich o największym stopniu zakażenia robaczycą gwinejską

  50. Cykl życiowy pasożyta

More Related