1 / 26

A 5M 33 IZS – Informační a znalostní systémy

A 5M 33 IZS – Informační a znalostní systémy. Datová analýza I. }. O(H/E 1 ) * O(H/E 2 ). E 1 -> H O(H/E 1 ). O(H/E 1 ,E 2 ) =. E 2 -> H O(H/E 2 ). O(H). P ředpoklad:. / H. E 1. E 2. Náhodné veličiny E 1 a E 2 jsou podmíněně nezávislé při dané hodnotě H.

habib
Download Presentation

A 5M 33 IZS – Informační a znalostní systémy

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. A5M33IZS – Informační a znalostní systémy Datová analýza I

  2. } O(H/E1)* O(H/E2) E1 -> H O(H/E1) O(H/E1,E2) = E2 -> H O(H/E2) O(H) Předpoklad: / H E1 E2 Náhodné veličiny E1 a E2 jsou podmíněně nezávislé při dané hodnotě H. Skládání příspěvků pravidel u ES typu Prospector

  3. Statistická data: Frekvenční (kontigenční) tabulka: Sdružené pravděpodobnostní rozložení:

  4. Struktura závislosti na množině náhodných veličin • A, B, C vzájemně nezávislé • A, B, C po dvojicích nezávislé • A B / C • B C / A • A, B závislé, C na nich nezávislá • a další { A, B, C } :

  5. Snížení dimenze pravděpodobnostního rozložení (rozložení frekvencí). Danou množinu náhodných veličin potřebujeme rozdělit na podmnožiny vzájemně (silně) závislých náhodných veličin .... … tak, aby z nich bylo možné zrekonstruovat původní rozložení (s minimální ztrátou informace).

  6. nalézt co nejmenší množinu co nejjednodušších marginálních rozložení (množinu minimálních postačujících statistik) Bishop, Fienberg, Holland: “Discrete Multivariate Analysis: Theory and Practice”, The MIT Press Cambridge, 1975 • k dané množině marginálních rozložení nalézt příslušné sdružené rozložení (množinu minimálních postačujících statistik) Problém v teorii pravděpodobnosti známý jako „Marginální problém” Jiroušek R.: “Metody integrace znalostí v pravděpodobnostních expertních systémech”, sborník Aplikace umělé inteligence AI’89, Praha, 1989 Dva problémy:

  7. K danému sdruženému rozložení frekvencí/pravděpodobností se libovolné marginální rozložení frekvencí/pravděpodobností určí jednoznačně, naopak tomu tak není. Existuje nekonečně mnoho sdružených pravděpodobnostních rozložení, které vyhovují danému systému marginálních rozložení. Marginální problém I • {A, B, C} je množina (binárních) náhodných veličin • {p(A), p(B), p(C)} je množina marginálních rozložení frekvencí

  8. Marginální problém II • Které z těch nekonečně mnoha sdružených pravděpodobnostních rozložení je to “správné” ? KRITÉRIUM • Jak ho nalézt? Nemůžeme testovat toto KRITERIUM na všech kandidátech - je jich nekonečně mnoho. METODA Kritérií i metod existuje několik. Často se jako kritérium používá Princip maxima entropie (princip scházejícího důvodu). Vezmeme to sdružené pravděpodobnostní rozložení, které má maximum entropie při využití veškeré dostupné informace.

  9. Množina všech náhodných veličin, které se účastní našeho problému. Daný systém jejích podmnožin Daná množina marginálních pravděpododbnostních rozložení. Množina všech sdružených pravděpodobnostních rozložení nad množinou S takových, že pro podmnožiny S1 až Sk je množina všech odpovídajících marginálních rozložení rovna množině Vektor nějakých hodnot náhodných veličin X1 až XN. Množina všech takových vektorů. Informační (shannonovská) entropie: Princip maxima entropie: Princip maxima entropie

  10. Princip maxima entropie II Silviu Guiasu, Abe Shenitzer: The Principle of Maximum Entropy, The Mathematical Intelligencer, Vol. 7, No. 1, pp. 42-48 Silviu Guiasu, Abe Shenitzer: Princip maxima entropie, Pokroky matematiky, fyziky a astronomie, ročník 31 (1986), č. 4

  11. kritérium omezení Metoda Lagrangeových multiplikátorů (Cheeseman 1983) Řešení marginálního problému jako hledání vázaného extrému

  12. Metoda Lagrangeových multiplikátorů II (Cheeseman 1983)

  13. Množiny všech náhodných veličin, které se účastní našeho problému. Daný systém jejích podmnožin Daná množina marginálních pravděpododbnostních rozložení. (východisko: rovnoměrná distribuce na S) pro Pro objasnění - nechť Iterační metoda (IPFP - Iterative Proportional Fitting Procedure) (Deming & Stephan, 1940)

  14. IPFP II Deming & Stephan 1940 Teprve 1975 (Cziszár) důkaz konvergence: Je-li systém marginálních distribucí konsistentní, t.j. je neprázdná, IPFP konverguje a pro limitní distribuci platí

  15. pro IPFP - příklad

  16. Základy datové analýzy I B=b1 B=b2 B=b3 C=c2 C=c1 A=a1 A=a2 Logaritmicko-lineární model:

  17. b1 b2 b3 c2 c1 a2 a1 a3 Efekt nultého řádu:

  18. b1 b2 b3 c2 c1 a2 a1 a3 Hlavní efekty (efekty prvního řádu):

  19. b1 b2 b3 c2 c1 a2 a1 a3 Interakce prvního řádu (efekty druhého řádu):

  20. Interakce prvního řádu (efekty druhého řádu):

  21. b1 b2 b3 c2 c1 a2 a1 a3 3 Efekt třetího řádu: 3

  22. b1 b2 b3 c2 c1 a2 a1 a3

  23. Určíme marginální rozložení: A, B, C jsou vzájemně nezávislé náhodné veličiny právě, když platí:

  24. a tedy rovněž tímto vztahem vydělíme pravou stranu rovnice a dostaneme neboli

More Related