1 / 560

Dokumentografické Informační Systémy

Dokumentografické Informační Systémy. Slidy k přednášce NDBI010 KSI MFF UK http://www.ms.mff.cuni.cz/~kopecky/vyuka/dis/ Verze 12.04.30.12.15. Literatura (skripta). Dokumentografické informační systémy Pokorný J., Snášel V., Kopecký M.: Nakladatelství Karolinum, UK Praha, 2005

kalli
Download Presentation

Dokumentografické Informační Systémy

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DokumentografickéInformační Systémy Slidy k přednášce NDBI010 KSI MFF UK http://www.ms.mff.cuni.cz/~kopecky/vyuka/dis/ Verze 12.04.30.12.15

  2. Literatura (skripta) Dokumentografické informační systémy Pokorný J., Snášel V., Kopecký M.: Nakladatelství Karolinum, UK Praha, 2005 Pokorný J., Snášel V., Húsek D.: Nakladatelství Karolinum, UK Praha, 1998 Textové informační systémy Melichar B.: Vydavatelství ČVUT, Praha, 1997 Introduction to Information Retrieval Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze Cambridge University Press, 2008 http://informationretrieval.org/ DBI010 - DIS - MFF UK

  3. Další odkazy Computer Algorithms - String Pattern Matching Strategies, Jun Ichi Aoe, IEEE Computer Society Press 1994 Concept Decomposition for Large Sparse Text Data using Clustering Inderjit S. Dhillon, Dharmendra S. Modha IBM Almaden Research Center, 1999 DBI010 - DIS - MFF UK

  4. Další odkazy (články) The IGrid Index: Reversing the Dimensionality Curse For Similarity Indexing in High Dimensional Space for Large Sparse Text Data using Clustering Charu C. Aggrawal, Philip S. Yu IBM T. J. Watson Research Center The Pyramid Technique: Towards Breaking the Curse of Dimensionality S. Berchtold, C. Böhm, H.-P. Kriegel: ACM SIGMOD Conference Proceedings, 1998 DBI010 - DIS - MFF UK

  5. Další odkazy (články) Affinity Rank: A New Scheme for Efficient Web Search Yi Liu, Benyu Zhang, Zheng Chen, Michael R. Lyu, Wei-Ying Ma 2004 Improving Web Search Results Using Affinity Graph Benyu Zhang, Hua Li, Yi Liu, Lei Ji, Wensi Xi, Weiguo Fan, Zheng Chen1, Wei-Ying Ma Efficient computation of pagerank T.H. Haveliwala Technical report,Stanford University, 1999 DBI010 - DIS - MFF UK

  6. Další odkazy (starší) Introduction to Modern Information Retrieval Salton G., McGill M. J.: McGRAW-Hill 1981 Výběr informací v textových bázích dat Pokorný J.: OVC ČVUT Praha 1989 DBI010 - DIS - MFF UK

  7. Úvod do DIS Přehled problematikyměření informativnosti Přednáška č. 1

  8. Vznik DIS 50. léta 20. stol. Postupná automatizace postupů používaných v knihovnictví Nyní samostatná podčást IS Faktografický IS Zpracování informací s definovanou vnitřní strukturou (nejčastěji v podobě tabulek) Dokumentografický IS Zpracování informací v podobě textu v přirozeném jazyce bez pevné vnitřní struktury DBI010 - DIS - MFF UK

  9. Práce s DIS Zadání dotazu Porovnání Získání seznamu odpovídajících dokumentů Ladění dotazu Vyžádání dokumentu Obdržení textu DIS 1 2 3 4 5 6 DBI010 - DIS - MFF UK

  10. Struktura DIS Systém zpřístupnění dokumentů Vrací sekundární informace Autor Název ... Systém dodání dokumentů Někdy není řešen pomocí SW I) 1 2 3 4 II) 5 6 DBI010 - DIS - MFF UK

  11. Vyhodnocení dotazu Přímé porovnání náročné na čas Dotaz Porovnání Dok1 Doki1 DBI010 - DIS - MFF UK

  12. Vyhodnocení dotazu Nutné vytvoření modelu dokumentu Ztrátový proces,obvykle založený naidentifikaci slov v dokumentech Výsledkem strukturovaná datavhodná pro porovnávání Indexace Dok1 X1 DBI010 - DIS - MFF UK

  13. Vyhodnocení dotazu Dotaz se upraví do odpovídající podoby Následně seporovnás modelemdokumentů Dotaz Porovnání Doki1 X1 DBI010 - DIS - MFF UK

  14. Předzpracování textu Vyhledávání probíhá nad vytvořeným modelem efektivněji, ale může použít jen informace obsažené v modelu. Cílem je vytvořit model, který by zachoval co nejvíce informací, obsažených v původním modelu. Problémem je řada nejednoznačností. Dosud neřešitelné nároky na encyklopedické i asociativní znalosti. DBI010 - DIS - MFF UK

  15. Porozumění textu Posloupnost slov v přirozeném jazyce. Každé slovo zastupuje pro autora nějakou představu, kterou v něm slovo vyvolá - význam. Tyto představy reprezentují reálné předměty. ... DBI010 - DIS - MFF UK

  16. Porozumění textu Synonymie slov Více slov může mít pro autora stejný význam krychle = kostka buldozer = nakladač ... DBI010 - DIS - MFF UK

  17. Porozumění textu Homonymie slov Jedno slovo může mít pro autora několik významů taška: střešní, nákupní koruna: platidlo, královská k., k. stromu třída: školní, kategorie v teorii množin los: zvíře, poukázka ke slosování ... DBI010 - DIS - MFF UK

  18. Porozumění textu Homonymie slov Jedno slovo může používat stejný tvar pro různé pády a další gramatické jevy (gramatická homonymie) kontroly: 1. p. m.č., 2. p. j.č.není zřejmé, zda se jedná o jednu, nebo více kontrol Jeden tvar slova může mít různý význam plesy: podst. jm. ples, podst. jm. pleso žena: podst. jm. žena, sloveso hnát hnát: sloveso hnát, podst. jm. hnát tři: číslovka tři, sloveso třít pět: číslovka pět, sloveso pět DBI010 - DIS - MFF UK

  19. Porozumění textu Významy slov se mohou překrývat. Hierarchicky zvíře > kůň > hřebec Asociace kalkulátor ~ počítač ~ procesor ... DBI010 - DIS - MFF UK

  20. Porozumění textu Jednotlivá přiřazení jsou navíc závislá na subjektu, který dokument píšenebo čte. Dva lidé mohou jednomu slovu přikládat zcela nebo jen částečně jiný význam. Dva lidé si i pod stejným významem mohou představit jiný konkrétní předmět nebo množinu předmětů. máma, pokoj, ... Výsledkem je situace, kdy dva různí čtenáři nemusí přečtením získatani stejnou informaci jako autor, ani stejnou informaci navzájem. DBI010 - DIS - MFF UK

  21. Porozumění textu Homonymie a nejednoznačnosti narůstají při přechodu od slov k větám. Homonymie vlastních jmen na začátku věty Dohnal zvítězil. (Čtrnáctý zvítězil.) Plk. Dohnal předešel gen. Kvapila velmi výrazně. jedna, dvě, nebo tři věty? Homonymie spojky a v předmětu věty Funkce rezistoru a zesilovače v radiotechnice.(funkce rezistoru v radiotechnice) a (funkce zesilovače v radiotechnice)(funkce rezistoru) a (funkce zesilovače v radiotechnice)(funkce rezistoru) a (zesilovače v radiotechnice) Homonymie podmětu a předmětu Popílek přikryl sníh. – co leží navrchu? DBI010 - DIS - MFF UK

  22. Porozumění textu Příklad české věty s více gramaticky možnými významy viz např. Podivné fungování gramatiky,http://www.scienceworld.cz/sw.nsf/lingvistika věta „Ženu holí stroj“ může - podle volby přísudku ve větě - znamenat: Poháním stroj pomocí hole (hnát) Žena používá depilační přístroj (holit) Návod k nekonvenčnímu způsobu oblékání (strojit) … a další DBI010 - DIS - MFF UK

  23. Porozumění textu Příklad anglické věty s více gramaticky možnými významy viz např. Podivné fungování gramatiky,http://www.scienceworld.cz/sw.nsf/lingvistika věta „Time flies like an arrow“ může - podle volby přísudku ve větě - znamenat: Čas letí jako voda (fly) Časové mouchy/zipy mají rády šíp (like) … a další DBI010 - DIS - MFF UK

  24. Předzpracování textu Částečným řešením problému porozumění textu je zahrnutí lingvistické analýzy Disambiguace Určení správného významu slova ve větě Na základě gramatiky (slovesa vs. podst. jm.) Na základě kontextu (komplikovanější). Tančila na Hasičském plese. Tančila na Štrbském plese. DBI010 - DIS - MFF UK

  25. Předzpracování textu Částečným řešením problému porozumění textu je zahrnutí lingvistické analýzy Lemmatizace Přiřazení správného lemmatu jednotlivým slovům Základní tvar slova (1. p. j.č., infinitiv, ...) Slovní druh, osoba, číslo, čas, vid, ... Informace z větného rozboru, (podmět, předmět, ...) DBI010 - DIS - MFF UK

  26. Lemmatizace a disambiguacečeského jazyka (ÚFAL) Odpovědnýmzástupcemnemůžebýtkaždý. Zákon by měl zajistit individualizaci odpovědnosti a zajištění odbornosti. … <p n=1><s id="docID:001-p1s1"><f cap>Odpovědným<MDl>odpovědný_^(kdo_za_něco_odpovídá)<MDt>AAIS7----1A----<f>zástupcem<MDl>zástupce<MDt>NNMS7-----A----<f>nemůže<MDl>moci_^(mít_možnost_[něco_dělat])<MDt>VB-S---3P-NA---<f>být<MDl>být<MDt>Vf--------A----<f>každý<MDl>každý<MDt>AAIS1----1A---- <p n=2>… Číslo odstavce Číslo věty Slovo v dokumentu Lemma včetně významu Slovní druh (Adverb), … DBI010 - DIS - MFF UK

  27. Předzpracování textu Dalšími možnosti, které lingvistika v různé míře nabízí jsou Označování víceslovných spojení - kolokací Druhá světová válka, ... Zatím velmi problematické nahrazování zájmen odpovídajícími podstatnými jmény DBI010 - DIS - MFF UK

  28. Přesnost a úplnost Výsledkem nejednoznačností žádný existující DIS nedává ideální výsledky Po zobrazení odpovědi na dotaz lze určit následující Počet vrácených dokumentů Nv O nich si DB myslí, že jsou relevantní, odpovídají dotazu Počet vrácených relevantních dok. Nvr O nich si tazatel myslí, že uspokojují jeho požadavky Počet všech relevantních dok. v DB Nr Problematické u velkých DB DBI010 - DIS - MFF UK

  29. Přesnost a úplnost Dva DIS mohou vrátit na shodný dotaz různé odpovědi, které se nemusí překrývat ani v jediném vráceném dokumentu Jak porovnat kvalitu odpovědí navzájem? Dokumenty v databázi VrácenévDIS2 Relevantnídokumenty VrácenévDIS1 DBI010 - DIS - MFF UK

  30. Přesnost a úplnost Dva tazatelé mohou mít při položení shodného dotazu různý názor na relevanci vrácených dokumentů Jak vyhovět subjektivnímu názoru tazatelů? Dokumenty v databázi  Relevantní Vrácenédok. Relevantní  DBI010 - DIS - MFF UK

  31. Přesnost a úplnost Kvalita výsledné množiny dokumentů se měří na základě těchto čísel Přesnost (Precision) P = Nvr/Nv Pravděpodobnost, že dokument zařazený v odpovědi je skutečně relevantní Úplnost (Recall) R = Nvr/Nr Pravděpodobnost, že skutečně relevantní dokument je zařazený v odpovědi DBI010 - DIS - MFF UK

  32. Přesnost a úplnost Koeficienty jsou opět závislé na subjektivním názoru tazatele Dokument vrácený na výstupu může uspokojovat požadavky dvou uživatel, kteří položili stejný dotaz, různou měrou. DBI010 - DIS - MFF UK

  33. Přesnost a úplnost V ideálním případě P=R=1 V odpovědi jsou zařazeny právě a pouze všechny relevantní dokumenty V běžném případě Odpověď na první verzi dotazu není ani přesná, ani úplná 1 Optimum Počáteční odpověď 0 0 1 DBI010 - DIS - MFF UK

  34. Přesnost a úplnost Ladění dotazu Postupná modifikace dotazu s cílem zvýšit kvalitu odpovědi Teoreticky je sice možné dosáhnout optima, ale … R 1 Optimum 0 P 0 1 DBI010 - DIS - MFF UK

  35. Přesnost a úplnost … vlivem víceznačností jsou v praxi oba koeficienty na sobě nepřímo závislé,tj. P*Rkonst. < 1 Při snaze zvýšit Pse na výstup dostane méně relev. dokumentů. Při snaze zvýšit Rse na výstup dostane s více relev. dok. i mnohem více těch nerelevantních. R 1 Optimum 0 P 0 1 DBI010 - DIS - MFF UK

  36. Kritérium predikce Při formulaci dotazů je potřebné uhádnout, které termy (slova) byly v dokumentu autorem použity pro vyjádření dané myšlenky Problémy m.j. způsobují Synonyma (autor mohl použít synonymum, které si tazatel při formulaci dotazů ani nemusí neuvědomí) Překrývající se významy slov Opisy jedné situace jinými slovy DBI010 - DIS - MFF UK

  37. Kritérium predikce Částečným řešením je zařazení tezauru, který obsahuje Hierarchie slov a jejich významů Synonyma slov Asociace mezi slovy Tazatel může tezaurus využít při formulaci svých dotazů DBI010 - DIS - MFF UK

  38. Kritérium predikce Při ladění dotazů má uživatel tendenci postupovat konzervativně V dotazu zůstávají často ty jeho části, které uživatele napadly na začátku a mění se jen podružné části, které nekvalitní výsledek nemusí nijak zásadně ovlivnit Vhodné je uživateli pomoci s odstraněním nevhodných částí dotazu, které nepopisují relevantní dokumenty a naopak s přidáváním formulací, které relevantní dokumenty popisují DBI010 - DIS - MFF UK

  39. Kritérium maxima Tazatel obvykle není schopen (nebo ochoten) procházet příliš mnoho dokumentů do té míry, aby se rozhodl, zda jsou pro něj relevantní nebo ne Obvykle 20-50 podle velikosti Potřeba nejen dokumenty rozlišovat na odpovídající/neodpovídající dotazu, ale řadit je na výstupu podle míry předpokládané relevance DBI010 - DIS - MFF UK

  40. Kritérium maxima V důsledku kritéria maxima se při ladění dotazu uživatel obvykle snaží zvýšit přesnost Malé množství dokumentův odpovědi, obsahující co největší poměr relevantních dokumentů Některé oblasti použití vyžadují co nejvyšší přesnost i úplnost Právnictví „lepší“ „horší“ Vr. Rel. Rel. Vr. DBI010 - DIS - MFF UK

  41. Přesné vyhledávání vzorků

  42. Proč vyhledávat vzorky textu Při tvorbě indexu dokumentů či dotazu Pro zahrnutí pouze určité, předem dané množiny slov (lemmat) z dokumentu při tzv. řízené indexaci Pro vynechání předem dané množiny slov (lemmat) jako jsou spojky, částice, zájmena a podobně Při zobrazování sekundárních a primárních dokumentů v odpovědi Nalezení a zvýraznění slov (lemmat) použitých v dotazu … DBI010 - DIS - MFF UK

  43. Algoritmy dle předzpracování I - Triviální algoritmus (Naivní algoritmus) (Algoritmus hrubé síly) II - Ostatní (vhodné pro DIS) Dále členěné dle Počtu vyhledávaných vzorků 1, N,  Směru hledání Sousměrné Protisměrné DBI010 - DIS - MFF UK

  44. Algoritmy II Sousměrné porovnávají vzorek zleva doprava, tj. souhlasně se směrem procházení celého dokumentu. Protisměrné obráceně DBI010 - DIS - MFF UK

  45. Přesné vyhledávání vzorků Hledání jednoho vzorku v textu

  46. Délka textu t ozn. m, délka vzorku v ozn. n Při neshodě i-té pozice textu s j-tou pozicí vzorku Posun vzorku o jednu pozici doprava, prohledávání od začátku vzorku Časová složitost je v průměrném případě o(m*n), např. pro hledání „an-1b“ v „am-1b“ Pro přirozený jazyk průměrně m*konst operací, tedy o(m)konst je malé číslo (jednotky), závislé na jazyku Triviální algoritmus Text a b c c b a b c a b b c a a b c c b a b c b b b a b c c Před pos. a b c c b a b c b b b Po posunu a b c c b a b c b b b DBI010 - DIS - MFF UK

  47. Knuth-Morris-Prattův algoritmus Sousměrné vyhledání jednoho vzorku Oproti naivnímu přístupu eliminuje porovnávání již jednou zkontrolované části textu Vzorek je posunut co nejméně tak, aby část, která zůstane pod již zkontrolovanou částí,s ní byla shodná Přednáška č. 2 DBI010 - DIS - MFF UK

  48. KMP algoritmus Triviální algoritmus Text a b c c b a b c a b b c a a b c c b a b c b b b a b c c Před pos. a b c c b a b c b b b Po posunu a b c c b a b c b b b KMP Text a b c c b a b c a b b c a a b c c b a b c b b b a b c c Před pos. a b c c b a b c b b b Po posunu a b c c b a b c b b b DBI010 - DIS - MFF UK

  49. KMP algoritmus Před pozicí neshody zůstane vlastní prefix již prohledané části vzorku Musí být shodný s postfixem této části Nejdelší takový určuje nejmenší posun Text a b c c b a b c a b b c a a b c c b a b c b b b a b c c Před pos. a b c c b a b c b b b Po posunu a b c c b a b c b b b DBI010 - DIS - MFF UK

  50. KMP algoritmus DBI010 - DIS - MFF UK

More Related