5.6k likes | 5.77k Views
Dokumentografické Informační Systémy. Slidy k přednášce NDBI010 KSI MFF UK http://www.ms.mff.cuni.cz/~kopecky/vyuka/dis/ Verze 12.04.30.12.15. Literatura (skripta). Dokumentografické informační systémy Pokorný J., Snášel V., Kopecký M.: Nakladatelství Karolinum, UK Praha, 2005
E N D
DokumentografickéInformační Systémy Slidy k přednášce NDBI010 KSI MFF UK http://www.ms.mff.cuni.cz/~kopecky/vyuka/dis/ Verze 12.04.30.12.15
Literatura (skripta) Dokumentografické informační systémy Pokorný J., Snášel V., Kopecký M.: Nakladatelství Karolinum, UK Praha, 2005 Pokorný J., Snášel V., Húsek D.: Nakladatelství Karolinum, UK Praha, 1998 Textové informační systémy Melichar B.: Vydavatelství ČVUT, Praha, 1997 Introduction to Information Retrieval Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze Cambridge University Press, 2008 http://informationretrieval.org/ DBI010 - DIS - MFF UK
Další odkazy Computer Algorithms - String Pattern Matching Strategies, Jun Ichi Aoe, IEEE Computer Society Press 1994 Concept Decomposition for Large Sparse Text Data using Clustering Inderjit S. Dhillon, Dharmendra S. Modha IBM Almaden Research Center, 1999 DBI010 - DIS - MFF UK
Další odkazy (články) The IGrid Index: Reversing the Dimensionality Curse For Similarity Indexing in High Dimensional Space for Large Sparse Text Data using Clustering Charu C. Aggrawal, Philip S. Yu IBM T. J. Watson Research Center The Pyramid Technique: Towards Breaking the Curse of Dimensionality S. Berchtold, C. Böhm, H.-P. Kriegel: ACM SIGMOD Conference Proceedings, 1998 DBI010 - DIS - MFF UK
Další odkazy (články) Affinity Rank: A New Scheme for Efficient Web Search Yi Liu, Benyu Zhang, Zheng Chen, Michael R. Lyu, Wei-Ying Ma 2004 Improving Web Search Results Using Affinity Graph Benyu Zhang, Hua Li, Yi Liu, Lei Ji, Wensi Xi, Weiguo Fan, Zheng Chen1, Wei-Ying Ma Efficient computation of pagerank T.H. Haveliwala Technical report,Stanford University, 1999 DBI010 - DIS - MFF UK
Další odkazy (starší) Introduction to Modern Information Retrieval Salton G., McGill M. J.: McGRAW-Hill 1981 Výběr informací v textových bázích dat Pokorný J.: OVC ČVUT Praha 1989 DBI010 - DIS - MFF UK
Úvod do DIS Přehled problematikyměření informativnosti Přednáška č. 1
Vznik DIS 50. léta 20. stol. Postupná automatizace postupů používaných v knihovnictví Nyní samostatná podčást IS Faktografický IS Zpracování informací s definovanou vnitřní strukturou (nejčastěji v podobě tabulek) Dokumentografický IS Zpracování informací v podobě textu v přirozeném jazyce bez pevné vnitřní struktury DBI010 - DIS - MFF UK
Práce s DIS Zadání dotazu Porovnání Získání seznamu odpovídajících dokumentů Ladění dotazu Vyžádání dokumentu Obdržení textu DIS 1 2 3 4 5 6 DBI010 - DIS - MFF UK
Struktura DIS Systém zpřístupnění dokumentů Vrací sekundární informace Autor Název ... Systém dodání dokumentů Někdy není řešen pomocí SW I) 1 2 3 4 II) 5 6 DBI010 - DIS - MFF UK
Vyhodnocení dotazu Přímé porovnání náročné na čas Dotaz Porovnání Dok1 Doki1 DBI010 - DIS - MFF UK
Vyhodnocení dotazu Nutné vytvoření modelu dokumentu Ztrátový proces,obvykle založený naidentifikaci slov v dokumentech Výsledkem strukturovaná datavhodná pro porovnávání Indexace Dok1 X1 DBI010 - DIS - MFF UK
Vyhodnocení dotazu Dotaz se upraví do odpovídající podoby Následně seporovnás modelemdokumentů Dotaz Porovnání Doki1 X1 DBI010 - DIS - MFF UK
Předzpracování textu Vyhledávání probíhá nad vytvořeným modelem efektivněji, ale může použít jen informace obsažené v modelu. Cílem je vytvořit model, který by zachoval co nejvíce informací, obsažených v původním modelu. Problémem je řada nejednoznačností. Dosud neřešitelné nároky na encyklopedické i asociativní znalosti. DBI010 - DIS - MFF UK
Porozumění textu Posloupnost slov v přirozeném jazyce. Každé slovo zastupuje pro autora nějakou představu, kterou v něm slovo vyvolá - význam. Tyto představy reprezentují reálné předměty. ... DBI010 - DIS - MFF UK
Porozumění textu Synonymie slov Více slov může mít pro autora stejný význam krychle = kostka buldozer = nakladač ... DBI010 - DIS - MFF UK
Porozumění textu Homonymie slov Jedno slovo může mít pro autora několik významů taška: střešní, nákupní koruna: platidlo, královská k., k. stromu třída: školní, kategorie v teorii množin los: zvíře, poukázka ke slosování ... DBI010 - DIS - MFF UK
Porozumění textu Homonymie slov Jedno slovo může používat stejný tvar pro různé pády a další gramatické jevy (gramatická homonymie) kontroly: 1. p. m.č., 2. p. j.č.není zřejmé, zda se jedná o jednu, nebo více kontrol Jeden tvar slova může mít různý význam plesy: podst. jm. ples, podst. jm. pleso žena: podst. jm. žena, sloveso hnát hnát: sloveso hnát, podst. jm. hnát tři: číslovka tři, sloveso třít pět: číslovka pět, sloveso pět DBI010 - DIS - MFF UK
Porozumění textu Významy slov se mohou překrývat. Hierarchicky zvíře > kůň > hřebec Asociace kalkulátor ~ počítač ~ procesor ... DBI010 - DIS - MFF UK
Porozumění textu Jednotlivá přiřazení jsou navíc závislá na subjektu, který dokument píšenebo čte. Dva lidé mohou jednomu slovu přikládat zcela nebo jen částečně jiný význam. Dva lidé si i pod stejným významem mohou představit jiný konkrétní předmět nebo množinu předmětů. máma, pokoj, ... Výsledkem je situace, kdy dva různí čtenáři nemusí přečtením získatani stejnou informaci jako autor, ani stejnou informaci navzájem. DBI010 - DIS - MFF UK
Porozumění textu Homonymie a nejednoznačnosti narůstají při přechodu od slov k větám. Homonymie vlastních jmen na začátku věty Dohnal zvítězil. (Čtrnáctý zvítězil.) Plk. Dohnal předešel gen. Kvapila velmi výrazně. jedna, dvě, nebo tři věty? Homonymie spojky a v předmětu věty Funkce rezistoru a zesilovače v radiotechnice.(funkce rezistoru v radiotechnice) a (funkce zesilovače v radiotechnice)(funkce rezistoru) a (funkce zesilovače v radiotechnice)(funkce rezistoru) a (zesilovače v radiotechnice) Homonymie podmětu a předmětu Popílek přikryl sníh. – co leží navrchu? DBI010 - DIS - MFF UK
Porozumění textu Příklad české věty s více gramaticky možnými významy viz např. Podivné fungování gramatiky,http://www.scienceworld.cz/sw.nsf/lingvistika věta „Ženu holí stroj“ může - podle volby přísudku ve větě - znamenat: Poháním stroj pomocí hole (hnát) Žena používá depilační přístroj (holit) Návod k nekonvenčnímu způsobu oblékání (strojit) … a další DBI010 - DIS - MFF UK
Porozumění textu Příklad anglické věty s více gramaticky možnými významy viz např. Podivné fungování gramatiky,http://www.scienceworld.cz/sw.nsf/lingvistika věta „Time flies like an arrow“ může - podle volby přísudku ve větě - znamenat: Čas letí jako voda (fly) Časové mouchy/zipy mají rády šíp (like) … a další DBI010 - DIS - MFF UK
Předzpracování textu Částečným řešením problému porozumění textu je zahrnutí lingvistické analýzy Disambiguace Určení správného významu slova ve větě Na základě gramatiky (slovesa vs. podst. jm.) Na základě kontextu (komplikovanější). Tančila na Hasičském plese. Tančila na Štrbském plese. DBI010 - DIS - MFF UK
Předzpracování textu Částečným řešením problému porozumění textu je zahrnutí lingvistické analýzy Lemmatizace Přiřazení správného lemmatu jednotlivým slovům Základní tvar slova (1. p. j.č., infinitiv, ...) Slovní druh, osoba, číslo, čas, vid, ... Informace z větného rozboru, (podmět, předmět, ...) DBI010 - DIS - MFF UK
Lemmatizace a disambiguacečeského jazyka (ÚFAL) Odpovědnýmzástupcemnemůžebýtkaždý. Zákon by měl zajistit individualizaci odpovědnosti a zajištění odbornosti. … <p n=1><s id="docID:001-p1s1"><f cap>Odpovědným<MDl>odpovědný_^(kdo_za_něco_odpovídá)<MDt>AAIS7----1A----<f>zástupcem<MDl>zástupce<MDt>NNMS7-----A----<f>nemůže<MDl>moci_^(mít_možnost_[něco_dělat])<MDt>VB-S---3P-NA---<f>být<MDl>být<MDt>Vf--------A----<f>každý<MDl>každý<MDt>AAIS1----1A---- <p n=2>… Číslo odstavce Číslo věty Slovo v dokumentu Lemma včetně významu Slovní druh (Adverb), … DBI010 - DIS - MFF UK
Předzpracování textu Dalšími možnosti, které lingvistika v různé míře nabízí jsou Označování víceslovných spojení - kolokací Druhá světová válka, ... Zatím velmi problematické nahrazování zájmen odpovídajícími podstatnými jmény DBI010 - DIS - MFF UK
Přesnost a úplnost Výsledkem nejednoznačností žádný existující DIS nedává ideální výsledky Po zobrazení odpovědi na dotaz lze určit následující Počet vrácených dokumentů Nv O nich si DB myslí, že jsou relevantní, odpovídají dotazu Počet vrácených relevantních dok. Nvr O nich si tazatel myslí, že uspokojují jeho požadavky Počet všech relevantních dok. v DB Nr Problematické u velkých DB DBI010 - DIS - MFF UK
Přesnost a úplnost Dva DIS mohou vrátit na shodný dotaz různé odpovědi, které se nemusí překrývat ani v jediném vráceném dokumentu Jak porovnat kvalitu odpovědí navzájem? Dokumenty v databázi VrácenévDIS2 Relevantnídokumenty VrácenévDIS1 DBI010 - DIS - MFF UK
Přesnost a úplnost Dva tazatelé mohou mít při položení shodného dotazu různý názor na relevanci vrácených dokumentů Jak vyhovět subjektivnímu názoru tazatelů? Dokumenty v databázi Relevantní Vrácenédok. Relevantní DBI010 - DIS - MFF UK
Přesnost a úplnost Kvalita výsledné množiny dokumentů se měří na základě těchto čísel Přesnost (Precision) P = Nvr/Nv Pravděpodobnost, že dokument zařazený v odpovědi je skutečně relevantní Úplnost (Recall) R = Nvr/Nr Pravděpodobnost, že skutečně relevantní dokument je zařazený v odpovědi DBI010 - DIS - MFF UK
Přesnost a úplnost Koeficienty jsou opět závislé na subjektivním názoru tazatele Dokument vrácený na výstupu může uspokojovat požadavky dvou uživatel, kteří položili stejný dotaz, různou měrou. DBI010 - DIS - MFF UK
Přesnost a úplnost V ideálním případě P=R=1 V odpovědi jsou zařazeny právě a pouze všechny relevantní dokumenty V běžném případě Odpověď na první verzi dotazu není ani přesná, ani úplná 1 Optimum Počáteční odpověď 0 0 1 DBI010 - DIS - MFF UK
Přesnost a úplnost Ladění dotazu Postupná modifikace dotazu s cílem zvýšit kvalitu odpovědi Teoreticky je sice možné dosáhnout optima, ale … R 1 Optimum 0 P 0 1 DBI010 - DIS - MFF UK
Přesnost a úplnost … vlivem víceznačností jsou v praxi oba koeficienty na sobě nepřímo závislé,tj. P*Rkonst. < 1 Při snaze zvýšit Pse na výstup dostane méně relev. dokumentů. Při snaze zvýšit Rse na výstup dostane s více relev. dok. i mnohem více těch nerelevantních. R 1 Optimum 0 P 0 1 DBI010 - DIS - MFF UK
Kritérium predikce Při formulaci dotazů je potřebné uhádnout, které termy (slova) byly v dokumentu autorem použity pro vyjádření dané myšlenky Problémy m.j. způsobují Synonyma (autor mohl použít synonymum, které si tazatel při formulaci dotazů ani nemusí neuvědomí) Překrývající se významy slov Opisy jedné situace jinými slovy DBI010 - DIS - MFF UK
Kritérium predikce Částečným řešením je zařazení tezauru, který obsahuje Hierarchie slov a jejich významů Synonyma slov Asociace mezi slovy Tazatel může tezaurus využít při formulaci svých dotazů DBI010 - DIS - MFF UK
Kritérium predikce Při ladění dotazů má uživatel tendenci postupovat konzervativně V dotazu zůstávají často ty jeho části, které uživatele napadly na začátku a mění se jen podružné části, které nekvalitní výsledek nemusí nijak zásadně ovlivnit Vhodné je uživateli pomoci s odstraněním nevhodných částí dotazu, které nepopisují relevantní dokumenty a naopak s přidáváním formulací, které relevantní dokumenty popisují DBI010 - DIS - MFF UK
Kritérium maxima Tazatel obvykle není schopen (nebo ochoten) procházet příliš mnoho dokumentů do té míry, aby se rozhodl, zda jsou pro něj relevantní nebo ne Obvykle 20-50 podle velikosti Potřeba nejen dokumenty rozlišovat na odpovídající/neodpovídající dotazu, ale řadit je na výstupu podle míry předpokládané relevance DBI010 - DIS - MFF UK
Kritérium maxima V důsledku kritéria maxima se při ladění dotazu uživatel obvykle snaží zvýšit přesnost Malé množství dokumentův odpovědi, obsahující co největší poměr relevantních dokumentů Některé oblasti použití vyžadují co nejvyšší přesnost i úplnost Právnictví „lepší“ „horší“ Vr. Rel. Rel. Vr. DBI010 - DIS - MFF UK
Proč vyhledávat vzorky textu Při tvorbě indexu dokumentů či dotazu Pro zahrnutí pouze určité, předem dané množiny slov (lemmat) z dokumentu při tzv. řízené indexaci Pro vynechání předem dané množiny slov (lemmat) jako jsou spojky, částice, zájmena a podobně Při zobrazování sekundárních a primárních dokumentů v odpovědi Nalezení a zvýraznění slov (lemmat) použitých v dotazu … DBI010 - DIS - MFF UK
Algoritmy dle předzpracování I - Triviální algoritmus (Naivní algoritmus) (Algoritmus hrubé síly) II - Ostatní (vhodné pro DIS) Dále členěné dle Počtu vyhledávaných vzorků 1, N, Směru hledání Sousměrné Protisměrné DBI010 - DIS - MFF UK
Algoritmy II Sousměrné porovnávají vzorek zleva doprava, tj. souhlasně se směrem procházení celého dokumentu. Protisměrné obráceně DBI010 - DIS - MFF UK
Přesné vyhledávání vzorků Hledání jednoho vzorku v textu
Délka textu t ozn. m, délka vzorku v ozn. n Při neshodě i-té pozice textu s j-tou pozicí vzorku Posun vzorku o jednu pozici doprava, prohledávání od začátku vzorku Časová složitost je v průměrném případě o(m*n), např. pro hledání „an-1b“ v „am-1b“ Pro přirozený jazyk průměrně m*konst operací, tedy o(m)konst je malé číslo (jednotky), závislé na jazyku Triviální algoritmus Text a b c c b a b c a b b c a a b c c b a b c b b b a b c c Před pos. a b c c b a b c b b b Po posunu a b c c b a b c b b b DBI010 - DIS - MFF UK
Knuth-Morris-Prattův algoritmus Sousměrné vyhledání jednoho vzorku Oproti naivnímu přístupu eliminuje porovnávání již jednou zkontrolované části textu Vzorek je posunut co nejméně tak, aby část, která zůstane pod již zkontrolovanou částí,s ní byla shodná Přednáška č. 2 DBI010 - DIS - MFF UK
KMP algoritmus Triviální algoritmus Text a b c c b a b c a b b c a a b c c b a b c b b b a b c c Před pos. a b c c b a b c b b b Po posunu a b c c b a b c b b b KMP Text a b c c b a b c a b b c a a b c c b a b c b b b a b c c Před pos. a b c c b a b c b b b Po posunu a b c c b a b c b b b DBI010 - DIS - MFF UK
KMP algoritmus Před pozicí neshody zůstane vlastní prefix již prohledané části vzorku Musí být shodný s postfixem této části Nejdelší takový určuje nejmenší posun Text a b c c b a b c a b b c a a b c c b a b c b b b a b c c Před pos. a b c c b a b c b b b Po posunu a b c c b a b c b b b DBI010 - DIS - MFF UK
KMP algoritmus DBI010 - DIS - MFF UK