210 likes | 313 Views
LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval. Pavel Moravec , pavel.moravec _at_ vsb.cz Michal Kolovrat , michal.kolovrat@vsb.cz Václav Snášel , vaclav.snasel@vsb.cz Katedra informatiky VŠB-Technická univerzita Ostrava. Dateso 2004. Obsah. Vektorový model
E N D
LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, michal.kolovrat@vsb.cz Václav Snášel, vaclav.snasel@vsb.cz Katedra informatiky VŠB-Technická univerzita Ostrava Dateso 2004
Obsah • Vektorový model • Singulární rozklad • Indexování latentní sémantiky • WordNet • Využití WordNetu pro redukci dimenze • Experimentální výsledky • Shrnutí
Vektorový model Ve vektorovém modelu reprezentuje dokumenty jako sloupcové vektory vahtermů matice termů v dokumentech A
Vyhledávání ve vekt. modelu • Podobnost dvou dokumentů nebo dokumentu a dotazu je vypočtena jako normovaný skalární součin jejich vektorů – kosinová míra. • Obsahují-li dotazy větší počet termů, je vhodné kolekci indexovat. • Většina struktur použitých pro indexování se chová špatně ve vyšších dimenzích – tzv. „prokletí dimenzionality“, proto se pokoušíme dimenzi redukovat • Indexy založené na aproximacích (např. VA-files) vytvářejí dlouhé aproximační řetězce a pro (řídkou) matici termů v dokumentech nejsou vhodné
Redukce dimenze matice A Na matici A lze použít postupy známé z lineární algebry (zejména rozklady) • Výpočet vlastních čísel kovarianční matice (PCA) • Singulární rozklad matice (SVD) • ULV rozklad matice • Náhodnou projekci vektorů (RP) • atd.
Singulární rozklad • Matici A lze rozložit singulárním rozkladem na součin matic U S VT, kde U a V jsou sloupcově-ortonormální matice singulárních vektorů a S je diagonální matice obsahující singulární čísla • Počet nenulových singulárních čísel r je nejvýše roven menšímu z rozměrů A
k-redukovaný singulární rozklad • Použijeme jen k největších singulárních čísel a odpovídající souřadnice singulárních vektorů • Malé k a řídká matice A=> metoda Lanczos • Eckart-Young: Mezi všemi maticemi C hodnosti nejvýše k minimalizuje Akhodnotu ||A-C||F
Indexování latentní sémantiky (LSI) a skrytá sémantika • LSI – k-redukovaný singulární rozklad matice termů v dokumentech • Skrytá sémantika – skryté vazby mezi termy a dokumenty na základě obsahu • Matice dokumentů Dk= VkSk(resp.Dk’ =Vk) • Matice termů Tk= UkSk(resp.Tk’ = Uk) • Dotaz v red. dimenzi qk= UkT q (resp. qk’ = Sk-1 UkTq)
Klady a zápory LSI • Klady • Snížení dimenze vektorů • Omezení vlivu „prokletí dimenzionality“ • Nalezení skrytých vztahů v datech • Až na určení redukované dimenze lze provádět zcela automaticky • Zápory • Časová složitost výpočtu • Problematické přidávání dokumentů a termů
Dvoufázový algoritmus výpočtu LSI (Papadimitriou) • Redukce do dostatečně velké dimenze l pomocí náhodné projekce (redukce dimenze násobením zleva projekční maticí, jejíž řádky mají nulovou střední hodnotu a jednotkový rozptyl) • Výpočet 2k-redukovaného singulárního rozkladu v této dimenzi Euklidovské vzdálenostibudou dostatečně zachovány Frobeniova norma aproximace matice vůči LSIk je kde e je koeficient změny vzdálenosti z J-L lemmatu.
WordNet • Tezaurus, slovník synonym • V ontologii jsou uloženy synsety - sady synonym pro podstatná jména, přídavná jména, slovesa a příslovce • Pro podstatná jména a slovesa existují i další vztahy, mj. Je nadřazeným/podřízeným konceptem – hypernymum/hyponymum • Vazba mezi hlavními koncepty v národních WordNetech pomocí Inter-lingual index
Ukázka konceptů ve WordNetu biology, biological science => life science, bioscience => natural science => science, scientific discipline => discipline, subject, subject area, … , branch of knowledge => knowledge domain, knowledge base => content, cognitive content, mental object => cognition, knowledge, noesis => psychological feature
Využití WordNetu místo LSI • Proč? • Místo termů využijeme přímo synsety • Známe vztahy mezi synsety – nemusíme počítat rozklad, snadnější vkládání nových termů a dokumentů • Jak? • Převedeme termy na synsety a na jejich základě spočteme váhy termů v nadřazených konceptech • Použijeme jen nejvýznamnější koncepty nebo ty na nejvyšších úrovních
Tvorba konceptů • Započteme váhy termů do synsetů • Váhu synsetu započteme do váhy hypernyma na dané úrovni (předchozí; 1. – l-tá) • Je-li potřeba, vybereme jen k nejvýznamnějších synsetů • Vytvoříme projekční matici termů na synsety • Promítneme matici termů v dokumentech do redukované dimenze • Je-li redukovaná dimenze příliš vysoká, využijeme dvoufázového algoritmu výpočtu LSIk a vytvoříme novou projekční matici
Klady a zápory metody • Klady • Snížení dimenze vektorů • Využití synonym, matice dokumentů stále dosti řídká • Snadné přidávání nových dokumentů a termů • Zvýšení úplnosti • Přesnost a úplnost při použití dvoufázového algoritmu by měly být vyšší než u náhodných projekcí • Zápory • Jen podstatná jména a slovesa, obsažená ve WordNetu • Vyšší dimenze než u LSI
Experimenty – testovací data • Použito 5000 dokumentů z kolekce TREC o cca. 57 tisících termech (LATIMES 01/89) • Přesnost a úplnost vyhodnocována pomocí 50 TREC queries (dotazy a odpovědi) • relevantní dokumenty • nerelevantní dokumenty • ostatní dokumenty (pravděpodobně nerelevantní) • Využit anglický WordNet 2.0 a jeho SDK, přímý přístup ke strukturám WordNetu (pomalý) • Vypočtena projekční matice převádějící matici termů v dokumentech na matici synsetů v dokumentech
Experimenty – provedené testy • Klasické LSI do dimenzí 100 a 200 • Náhodná projekce do dimenze 1000 • Redukce na nejvyšší 2 a 3 úrovně synsetů anglického WordNetu • LSI do dimenze 200 dvoustupňovým algoritmem • náhodná projekce do dimenze 1000 • redukce 4 nejvyšších úrovní synsetů WordNetu
Závěr • Lepší výsledky než náhodné projekce • Srovnatelné s LSI, lze použít tam kde by byl výpočet LSI nemožný vzhledem k velikosti kolekce • Vylepšuje úplnost (na úkor přesnosti) • Možnost převodu dokumentů v různých jazycích pomocí mezijazykového indexu (ILI) na nejvyšších úrovních synsetů pro přibližné vyhledávání dokumentů • Nutno vyřešit problém s absencí hierarchie a synsetů pro některé termy • Možnost vyzkoušet jinou ontologii
Literatura • D. Achlioptas. Database-friendly random projections. In Symposium on Principles of Database Systems, 2001. • E. Bingham and H. Mannila. Random projection in dimensionality reduction: Applications to image and text data. In Knowledge Discovery and Data Mining, p. 245–250, 2001. • M. W. Berry and R. D. Fierro. Low-Rank Orthogonal Decomposition for Information Retrieval Applications. Numerical Algebra with Applications, 1(1):1–27, 1996. • C. H. Papadimitriou, H. Tamaki, P. Raghavan, and S. Vempala. Latent semantic indexing: A probabilistic analysis. p. 159–168, 1998. • K. Pala, T. Pavelek. VisDic – A Tool for WordNets, Znalosti 2003, 2003