LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, michal.kolovrat@vsb.cz Václav Snášel, vaclav.snasel@vsb.cz Katedra informatiky VŠB-Technická univerzita Ostrava Dateso 2004

Obsah • Vektorový model • Singulární rozklad • Indexování latentní sémantiky • WordNet • Využití WordNetu pro redukci dimenze • Experimentální výsledky • Shrnutí

Vektorový model Ve vektorovém modelu reprezentuje dokumenty jako sloupcové vektory vahtermů matice termů v dokumentech A

Vyhledávání ve vekt. modelu • Podobnost dvou dokumentů nebo dokumentu a dotazu je vypočtena jako normovaný skalární součin jejich vektorů – kosinová míra. • Obsahují-li dotazy větší počet termů, je vhodné kolekci indexovat. • Většina struktur použitých pro indexování se chová špatně ve vyšších dimenzích – tzv. „prokletí dimenzionality“, proto se pokoušíme dimenzi redukovat • Indexy založené na aproximacích (např. VA-files) vytvářejí dlouhé aproximační řetězce a pro (řídkou) matici termů v dokumentech nejsou vhodné

Redukce dimenze matice A Na matici A lze použít postupy známé z lineární algebry (zejména rozklady) • Výpočet vlastních čísel kovarianční matice (PCA) • Singulární rozklad matice (SVD) • ULV rozklad matice • Náhodnou projekci vektorů (RP) • atd.

Singulární rozklad • Matici A lze rozložit singulárním rozkladem na součin matic U S VT, kde U a V jsou sloupcově-ortonormální matice singulárních vektorů a S je diagonální matice obsahující singulární čísla • Počet nenulových singulárních čísel r je nejvýše roven menšímu z rozměrů A

k-redukovaný singulární rozklad • Použijeme jen k největších singulárních čísel a odpovídající souřadnice singulárních vektorů • Malé k a řídká matice A=> metoda Lanczos • Eckart-Young: Mezi všemi maticemi C hodnosti nejvýše k minimalizuje Akhodnotu ||A-C||F

Indexování latentní sémantiky (LSI) a skrytá sémantika • LSI – k-redukovaný singulární rozklad matice termů v dokumentech • Skrytá sémantika – skryté vazby mezi termy a dokumenty na základě obsahu • Matice dokumentů Dk= VkSk(resp.Dk’ =Vk) • Matice termů Tk= UkSk(resp.Tk’ = Uk) • Dotaz v red. dimenzi qk= UkT q (resp. qk’ = Sk-1 UkTq)

Klady a zápory LSI • Klady • Snížení dimenze vektorů • Omezení vlivu „prokletí dimenzionality“ • Nalezení skrytých vztahů v datech • Až na určení redukované dimenze lze provádět zcela automaticky • Zápory • Časová složitost výpočtu • Problematické přidávání dokumentů a termů

Dvoufázový algoritmus výpočtu LSI (Papadimitriou) • Redukce do dostatečně velké dimenze l pomocí náhodné projekce (redukce dimenze násobením zleva projekční maticí, jejíž řádky mají nulovou střední hodnotu a jednotkový rozptyl) • Výpočet 2k-redukovaného singulárního rozkladu v této dimenzi Euklidovské vzdálenostibudou dostatečně zachovány Frobeniova norma aproximace matice vůči LSIk je kde e je koeficient změny vzdálenosti z J-L lemmatu.

WordNet • Tezaurus, slovník synonym • V ontologii jsou uloženy synsety - sady synonym pro podstatná jména, přídavná jména, slovesa a příslovce • Pro podstatná jména a slovesa existují i další vztahy, mj. Je nadřazeným/podřízeným konceptem – hypernymum/hyponymum • Vazba mezi hlavními koncepty v národních WordNetech pomocí Inter-lingual index

Ukázka konceptů ve WordNetu biology, biological science => life science, bioscience => natural science => science, scientific discipline => discipline, subject, subject area, … , branch of knowledge => knowledge domain, knowledge base => content, cognitive content, mental object => cognition, knowledge, noesis => psychological feature

Využití WordNetu místo LSI • Proč? • Místo termů využijeme přímo synsety • Známe vztahy mezi synsety – nemusíme počítat rozklad, snadnější vkládání nových termů a dokumentů • Jak? • Převedeme termy na synsety a na jejich základě spočteme váhy termů v nadřazených konceptech • Použijeme jen nejvýznamnější koncepty nebo ty na nejvyšších úrovních

Tvorba konceptů • Započteme váhy termů do synsetů • Váhu synsetu započteme do váhy hypernyma na dané úrovni (předchozí; 1. – l-tá) • Je-li potřeba, vybereme jen k nejvýznamnějších synsetů • Vytvoříme projekční matici termů na synsety • Promítneme matici termů v dokumentech do redukované dimenze • Je-li redukovaná dimenze příliš vysoká, využijeme dvoufázového algoritmu výpočtu LSIk a vytvoříme novou projekční matici

Klady a zápory metody • Klady • Snížení dimenze vektorů • Využití synonym, matice dokumentů stále dosti řídká • Snadné přidávání nových dokumentů a termů • Zvýšení úplnosti • Přesnost a úplnost při použití dvoufázového algoritmu by měly být vyšší než u náhodných projekcí • Zápory • Jen podstatná jména a slovesa, obsažená ve WordNetu • Vyšší dimenze než u LSI

Experimenty – testovací data • Použito 5000 dokumentů z kolekce TREC o cca. 57 tisících termech (LATIMES 01/89) • Přesnost a úplnost vyhodnocována pomocí 50 TREC queries (dotazy a odpovědi) • relevantní dokumenty • nerelevantní dokumenty • ostatní dokumenty (pravděpodobně nerelevantní) • Využit anglický WordNet 2.0 a jeho SDK, přímý přístup ke strukturám WordNetu (pomalý) • Vypočtena projekční matice převádějící matici termů v dokumentech na matici synsetů v dokumentech

Experimenty – provedené testy • Klasické LSI do dimenzí 100 a 200 • Náhodná projekce do dimenze 1000 • Redukce na nejvyšší 2 a 3 úrovně synsetů anglického WordNetu • LSI do dimenze 200 dvoustupňovým algoritmem • náhodná projekce do dimenze 1000 • redukce 4 nejvyšších úrovní synsetů WordNetu

Experimenty – čas a velikost

Experimenty – přesnost a úplnost

Závěr • Lepší výsledky než náhodné projekce • Srovnatelné s LSI, lze použít tam kde by byl výpočet LSI nemožný vzhledem k velikosti kolekce • Vylepšuje úplnost (na úkor přesnosti) • Možnost převodu dokumentů v různých jazycích pomocí mezijazykového indexu (ILI) na nejvyšších úrovních synsetů pro přibližné vyhledávání dokumentů • Nutno vyřešit problém s absencí hierarchie a synsetů pro některé termy • Možnost vyzkoušet jinou ontologii

Literatura • D. Achlioptas. Database-friendly random projections. In Symposium on Principles of Database Systems, 2001. • E. Bingham and H. Mannila. Random projection in dimensionality reduction: Applications to image and text data. In Knowledge Discovery and Data Mining, p. 245–250, 2001. • M. W. Berry and R. D. Fierro. Low-Rank Orthogonal Decomposition for Information Retrieval Applications. Numerical Algebra with Applications, 1(1):1–27, 1996. • C. H. Papadimitriou, H. Tamaki, P. Raghavan, and S. Vempala. Latent semantic indexing: A probabilistic analysis. p. 159–168, 1998. • K. Pala, T. Pavelek. VisDic – A Tool for WordNets, Znalosti 2003, 2003

LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Presentation Transcript

Dimension Reduction in Workers Compensation

Ontology-driven spatial information retrieval in GRIP

Dimension Reduction - PCA

Retrieval Effectiveness of an Ontology-based Model for Information Selection

Dimension Reduction in Workers Compensation

Dimension reduction (2)

Dimension reduction (1)

Ontology : the challenging tool for Web based Information Retrieval System

Dimension reduction for finite trees in L 1

Dimension Reduction for MU-MIMO

Pattern Reduction and Information Retrieval

Nonlinear Dimension Reduction:

Ontology development and use for efficient information input and retrieval

Dimension Reduction Methods

Dimension Reduction

Information retrieval – LSI, pLSI and LDA

Thai AGROVOC Ontology Base for Agricultural Information Retrieval

Dimension Reduction

Nonlinear Dimension Reduction

Dimension Reduction in Workers Compensation

Dimension Reduction - PCA

Dimension Reduction in Workers Compensation