140 likes | 262 Views
Prohledávání dokumentů ve vektorovém modelu. Pavel Moravec. Obsah. Vektorový model Signatury Signatury ve vektorovém modelu Náhodné projekce Závěr. Vektorový model. Dokumenty a dotazy reprezentovány jako vektory v n -rozměrném vektorovém prostoru
E N D
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec
Obsah • Vektorový model • Signatury • Signatury ve vektorovém modelu • Náhodné projekce • Závěr
Vektorový model • Dokumenty a dotazy reprezentovány jako vektory v n-rozměrném vektorovém prostoru • n je počet různých termů (slov/frází) v kolekci • Souřadnice vektoru reprezentují váhy termů v dokumentu • Míra podobnosti dokumentů s dotazem – výpočet vzdálenosti nebo skalárního součinu vektorů dokumentů (obvykle kosinová vzdálenost) • Seřazení podle míry podobnosti
Signatura • Bitový vektor o F bitech; F je délkou signatury • Zaznamenává možný výskyt termů v dokumentu • Signatura termu má k bitů nastaveno na 1, k se nazývá váhou signatury • Signatura dokumentu (resp. bloku) je vytvořena zřetězením nebo zvrstvením signatur termů
Weight-Partitioned signature files • Frekvence termu v kolekci (např. idf) je centrálně uložena pro každý term • Termy v dokumentu jsou seskupeny podle četnosti výskytů v dokumentu do samostatných souborů signatur (TF group: tfi, i – frekvence termu v dokumentu) • Pravděpodobnost falešných hitů je minimalizována volbou délky signatury bloku a termu, max. počtu termů v bloku, přičemž zvýhodněny jsou skupiny vyšší frekvence
WPSF - Dotazování • Soubory signatur jsou procházeny pro každý term a dokument, dokud není nalezen hit. • Dvě možné metody: LH nebo HL • LH: začínáme signaturovým souborem s nejmenší hodnotou tf • HL: začínáme souborem s nejvyšší tf (nalezne všechny relevantní dokumenty, falešné hity vyšší skóre dokumentu, menší přesnost) • Váha termu je spočtena z tf souboru, kde je signatura nalezena a idf termu. Je-li zapotřebí, provedeme normalizaci
Vylepšení WPSF S-stromem • Jeden S-strom(modifikace B+-stromu) prokaždý signaturový soubor • Signatury všech dokumentů v souboru prohledávány najednou • Pokračujeme jen ve větvích, které splňují podmínku (SQAND SD = SQ) • Lze využít metod HL i LH • Pro dosažení stejných výsledků jako v původní metodě si zaznamenáváme termy, nalezené v předchozích souborech (jinak by byl vliv falešných hitů vyšší)
Náhodné projekce • Náhodná matice R, zobrazující vektory dokumentů do podprostoru vhodné dimenze d, d << n • Prvky matice Rjsou nezávislé náhodné proměnné s nulovou střední hodnotou a jednotkovým rozptylem. • Pro zachování Euklidovských vzdáleností je nutno vynásobitvýsledný vektor • Pro výpočet kosinové míry (úhlu) mezi vektory není úprava měřítka nutná.
Náhodné projekce Klasické (RP) Zjednodušené (SRP) nebo Matice R obsahuje náhodná čísla s normovaným normálním rozdělením- N(0, 1) Namísto násobení postačí přičítání a odečítání
Redukce dimenze vektorů dokumentů 20,000 článků WSJ, obsahujících cca. 60,000 termů. Byla spočtena kosinová míra, prahová hodnota byla 0.3. průměrná přesnost průměrná úplnost
Závěr • Vektorový model IR je zajímavou oblastí výzkumu • Stále nalézány nové metody, snažící se vylepšit jeho efektivitu • Redukce dimenze a signaturové metody jsou jedním z možných řešení • Nově navržené způsoby ukládání dat v indexu by mohly zrychlit jeho prohledávání
Literatura [Achlioptas01]Achlioptas, D. Database-friendly Random Projections. [Bingham01] Bingham, E.; Manilla, H. Random projection in dimensionality reduction: Applications to image and text data. [Deppisch86] DEPPISCH, U.: S-tree: A Dynamic Balanced Signature Index for Office Retrieval. [Lee96] LEE, D. L.; REN, L.; Document Ranking on Weight-Partitioned Signature Files. [Roberts79] Roberts, C. S.; Partial-match retrieval via method of superimposed codes [Salton88] SALTON, G.; BUCKLEY, C.; Term Weighting Approaches in Automatic Text Retrieval