1 / 14

Prohledávání dokumentů ve vektorovém modelu

Prohledávání dokumentů ve vektorovém modelu. Pavel Moravec. Obsah. Vektorový model Signatury Signatury ve vektorovém modelu Náhodné projekce Závěr. Vektorový model. Dokumenty a dotazy reprezentovány jako vektory v n -rozměrném vektorovém prostoru

abba
Download Presentation

Prohledávání dokumentů ve vektorovém modelu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Prohledávání dokumentů ve vektorovém modelu Pavel Moravec

  2. Obsah • Vektorový model • Signatury • Signatury ve vektorovém modelu • Náhodné projekce • Závěr

  3. Vektorový model • Dokumenty a dotazy reprezentovány jako vektory v n-rozměrném vektorovém prostoru • n je počet různých termů (slov/frází) v kolekci • Souřadnice vektoru reprezentují váhy termů v dokumentu • Míra podobnosti dokumentů s dotazem – výpočet vzdálenosti nebo skalárního součinu vektorů dokumentů (obvykle kosinová vzdálenost) • Seřazení podle míry podobnosti

  4. Signatura • Bitový vektor o F bitech; F je délkou signatury • Zaznamenává možný výskyt termů v dokumentu • Signatura termu má k bitů nastaveno na 1, k se nazývá váhou signatury • Signatura dokumentu (resp. bloku) je vytvořena zřetězením nebo zvrstvením signatur termů

  5. Ukázka signatur

  6. Weight-Partitioned signature files • Frekvence termu v kolekci (např. idf) je centrálně uložena pro každý term • Termy v dokumentu jsou seskupeny podle četnosti výskytů v dokumentu do samostatných souborů signatur (TF group: tfi, i – frekvence termu v dokumentu) • Pravděpodobnost falešných hitů je minimalizována volbou délky signatury bloku a termu, max. počtu termů v bloku, přičemž zvýhodněny jsou skupiny vyšší frekvence

  7. WPSF - Dotazování • Soubory signatur jsou procházeny pro každý term a dokument, dokud není nalezen hit. • Dvě možné metody: LH nebo HL • LH: začínáme signaturovým souborem s nejmenší hodnotou tf • HL: začínáme souborem s nejvyšší tf (nalezne všechny relevantní dokumenty, falešné hity  vyšší skóre dokumentu, menší přesnost) • Váha termu je spočtena z tf souboru, kde je signatura nalezena a idf termu. Je-li zapotřebí, provedeme normalizaci

  8. Vylepšení WPSF S-stromem • Jeden S-strom(modifikace B+-stromu) prokaždý signaturový soubor • Signatury všech dokumentů v souboru prohledávány najednou • Pokračujeme jen ve větvích, které splňují podmínku (SQAND SD = SQ) • Lze využít metod HL i LH • Pro dosažení stejných výsledků jako v původní metodě si zaznamenáváme termy, nalezené v předchozích souborech (jinak by byl vliv falešných hitů vyšší)

  9. Přínos vylepšení WPSF S-stromy

  10. Náhodné projekce • Náhodná matice R, zobrazující vektory dokumentů do podprostoru vhodné dimenze d, d << n • Prvky matice Rjsou nezávislé náhodné proměnné s nulovou střední hodnotou a jednotkovým rozptylem. • Pro zachování Euklidovských vzdáleností je nutno vynásobitvýsledný vektor • Pro výpočet kosinové míry (úhlu) mezi vektory není úprava měřítka nutná.

  11. Náhodné projekce Klasické (RP) Zjednodušené (SRP) nebo Matice R obsahuje náhodná čísla s normovaným normálním rozdělením- N(0, 1) Namísto násobení postačí přičítání a odečítání

  12. Redukce dimenze vektorů dokumentů 20,000 článků WSJ, obsahujících cca. 60,000 termů. Byla spočtena kosinová míra, prahová hodnota byla 0.3. průměrná přesnost průměrná úplnost

  13. Závěr • Vektorový model IR je zajímavou oblastí výzkumu • Stále nalézány nové metody, snažící se vylepšit jeho efektivitu • Redukce dimenze a signaturové metody jsou jedním z možných řešení • Nově navržené způsoby ukládání dat v indexu by mohly zrychlit jeho prohledávání

  14. Literatura [Achlioptas01]Achlioptas, D. Database-friendly Random Projections. [Bingham01] Bingham, E.; Manilla, H. Random projection in dimensionality reduction: Applications to image and text data. [Deppisch86] DEPPISCH, U.: S-tree: A Dynamic Balanced Signature Index for Office Retrieval. [Lee96] LEE, D. L.; REN, L.; Document Ranking on Weight-Partitioned Signature Files. [Roberts79] Roberts, C. S.; Partial-match retrieval via method of superimposed codes [Salton88] SALTON, G.; BUCKLEY, C.; Term Weighting Approaches in Automatic Text Retrieval

More Related