Prohledávání dokumentů ve vektorovém modelu

Prohledávání dokumentů ve vektorovém modelu Pavel Moravec

Obsah • Vektorový model • Signatury • Signatury ve vektorovém modelu • Náhodné projekce • Závěr

Vektorový model • Dokumenty a dotazy reprezentovány jako vektory v n-rozměrném vektorovém prostoru • n je počet různých termů (slov/frází) v kolekci • Souřadnice vektoru reprezentují váhy termů v dokumentu • Míra podobnosti dokumentů s dotazem – výpočet vzdálenosti nebo skalárního součinu vektorů dokumentů (obvykle kosinová vzdálenost) • Seřazení podle míry podobnosti

Signatura • Bitový vektor o F bitech; F je délkou signatury • Zaznamenává možný výskyt termů v dokumentu • Signatura termu má k bitů nastaveno na 1, k se nazývá váhou signatury • Signatura dokumentu (resp. bloku) je vytvořena zřetězením nebo zvrstvením signatur termů

Ukázka signatur

Weight-Partitioned signature files • Frekvence termu v kolekci (např. idf) je centrálně uložena pro každý term • Termy v dokumentu jsou seskupeny podle četnosti výskytů v dokumentu do samostatných souborů signatur (TF group: tfi, i – frekvence termu v dokumentu) • Pravděpodobnost falešných hitů je minimalizována volbou délky signatury bloku a termu, max. počtu termů v bloku, přičemž zvýhodněny jsou skupiny vyšší frekvence

WPSF - Dotazování • Soubory signatur jsou procházeny pro každý term a dokument, dokud není nalezen hit. • Dvě možné metody: LH nebo HL • LH: začínáme signaturovým souborem s nejmenší hodnotou tf • HL: začínáme souborem s nejvyšší tf (nalezne všechny relevantní dokumenty, falešné hity  vyšší skóre dokumentu, menší přesnost) • Váha termu je spočtena z tf souboru, kde je signatura nalezena a idf termu. Je-li zapotřebí, provedeme normalizaci

Vylepšení WPSF S-stromem • Jeden S-strom(modifikace B+-stromu) prokaždý signaturový soubor • Signatury všech dokumentů v souboru prohledávány najednou • Pokračujeme jen ve větvích, které splňují podmínku (SQAND SD = SQ) • Lze využít metod HL i LH • Pro dosažení stejných výsledků jako v původní metodě si zaznamenáváme termy, nalezené v předchozích souborech (jinak by byl vliv falešných hitů vyšší)

Přínos vylepšení WPSF S-stromy

Náhodné projekce • Náhodná matice R, zobrazující vektory dokumentů do podprostoru vhodné dimenze d, d << n • Prvky matice Rjsou nezávislé náhodné proměnné s nulovou střední hodnotou a jednotkovým rozptylem. • Pro zachování Euklidovských vzdáleností je nutno vynásobitvýsledný vektor • Pro výpočet kosinové míry (úhlu) mezi vektory není úprava měřítka nutná.

Náhodné projekce Klasické (RP) Zjednodušené (SRP) nebo Matice R obsahuje náhodná čísla s normovaným normálním rozdělením- N(0, 1) Namísto násobení postačí přičítání a odečítání

Redukce dimenze vektorů dokumentů 20,000 článků WSJ, obsahujících cca. 60,000 termů. Byla spočtena kosinová míra, prahová hodnota byla 0.3. průměrná přesnost průměrná úplnost

Závěr • Vektorový model IR je zajímavou oblastí výzkumu • Stále nalézány nové metody, snažící se vylepšit jeho efektivitu • Redukce dimenze a signaturové metody jsou jedním z možných řešení • Nově navržené způsoby ukládání dat v indexu by mohly zrychlit jeho prohledávání

Literatura [Achlioptas01]Achlioptas, D. Database-friendly Random Projections. [Bingham01] Bingham, E.; Manilla, H. Random projection in dimensionality reduction: Applications to image and text data. [Deppisch86] DEPPISCH, U.: S-tree: A Dynamic Balanced Signature Index for Office Retrieval. [Lee96] LEE, D. L.; REN, L.; Document Ranking on Weight-Partitioned Signature Files. [Roberts79] Roberts, C. S.; Partial-match retrieval via method of superimposed codes [Salton88] SALTON, G.; BUCKLEY, C.; Term Weighting Approaches in Automatic Text Retrieval

Prohledávání dokumentů ve vektorovém modelu

Prohledávání dokumentů ve vektorovém modelu

Presentation Transcript

Układ Słoneczny własnymi rękami

Sestavení struktury modelu stárnutí objektu

Model excelence EFQM

KOMPRESIJA PODATAKA

11. Alternativní teorie firmy Osnova přednášky

TIS-modellen

REKURSION + ITERATION

Kaaskiri / motivatsioonikiri

das neue Krankenhaus : Konzept “iMC - integriertes Management und Controlling”

Modele wzrostu zrównoważonego i niezrównoważonego

Strategia Sprzedaży 2012

OSVRT na 2012. Prva godina rada ministra zdravlja prof. Rajka Ostojića

VZDELÁVACIE PROGRAMY EURÓPSKEHO SOCIÁLNEHO FONDU

SYSTEMY ZARZĄDZANIA ŚRODOWISKOWEGO

TVORBA WEBOVÝCH STRÁNEK

HTML dla początkujących

Obsahem přednášky je …

TEORIE ROZHODOVÁNÍ A TEORIE HER

Prognozowanie i symulacje

Metody Przetwarzania Danych Meteorologicznych Wykład 5

Modelowanie systemów - wiedza eksperymentalna (identyfikacja systemów) ‏

POSLOVNI NAČRT