1 / 36

Dokumentum vektor modell, dokumentumok előfeldolgozása. PCA redukció

Dokumentum vektor modell, dokumentumok előfeldolgozása. PCA redukció. Szódokumentum mátrix előfordulás alapján. Szó-dokumentum mátrix előfordulás alapján. Eddig a szavak gyakoriságát nem vettük figyelembe Egy terminus előfordulásainak száma egy dokumentumban : szózsákmodell

Download Presentation

Dokumentum vektor modell, dokumentumok előfeldolgozása. PCA redukció

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dokumentum vektor modell, dokumentumok előfeldolgozása. PCA redukció

  2. Szódokumentummátrixelőfordulásalapján

  3. Szó-dokumentum mátrix előfordulás alapján • Eddig a szavak gyakoriságát nem vettük figyelembe • Egy terminus előfordulásainak száma egy dokumentumban: • szózsákmodell • a dokumentum egy vektor azℕvtérben (egy oszlop)

  4. Előfordulás vs. gyakoriság • Nézzük ismét a ides of marchkeresést • Julius Caesar-ban 5-ször fordul elő az ides • Más darabban nem fordul elő azides • march néhány tucat alkalommal fordul elő (több darabban) • Minden daraban szerepel az of • Ez alapján a legrelevánsabb a legtöbb of-ot tartalmazó darab lenne

  5. Terminus gyakoriságtf • További gond, hogy az előző mérték a hosszú dokumentumokat előnyben részesíti, mivel azok több szót tartalmaznak • Első javítás: előfordulás (támogatottság) helyett gyakoriság (frekvencia) • tft,d= a tterminus előfordulásainak száma d-ben osztva dszavainak számával • Jó hír – a tf-ek szummája egy dokumentumra 1 lesz • A dokumentumvektor L1 normája egy lesz • Kérdés, hogy a nyerstfmegfelel-e mértéknek?

  6. A terminus gyakoriság súlyozása: tf • Mi a relatív fontossága, ha egy szó egy dokumentumban • 0-szor v. 1-szer fordul elő • 1-szer v. 2-szer fordul elő • 2-szer v. 3-szor fordul elő … • Nem triviális: nyilván minél többször szerepel, annál jobb, de ez nem arányosan növekszik (márpedig a nyers tf-nél ez arányos) • Használhatjuk mégis a nyers tf-et • De vannak más, a gyakorlatban sokszoralkalmazott lehetőségek

  7. Skalárszorzat szerinti illeszkedés • Az illeszkedést a dokumentum és a keresőkifejezés skalárszorzataként határozzuk meg: • [Megj: 0, ha merőlegesek (nincsenek közös szavak)] • Az illeszkedés mértéke szerint rangsorolunk • Alkalmazhatjuk a logaritmikus súlyozást (wf) is a szorzatbana tfhelyett • Továbbra sem veszi figyelembe: • A szó ritkaságát (megkülönböztető képességét) a dokumentumgyűjteményben (idesvs. of)

  8. A szó fontossága függjön a korpuszbeli támogatottságától • Melyik informatívabb a dokumentum tartalmáról? • Az adóalany szó 10 előfordulása? • Az is 10 előfordulása? • Korlátozni szeretnénk a gyakori szavak súlyát • De mi számít gyakorinak? • Ötlet: korpusztámogatottság (collection frequency - cf ) • A terminus összes előfordulásainak száma a teljes gyűjteményben

  9. Dokumentumtámogatottság (df) • Azonban a dokumentumtámogatottság (df ) jobbnak tűnik: Szó cf df ferrari10422 17 insurance 10440 3997 • A két mérőszám megadása csak ismert (statikus) korpuszok esetén lehetséges. • Hogyan használjuk ezután a df-et?

  10. tf-idf súlyozás • tf-idfmérték komponensei: • szógyakoriság (tf) • vagywf, a szó sűrűségét határozza meg a dokumentumban • inverz dokumentumtámogatottság (idf) • a szó megkülönböztető képességéet adja mega korpuszbeli ritkasága alapján • számolható egyszerűen a szót tartalmazó dokumentumok száma alapján (idfi = 1/dfi) • de a leggyakoribb verzió:

  11. Összefoglalás: tf-idf • Minden iszóhoz minden ddokumentumban rendeljük az alábbi súlyt • Növekszik a dokumentumonbelüli előfordulásokkal • Növekszik a korpuszon belüli ritkasággal Mi annak a szónak a súlya, amely minden doksiban szerepel

  12. Valós értékű szó-dokumentum mátrix • A szóelőfordulások függvénye: • szózsákmodell • Minden dokumentumok egy valós reprezentál ℝv-ben • Logaritmikusan skálázott tf.idf Nagyobb lehet 1-nél!

  13. Szózsákmodell-reprezentációról • Nem tesz különbséget a Nitzsche mondta: Isten halott és az Isten mondta: Nitzsche halott mondatok között. Gondot jelent ez nekünk?

  14. Vektortérmodell

  15. Dokumentumvektorok • Minden dokumentumot egy vektornak tekintünk wfidfértékek alapján, ahol az elemek a szavakhoz tartoznak • Van tehát egy vektorterünk • Ennek a tengelyei a szavak/terminusok • Dokumentumok a vektortér pontjai • Még szótövezéssel is bőven 20,000-nél nagyobb lesz a vektortér dimenziója • (Ha a mátrixot a másik irányból nézzük, akkor a dokumentumok lehetnek a tengelyek, és a szavak vannak a vektortér elemei)

  16. Dokumentumvektorok (2) • Minden qkeresőkifejezés is a vektortér vektoraként fogható fel (általában nagyon ritka) • Az illeszkedést a vektorok közelsége alapján határozzuk meg • Ezután minden dokumentumhoz hozzárendelhető egy relevanciaérték a q keresőkifejezés esetén

  17. Miért jó, ha dokumentumvektoraink vannak? • Egy lehetséges alkalmazás: mintadokumentum alapján keresünk • Adott egy D dokumentum, keresünk hasonlókat (pl. plágiumkeresés) • Ekkor tehát Degy vektor, és hasonló (közeli) vektorokat keresünk

  18. És a hipotézis ami mögötte van t3 d2 d3 d1 θ φ t1 d5 t2 d4 Hipotézis: azok a dokumentumok, amelyek a vektortérben vannak egymáshoz hasonló témájúak

  19. A vektortérmodell A keresőkifejezés egy vektor • Rövid dokumentumnak tekintjük • Azok a dokumentumok lesznek találatok, amelyek – vektorként – közel helyezkednek el a keresőkifejezéshez • Első alkalmazása a Salton féle SMART rendszerben- Salton's Magical Automatic Retriever of Text (1970)

  20. Objektumokhasonlósága • A szövegfeldolgozássoránszükséglehet a leíróelemekhasonlóságánakmérésére • Tipikusműveletek: • a mintáhozhasonlítódokumentumokkeresése • a dokumentumokrangsorolása • dokumentumokcsoportosítása • dokumentumokosztályozása • hasonlóságalapúszókeresés • dokumentumoktisztítása • A hasonlóságmérésetávolságalapontörténi • Euklédeszitávolságazeuklédeszitérben:

  21. Közelség fogalmának követelményei • Had1közel van d2-höz, akkor d2közel legyend1-hez (szimmetria). • Had1közelid2-höz, és d2közelid3-hoz, akkord1ne legyen messzed3-tól (kvázi háromszög-egyenlőtlenség) • Nincs olyan dokumentum, amely közelebb lenned-hez mint önmaga (reflexív).

  22. Első megközelítés • A d1ésd2vektorok távolsága legyen a különségük hossza|d1 – d2|. • Euklideszi-távolság • Mi a baj ezzel? • Nem foglalkoztunk még a hossz-normalizálással • Hosszú dokumentumok a hosszuk miatt hasonlóbbak lesznek egymáshoz témától függetlenül • Könnyen elvégezhetjük a hossznormalizálást, ha a vektorok által bezárt szöget tekintjük

  23. t 3 d 2 d 1 θ t 1 t 2 Koszinuszhasonlóság • Két vektor,d1ésd2hasonlóságát a köztük lévő szög koszinusza adja meg. • Megjegyzés – ez nem távolság, hanem hasonlóság, mivel a háromszög-egyenlőtlenség nem teljesül rá

  24. Koszinuszhasonlóság (2) • A vektorok által bezárt szög koszinusza • A nevező tartalmazza a hossznormalizálást.

  25. Koszinuszhasonlóság (3) • A dokumentumvektor hosszát az alábbiak szerint definiáljuk • Egy vektor úgy normalizálhatónormalized (a hossza 1), ha minden elemét elosztjuk a hosszával – itt L2 normát használunk • Ez a vektorokat az egységgömbre képezi le: • Azaz, • Hosszabb dokumentumoknak nem lesz nagyobb súlya

  26. Normalizált vektorok • Normalizált vektorok esetében a koszinuszhasonloság a skalárszorzattal egyezik meg.

  27. dimenzióredukció

  28. Dokumentumreprezentációredukálása • A nagyméret, összetettségtöbbproblémát is okoz • Cél: a dokumentumokfeldolgozásiköltéségnekcsökkentése, a feldolgozásminőségénekjavítása • Megoldás: azelhagyhatóelemekredukálása. • A elemelhagyható, ha • nemfüggetlenmásoktól • nemdiszkriminatív (nemreleváns a problémaszempontjából)

  29. Redukcióseljárások • statisztikaieljárások a vektormodellre • PCA • SVD • relevanciaalapú, discrimination analysis • TFIDF tartomány • stop words • domain specifikusszűrés • szótáralapúszűrés • nyelvalapúszűrés • szótövezés • szinonímákhasználata

  30. PCA módszer • A módszerlényege, hogybáziscserévelazobjektumokategyalacsonyabbdimenziószámúvektortérbevisziát • Cél a minimálisinformációveszteségbiztosítása • A lényegesnektekintettinformációklaszterezéshez, osztályozáshoz: azobjektumokegymásközöttitávolságviszonyai • Olyanújkoordinátatengelyekkellenek, ahol a nagyazobjektumoktávolságértékeinekszórása • nemcsakdimenzióelhagyástörténik, hanemújdimenziótengelykijelölés

  31. Vektortérmodell • Egy {v1,v2,...,vn} vektorrendszerfüggő, ha valamelyelemelineráisankombinálhatóa többielemtől • Vektorérbázisa: azonfüggetlen {v1,v2,...,vn} , melyből a térösszeselemelineárisankombinálható • A términdenbázisaazonosdimenziójú • Vektortérdimenziója: a bázisainakdimenziószáma • Vektorkoordinátáiegyadottbázisesetén: a bázisravonatkozólineáriskombinációbanszereplő együtthatók

  32. Lineárisleképzés • Ha V1, V2 kétvektortér, akkora • Φ:V1→V2 lineárisleképezés, ha • teljesül. • Ha {v1,..,vn} a V1 bázisa, {u1,..,um} a V2 bázisa, akkor a lineáristranszformációegymátrixszaladható meg.

  33. PCA főkomponenselemzés • PCA matematikaihátterénektöbbekvivalensmegközelítése van, a legegyszerűbbek: • azontengelytkeressük, ahol a vetületekszórása a legnagyobb • azontengelytkeressük, amelytőlmérttávolságokösszegeminimális

  34. A PCA módszer • Dokumentumleírómátrix • azigényeltújbázisegytengelyénekegységirányvektora: w • a választáscélfüggvénye: a vetületekvarianciája (négyzetösszege) maximálislegyen

More Related