190 likes | 314 Views
Concept Decomposition. Uvod. Vector space model Spherical k-means algorithm Concept decomposition Usporedba. Vector Space Model. Parsiranje i pretprocesiranje Ignoriranje različitih oblika iste riječi Stopwords Izračunati pojavljivanje svake riječi
E N D
Uvod • Vector space model • Spherical k-means algorithm • Concept decomposition • Usporedba...
Vector Space Model • Parsiranje i pretprocesiranje • Ignoriranje različitih oblika iste riječi • Stopwords • Izračunati pojavljivanje svake riječi • Izbaciti “low- & high-frequency” riječi Riječi dokumenti
Vector Space Model • Broj pojavljivanja riječi j u dokumentu i - fji • Broj dokumenata koji sadrže riječ j - dj • j-ta komponenta vektora xi xji = tji×gj×si
Vector Space Model • CLASSIC 3 • Medline 1033 • CISI 1460 • Cranfield 1400 • 4099 (početno 24 574 riječi) 3893 • NSF • Desetak područja • 5298 (početno 66006 riječi) 13297
Spherical k-means algorithm • Clustering • Cosine similarity • xTy = ||x||||y|| cos((x,y))
Spherical k-means algorithm • 1, ..., k clusters • 1 j k mean vector(centroid) mj = 1/nj x jx • Concept vector cj = mj / || mj || • Cauchy-schwartz • x j xTzx j xTcj • cj je vektor prosječno najbliži u kosinusnoj sličnosti prema svim dokument-vektorima u j
Spherical k-means algorithm • Algoritam: • Početno particioniranje {j (0)}kj=1 {cj (0)}kj=1 • Svaki dokument particionirati prema konceptnim vektorima cjt u {j (t+1)} kj=1 • Izračunati novi cj(t+1) • Kriterij zaustavljanja • Promjena objektivne funkcije nakon nekoliko iteracija je manja od praga • Q ({j}kj=1) = kj=1 x j xTcj
Spherical k-means algorithm • Experimental results Vrijednost objektne funkcije Vrijednost objektne funkcije Broj iteracija Broj iteracija
Aproksimacija matrice • Clustering kao aprosimacija • Xk • Za 1 i d i-ti stupac je konceptni vektor najbliži dokument-vektoru xi • SVD • Xk • Pogreška aproksimacije: • ||X- Xk||2F • ||A||F = pi=1 qj=1 |aij|2 Frobenius norm
Aproksimacija matrice Pogreška aproksimacije Clustering Pogreška aproksimacije Clustering SVD SVD Broj vektora Broj vektora
Concept Decomposition • Aproksimacija svakog dokument-vektora linearnom kombinacijom konceptnih vektora • Xk = Ck Z* = × Conceptni vektori Dokumenti Riječi
Concept Decomposition • Najbliže rješenje Z*=(CkTCk)-1CkX • Računski – QR dekompozicija konceptne matrice • “random” aproksimacija Xk • elementi su random generirani uniformnom distribucijom na [0,1]
Usporedba Random Random Pogreška aproksimacije Pogreška aproksmavije Concept Decomposition Concept Decomp SVD SVD Broj vektora Broj vektora
MEDLINE CD CISI CRANFIELD
MEDLINE SVD CISI CRANFIELD
Zaključak • Apoksimacijska moč konceptne dekompozicije je usporediva sa truncate SVD • Bolje vrijeme • Manji zahtjevi memorije
Literatura I.S.Dhillon, D.S. Modha: Concept decomposition for large sparse text data using clustering, Machine Learning, 42:1, 2001, pp. 143-175