1 / 18

Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?. Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005. Learning networks (1). Hoe weten lerenden met welke leereenheid ze beginnen óf verder gaan binnen het leernetwerk?. Activiteiten binnen ‘positioning’.

tad
Download Presentation

Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005

  2. Learning networks (1) • Hoe weten lerenden met welke leereenheid ze beginnen óf verder gaan binnen het leernetwerk?

  3. Activiteiten binnen ‘positioning’ • Ontwikkelt richtlijnen rondom het gebruik van Latente semantische Analyse (LSA) voor positionering • Specificeert, ontwikkelt en test een prototype ‘positioner’ • Vergelijkt huidige praktijken van het erkennen van EVC’s met betrouwbaarheid en validiteit van computergebaseerde positionering

  4. Gebruik van LSA: Nu vooral: • Information retrieval • grote,algemene corpora Ook gebruik binnen onderwijssettings: • Beoordeling van essays en terugkoppeling • Matchen van studenten met instructie-tekst • Hulp bij maken van samenvattingen Binnen positioning: • Relatief kleine, specifieke corpora • Inhoudelijk ‘voorgeselecteerd’

  5. Techniek: documentvectoren als basis 7 6 543210 Gorilla D B C A 0 1 2 3 4 5 6 7 C h i m p a n s ee

  6. Latente Semantische Analyse • Gebaseerd op singuliere waarde ontbinding • Sterke gelijkenis met principale componenten analyse • Symmetrische matrix M • Eigenwaarden en eigenvectoren • M = U Λ U’ • Λ is diagonaalmatrix met geordende eigenwaarden • Reproductie: verwijder kleinste eigenwaarden in Λ en kolomen en rijen in U en U’

  7. Singuliere waardenontbinding (SVD) • Asymmetrische matrix (data-matrix) • D = L S R’ • S is diagonaal met geordende singuliere waarden • Aantal S > 0 is gelijk aantal dimensies van de matrix • LSA: reproductie van matrix op basis van een model met minder dimensies • ΣS2 = Σd2

  8. Een voorbeeld: 8 * 8 matrix

  9. SVD in Excel

  10. Onze context • Datamatrix is Term*Document matrix met woordfrequenties in de cellen. • Heel veel cellen bevatten nullen • Voor een ijle matrijs (sparse matrix) geldt: • Gemiddelde dicht bij nul • Geringe variantie • Cumulatieve waarden van S2 zijn een goede benadering van de variantie (ΣS2 = Σd2)

  11. Probleem • Positioning vergt discrimineren tussen documenten • Hoge correlaties in homogene verzameling • Lage correlaties tussen homogene verzamelingen • Stoppen en zo ja wat of hoeveel? • Vind objectief criterium om aantal SW te bepalen: • Meer is niet beter ! • Literatuur: 300 of meer; hoogste correlatie • Maximale discriminatie • Proportie verklaarde variantie • Betrouwbaarheid • SW > 1

  12. Experiment met aapcorpus • Constructie corpus: • Stoppen: 0, 30, 50 • Stemmen • Bepalen query-set: • Gorilla • Orang oetan • Analyse

  13. Analyses • Correlatie: • Binnen Q-set (gorilla, orang oetan): hoog • Homogene set • Q met N-set: laag • Heterogene set • Correlaties kennen een optimum verschil: • Correlaties Q-set hoog EN • Correlaties N-set laag • Als aantal sv toeneemt, dalen correlaties door toename ruis

  14. Resultaten (1)

  15. Resultaten (2)

  16. Resultaten (3)

  17. Conclusies • De correlaties voor de Q-set zijn hoog • Zonder stoppen zijn ze dat ook voor de N-set • Dus: discrimineren lukt alleen onder stopping condities • Correlaties dalen met het toenemen van het aantal SW

  18. Discussie • Waar zitten de gaten? • Vind objectief criterium om aantal SW te bepalen: • Literatuur: 300 of meer • Maximale discriminatie • Proportie verklaarde variantie • Betrouwbaarheid • SW > 1

More Related