80 likes | 175 Views
Inhaltserschliessung ein Beispiel. Titel: Abstract: Titel suggeriert: Die 3 häufigsten Wörter des Abstracts: . A Bibliographic Search by Computer
E N D
Inhaltserschliessungein Beispiel Titel: Abstract: Titel suggeriert: Die 3 häufigsten Wörter des Abstracts: A Bibliographic Search by Computer Updating plasma-physics data was a chance to experiment with information and programs of the Technical Information Project at MIT. The computer searched for indicative words in titles of papers that shared bibliographic references and those that referred to papers that have become classics in plasma-physics. Bibliographic, Search, Computer Plasma- Physics, Information, Papers
Inverse Dokumentenhäufigkeit idf N: Totalanzahl der Dokumente der Kollektion nk: Anzahl der Dokumente, die Term k enthalten idf k =log +1 Gewichtung wik mit idf: wik =tfik • idf k tfik: Häufigkeit von Term k in Dokument i
pik = wo Ni: Anzahl token im Objekt i Termhäufigkeit: Vergleich mit Normtext Vergleiche relative Häufigkeit von Term k in Objekt i mit der relativen Häufigkeit von Term k in einem Normtext: = wo z.B. NNorm = 106 Relative Häufigkeit pk von k bezüglich eines Normtextes: pk=
Vergleich mit Normtextein Beispiel Text: Needham, G.A.: „Advanced Integrated Circuits Packaging“, SCP and Solid State Technology, June 1965. Ni = 1515
Vergleich mit Normtextein Beispiel Text: Stiles, H.E.: „The Association Factor in Information Retieval“, JACM 8, 1961 Ni = 3188
Stop List Contains about 250 common words. A typical stop list starts as follows: ANYWHERE ARE AROUND AS AT BE BECAME BECAUSE BECOME BECOMES BECOMING ... ALSO ALTHOUGH ALWAYS AMONG AMONGST AN AND ANOTHER ANY ANYHOW ANYONE ANYTHING A ABOUT ACROSS AFTER AFTERWARDS AGAIN AGAINST ALL ALMOST ALONE ALONG ALREADY
Wortreduktions-Algorithmen • Wörterbuchbasierte:Ergebnis: im allgemeinen linguistisch korrekter Wortstamm.z.B.: Algorithmus von Lovins • Wörterbuchunabhängige:Ergebnis: reduziertes Wort, d.h. oft Pseudo-Wortstamm, der linguistisch nicht korrekt ist.z.B.: Algorithmus von Porter
Suffix List ABILITIES ABILITY ABLE ABLED ABLEDLY ABLENESS ABLER ABLES ABLING ABLINGFUL ABLINGLY ABLY ACEOUS Exerpt from a typical suffix list: ACEOUSLY ACEOUSNESS ACEOUSNESSES ACIDOUS ACIDOUSLY ACIES ACIOUSNESS ACIOUSNESSES ACITIES ACITY ACY AE AGE AGED AGER AGES AGING AGINGFUL AGINGLY AIC AICAL AICALLY AICALS AICISM AICISMS ...