280 likes | 391 Views
Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium). Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation. Inhaltsübersicht Einleitung und Übersicht
E N D
Entwicklung eines Werkzeugs zurOnline Textanalyse und -klassifikationMagisterarbeitim Studiengang Linguistische Informatik(Magister Artium)
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation Inhaltsübersicht • Einleitung und Übersicht • Demonstration der Textmühle • Theoretische Überlegungen • Aufbau und Struktur der Textmühle • Fazit
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Einleitung und Übersicht • Wofür wird die Textmühle eingesetzt? • Verarbeitung von Texten und Korpora • Konvertierung von Dateiformaten • Erstellung von Wort- und Frequenzlisten • Morphologische Analysen (mit malaga, bzw. jslim) • kontrollierte Erstellung von Korpora • Statistische Berechnungen • Verteilungen von Domänen eines Korpus • Wortanzahlen in Texten und Domänen • Type/Token-Verteilungen • Klassifikation / Clusteranalyse
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Einleitung und Übersicht Übersicht zu den Dateiformaten im WWW Berücksichtigung bei Textmühle
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Einleitung und Übersicht Übersicht zu den Dateiformaten im WWW
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Einleitung und Übersicht • Was sind die wesentlichen Merkmale der Textmühle? • Zugriff über das Internet • Verarbeitung der Anforderungen erfolgt auf dem Server • Programmierung in einer „offenen“ Programmiersprache (PHP) • Keine Abhängigkeit vom Betriebssystem des Benutzers • Leichter Zugang zu Daten und Bearbeitungsprozeduren • Keine umständliche Installation und Konfiguration für den Nutzer • Zusammenarbeit mit anderen Applikationen im WWW
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Demonstration • Verarbeitung eines Korpus anhand einer Beispielkollektion • Analyseergebnisee des Testkorpus wifi • Der Ablauf der Verarbeitungsschritte: • Import • Konvertierung • Filter • Frequenzliste • Morphologie • Clusteranalyse
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Demonstration
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.1 Basiselemente Linguistischer Analysen • Term - Wort, Wortform, Grundform, Morphem und Allomorph • Text • Korpus Praktischer Analyseansatz zur Tokenisierung: Das Wort ist eine sprachliche Einheit, die in der geschriebenen Sprache durch Leerstellen begrenzt ist. Herbst, Stoll, u. Westermayr (1991, S. 79, Definition 317) Pragmatische Definition von Text und Korpus: Der Terminus “Text“ bezeichnet eine begrenzte Folge von sprachlichen Zeichen […] Brinker (2005, S.17f) Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen […] Lemnitzer u. Zinsmeister (2006, S. 40)
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen Einschub: Korpuskodierungen Welche Korpuskodierungen sind gebräuchlich? → überwiegend scheint eine XML-Codierung das Gebräuchlichste zu sein: Korpus Umfang Kodierung Reuters Corpus ~ 200 Mio. lfd. Wortformen XML DWDS1 ~ 40 Mio. lfd. Wortformen XML AAC2 ~ 100 Mio. lfd. Wortformen n.b. Deutsches Referenzkorpus ~ 2.000 Mio. lfd. Wortformen IDS-Textmodell (XML) negr@ corpus ~ 350 Tsd. lfd. Wortformen SQL-DB BNC ~ 100 Mio. lfd. Wortformen XML (neue Version) COBUILD3 ~ 65 Mio. lfd. Wortformen n.b. Oslo ~ 1,5 Mio. lfd. Wortformen txt/ascii LIMAS ~ 1 Mio. lfd. Wortformen n.b. 1 DWDS: Digitales Wörterbuch der deutschen Sprache 2 AAC: Austrian Academy Corpus (kaum Informationen via www zugänglich) 3 COBUILD: Die Internetpräsenz des Collins-COBUILD Korpus ist z.Zt. nicht verfügbar
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.2 Knowledge Discovery • Unvorstellbare Mengen an Dokumenten und Daten • Methoden zur Aufdeckung versteckter Zusammenhänge oder weitergehender Informationen (Data Mining, Text Mining) Benachbarte Gebiete des KD nach Hotho (2004, S.30)
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining • Stopplisten • Anwendung linguistischen Wissens (Morphologische Analyse) • Löschen von seltenen Wörtern (insbesondere Hapax Legomena) • Normierung und Gewichtung der Daten • Unter Berücksichtigung kritischer Einflussfaktoren: • Datenmenge • Dateiformate • Zeichensätze • Sprache der Dokumente
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining: Einflussfaktoren • Datenmenge • Entwicklung 60er Jahre bis Gegenwart: Anzahl der laufenden Wortformen (z.T. 100 Mio. und mehr) • Datenübertragungsrate für Internetanwendungen Zeitl. Abfolge
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining: Einflussfaktoren • Dateiformate • Abdecken möglichst vieler verschiedener Eingangsformate • Probleme bei proprietären Formaten (z.B. Microsoft) • Verfügbarkeit von Anwendungen zur Konvertierung • Zeichensätze • Quasi-Standard UTF-8 für Internet • Problem der Erkennung der konkreten Ausgangskodierung (z.B. ISO-x, Ascii, Ansi) • Theoretische Lösung: Annotierung der Kodierung mit XML • Verwendete Sprache der Daten • Prinzipiell gelöstes Teilproblem für hinreichend große Textlänge • Problem der Multilingualität in Texten (insbesondere im WWW)
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining • Ansätze zur Anwendung linguistischen Wissens • Probabilistisches Stemming • „Linguistisches“ Stemming • Linguistische morphologische Analyse Die zugrunde liegende Theorie, die Allomorph-Methode, basiert auf der von Roland R. Hausser entwickelten SLIM-Sprachtheorie • Zerlegung der Oberfläche (Segmentierung) • Klassifikation der elementaren Bestandteile (Lexical-Lookup) • Regelbasierte Zusammensetzung und grammatische Gesamtanalyse der Wortform (Konkatenation) • Stoplisten • Reduktion auf die semantisch relevanten Elemente • Qualitätsverbesserung für Stoplisten durch Wortformerkennung
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining • Löschen seltener Wörter • Rechnerisch aufwendige Clusteranalyse bedingt Reduktion der berücksichtigten Terme/Wörter • Reduktion von Ausreissern („Rauschen“) Absicherung: Vorkommenshäufigkeit < Schranke • Methoden: Dokument-Pruning und Wort-Pruning • Entfernen von invarianten Wörtern • Normierung und Gewichtung • Skalierung der Frequenzen an Normgröße • Ermöglicht Verfahren mit absoluten Frequenzen • Verdeckung von Unterscheidungsmerkmal Text-/ Domänengröße • Gewichtung der Wortdimensionen • tfidf: Ausreisser (sehr hohe bzw. sehr niedrige Frequenz erhalten niedrigeres Gewicht) • Gewichtung nach Varianz
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.4 Clusteranalyse • Ziel einer Clusteranalyse: Auffinden von homogenen Teilmengen von Objekten in einer heterogenen Gesamtheit von Objekten • Vielfältige Anwendungsgebiete: Archäologie, Biologie, Chemie, (Computer-)Linguistik, Geologie, Informatik, Klimaforschung, Medizin, Psychologie, Soziologie, Wirtschaftswissenschaften… • Problem des Entscheidungszwangs zu maximaler Homogenität in einer Gruppe oder maximaler Heterogenität zwischen Gruppen • Hauptproblem: eindeutige Bestimmung des geeignetsten Verfahrens Aufgrund der Berechenbarkeit: Bei 10 Elementen und 5 Gruppen bestehen 42525 Möglichkeiten Bei 50 Elementen sind es bereits 7,401 •1032 Möglichkeiten
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.4 Clusteranalyse • Überblick zu den gängigen Verfahren Clusteralgorithmen nach Backhaus u.a. 2005, S. 511
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.4 Clusteranalyse • Zugrundeliegende Repräsentation: Vektorraummodell • Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der Eigenschaften von Clusterelementen • Basis-Algorithmen K-means Algorithmus als Beispiel für partitionierende Verfahren 1 Initiale Auswahl von K Elementen als Clusterzentren 2(wiederhole solange) 3 Bilde K neue Cluster durch Zuordnung jedes Elements zu dem ihm nächsten stehenden Clusterzentrums 4 Neuberechnung aller Clusterzentren 5(bis sich die Clusterzentren nicht mehr verändern) • Probleme bei partitionierenden Verfahren: • Die Zielfunktion hat zu großen Einfluss auf das Ergebnis • Wahl der Startgruppierung ist oft nur subjektiv • Unlösbarkeit des Problems der lokalen Optima
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.4 Clusteranalyse • Zugrundeliegende Repräsentation: Vektorraummodell • Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der Eigenschaften von Clusterelementen • Basis-Algorithmen Schematischer Ablauf aller agglomerierendenVerfahren 1(wenn erforderlich) Berechnen der Distanz- oder Ähnlichkeitsmatrix 2(wiederhole solange) 3 Vereinige die beiden Cluster, die sich am nächsten stehen 4 Berechnung des neu gebildeten Clusters und Substitution der beiden vorherigen Cluster in der Distanz- oder Ähnlichkeitsmatrix 5(bis nur noch ein Cluster mit allen Elementen übrig ist) • Probleme bei agglomerierenden Verfahren: • Gefahr einer fehlerhaften irreversiblen Zuordnung • Berechnungsaufwand für divisive Methode (Top-Down)
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.4 Clusteranalyse: Überblick zu agglomierierenden Verfahren • Single-Linkage-Verfahren („Nearest Neighbor“) • Complete-Linkage-Verfahren („Furthest Neighbor“) • Centroid-Verfahren (Bezug auf Clustermittelpunkte) • Ward‘s Methode • Einsatz des Varianzkriteriums • Fusionierung der Elemente mit dem minimalen Fehlerzuwachs → im intuitiven Ansatz bereits bessere Ergebnisse als die meisten anderen Verfahren → vor allem für größenordnungsmäßig vergleichbare Cluster geeignet
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.4 Clusteranalyse: Visualisierung der Ergebnisse Darstellung der Ausgangsdaten • Darstellung von Punktewolken der Merkmale (n-1 2-dimensionale Darst.) • Histogramm Darstellung der Analysen • Dendrogramm • Struktogramm „Ellbogen-Kriterium“
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Theoretische Überlegungen 3.4 Clusteranalyse: Varianten der Textklassifikation • Initiale Klassifikation innerhalb eines Korpus • Klassifikation eines neuen Textes • Anwendung existierender Ähnlichkeits- und Distanzmatrizen • Erneute Clusteranalyse mit n+1 Elementen und ggf. Neuverteilung • Gruppierung/Klassifikation mittels Cluster-Analyse funktioniert bereits mit niedriger Dimensionalität • Verbesserungansätze von Analyseergebnissen durch Einsatz von Ontologien („Konzeptbildung“)
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Aufbau und Struktur der Textmühle 4.1 Systemumfeld und technischer Rahmen • Entwicklung der Textmühle in PHP, Dateisystemoperationen in Perl • Zugrunde liegendes Prinzip von Client-Server-Anwendungen
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Aufbau und Struktur der Textmühle 4.1 Systemumfeld und technischer Rahmen • Berücksichtigung des modularen Aufbaus bei Implementierung • Entwicklung mit Eclipse, Versionierung mit Subversion • Integration von bestehenden Anwendungen: • Grammatikentwicklungssysteme Malaga und jslim • Konvertierungsprogramme für XML-Formate, pdf und ps • Xpdf, Ghostscript (Win) vs. ps2ascii, html2text (Suse-Linux), PHP SDOM Parser • Ajax-Modul sajax für verbesserte Bedienung und parallele Anfragen • Grafikbibliothek phplot zur Generierung der Diagramme und Grafiken • weitere PHP-Module für spezifische Funktionen
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Aufbau und Struktur der Textmühle 4.2 Aufbau der Textmühle (Module) • Benutzeroberfläche • Benutzerrollen und –konten • Internationalisierung • Fehlerbehandlung • Struktur der GUI
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation Vorhergehende Probleme: Neuentwicklung des Korpusprozesses mit Unterstützung mittels Perl • Aufbau und Struktur der Textmühle 4.2 Aufbau der Textmühle (Module) • Gesamtprozess
Nicolas Goessnitzer Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation • Fazit Erkenntnisse aus Einsatztests und Anwendung • Erzeugung von vielfältigen Analysedaten • Wortanzahlen bgzl. Texten und Domänen • Frequenzverteilungen (Type-Token, Terme) • Morphologische Analyse der Wortformen • Clusteranalyse • Problemstellungen • Performance bei Internetanbindung der Morphologiemodule • Integration Dateimodus • Anforderungen an Serverkonfiguration und –leistung • Zukünftige Planung • Weiterentwicklung • Direktanbindung Morphologie • OpenSource?