1 / 15

RO-Stemmer mit Snowball Spezifikation 17.05.2006 Doina Glig ă Erwin Glockner Marina Steg ă rescu

RO-Stemmer mit Snowball Spezifikation 17.05.2006 Doina Glig ă Erwin Glockner Marina Steg ă rescu. Inhaltsübersicht. Stemmer Porters Algorithmus Porters Snowball Rumänisch Flexionsstruktur Homonymie Implementierung Werkzeug Ablauf. Studienprojekt: Rumänisch-Stemmer mit Snowball

Download Presentation

RO-Stemmer mit Snowball Spezifikation 17.05.2006 Doina Glig ă Erwin Glockner Marina Steg ă rescu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. RO-Stemmer mit Snowball Spezifikation 17.05.2006 Doina Gligă Erwin Glockner Marina Stegărescu

  2. Inhaltsübersicht • Stemmer • Porters Algorithmus • Porters Snowball • Rumänisch • Flexionsstruktur • Homonymie • Implementierung • Werkzeug • Ablauf Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  3. Was wollen wir machen? • Entwicklung eines Stemmers in Snowball für Rumänisch Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  4. Was sind Stemmer? • Programme, die Wörter auf ihren gemeinsamen Wortstamm zurückführen • vor allem als Komponente der IR-Systeme entwickelt und benutzt • Linguistische Analyse Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  5. Stemmer • Lexikonbasierte • Korpusbasierte • Regelbasierte Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  6. Was braucht man für die Entwicklung eines Stemmers? • Verfahren  Porters Algorithmus • Sprache  Snowball Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  7. Porters Algorithmus • Menge von Verkürzungsregeln: Bedingungen und Ableitungen für verschiedene Suffixe • Maßgeblich: Vokal-Konsonant-Sequenzen • Regelanwendung auf die Vokal-Konsonant-Sequenzen Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  8. Snowball • Snowball: stringverarbeitende Sprache • ermöglicht das einfache und exakte Repräsentieren von Stemmingalgorithmen • entwickelt von Martin Porter Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  9. Porters Idee • Entwicklung einer Sprache “ … in which the rules of stemming algorithms can be expressed in a natural way.“ Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  10. Snowball vs. C loop AE C This is like C C ... C written out AE times, where AE is an arithmetic expression. For example, $x loop 2 gopast ('a' or 'e' or 'i' or 'o' or 'u') /* position c after the second vowel */ The equivalent expression in C has the shape, { int i; int limit = AE; for (i = 0; i < limit; i++) C; } Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  11. Rumänien http://worldatlas.com/webimage/countrys/europe/ro.htm Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  12. Das Rumänische • Romanische Sprache, mit einem starken slavischen Einfluß • Wortschatz: • Ca. 70% romanischer Herkunft (Lateinisch + andere romanischen Sprachen) • Ca. 20% - Slavisch • ~10% anderer Herkunft (Türkisch, Ungarisch, Griechisch, Deutsch etc) • Das grammatische System - > lateinisch • 7 Vokalen <a,e,i,ă,â/î,o,u> • 22 Konsonnanten <ş, ţ> Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  13. Begriffe • Wurzel (Root) - die Sequenz des Wortes, die nicht mehr zerlegbar ist und in lautlicher und semantischer Hinsicht, als Ausgangsbasis entsprechender Wortfamilie angesehen wird • Cânt-a (singen) • Stamm – Morphem oder Morphemkonstruktion, an die Flexionsendungen treten können • Descânt-a (durch Spüche Zauber vertreiben) • Flexionselemente – die Menge aller Elemente, die inparadigmatischer Relation mit dem Stamm eines Wortes sind, und das Flexionsparadigma dieses Wortes bildet • Flexionsparadigma – die Menge aller Flexionsformen des Wortes Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  14. Rumänische Morphologie • Das Wort – 1 – 7 Silben; ( Flektionsmarker inkl.) • Pori [1] (Poren) • Imbunatatirile [6] (die Verbesserungen) • 1-3 Stämme • Pom <sg, o.Art> pom -i <pl., o.Art> pom-u-lui <sg. Art. G/D> • Fat-a fet-e • Om <sg, o.Art> oamen -i • Frumos <sg., m.> frumoş -i<pl.m.>frumoas-e<pl. f.> • Flexionsstruktur - umfangreich • Nom : - Genus: <M,F,N>> • Art <+bestimmter: -> (+/-Des) Suffix> <unbestimmter :-> anderes Wort> • Numerus <Sg, Pl> • Casus <N,Ak,D,G,V> • Adjektiv : <+ Art : Adj + N> • Verb: <Gruppe: 4>, Modus: <Präd: 4><Npräd:4> • P:: Stamm +(Vok)+ (Suffix) + (Suffix) + Flektionsmarker • Muncitorimea Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

  15. Literatur • Luciana Peev, Lidia Bibolar, Jodal, Endre, A Formalization Model of the Romanian Morphology • http://www.racai.ro/books/awde/peev.html • Jörg Meibauer & al. , Einführung in die germanistische Linguistik, Stuttgart, 2002 • I. Coteanu, Limba română contemporană, vol. I, , Bucureşti, 1974 • http://snowball.tartarus.org/ Studienprojekt: Rumänisch-Stemmer mit Snowball Doina Gligă, Erwin Glockner, Marina Stegărescu

More Related