1 / 12

Programsko ogrodje za procesiranje besedil v naravnem jeziku

Programsko ogrodje za procesiranje besedil v naravnem jeziku. Magistrsko delo Avtor: Janez BREZOVNIK Mentor: izr. prof. dr. Milan OJSTERŠEK. Vsebina. Motivacija Raziskovalno področje Cilji TextProc Nadaljnje delo. Motivacija. Motivacija. Raziskovalno področje.

ivo
Download Presentation

Programsko ogrodje za procesiranje besedil v naravnem jeziku

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Programsko ogrodje za procesiranje besedil v naravnem jeziku Magistrsko delo Avtor: Janez BREZOVNIK Mentor: izr. prof. dr. Milan OJSTERŠEK

  2. Vsebina • Motivacija • Raziskovalno področje • Cilji • TextProc • Nadaljnje delo

  3. Motivacija

  4. Motivacija

  5. Raziskovalno področje • Procesiranje besedil v naravnem jeziku (angl. “NaturalLanguageProcessing” oz. NLP) • Tekstovno rudarjenje (angl. “TextMining” oz. TM)

  6. Cilji • Predstaviti osnove NLP in TM • Implementirati ogrodje za obdelavo besedil • Poudarek na za slovenskem jeziku • Algoritmi NLP in TM kot programski dodatki • Enostavna uporaba v drugih rešitvah oz. enostavna integracija

  7. TextProc

  8. TextProc proces • Izbrani dodatki z nastavitvami • Korpus: • Zbirka TextProc dokumentov: • Golo besedilo • Rezultat procesiranja (seznami značk) • Nastavitve procesa • Skripta (opcijsko)

  9. TextProc dokument TextProc dokument Besedilo: T o j e p r i m e r . Tokens: WC: Naziv WC: Presledek WC: MalaBeseda WC: Presledek WC: MalaBeseda WC: Končilo BV: Zaimek BV: Glagol BV: samostalnik Stavki: Tip: Stavek Povedi: Tip: Povedna

  10. Možnosti uporabe • Označevalnik imenovanih entitet • Označevalnik stavčnih členov: • TreeTagger • Slo-ang. paralelni korpus IJS-ELAN • Wikifikator (za slovenščino) • Detektor plagiatov: • Izključno za besedila v slovenskem jeziku • …

  11. Nadaljnje delo • Več poudarka na algoritmih NLP in TM • Priprava okolja za razvoj dodatkov • Poskus v realnem okolju (integracija) • Razmislek o paralelizaciji

  12. Vprašanja

More Related