300 likes | 581 Views
PART OF SPEECH TAGGING (POS). ارائه دهنده: سید محمد اصغری استاد درس: دکترمحسن کاهانی. فروردین 1392. فهرست مطالب. natural intelligence. A. B. interrogator. artificial intelligence. تعریف NLP. پردازش زبانهای طبیعی علوم زبان شناسی هوش مصنوعی آمار. کاربردهای NLP. شناسايي گفتار
E N D
PART OF SPEECH TAGGING (POS) ارائه دهنده: سید محمد اصغری استاد درس: دکترمحسن کاهانی فروردین 1392
natural intelligence A B interrogator artificial intelligence تعریف NLP • پردازش زبانهای طبیعی • علوم زبان شناسی • هوش مصنوعی • آمار
کاربردهای NLP • شناسايي گفتار • سيستمهاي ديکته، سيستم هاي کنترل روبات • ترکيب گفتار • سيستم هاي متن به گفتار • مقوله بندي متن • خلاصه سازی متن
کاربردهای NLP (ادامه) • نمایه سازی متن • بازيابي متن • استخراج اطلاعات • ترکيب داده ها و استخراج داده هاي متن
کاربردهای NLP (ادامه) • پاسخ به پرسش • ايجاد گزارش • ترجمه ماشینی
ابزارهای پردازش زبان طبیعی • نرمال ساز یا یکسان ساز • تشخیص دهنده جملات • تشخیص دهنده لغات • حذف کننده کلمات ایست • ریشه یاب • برچسب زن اجزای کلام (POS) • پارسر (parser) • برچسب زن معنایی کلام (SRL) • شبکه واژگان • ...
تعریف pos • Part-of-Speech (POS) یا جزء کلام: مقوله نحوی که هر کلمه به آن تعلق دارد. • نامهای دیگر: word classes، lexical tags، tags • POS tagging (tagging): فرایند انتساب مقوله نحوی به هر کلمه در پیکره متنی • POSهای اصلی در انگلیسی: • Nouns • Verbs • Adjectives • Adverbs • Prepositions (on, to, by, from, with, …) • Determiners (a, an, the) • Pronouns (she, who, my, others, …) • Conjunctions (and, but, if, …) • Auxiliaries (can, should, are, …) • Particles (up, down, off, in, out, …) • Numerals (one, two, three, first, second, …)
تعریف pos (ادامه) • بسته به کاربرد، ممکن است POS های جزئی تری در پیکره های متنی به کار روند: • Singular nouns • Plural nouns • Comparative adjectives • Superlative adjectives • Modal verbs • Personal pronouns • Possessive pronouns • … • برای علائم نقطه گذاری هم tag های متفاوتی ممکن است به کار رود. • tag setهای مختلف در انگلیسی: • Penn Treebank tag set: شامل 45 tag • Brown Corpus tag set: شامل 87 tag • C5 tag set: شامل 61 tag • C7 tag set: شامل 146 tag • در پیکره متنی زبان فارسی (دکتر بیجن خان) حدود 660 tag به کار رفته است.
مثال • ورودی: • خروجی
نکات مورد توجه • مجموعه تگ (tagset) • انتخاب مجموعه تگ مناسب • طبقه بندی گرامری واژگان • عبارات • واژگان چند نقش • کلمات ناشناخته
کاربردها • مدل سازی زبانی (در بازشناسی گفتار و ...): مقوله نحوی یک کلمه می تواند در پیش بینی کلمه بعدی کمک کند. • مثال: انگلیسی: ضمایر ملکی+ اسم • فارسی: حرف اضافه (اسم یا ضمیر) • سنتز گفتار: مقوله نحوی یک کلمه می تواند اطلاعاتی در مورد نحوه تلفظ صحیح یک کلمه به ما بدهد. • مثال: تلفظ OBject (noun) و obJECT (verb) • تلفظ”مَرد“ (اسم)، ”مُرد“ (فعل) • بازیابی اطلاعات: دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهم در متن کمک کند. • رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفع ابهام معنایی کلمه کمک کند. • مثال: کلمه watch در انگلیسی و کلمه ”در“ در فارسی • تجزیه نحوی (parsing): برای parsing پایین به بالا در ابتدا نیاز به تعیین مقوله نحوی کلمات داریم.
روش ها • روش های کلی POS tagging: • روش های مبتنی بر قاعده (rule based POS tagging) • روش های آماری (probabilistic/stochastic POS tagging) • روش های ترکیبی (transformation-based POS tagging)
برچسب گذار مبتنی بر قاعده • با استفاده از یک سری rule مقوله نحوی کلمات دارای ابهام را با توجه به کلمات مجاور تعیین می کند. • Ruleها به وسیله زبان شناسان نوشته می شوند. • دو مرحله کلی از POS tagging مبتنی بر قاعده • دیکشنری ----> tags • قواعد +مجاور ----> tag
برچسب گذار مبتنی بر قاعده(ادامه) • مثال: I think that you are clever I: PRON think: V that: PRON, DET, COMP, ADV you: PRON are: AUX clever: ADJ • مثالی از یک rule (از ENGTWOL tagger)56,000 Adverbial-that rule: Given input: “that” If (+1 ADJ/ADV) (+2 SENT-LIM) (NOT -1 V-SVO) then eliminate non-ADV tags else eliminate ADV tag
مدل مارکوف • افق محدود • مستقل از زمان بودن • برچسب يك كلمه تنها وابسته به برچسب كلمه قبلي است (افق محدود ) • اين وابستگي در طول زمان تغيير نمي كند (مستقل از زمان بودن ) براي مثال، اگر يك صفت در اوايل جمله با احتمال 0.2 بعد از يك اسم ظاهر مي شود، اين احتمال در حين برچسب گذاري بقيه جمله يا يك جلمه ديگر تغيير نمي كند و ثابت فرض مي شود. نکته: اشتباه بودن این فرض
مدل مارکوف (ادامه) • هدف : با فرض داشتن دنباله کلمات W=w1…wn، دنباله tagهای T=t1…tnرا طوری پیدا کنید که P(T|W)ماکزیمم شود: • با استفاده از قانون بیز: • باتوجه به ویژگیهای مارکوف میتوانیم مسئله را ساده کنیم: • باتوجه به رابطه قبلی و جایگزاری
آموزش مدل مارکوف • مجموعه یادگیری • 1Pierre/NNPVinken/NNP ,/, 61/CD years/NNS old/JJ ,/, will/MD join/VB the/DT board/NN as/IN a/DT nonexecutive/JJ director/NN Nov./NNP 29/CD ./. • 2Mr./NNPVinken/NNP is/VBZ chairman/NN of/IN Elsevier/NNP N.V./NNP ,/, the/DT Dutch/NNP publishing/VBG group/NN ./. 3 Rudolph/NNP Agnew/NNP ,/, 55/CD years/NNS old/JJ and/CC chairman/NN of/IN Consolidated/NNP Gold/NNP Fields/NNP PLC/NNP ,/, was/VBD named/VBN a/DT nonexecutive/JJ director/NN of/IN this/DT British/JJ industrial/JJ conglomerate/NN ./. • ... • 38,219It/PRP is/VBZ also/RB pulling/VBG 20/CD people/NNS out/IN of/IN Puerto/NNP Rico/NNP ,/, who/WP were/VBD helping/VBGHuricane/NNP Hugo/NNP victims/NNS ,/, and/CC sending/VBG them/PRP to/TO San/NNP Francisco/NNP instead/RB ./.
محاسبه احتمالات مدل مارکوف • براي آموزش مدل فوق بايد احتمالات انتقال و احتمالات خروجي از روي پيكره برچسب خورده به دست آيد. احتمالات انتقال به سادگي به صورت زير به دست مي آيد: • و همچنين احتملات خروجي به صورت زير محاسبه مي شود:
مدلهای n-gram • Bigram • برچسب گذاری که فقط به کلمه قبل وابسته باشد • Trigram • به دو کلمه قبل از خود وابسته است
مثال از مدل trigram • S =the boy laughed • T =DT NN VBD • P(T,S)= P(END|NN, VBD)× P(DT|START, START)× P(NN|START, DT)× P(VBD|DT, NN)× P(the|DT)× P(boy|NN)× P(laughed|VBD)
زنجيره ماركوف: مثال • فرض كنيد كه در يك corpus، 4 برچسب ART، N، V و P با شمارش هاي زير داريم: • احتمال وقوع برچسب هاي مختلف پس از يكديگر را مي توان با زنجيره ماركوف زير نشان داد:
مدل مخفي ماركوف: مثال • محاسبه احتمال P(W|T) با استفاده از مدل مخفي ماركوف: • فرض كنيد كه احتمالات lexical-generation در corpus فرضي به صورت زير است:
مدلهای مبتنی بر حافظه • استفاده از یادگیری ماشین • عدم نیاز به پیکره بزرگ برای یادگیری • تلفیقی از دو روش قبل: • نمونه ذخیره شده = قانون ، استدلال مبتنی بر تشابه = انتخاب قانون • استفاده از یادگیری ماشین • دارای سه بخش • واژگان = کلمات و نشانه ها • پایگاه کلمات شناخته شده = کلمات و نشانه ها و مجاورتها • پایگاه کلمات ناشناخته
ارزيابي • پيكره متني به دو بخش تقسيم مي شود: • 80-90% از پيكره براي آموزش (train) • 10-20% از پيكره براي آزمون (test) • با استفاده از داده آموزش آمارهاي لازم استخراج مي گردد و سپس POS tagging برروي داده آزمون تست مي شود. • انواع متون در پیکره: • رسمی • غیر رسمی • محاوره ای • تكنيك اعتبارسنجي متقابل 5 قسمتي: • پيكره متني به K قسمت مساوي تقسيم مي شود. • در هر مرحله از ارزيابي، يك بخش براي آزمون و K-1 بخش ديگر براي آموزش به كار مي رود. • اين روند K بار تكرار مي گردد و درنهايت از نتايج ارزيابي K مرحله ميانگين گرفته مي شود. • دقت POS tagging: