170 likes | 333 Views
حضرت علی علیه السلام: هرگاه خداوند بنده ای را پست و ذلیل فرماید علم را برای او ممنوع میسازد 92/5/9. ساختار ارائه. معرفی برچسب گذار کاربردها روشها شرح مراحل انجام پروژه پیاده سازی برچسب گذار زبان فارسی ایجاد دیکشنری ایجاد و ارزیابی قواعد کلمات ناشناخته شناسایی فعل ارزیابی.
E N D
حضرت علی علیه السلام: هرگاه خداوند بنده ای را پست و ذلیل فرماید علم را برای او ممنوع میسازد 92/5/9
ساختار ارائه • معرفی برچسب گذار • کاربردها • روشها • شرح مراحل انجام پروژه پیاده سازی برچسب گذار زبان فارسی • ایجاد دیکشنری • ایجاد و ارزیابی قواعد • کلمات ناشناخته • شناسایی فعل • ارزیابی
نمونه ابزار انگلیسی • ورودی: • خروجی
کاربردها • مدل سازی زبانی (در بازشناسی گفتار و ...): مقوله نحوی یک کلمه می تواند در پیش بینی کلمه بعدی کمک کند. • مثال: انگلیسی: ضمایر ملکی+ اسم • فارسی: حرف اضافه (اسم یا ضمیر) • سنتز گفتار: مقوله نحوی یک کلمه می تواند اطلاعاتی در مورد نحوه تلفظ صحیح یک کلمه به ما بدهد. • مثال: تلفظ OBject (noun) و obJECT (verb) • تلفظ”مَرد“ (اسم)، ”مُرد“ (فعل) • بازیابی اطلاعات: دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهم در متن کمک کند. • رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفع ابهام معنایی کلمه کمک کند. • مثال: کلمه watch در انگلیسی و کلمه ”در“ در فارسی • تجزیه نحوی (parsing): برای parsing پایین به بالا در ابتدا نیاز به تعیین مقوله نحوی کلمات داریم.
روشها • روش های کلی POS tagging: • روش های مبتنی بر قاعده (rule based POS tagging) • دیکشنری ----> tags • قواعد +مجاور ----> tag • روش های آماری (probabilistic/stochastic POS tagging) • روش های ترکیبی (transformation-based POS tagging)
ارزیابی • پيكره متني به دو بخش تقسيم مي شود: • 80-90% از پيكره براي آموزش (train) • 10-20% از پيكره براي آزمون (test) • با استفاده از داده آموزش آمارهاي لازم استخراج مي گردد و سپس POS tagging برروي داده آزمون تست مي شود. • تكنيك اعتبارسنجي متقابل 5 قسمتي: • پيكره متني به K قسمت مساوي تقسيم مي شود. • در هر مرحله از ارزيابي، يك بخش براي آزمون و K-1 بخش ديگر براي آموزش به كار مي رود. • اين روند K بار تكرار مي گردد و درنهايت از نتايج ارزيابي K مرحله ميانگين گرفته مي شود. • دقت POS tagging:
بخش دوم پیاده سازی برچسب گذار زبان فارسی
ایجاد دیکشنری • ترکیب هر سه پیکره (آموزش ، تست و ارزیابی) • نرمالسازی متن • شمارش تگهای هر کلمه • 167وارد ADJ • 12 وارد N • پر تکرار ترین برچسب به عنوان تگ پیشفرض
قواعد • انواع قوانین TAG-1TAG-2TAG-3 TAG-3 TAG-X when TAG-2@ (-1) TAG-1@ (-2) TAG-1 TAG-X when TAG-2@ (+1) TAG-3 @ (+2) TAG-2 TAG-X when TAG-3 @ (+1) • استفاده از قواعد قبلی • ساخت قواعد جدید
ایجاد قواعد جدید PREP N N N N N N N PREP N PREP N PREP N PUNC N PUNC PREP PUNC PREP N PREP N N N N ADJ N ADJ N ADJ N PREP ... • استخراج سه گانه های داخل متن • محاسبه مجموع دفعات ظهور هر سه گانه
ایجاد قواعد جدید (ادامه) • دسته بندی و محاسبه درصد وقوع در هر دسته • DJ ADV N 32.75% • DJ ADV PREP 26.95% • DJ ADV V 15.37% • DJ ADV DJ 10.33% • DJ ADV PRENUM 4.03% • DJ ADV ADV 3.27% • DJ ADV PUNC 2.27% • DJ ADV SUBR 2.02% • DJ ADV PREM 1.76% • DJ ADV PR 1.26% • تبدیل سه گانه های کم تکرار به سه گانه های پر تکرار PR N when ADV @ (-1) DJ @ (-2) PR PREP when ADV @ (-1) DJ @ (-2) • تست قواعد سه گانه های بیشتر از 20 درصد سه گانه های کمتر از 10 درصد
دسته بندی قواعد دو PRENUM N POSNUM PREM دوم POSNUM N ADJ PRENUM را POSTP PART N PREP سر N PREP IDEN ADJ سراسر N ADJ PREM ADV علامه N IDEN ADJ N علمیه ADJ N ADJ N • کلمه «سراسر» کلاس تبدیل N به PREM کلاس تبدیل N به ADV N -> ADJ if POSNUM @ [-1] PR @ [-2] N -> ADJif PSUS @ [-1] PREM @ [-2] N -> ADJ if POSTP @ [-1] PRENUM @ [-2] . . . کلاس تبدیل N به ADJ
بهبود عملکرد • افعال چند بخشی • شناسایی فعل کمکی و ترکیب با فعل اصلی • شناسایی کلمات ناشناخته= توجه به وندها • وندهای سازنده صفات نظیر: انگیز، گیر ، مند و ... • وندهای صرف افعال: اند ، اید ، ایم و ... • وندهای اسامی جمع: ان ، گان، ها • ... • تگ پیشفرض = اسم مفرد
کارهای آتی • تست قواعد و بهبود آنها • توسعه برچسب گذار در لایه دوم • ایجاد پارسر زبان فارسی