240 likes | 569 Views
برچسب گذاری اجزای کلام زبان فارسی. استاد درس: دکتر محسن کاهانی ارائه دهنده : سید محمد اصغری. اردیبهشت 92. یادآوری. هدف /PRP من /JD ترجیح /VB میدهم /TO تا /IN در /DT یک /NN کتابخانه /JJ دانشگاهی /JD مطالعه /VB کنم روشها ارزیابی. فهرست مطالب. مشکلات برچسب گذاری.
E N D
برچسب گذاری اجزای کلام زبان فارسی استاد درس: دکتر محسن کاهانی ارائه دهنده: سید محمد اصغری اردیبهشت 92
یادآوری • هدف • /PRPمن /JDترجیح /VBمیدهم /TOتا /INدر /DTیک /NNکتابخانه /JJدانشگاهی /JDمطالعه /VBکنم • روشها • ارزیابی
مشکلات برچسب گذاری • ساختواژه فارسي و كلمات • وندها مانند نشانه جمع، ضمایر ملکی، کسره اضافه و ... • کتابــهــایـــم • ساختواژه افعال • ابهام در ساختواژه • مردی: نکره ، شناسه دوم شخص • تشخيص كران كلمات • «کتابها»، «کتاب ها»، «کتابها»
مدلی از پیاده سازی برچسب گذاری ابهام زدایی از هم نگاره تشخیص برچسب کلمه ناشناخته تحلیلگر ساختواژی
کارهای انجام شده • اولين كار براي برچسب گذاري زبان فارسي • آسی و حاجی عبدالحسینی 2000 • Megerdoomian 2004 • Raja et al 2007 • ارومچیان 2006 و 2007 • (مرادزاده، 1383 ) • (بي جن خان و مرادزاده، 1383 )
پیکره متنی زبان فارسی • چند نمونه پیکره • پیکره موازی زبان فارسی • همشهری • پیکره بی جن خان* • 2.6 میلیون تگ دستی • 4300 موضوع: حقوقي، سياسي، حسابداري، اقتصادي و ... • 76706 واژه
برچسب های پیکره • دو نسخه • حدود 500 تا 600 برچسب • برچسبها در سه دسته • 1 برچسب هاي نحوي –ساختواژي • اسم، فعل، صفت، قيد، حرف ربط، حرف اضافه، حرف • 2 برچسب هاي خاص • ادات شرط، كيفيت نما، كلمه پرسشي، جمله واره، حرف ندا، منادي، • 3 برچسب هاي متفرقه • جداكننده، علامت رياضي.
تحلیلگر ساختواژی • وجود انواع تکواژها در زبانهای خاص مثل فارسی • تكواژهاي تصريفي • معمولا براي ساخت كلماتي استفاده مي شوند كه حامل مفاهيم دستوري در جمله باشند • تكواژهاي اشتقاقي • كلمات جديد را مي سازند كه بار مفهومي خاصي را منتقل مي كنند. • تکواژهای ترکیبی
تحلیلگر ساختواژی (ادامه) • مشکل • تعداد برچسب هاي متمايز پيكره زیاد و فراوانی کم • تفسيرهاي متفاوت كلمات با بن واژه يكسان • دخترم N,COM,SIM,1 • دختر N,COM خوبم ADJ,CMPR,SIM,1 • راه حل تکواژهای تصریفی • سيستم برچسب گذاري را به يك تحليل گر ساختواژي مجهز كرد.
تحلیلگر ساختواژی (ادامه) • ابتدا بعضی از برچسبهای خاص را حذف میکنیم • برچسبهای تکواژ تصریفی و تکواژهای منتسب
تحلیلگر ساختواژی (ادامه) • حال با توجه به جدول بخش قبل کلمه و برچسب آن هر دو تجزیه می شوند • مثال • کتابها (N,COM,PL) • کتاب + ها (N,COM) + (PL) • انجام برچسب گذاری
کلمات ناشناخته • اطلاعات واژگانی راجع به آنها و نیز توزیع احتمالی وجود ندارد • راههای مقابله
غلبه بر کلمات ناشناخته • روش ساده: بر چسب با بیشترین وقوع
غلبه بر کلمات ناشناخته (ادامه) • توزیع احتمالی کلمات ناشناخته • مقادير احتمالي توزيع مي تواند در برچسب گذارهاي آماري به طور مستقيم استفاده شود • روشهای پیدا کردن توزیع: • پیکره دو بخشی • کلمات ناشناخته = کلماتی که در مجموعه آموزش نیستند • نیاز به پیکره بزرگ • کلمات کم تکرار • کلماتی که یک در کل پیکره ظاهر شدند
غلبه بر کلمات ناشناخته (ادامه) • توجه به وندها • الگوی نمونه • کلمه بیگانگان= ناشناخته • بیگانه N,COM,SING • بیگانگان N COM PL • استخراج قوانین، امتیاز دهی قوانین و ...
هم نگاره ها • نوشتاری یکسان و گفتاری متفاوت • علل هم نگارگی در زبان فارسی • عدم بازنمايي واكه هاي كوتاه در خط فارسي: مرد • عدم تناظر يك به يك ميان واج ها و حروف فارسي
هم نگاره ها (ادامه) • يكساني تظاهر واجي و نوشتاري تكواژها: • /ja'vaani/ . ياء نكره: جواني را ديدم • /javaa'ni/ . ياء اسم ساز: جواني نعمتي است • /ja'vaani/ . ياء شناسه: تو هنوز جواني • / javaa'ni/ .... ياء نسبت: مشكلات جواني • رابطه بين وزن كلمات عربي و بعضي پسوندهاي فارسي • منزلت
هم نگاره ها (ادامه) • راه حل : لیست تصمیم گیری • جمع آوري و برچسب گذاري مجموعه آموزشي • به دست آوردن توزيع هاي باهم آيي • کلمات قبل و بعد • محاسبه نرخ درست نمايي
هم نگاره ها (ادامه) • مرتب سازی بر اساس نرخ درست نمایی • استفاده از لیست تصمیم گیری • با فرض حضور يك هم نگاره در يك زمينه جديد بالاترين پيشامد