1 / 23

برچسب گذاری اجزای کلام زبان فارسی

برچسب گذاری اجزای کلام زبان فارسی. استاد درس: دکتر محسن کاهانی ارائه دهنده : سید محمد اصغری. اردیبهشت 92. یادآوری. هدف /PRP من /JD ترجیح /VB میدهم /TO تا /IN در /DT یک /NN کتابخانه /JJ دانشگاهی /JD مطالعه /VB کنم روشها ارزیابی. فهرست مطالب. مشکلات برچسب گذاری.

ezhno
Download Presentation

برچسب گذاری اجزای کلام زبان فارسی

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. برچسب گذاری اجزای کلام زبان فارسی استاد درس: دکتر محسن کاهانی ارائه دهنده: سید محمد اصغری اردیبهشت 92

  2. یادآوری • هدف • /PRPمن /JDترجیح /VBمیدهم /TOتا /INدر /DTیک /NNکتابخانه /JJدانشگاهی /JDمطالعه /VBکنم • روشها • ارزیابی

  3. فهرست مطالب

  4. مشکلات برچسب گذاری • ساختواژه فارسي و كلمات • وندها مانند نشانه جمع، ضمایر ملکی، کسره اضافه و ... • کتابــهــایـــم • ساختواژه افعال • ابهام در ساختواژه • مردی: نکره ، شناسه دوم شخص • تشخيص كران كلمات • «کتابها»، «کتاب ها»، «کتاب‌ها»

  5. مدلی از پیاده سازی برچسب گذاری ابهام زدایی از هم نگاره تشخیص برچسب کلمه ناشناخته تحلیلگر ساختواژی

  6. کارهای انجام شده • اولين كار براي برچسب گذاري زبان فارسي • آسی و حاجی عبدالحسینی 2000 • Megerdoomian 2004 • Raja et al 2007 • ارومچیان 2006 و 2007 • (مرادزاده، 1383 ) • (بي جن خان و مرادزاده، 1383 )

  7. پیکره متنی زبان فارسی • چند نمونه پیکره • پیکره موازی زبان فارسی • همشهری • پیکره بی جن خان* • 2.6 میلیون تگ دستی • 4300 موضوع: حقوقي، سياسي، حسابداري، اقتصادي و ... • 76706 واژه

  8. برچسب های پیکره • دو نسخه • حدود 500 تا 600 برچسب • برچسبها در سه دسته • 1 برچسب هاي نحوي –ساختواژي • اسم، فعل، صفت، قيد، حرف ربط، حرف اضافه، حرف • 2 برچسب هاي خاص • ادات شرط، كيفيت نما، كلمه پرسشي، جمله واره، حرف ندا، منادي، • 3 برچسب هاي متفرقه • جداكننده، علامت رياضي.

  9. نمونه برچسبها

  10. بخشی از پیکره

  11. تحلیلگر ساختواژی • وجود انواع تکواژها در زبانهای خاص مثل فارسی • تكواژهاي تصريفي • معمولا براي ساخت كلماتي استفاده مي شوند كه حامل مفاهيم دستوري در جمله باشند • تكواژهاي اشتقاقي • كلمات جديد را مي سازند كه بار مفهومي خاصي را منتقل مي كنند. • تکواژهای ترکیبی

  12. تحلیلگر ساختواژی (ادامه) • مشکل • تعداد برچسب هاي متمايز پيكره زیاد و فراوانی کم • تفسيرهاي متفاوت كلمات با بن واژه يكسان • دخترم N,COM,SIM,1 • دختر N,COM خوبم ADJ,CMPR,SIM,1 • راه حل تکواژهای تصریفی • سيستم برچسب گذاري را به يك تحليل گر ساختواژي مجهز كرد.

  13. تحلیلگر ساختواژی (ادامه) • ابتدا بعضی از برچسبهای خاص را حذف میکنیم • برچسبهای تکواژ تصریفی و تکواژهای منتسب

  14. تحلیلگر ساختواژی (ادامه) • حال با توجه به جدول بخش قبل کلمه و برچسب آن هر دو تجزیه می شوند • مثال • کتابها (N,COM,PL) • کتاب + ها (N,COM) + (PL) • انجام برچسب گذاری

  15. کلمات ناشناخته • اطلاعات واژگانی راجع به آنها و نیز توزیع احتمالی وجود ندارد • راههای مقابله

  16. غلبه بر کلمات ناشناخته • روش ساده: بر چسب با بیشترین وقوع

  17. غلبه بر کلمات ناشناخته (ادامه) • توزیع احتمالی کلمات ناشناخته • مقادير احتمالي توزيع مي تواند در برچسب گذارهاي آماري به طور مستقيم استفاده شود • روشهای پیدا کردن توزیع: • پیکره دو بخشی • کلمات ناشناخته = کلماتی که در مجموعه آموزش نیستند • نیاز به پیکره بزرگ • کلمات کم تکرار • کلماتی که یک در کل پیکره ظاهر شدند

  18. غلبه بر کلمات ناشناخته (ادامه) • توجه به وندها • الگوی نمونه • کلمه بیگانگان= ناشناخته • بیگانه N,COM,SING • بیگانگان N COM PL • استخراج قوانین، امتیاز دهی قوانین و ...

  19. هم نگاره ها • نوشتاری یکسان و گفتاری متفاوت • علل هم نگارگی در زبان فارسی • عدم بازنمايي واكه هاي كوتاه در خط فارسي: مرد • عدم تناظر يك به يك ميان واج ها و حروف فارسي

  20. هم نگاره ها (ادامه) • يكساني تظاهر واجي و نوشتاري تكواژها: • /ja'vaani/ . ياء نكره: جواني را ديدم • /javaa'ni/ . ياء اسم ساز: جواني نعمتي است • /ja'vaani/ . ياء شناسه: تو هنوز جواني • / javaa'ni/ .... ياء نسبت: مشكلات جواني • رابطه بين وزن كلمات عربي و بعضي پسوندهاي فارسي • منزلت

  21. هم نگاره ها (ادامه) • راه حل : لیست تصمیم گیری • جمع آوري و برچسب گذاري مجموعه آموزشي • به دست آوردن توزيع هاي باهم آيي • کلمات قبل و بعد • محاسبه نرخ درست نمايي

  22. هم نگاره ها (ادامه) • مرتب سازی بر اساس نرخ درست نمایی • استفاده از لیست تصمیم گیری • با فرض حضور يك هم نگاره در يك زمينه جديد بالاترين پيشامد

  23. سپاس از صبر و توجه شما

More Related