1 / 39

استخراج بی‌ناظر ظرفیت فعل در زبان فارسی بر مبنای دستور وابستگی

استخراج بی‌ناظر ظرفیت فعل در زبان فارسی بر مبنای دستور وابستگی. محمدصادق رسولی استاد راهنما: دکتر بهروز مینایی بیدگلی استاد مشاور: دکتر هشام فیلی rasooli@comp.iust.ac.ir , rasooli.ms.@gmail.com. فهرست. مفهوم ظرفیت واژگانی در زبان ابهام‌های مسأله شناخت فعل شناخت فعل مرکب

zared
Download Presentation

استخراج بی‌ناظر ظرفیت فعل در زبان فارسی بر مبنای دستور وابستگی

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. استخراج بی‌ناظر ظرفیت فعل در زبان فارسی بر مبنای دستور وابستگی محمدصادق رسولی استاد راهنما: دکتر بهروز مینایی بیدگلی استاد مشاور: دکتر هشام فیلی rasooli@comp.iust.ac.ir,rasooli.ms.@gmail.com

  2. فهرست • مفهوم ظرفیت واژگانی در زبان • ابهام‌های مسأله • شناخت فعل • شناخت فعل مرکب • تفکیک افزوده‌ها از ظرفیت • کارهای انجام‌شده در این پایان‌نامه • استخراج فعل مرکب در فارسی • تهیۀ دادگان زبانی • استخراج بی‌ناظر ظرفیت فعل • پیشنهادها • مراجع اصلی

  3. مفهوم ظرفیت واژگانی در زبان • واژه‌ها نیز مانند عناصر دارای ظرفیت هستند. • هر واژه‌ای دارای ظرفیت ترکیب نحوی/معنایی خاصی است.

  4. مفهوم ظرفیت واژگانی در زبان پرسیدن ظرفیت واژگانی ظرفیت واژگانی از کَسی.. چیزیرا...

  5. کاربرد زبانی ظرفیت واژگانی • با دانستن ظرفیت واژه‌ها می‌توان تولید زبان انجام داد. • ترجمۀ خودکار (Machine Translation) • تحلیل نحوی (Syntactic Analysis) • تولید زبان (Language Generation) • ...

  6. مفهوم ظرفیت واژگانی در زبان • مثال کاربردی در ترجمۀ خودکار • I asked him a question. فاعل از کسی پرسیدن چیزی را از او سؤالی را پرسیدم.

  7. ظرفیت در دستور وابستگی • نخستین بار تنی‌یر ظرفیت را ذیلِ دستور وابستگی تعریف دارد (Tesnière, 1953). • در دستور وابستگی به رابطۀ بین واژه‌های درون جمله پرداخته می‌شود. • مرکزیت جمله با فعل مرکزی جمله است. • ظرفیت مربوط به تعداد و نوع وابسته‌های فعل، اسم و صفت در دستور وابستگی است. • ظرفیت یک مفهوم انتزاعی و قابل تعمیم است (طبیب‌زاده، 1385)

  8. ارتباط واژه‌ها در دستور وابستگی وابستۀ پیشین مفعول فعل مرکزی فعل‌یار وابستۀ پسین حرف اضافۀ اسم صحبت او با دارم دوست را

  9. ظرفیت و ساخت بنیادین • ساخت بنیادین مصداق یکی از حالات انتزاعی ظرفیت در جمله است. • مثال: • فعل «صحبت کردن» • ساخت ظرفیتی: <فا،(مفح)[با]،(مفح)[از|درباره|در مورد|در خصوص|در]> • جمله: من با تو دربارۀ علی صحبت کردم • ساخت بنیادین: ||فا، مفح[با]، مفح[درباره]||

  10. اهمیت ظرفیت فعل • فعل مرکزیت جمله در دستور وابستگی است. • با دانستن ظرفیت فعل می‌توان به ساخت بنیادین جمله پی برد. • با دانستن ظرفیت می‌توان نقش معنایی اجزای جمله را برچسب‌زنی کرد. استخراج ظرفیت فعل و شناخت آن به صورت بی‌ناظر سرفصل اصلی این پایان‌نامه است.

  11. شناخت بی‌ناظر زبان • در روش‌های بی‌ناظر هدف شناخت ساختار زبان بدون داشتن یک مجموعه دادۀ آموزشی برچسب‌دار است (Smith, 2011). • کاربرد روش‌های بی‌ناظر • رفع نیاز به داده در زبان‌های با دادۀ کم • مطالعات شناختی

  12. فهرست • مفهوم ظرفیت واژگانی در زبان • ابهام‌های مسأله • شناخت فعل • شناخت فعل مرکب • تفکیک افزوده‌ها از ظرفیت • کارهای انجام‌شده در این پایان‌نامه • استخراج فعل مرکب در فارسی • تهیۀ دادگان زبانی • استخراج بی‌ناظر ظرفیت فعل • پیشنهادها • مراجع اصلی

  13. ابهام‌های مسأله: شناخت فعل • شناخت فعل ساده و پیشوندی: تصریف‌های مختلف فعل دارای ساخت صوری متفاوتی هستند برخواهد انگیخت برانگیخته خواهد شد برانگیزیم برانگیختن این ابزار با استفاده از یک ابزار مبتنی بر قاعده نوشته شد.

  14. ابهام‌های مسأله: شناخت فعل مرکب • فعل مرکب از یک یا چند عنصر غیرفعلی (فعل‌یار) و یک عنصر فعلی (همکرد) تشکیل می‌شود. • صحبت کردن: «صحبت» فعل‌یار و «کرد» همکرد است. • فعل مرکب در زبان فارسی از ابهام‌برانگیزترین مسائل زبانی است (Karimi-Doostan, 2011). • نخستین گام در این مسأله، شناخت معیارهای صوری فعل مرکب است. • معیارهایی مانند: • نیامدن «را» پس از فعل‌یار • نیامدن صفت اشاره پیش از فعل‌یار

  15. روش شناخت فعل مرکب • عمدۀ روش‌ها مبتنی برا آزمون‌های آماری هم‌آیندها هستند. • مانند اطلاعات متقابل نقطه‌ای (PMI) • به فعلی مرکب اطلاق می‌شود که دارای طلاقی بازۀ اطمینان با دیگر گزینه‌های فعل مرکب دارای همکرد یا فعل‌یار مشترک نباشد (Lin, 1999). • طبق آزمایش‌ها این روش برای زبان فارسی پاسخ مناسبی نداده است.

  16. ابهام‌های مسأله: تفکیک افزوده‌ها از ظرفیت • افزوده‌ها با هر فعلی می‌توانند بیایند (طبیب‌زاده، 1385). در یک روز بارانی، با تو صحبت کردم. متمم ظرفیتی افزوده از نظر ظاهری (بدون در نظر گرفتن معنا) تفاوتی بین متمم‌های ظرفیتی و افزوده‌ها نیست.

  17. روش‌های استخراج ظرفیت • سه روش به طور معمول وجود دارد: • آزمون‌های فرض آماری (Krohonen, 2002) • مناسب برای داده‌های با فراوانی کم • روش بیشینۀ درست‌نمایی (Krohonen, 2002) • مناسب برای داده‌های با فراوانی زیاد • الگوریتم امیدیابی-بیشینه‌سازی (EM) (Carrol and Rooth, 1998) • مناسب برای زبانی که تجزیه‌گر مناسبی موجود نباشد.

  18. فهرست • مفهوم ظرفیت واژگانی در زبان • ابهام‌های مسأله • شناخت فعل • شناخت فعل مرکب • تفکیک افزوده‌ها از ظرفیت • کارهای انجام‌شده در این پایان‌نامه • استخراج فعل مرکب در فارسی • تهیۀ دادگان زبانی • استخراج بی‌ناظر ظرفیت فعل • پیشنهادها • مراجع اصلی

  19. کارهای انجام‌شده در این پایان‌نامه • استخراج بهینۀ فعل مرکب در زبان فارسی • تهیۀ اولین دادگان ظرفیت فعل در زبان فارسی • استخراج ظرفیت فعل فارسی به صورت بی‌ناظر

  20. استخراج فعل مرکب در فارسی • روش‌های مبتنی بر اطلاعات متقابل نقطه‌ای و آزمون فرض آماری در فارسی پاسخ مناسبی نداده است. • دو روش پیشنهادی جایگزین • استفاده از الگوریتم خودراه‌اندازی (Bootstrapping) • استفاده از الگوریتم کی‌مینز (K-Means)

  21. شناخت فعل مرکب: الگوریتم خودراه‌اندازی تا زمانی که PMIها از مقدار آستانه بزرگ‌تر باشند انتخاب گزینه‌های با PMI>threshold اضافه کردن به فهرست فعل‌های مرکب پیش‌پردازش فعل‌ها پیش‌پردازش پیکره و استخراج گزینه‌های فعل مرکب محاسبۀ PMI

  22. شناخت فعل مرکب: الگوریتم خودراه‌اندازی • در این روش به صورت خودفزاینده نخست تعدادی زوج اسم-فعل (با مقدار اطلاعات متقابل بالا) برداشته شده، با فرض فعل بودن دوباره پیکره فعل‌یابی می‌شود: • مثال: • فرض: («صحبت کردن» فعل است) • جملۀ «من با شما صحبت از کتاب و داستان کردم». • دادۀ پیش‌پردازش شده داستان صحبت‌کردن 1 در این‌جا با فرض فعل بودن «صحبت کردن» دیگر امکان این که «داستان» و «کردن» به عنوان رخداد شمرده شود وجود ندارد.

  23. شناخت فعل مرکب: الگوریتم کی‌مینز • در این الگوریتم از سه ویژگی متفاوت استفاده شده است: • اطلاعات متقابل نقطه‌ای (PMI) • میانگین فاصلۀ بین فعل‌یار و همکرد • میانگین تعداد اسم‌ها بین فعل‌یار و همکرد • عمدۀ فعل‌های مرکب با اسم ساخته می‌شوند و در این جا تنها فعل‌های مرکب با اسم در نظر گرفته شده است. • معیار فاصلۀ اقلیدسی برای فاصله‌سنجی خوشه‌ها انتخاب شده است. • تعداد خوشه‌ها را به اندازۀ 2 خوشه (مرکب و غیرمرکب) در نظر گرفتیم.

  24. آزمایش: استخراج فعل مرکب • بستر آزمون فعل‌های مرکب با همکرد «کردن» در پیکرۀ بیجن‌خان بوده است. • مانند بسیاری از روش‌های آماریِ استخراج اصطلاحات چندواژه‌ای از گزینه‌های با حداقل فراوانی 5 استفاده شده است. • دقت و فراخوانی از روی مقایسۀ فهرست فعل‌های مرکب واقعی با همکرد «کردن» با فهرست پیشنهادی روش استخراج به دست آمده است.

  25. نتایج استخراج فعل مرکب Rasooli, M., H. Faili, and B. Minaei-Bidgoli, Unsupervised Identification of Persian Compound Verbs. Advances in Artificial Intelligence, 2011: p. 394-406.

  26. تهیۀ دادگان زبانی • با کمک 6 زبان‌شناس در گروه پژوهشی دادگان اولین فرهنگ ظرفیت فعل در زبان فارسی تولید و به صورت رایگان عرضه شده است. • http://dadegan.ir • نسخۀ اول این فرهنگ شامل 4282 فعل و 5429 زوج ساخت ظرفیتی و فعل منحصر به فرد بوده است. • تاکنون اصلاحاتی بر نسخۀ اول انجام شده است. • آخرین نسخه تا اسفند 1390: نسخۀ 2.2.2 Rasooli, M.S., Moloodi, A., Kouhestani, M. and Minaei-Bidgoli, B., A Syntactic Valency Lexicon for Persian Verbs: The First Steps towards Persian Dependency Treebank, in 5th Language & Technology Conference (LTC): Human Language Technologies as a Challenge for Computer Science and Linguistics. 2011: Poznań, Poland. p. 227-231.

  27. استخراج بی‌ناظر ظرفیت فعل • روش‌های مورد آزمون • آزمون فرض دوجمله‌ای • الگوریتم امیدیابی-بیشینه‌سازی (EM)

  28. استخراج ظرفیت: آزمون دوجمله‌ای • این آزمون فرض از پرکاربردترین روش‌های موجود برای استخراج ظرفیت فعل بوده است (Krohonen, 2002). • m: فراوانی ظرفیت فعل و p یک مقدار احتمالاتی بین صفر و یک است که به صورت دستی تنظیم می‌شود. • n: فراوانی فعل

  29. استخراج ظرفیت: الگوریتم امیدیابی-بیشینه‌سازی • در این الگوریتم بین دو مرحله گردش تکرار انجام می‌شود • در یک مرحله توزیع پسینی متغیرهای پنهان برای داده‌های مشاهده‌شده محاسبه می‌شود • در مرحلۀ بعد وزن احتمالاتی مؤلفه‌های الگوی احتمالاتی به‌روزرسانی می‌شود. • تعمیم بر روی الگوریتم امیدیابی بیشینه‌سازی: • بازتعریف تصادفی

  30. نحوۀ تبدیل داده به مؤلفه‌های احتمالاتی الگوریتم جمله مقادیر مؤلفه‌های احتمالاتی به صورت تکرار گردش الگوریتم به‌روز می‌شوند. آیا تا آن روز، در آن روز بارانی کسی با حسین صحبت کرده است؟ F1=فا، مفح[با] ساخت‌های بنیادین ممکن F2=فا، مفح[در] F3=فا، مفح[تا] F4=فا، مفح[با]، مفح[در] F5=فا، مفح[با]، مفح[تا]

  31. الگوریتم امیدیابی-بیشینه‌سازی (Smith, 2011)

  32. جزئیات آزمایش • ارزیابی بر روی دقت استخراج ساخت‌های بنیادین صورت گرفته است. • در تجزیه‌گر نحوی همۀ حالات ممکن ظرفیتی مورد محاسبۀ احتمالاتی قرار می‌گیرد. • همۀ ساخت‌های بنیادین هر ساخت ظرفیتی از فرهنگ ظرفیت استخراج شده است. • آزمون بر روی جملات پیکرۀ بیجن‌خان انجام شده است.

  33. نتایج آزمایش

  34. تحلیل نتایج • برای شناخت ساخت‌های ظرفیتی فعل در زبان فارسی نیاز به واکاوی بیشتر ساخت‌های نحوی زبان است. • دقت کم در شناخت ساخت‌های نحوی ریشه در ابهام بالا در تمایز بین متمم‌ها و افزوده‌ها دارد. • گزینه‌هایی دیگری مانند تجزیۀ بی‌ناظر وابستگی برای استخراج ظرفیت ممکن است برای این مسأله مناسب باشد.

  35. فهرست • مفهوم ظرفیت واژگانی در زبان • ابهام‌های مسأله • شناخت فعل • شناخت فعل مرکب • تفکیک افزوده‌ها از ظرفیت • کارهای انجام‌شده در این پایان‌نامه • استخراج فعل مرکب در فارسی • تهیۀ دادگان زبانی • استخراج بی‌ناظر ظرفیت فعل • پیشنهادها • مراجع اصلی

  36. پیشنهادها • استخراج بی‌ناظر ظرفیت اسم و صفت در زبان فارسی • استفاده از اطلاعات ظرفیتی برای بهبود تجزیۀ وابستگی (Zeman, 2002) • خوشه‌بندی معنایی فعل • این مسأله بر اساس نظریۀ رده‌های معنای لوین (Levin, 1993) قابل انجام است. • استفاده از روش‌های استنتاج بیزی در شناخت ساخت‌های کم‌بسامد • خطایابی نحوی جملات زبان فارسی بر مبنای ظرفیت واژگانی (Ehsan and Faili, 2012)

  37. مراجع اصلی • Bijankhan, M., The role of the corpus in writing a grammar: An introduction to a software. Iranian Journal of Linguistics, 2004. 19(2). • Carroll, G. and M. Rooth, Valence Induction with a Head-Lexicalized PCFG, in Workshop of Empirical Methods in NLP. 1998: Granada • Ehsan, N. and H. Faili, Grammatical and context‐sensitive error correction using a statistical machine translation framework. Software: Practice and Experience, 2012. • KarimiDoostan, G., Separability of light verb constructions in Persian.StudiaLinguistica, 2011. 65(1): p. 70-95. • Korhonen, A., Subcategorization acquisition. 2002, Ph. D. thesis, University of Cambridge. • Lin, D., Automatic identification of non-compositional phrases, in 37th annual meeting of Association for Computational Linguistics. 1999, Association for Computational Linguistics: College Park, MA. p. 317-324.

  38. مراجع اصلی • Pecina, P., Lexical association measures and collocation extraction. Language Resources and Evaluation, 2010. 44(1): p. 137-158. • Smith, N.A., Linguistic Structure Prediction. Synthesis Lectures on Human Language Technologies, 2011. 4(2): p. 1-274. • Tesnière, L., Esquisse d'une Syntaxe structurale. 1953, Paris: Klincksieck. • Zeman, D., Can subcategorization help a statistical dependency parser?, in COLING '02. 2002, Association for Computational Linguistics. p. 1-7. • طبیب‌زاده، ا.، ظرفیت فعل و ساخت‌های بنیادین جمله در فارسی امروز. 1385: نشر مرکز.

  39. با سپاس از توجه شما

More Related