1 / 58

شرح کار پروژۀ دادگان وابستگی زبان فارسی

شرح کار پروژۀ دادگان وابستگی زبان فارسی. محمدصادق رسولی rasooli.ms{@AT@}gmail.com. دادگان زبانی در زبان‌شناسی رایانه‌ای. امروزه در عمدۀ روش‌های هوشمند پردازش زبانی از دادگان و پیکره‌های متنی برچسب‌دار استفاده می‌شود.

vevay
Download Presentation

شرح کار پروژۀ دادگان وابستگی زبان فارسی

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. شرح کار پروژۀدادگان وابستگی زبان فارسی محمدصادق رسولی rasooli.ms{@AT@}gmail.com پروژۀ دادگان وابستگی زبان فارسی

  2. دادگان زبانی در زبان‌شناسی رایانه‌ای امروزه در عمدۀ روش‌های هوشمند پردازش زبانی از دادگان و پیکره‌های متنی برچسب‌دار استفاده می‌شود. با وجود هزینۀ زیاد برای آماده‌سازی پیکره‌ها، پروژه‌های بسیاری در زبان‌های مختلف تعریف شده است. در رویکردهای مبتنی بر پیکره‌ها نتایج پردازشی بهتری نسبت به رویکردهای مبتنی بر قاعده به دست آمده است. پروژۀ دادگان وابستگی زبان فارسی

  3. دادگان زبانی در زبان‌شناسی رایانه‌ای در پروژه‌های اخیر پژوهش‌های دفاعی ایالات متحده، یکی از دغدغه‌های اصلی در پردازش هوشمند متون، فرایند تهیۀ دادگان زبانی اعلام شده است. انتخاب نظریۀ زبانی مناسب برای تهیۀ پیکره‌های زبانی از اهمیت بسیار زیادی برخوردار است پروژۀ دادگان وابستگی زبان فارسی

  4. هزینۀ مربوط به تهیۀ پیکره‌های زبانی • معمولاً تهیۀ پیکرۀ زبانی هزینه‌های بسیار زیادی را از نظر زمانی و نیروی انسانی در بر می‌گیرد. • به عنوان مثال دو مرحله از تهیۀ پیکرۀ درختی چینی در مجموع 5 سال به طول انجامید. • برای این که پیکرۀ متنی نمایندگی کافی برای دادگان زبانی داشته باشد، باید اطلاعات اولیۀ مناسبی در مورد ویژگی‌های زبانی کسب کرد که این خود فرایندی زمان‌بر است. پروژۀ دادگان وابستگی زبان فارسی

  5. زبان فارسی و رایانه با توجه به دغدغه‌های موجود در زبان فارسی، پروژه‌هایی با حمایت دبیرخانۀ شورای عالی اطلاع‌رسانی شکل گرفت. پروژۀ ویراستیار اولین گام جدی در کاربردی کردن مسائل علمی دنیای پردازش متن در نرم‌افزارهای زبان فارسی بوده است. پس از اتمام نسخۀ 1 ویراستیار دغدغه‌های پردازشی برای تحلیل نحو و معنا در زبان فارسی به وجود آمد. پروژۀ دادگان وابستگی زبان فارسی

  6. نتایج حاصل از تحقیقات • برای پردازش نحو در زبان فارسی نیاز به دو مسألۀ اساسی است: • انتخاب یک نمایش زبانی مناسب و اصولی با توجه به خاصیت‌های زبان فارسی • نیاز جدی به یک پیکرۀ برچسب‌خوردۀ نحو در زبان فارسی • در 28 زبان زندۀ دنیا چنین پیکره‌ای وجود داشته است. پروژۀ دادگان وابستگی زبان فارسی

  7. وضعیت دادگانی امروز در نحو زبان فارسی • تا آن زمان تنها پیکرۀ برچسب‌خوردۀ مناسب برای فهم زبان فارسی، پیکرۀ متنی بی‌جن‌خان بوده است. • تنها در آن اطلاعات ساخت‌واژی زبان برچسب خورده است و اطلاعاتی در مورد ساختار نحوی و معنایی جملات وجود ندارد. پروژۀ دادگان وابستگی زبان فارسی

  8. انتخاب بازنمایی نحوی مناسب • هم‌اکنون دو نوع بازنمایی مرسوم در پیکره‌های نحوی و معنایی زبانی در دنیا وجود دارد: • دستور زایشی: مانند پیکرۀ درختی پن، در این نوع از نمایش، جمله به عبارت‌هایی و عبارات به زیرعبارات و زیرعبارت‌ها به واژه‌ها تقسیم‌بندی می‌شوند. • دستور وابستگی: مانند پیکرۀ وابستگی پراگ که در این نوع از نمایش، ارتباط‌های وابستگی بین واژه‌ها مشخص می‌شود. پروژۀ دادگان وابستگی زبان فارسی

  9. مقایسۀ دستور زایشی و وابستگی

  10. مقایسۀ بازنمایی زایشی و وابستگی • در هر دو نوع از بازنمایی می‌توان سطح نحو و معنا را پوشش داد. • در بازنمایی وابستگی امکان نشان دادن جملات با بی‌ترتیبی زبانی نسبت به بازنمایی زایشی بیش‌تر و مناسب‌تر است. • به همین دلیل در زبان‌های بی‌ترتیب مانند چکی، ترکی و عربی پیکره‌های وابستگی ترجیح داده شده‌اند. • در زبان فارسی نیز بی‌ترتیبی وجود دارد.

  11. مقایسۀ بازنمایی زایشی و وابستگی پیکره‌های با بازنمایی دستور وابستگی قابل تبدیل به پیکرۀ زایشی هستند ولی عکسِ این مسأله به صورت صد در صد امکان‌پذیر نیست. دستور وابستگی به نمایش انسانی نزدیک‌تر است. در دستور وابستگی بسیاری از اطلاعات واژگانی (مانند ظرفیت نحوی و معنایی) را می‌توان به طور صریح در کمان‌های وابستگی نشان داد. با وجود این مسائل به این نتیجه رسیده‌ایم که دستور وابستگی را به عنوان بازنمایی نحوی پیکرۀ زبان فارسی برگزینیم.

  12. سرنخ تحقیقات: Valency این اصطلاح در کتاب «Dependency Parsing» دیده شد و با توجه به غریب بودن این مطلب تحقیقات در جهت شناخت این مسأله به وجود آمد. در نهایت کتاب «ظرفیت فعل در زبان فارسی» به عنوان تنها کتاب مربوط به زبان فارسی پیدا شد. پروژۀ دادگان وابستگی زبان فارسی

  13. مفهوم ظرفیت واژگانی در زبان • واژه‌ها نیز مانند عناصر دارای ظرفیت هستند. • هر واژه‌ای دارای ظرفیت ترکیب نحوی/معنایی خاصی است. 13

  14. مفهوم ظرفیت واژگانی در زبان پرسیدن ظرفیت واژگانی ظرفیت واژگانی از کَسی.. چیزیرا...

  15. کاربرد زبانی ظرفیت واژگانی امید طبیب‌زاده، «ظرفیت فعل در زبان فارسی»، نشر مرکز، 1385. • با دانستن ظرفیت واژه‌ها می‌توان تولید زبان انجام داد. • ترجمۀ خودکار (Machine Translation) • تحلیل نحوی (Syntactic Analysis) • تولید زبان (Language Generation) • ...

  16. دستور وابستگی در دستور وابستگی مبنا روابط نحوی/معنایی بین واژه‌های درون جمله است. در این دستور مفهوم گروه معنا ندارد. واژه‌ها بر اساس ظرفیتشان و نوع قرار گرفتن در جمله وابسته‌هایی می‌گیرند.

  17. ارتباط واژه‌ها در دستور وابستگی وابستۀ پیشین مفعول فعل مرکزی وابستۀ پسین حرف اضافۀ اسم فعل‌یار صحبت او با دارم دوست را Richard Hudson, “An introduction to word grammar,” Cambridge University Press, 2010.

  18. مقایسۀ اجمالی با دستور زایشی • در دستور زایشی (Generative)، با گروه‌ها سر و کار داریم. • دستور مستقل از متن (CFG) • دستور مبتنی بر عبارات • امکان وجود بی‌ترتیبی در جملات وجود ندارد • در دستور وابستگی با واژه‌ها سر و کار داریم. • امکان بی‌ترتیبی در جملات وجود دارد.

  19. درخت‌های وابستگی • فرض‌های زبانی متفاوتی در مورد درخت‌های وابستگی می‌شود. • فرض‌های ما • درخت وابستگی بدون دور است. • هر جمله دارای یک واژۀ فرضی به عنوان ریشۀ جمله است. • هر واژه (غیر از ریشۀ جمله) تنها یک هسته دارد.

  20. درخت‌های وابستگی • درخت‌های وابستگی دو نوع هستند • افکنشی (Projective) • هیچ کمانی دیگری را در صورت رسم کمان‌ها از یک سمت بر روی کاغذ قطع نمی‌کند. • غیرافکنشی (Non-projective) • ممکن است کمانی باشد که برخی دیگر از کمان‌ها را قطع کرده باشد. • در جملات بی‌ترتیب زبانی دیده می‌شود.

  21. درخت‌های وابستگی افکنشی هستم آمدنت از ریشه آگاه غیرافکنشی می‌آیی که هستم ریشه آگاه

  22. تجزیۀ وابستگی • روش‌های تجزیۀ وابستگی • مبتنی بر داده • باناظر (Supervised) • مبتنی بر گراف (Graph based) • مبتنی بر گذار (Transition based) • بی‌ناظر (Unsupervised) • نیمه‌ناظر (Semi-supervised) • مبتنی بر دستور زبان

  23. سادگی تجزیۀ وابستگی به عنوان نمونه الگوریتم تجزیۀ یال‌-معیار (Arc-Standard) روش‌های مختلفی برای تجزیۀ مبتنی بر گذار وجود دارد. تجزیۀ یال‌-معیار (arc-standard) برای درخت‌های افکنشی است. JoakimNivre. 2004. Incrementality in deterministic dependency parsing. In Workshop on Incremental Parsing: Bringing Engineering and Cognition Together, pages 50–57. پروژۀ دادگان وابستگی زبان فارسی

  24. تجزیۀ یال‌-معیار • S: Stack of processed words • I: Buffer of unprocessed words • A: Set of arcs created until now • : An empty arcset

  25. تجزیۀ یال‌-معیار Stack Buffer You are very good Arc-sets You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  26. تجزیۀ یال‌-معیار Stack Buffer You are very good Arc-sets Action Shift You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  27. تجزیۀ یال‌-معیار Stack Buffer You are very good Arc-sets Action Shift You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  28. تجزیۀ یال‌-معیار Stack Buffer You are very good Arc-sets Action Left-Reduce Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  29. تجزیۀ یال‌-معیار Stack Buffer are very good Arc-sets Action Shift Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  30. تجزیۀ یال‌-معیار Stack Buffer are very good Arc-sets Action Shift Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  31. تجزیۀ یال‌-معیار Stack Buffer are very good Arc-sets Action Left-Reduce Rel(are, You) Rel(good, very) ` You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  32. تجزیۀ یال‌-معیار Stack Buffer are good Arc-sets Action Right-Reduce Rel(are, You) Rel(good, very) ` ` Rel(are, good) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  33. تجزیۀ یال‌-معیار Stack Buffer are Arc-sets Action Right-Reduce Rel(are, You) Rel(good, very) ` ` Rel(are, good) You are very good Rel(root, are) Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  34. پیشنهاد پروژه: دادگان نحوی زبان • در آغاز برای دادگان نحوی زبان پیشنهاد پروژه شد. • خاصیت‌های دستور وابستگی • قدرت بالا برای کارهای پردازشی • امکان تبدیل آن به ساختار زایشی (ساختار مبتنی بر گروه‌ها) • مناسب برای زبان فارسی پروژۀ دادگان وابستگی زبان فارسی

  35. فرآیند اولیۀ کار: پاییز 1389 پروژۀ دادگان وابستگی زبان فارسی

  36. مراحل تفکیکی کار تعریف اولیۀ پروژه فرهنگ ظرفیت پیکرۀ وابستگی تهیۀ ابزار فعل‌یاب و تحلیل فعل تهیۀ ابزار برچسب‌زنی پژوهش‌های زبانیِ کاربردی تهیۀ ابزار برچسب‌زنی تهیۀ داده‌های خام اولیه برچسب‌زنی دادگان برچسب‌زنی دادگان تهیۀ داد‌های خام اولیه پروژۀ دادگان وابستگی زبان فارسی

  37. شناخت فعل مرکب در زبان فارسی با توجه به دغدغه‌های موجود در شناخت فعل مرکب، بررسی‌های رایانه‌ای متفاوتی بر روی فعل مرکب انجام شد که در مقالۀ ذیل این روند گزارش شده است. Mohammad Sadegh Rasooli, Heshaam Faili, and BehrouzMinaei-Bidgoli, "Unsupervised Identification of Persian Compound Verbs", Advances in Artificial Intelligence, Pages 394-406, 2011. پروژۀ دادگان وابستگی زبان فارسی

  38. تهیۀ ابزار برچسب‌زنی این ابزار در پایان پاییز 1389 به پایان رسید. پروژۀ دادگان وابستگی زبان فارسی

  39. آغاز به کار پروژۀ فرهنگ ظرفیت • پروژۀ دادگان زبانی از اواسط دی‌ماه شروع شد. • در این حین تیم برنامه‌نویسی به آماده‌سازی ابزار برچسب‌زنی پرداخت. • برای تحقیق بیشتر و اطمینان از روند طی‌شده، یک سخنرانی علمی با حضور دکتر طبیب‌زاده در دانشگاه تهران ترتیب دادیم. • این سخنرانی علمی با عنوان «دستور وابستگی، نظریۀ گروه‌های خودگردان» در دانشکدۀ ادبیات و علوم انسانی با حضور اساتیدی از جمله «دکتر بیجن‌خان» و «دکتر غلامحسین کریمی دوستان» برگزار شد. پروژۀ دادگان وابستگی زبان فارسی

  40. سخنرانی علمی دانشگاه تهران پروژۀ دادگان وابستگی زبان فارسی

  41. سخنرانی علمی دانشگاه تهران پروژۀ دادگان وابستگی زبان فارسی

  42. حضور در گردهمایی قم و معرفی پروژه در این گردهم‌آیی مسائل پیشینی و آتی پروژه مورد بررسی و مرور قرار گرفت. پروژۀ دادگان وابستگی زبان فارسی

  43. اتمام نسخۀ 1 فرهنگ ظرفیت همزمان با اتمام این پروژۀ در خرداد 1390، وبگاه دادگان نیز فعال شد. این فرهنگ بارها مورد بازبینی جدی قرار گرفته است. هم‌اکنون نسخۀ 2.2.2 از این فرهنگ بر روی وبگاه دادگان وجود دارد. پروژۀ دادگان وابستگی زبان فارسی

  44. اتمام نسخۀ 1 فرهنگ ظرفیت گزارش کار این فرهنگ در مقالۀ زیر نوشته شده است: Mohammad Sadegh Rasooli, Amirsaeid Moloodi, ManouchehrKouhestani, and BehrouzMinaei-Bidgoli, "A Syntactic Valency Lexicon for Persian Verbs: The First Steps towards Persian Dependency Treebank", in 5th Language & Technology Conference (LTC): Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, pp. 227-231, 2011. پروژۀ دادگان وابستگی زبان فارسی

  45. آماده‌سازی ابزار برچسب‌زنی و داده‌های اولیه پروژۀ دادگان وابستگی زبان فارسی

  46. آغاز رسمی پروژۀ پیکرۀ وابستگی زمان: تیر و مرداد 1390 برای این هدف، از افراد زبان‌شناس دعوت عمومی به عمل آمد و در یک کلاس آموزشی و با تهیۀ جزوات مفصل، به افراد آموز‌ش‌های لازم داده شد. پروژۀ دادگان وابستگی زبان فارسی

  47. یک اتفاق: پیکرۀ دانشگاه اوپسالا • باخبر شدیم که در دانشگاه اوپسالا یک پروژۀ تجاری در حال انجام است که این پروژه بر عهدۀ یک دانشجوی دکترای ایرانی است. • این تیم تحقیقاتی در یک مقالۀ علمی پژوهشی ادعا کردند که می‌خواهند اولین پیکرۀ وابستگی زبان فارسی را بسازند. • هنوز این پیکره در آن دانشگاه ساخته نشده است ولی دو مقالۀ علمی از آن استخراج کرده‌اند. • بر اساس اولویت‌های کار در آغاز بهمن 1390 نسخۀ پیشینی از پیکره را بر روی وبگاه دادگان همراه با راهنمای 26 صفحه‌ای قرار دادیم. پروژۀ دادگان وابستگی زبان فارسی

  48. نسخۀ 0/1 پیکره پروژۀ دادگان وابستگی زبان فارسی

  49. وضعیت کنونی هم‌اکنون حدود 25,500 جمله برچسب نحوی و صرفی کامل خورده‌اند. به امید خدا، این پیکره با حدود 30,000 جمله در پایان بهار 1391 با برچسب‌زنی اولیه آماده می‌شود. در تابستان، اشکال‌گیری‌های نهایی و مستندسازی نهایی انجام خواهد شد. پروژۀ دادگان وابستگی زبان فارسی

  50. ابزارهای توسعه‌یافتۀ جانبی • فعل‌یاب سریع و هوشمند • در https://github.com/rasoolims/PersianVerbAnalyzer/ • تجزیه‌گر مبتنی بر گراف • در https://github.com/rasoolims/MSTParserCSharp/ • تجزیه‌گر مبتنی بر گذار • برنامۀ ترسیم درخت نحوی • خطایاب نحوی مبتنی بر ظرفیت فعل‌ها در زبان فارسی پروژۀ دادگان وابستگی زبان فارسی

More Related