390 likes | 608 Views
استخراج بیناظر ظرفیت فعل در زبان فارسی بر مبنای دستور وابستگی. محمدصادق رسولی استاد راهنما: دکتر بهروز مینایی بیدگلی استاد مشاور: دکتر هشام فیلی rasooli@comp.iust.ac.ir , rasooli.ms.@gmail.com. فهرست. مفهوم ظرفیت واژگانی در زبان ابهامهای مسأله شناخت فعل شناخت فعل مرکب
E N D
استخراج بیناظر ظرفیت فعل در زبان فارسی بر مبنای دستور وابستگی محمدصادق رسولی استاد راهنما: دکتر بهروز مینایی بیدگلی استاد مشاور: دکتر هشام فیلی rasooli@comp.iust.ac.ir,rasooli.ms.@gmail.com
فهرست • مفهوم ظرفیت واژگانی در زبان • ابهامهای مسأله • شناخت فعل • شناخت فعل مرکب • تفکیک افزودهها از ظرفیت • کارهای انجامشده در این پایاننامه • استخراج فعل مرکب در فارسی • تهیۀ دادگان زبانی • استخراج بیناظر ظرفیت فعل • پیشنهادها • مراجع اصلی
مفهوم ظرفیت واژگانی در زبان • واژهها نیز مانند عناصر دارای ظرفیت هستند. • هر واژهای دارای ظرفیت ترکیب نحوی/معنایی خاصی است.
مفهوم ظرفیت واژگانی در زبان پرسیدن ظرفیت واژگانی ظرفیت واژگانی از کَسی.. چیزیرا...
کاربرد زبانی ظرفیت واژگانی • با دانستن ظرفیت واژهها میتوان تولید زبان انجام داد. • ترجمۀ خودکار (Machine Translation) • تحلیل نحوی (Syntactic Analysis) • تولید زبان (Language Generation) • ...
مفهوم ظرفیت واژگانی در زبان • مثال کاربردی در ترجمۀ خودکار • I asked him a question. فاعل از کسی پرسیدن چیزی را از او سؤالی را پرسیدم.
ظرفیت در دستور وابستگی • نخستین بار تنییر ظرفیت را ذیلِ دستور وابستگی تعریف دارد (Tesnière, 1953). • در دستور وابستگی به رابطۀ بین واژههای درون جمله پرداخته میشود. • مرکزیت جمله با فعل مرکزی جمله است. • ظرفیت مربوط به تعداد و نوع وابستههای فعل، اسم و صفت در دستور وابستگی است. • ظرفیت یک مفهوم انتزاعی و قابل تعمیم است (طبیبزاده، 1385)
ارتباط واژهها در دستور وابستگی وابستۀ پیشین مفعول فعل مرکزی فعلیار وابستۀ پسین حرف اضافۀ اسم صحبت او با دارم دوست را
ظرفیت و ساخت بنیادین • ساخت بنیادین مصداق یکی از حالات انتزاعی ظرفیت در جمله است. • مثال: • فعل «صحبت کردن» • ساخت ظرفیتی: <فا،(مفح)[با]،(مفح)[از|درباره|در مورد|در خصوص|در]> • جمله: من با تو دربارۀ علی صحبت کردم • ساخت بنیادین: ||فا، مفح[با]، مفح[درباره]||
اهمیت ظرفیت فعل • فعل مرکزیت جمله در دستور وابستگی است. • با دانستن ظرفیت فعل میتوان به ساخت بنیادین جمله پی برد. • با دانستن ظرفیت میتوان نقش معنایی اجزای جمله را برچسبزنی کرد. استخراج ظرفیت فعل و شناخت آن به صورت بیناظر سرفصل اصلی این پایاننامه است.
شناخت بیناظر زبان • در روشهای بیناظر هدف شناخت ساختار زبان بدون داشتن یک مجموعه دادۀ آموزشی برچسبدار است (Smith, 2011). • کاربرد روشهای بیناظر • رفع نیاز به داده در زبانهای با دادۀ کم • مطالعات شناختی
فهرست • مفهوم ظرفیت واژگانی در زبان • ابهامهای مسأله • شناخت فعل • شناخت فعل مرکب • تفکیک افزودهها از ظرفیت • کارهای انجامشده در این پایاننامه • استخراج فعل مرکب در فارسی • تهیۀ دادگان زبانی • استخراج بیناظر ظرفیت فعل • پیشنهادها • مراجع اصلی
ابهامهای مسأله: شناخت فعل • شناخت فعل ساده و پیشوندی: تصریفهای مختلف فعل دارای ساخت صوری متفاوتی هستند برخواهد انگیخت برانگیخته خواهد شد برانگیزیم برانگیختن این ابزار با استفاده از یک ابزار مبتنی بر قاعده نوشته شد.
ابهامهای مسأله: شناخت فعل مرکب • فعل مرکب از یک یا چند عنصر غیرفعلی (فعلیار) و یک عنصر فعلی (همکرد) تشکیل میشود. • صحبت کردن: «صحبت» فعلیار و «کرد» همکرد است. • فعل مرکب در زبان فارسی از ابهامبرانگیزترین مسائل زبانی است (Karimi-Doostan, 2011). • نخستین گام در این مسأله، شناخت معیارهای صوری فعل مرکب است. • معیارهایی مانند: • نیامدن «را» پس از فعلیار • نیامدن صفت اشاره پیش از فعلیار
روش شناخت فعل مرکب • عمدۀ روشها مبتنی برا آزمونهای آماری همآیندها هستند. • مانند اطلاعات متقابل نقطهای (PMI) • به فعلی مرکب اطلاق میشود که دارای طلاقی بازۀ اطمینان با دیگر گزینههای فعل مرکب دارای همکرد یا فعلیار مشترک نباشد (Lin, 1999). • طبق آزمایشها این روش برای زبان فارسی پاسخ مناسبی نداده است.
ابهامهای مسأله: تفکیک افزودهها از ظرفیت • افزودهها با هر فعلی میتوانند بیایند (طبیبزاده، 1385). در یک روز بارانی، با تو صحبت کردم. متمم ظرفیتی افزوده از نظر ظاهری (بدون در نظر گرفتن معنا) تفاوتی بین متممهای ظرفیتی و افزودهها نیست.
روشهای استخراج ظرفیت • سه روش به طور معمول وجود دارد: • آزمونهای فرض آماری (Krohonen, 2002) • مناسب برای دادههای با فراوانی کم • روش بیشینۀ درستنمایی (Krohonen, 2002) • مناسب برای دادههای با فراوانی زیاد • الگوریتم امیدیابی-بیشینهسازی (EM) (Carrol and Rooth, 1998) • مناسب برای زبانی که تجزیهگر مناسبی موجود نباشد.
فهرست • مفهوم ظرفیت واژگانی در زبان • ابهامهای مسأله • شناخت فعل • شناخت فعل مرکب • تفکیک افزودهها از ظرفیت • کارهای انجامشده در این پایاننامه • استخراج فعل مرکب در فارسی • تهیۀ دادگان زبانی • استخراج بیناظر ظرفیت فعل • پیشنهادها • مراجع اصلی
کارهای انجامشده در این پایاننامه • استخراج بهینۀ فعل مرکب در زبان فارسی • تهیۀ اولین دادگان ظرفیت فعل در زبان فارسی • استخراج ظرفیت فعل فارسی به صورت بیناظر
استخراج فعل مرکب در فارسی • روشهای مبتنی بر اطلاعات متقابل نقطهای و آزمون فرض آماری در فارسی پاسخ مناسبی نداده است. • دو روش پیشنهادی جایگزین • استفاده از الگوریتم خودراهاندازی (Bootstrapping) • استفاده از الگوریتم کیمینز (K-Means)
شناخت فعل مرکب: الگوریتم خودراهاندازی تا زمانی که PMIها از مقدار آستانه بزرگتر باشند انتخاب گزینههای با PMI>threshold اضافه کردن به فهرست فعلهای مرکب پیشپردازش فعلها پیشپردازش پیکره و استخراج گزینههای فعل مرکب محاسبۀ PMI
شناخت فعل مرکب: الگوریتم خودراهاندازی • در این روش به صورت خودفزاینده نخست تعدادی زوج اسم-فعل (با مقدار اطلاعات متقابل بالا) برداشته شده، با فرض فعل بودن دوباره پیکره فعلیابی میشود: • مثال: • فرض: («صحبت کردن» فعل است) • جملۀ «من با شما صحبت از کتاب و داستان کردم». • دادۀ پیشپردازش شده داستان صحبتکردن 1 در اینجا با فرض فعل بودن «صحبت کردن» دیگر امکان این که «داستان» و «کردن» به عنوان رخداد شمرده شود وجود ندارد.
شناخت فعل مرکب: الگوریتم کیمینز • در این الگوریتم از سه ویژگی متفاوت استفاده شده است: • اطلاعات متقابل نقطهای (PMI) • میانگین فاصلۀ بین فعلیار و همکرد • میانگین تعداد اسمها بین فعلیار و همکرد • عمدۀ فعلهای مرکب با اسم ساخته میشوند و در این جا تنها فعلهای مرکب با اسم در نظر گرفته شده است. • معیار فاصلۀ اقلیدسی برای فاصلهسنجی خوشهها انتخاب شده است. • تعداد خوشهها را به اندازۀ 2 خوشه (مرکب و غیرمرکب) در نظر گرفتیم.
آزمایش: استخراج فعل مرکب • بستر آزمون فعلهای مرکب با همکرد «کردن» در پیکرۀ بیجنخان بوده است. • مانند بسیاری از روشهای آماریِ استخراج اصطلاحات چندواژهای از گزینههای با حداقل فراوانی 5 استفاده شده است. • دقت و فراخوانی از روی مقایسۀ فهرست فعلهای مرکب واقعی با همکرد «کردن» با فهرست پیشنهادی روش استخراج به دست آمده است.
نتایج استخراج فعل مرکب Rasooli, M., H. Faili, and B. Minaei-Bidgoli, Unsupervised Identification of Persian Compound Verbs. Advances in Artificial Intelligence, 2011: p. 394-406.
تهیۀ دادگان زبانی • با کمک 6 زبانشناس در گروه پژوهشی دادگان اولین فرهنگ ظرفیت فعل در زبان فارسی تولید و به صورت رایگان عرضه شده است. • http://dadegan.ir • نسخۀ اول این فرهنگ شامل 4282 فعل و 5429 زوج ساخت ظرفیتی و فعل منحصر به فرد بوده است. • تاکنون اصلاحاتی بر نسخۀ اول انجام شده است. • آخرین نسخه تا اسفند 1390: نسخۀ 2.2.2 Rasooli, M.S., Moloodi, A., Kouhestani, M. and Minaei-Bidgoli, B., A Syntactic Valency Lexicon for Persian Verbs: The First Steps towards Persian Dependency Treebank, in 5th Language & Technology Conference (LTC): Human Language Technologies as a Challenge for Computer Science and Linguistics. 2011: Poznań, Poland. p. 227-231.
استخراج بیناظر ظرفیت فعل • روشهای مورد آزمون • آزمون فرض دوجملهای • الگوریتم امیدیابی-بیشینهسازی (EM)
استخراج ظرفیت: آزمون دوجملهای • این آزمون فرض از پرکاربردترین روشهای موجود برای استخراج ظرفیت فعل بوده است (Krohonen, 2002). • m: فراوانی ظرفیت فعل و p یک مقدار احتمالاتی بین صفر و یک است که به صورت دستی تنظیم میشود. • n: فراوانی فعل
استخراج ظرفیت: الگوریتم امیدیابی-بیشینهسازی • در این الگوریتم بین دو مرحله گردش تکرار انجام میشود • در یک مرحله توزیع پسینی متغیرهای پنهان برای دادههای مشاهدهشده محاسبه میشود • در مرحلۀ بعد وزن احتمالاتی مؤلفههای الگوی احتمالاتی بهروزرسانی میشود. • تعمیم بر روی الگوریتم امیدیابی بیشینهسازی: • بازتعریف تصادفی
نحوۀ تبدیل داده به مؤلفههای احتمالاتی الگوریتم جمله مقادیر مؤلفههای احتمالاتی به صورت تکرار گردش الگوریتم بهروز میشوند. آیا تا آن روز، در آن روز بارانی کسی با حسین صحبت کرده است؟ F1=فا، مفح[با] ساختهای بنیادین ممکن F2=فا، مفح[در] F3=فا، مفح[تا] F4=فا، مفح[با]، مفح[در] F5=فا، مفح[با]، مفح[تا]
الگوریتم امیدیابی-بیشینهسازی (Smith, 2011)
جزئیات آزمایش • ارزیابی بر روی دقت استخراج ساختهای بنیادین صورت گرفته است. • در تجزیهگر نحوی همۀ حالات ممکن ظرفیتی مورد محاسبۀ احتمالاتی قرار میگیرد. • همۀ ساختهای بنیادین هر ساخت ظرفیتی از فرهنگ ظرفیت استخراج شده است. • آزمون بر روی جملات پیکرۀ بیجنخان انجام شده است.
تحلیل نتایج • برای شناخت ساختهای ظرفیتی فعل در زبان فارسی نیاز به واکاوی بیشتر ساختهای نحوی زبان است. • دقت کم در شناخت ساختهای نحوی ریشه در ابهام بالا در تمایز بین متممها و افزودهها دارد. • گزینههایی دیگری مانند تجزیۀ بیناظر وابستگی برای استخراج ظرفیت ممکن است برای این مسأله مناسب باشد.
فهرست • مفهوم ظرفیت واژگانی در زبان • ابهامهای مسأله • شناخت فعل • شناخت فعل مرکب • تفکیک افزودهها از ظرفیت • کارهای انجامشده در این پایاننامه • استخراج فعل مرکب در فارسی • تهیۀ دادگان زبانی • استخراج بیناظر ظرفیت فعل • پیشنهادها • مراجع اصلی
پیشنهادها • استخراج بیناظر ظرفیت اسم و صفت در زبان فارسی • استفاده از اطلاعات ظرفیتی برای بهبود تجزیۀ وابستگی (Zeman, 2002) • خوشهبندی معنایی فعل • این مسأله بر اساس نظریۀ ردههای معنای لوین (Levin, 1993) قابل انجام است. • استفاده از روشهای استنتاج بیزی در شناخت ساختهای کمبسامد • خطایابی نحوی جملات زبان فارسی بر مبنای ظرفیت واژگانی (Ehsan and Faili, 2012)
مراجع اصلی • Bijankhan, M., The role of the corpus in writing a grammar: An introduction to a software. Iranian Journal of Linguistics, 2004. 19(2). • Carroll, G. and M. Rooth, Valence Induction with a Head-Lexicalized PCFG, in Workshop of Empirical Methods in NLP. 1998: Granada • Ehsan, N. and H. Faili, Grammatical and context‐sensitive error correction using a statistical machine translation framework. Software: Practice and Experience, 2012. • KarimiDoostan, G., Separability of light verb constructions in Persian.StudiaLinguistica, 2011. 65(1): p. 70-95. • Korhonen, A., Subcategorization acquisition. 2002, Ph. D. thesis, University of Cambridge. • Lin, D., Automatic identification of non-compositional phrases, in 37th annual meeting of Association for Computational Linguistics. 1999, Association for Computational Linguistics: College Park, MA. p. 317-324.
مراجع اصلی • Pecina, P., Lexical association measures and collocation extraction. Language Resources and Evaluation, 2010. 44(1): p. 137-158. • Smith, N.A., Linguistic Structure Prediction. Synthesis Lectures on Human Language Technologies, 2011. 4(2): p. 1-274. • Tesnière, L., Esquisse d'une Syntaxe structurale. 1953, Paris: Klincksieck. • Zeman, D., Can subcategorization help a statistical dependency parser?, in COLING '02. 2002, Association for Computational Linguistics. p. 1-7. • طبیبزاده، ا.، ظرفیت فعل و ساختهای بنیادین جمله در فارسی امروز. 1385: نشر مرکز.