600 likes | 783 Views
تجزیۀ وابستگی. محمدصادق رسولی rasooli.ms{# a#t #}gmail.com. منابع مطالعاتی مفید. Sandra Kübler , Ryan McDonald, and Joakim Nivre, “ Dependency Parsing,” Synthesis Lectures on Human Language Technologies, 1 (1), Morgan and Claypool Publishers, 2009. منابع مطالعاتی مفید.
E N D
تجزیۀ وابستگی محمدصادق رسولی rasooli.ms{#a#t#}gmail.com پیشبینی ساختهای زبانی
منابع مطالعاتی مفید • Sandra Kübler, Ryan McDonald, and Joakim Nivre, “Dependency Parsing,” Synthesis Lectures on Human Language Technologies, 1 (1), Morgan and Claypool Publishers, 2009.
منابع مطالعاتی مفید • منابع مطالعاتی دیگر: • محمدصادق رسولی، «تجزیۀ نحوی با استفاده از دستور وابستگی»، مرکز تحقیقات کامپیوتری علوم اسلامی، 1389. • Joakim Nivre, “Inductive Dependency Parsing,” Springer Verlag, 2006. • Jinho D. Choi, “Dependency Parsing,” Tech. Report, University of Colorado at Boulder, 2009. • Ryan McDonald and Joakim Nivre, “Introduction to Data-Driven Dependency Parsing,” European Summer School in Logic Language and Information 2007, 2007.
منابع مطالعاتی مفید در حین ارائۀ مطالب نیز منابع مرتبط معرفی خواهند شد.
دستور وابستگی چیست؟ دستور وابستگی نخستین بار توسط تنییر مطرح شد. این دستور بر مبنای نظریۀ ظرفیت واژگانی شکل گرفته است.
مفهوم ظرفیت واژگانی در زبان • واژهها نیز مانند عناصر دارای ظرفیت هستند. • هر واژهای دارای ظرفیت ترکیب نحوی/معنایی خاصی است. 6
مفهوم ظرفیت واژگانی در زبان پرسیدن ظرفیت واژگانی ظرفیت واژگانی از کَسی.. چیزیرا...
کاربرد زبانی ظرفیت واژگانی امید طبیبزاده، «ظرفیت فعل در زبان فارسی»، نشر مرکز، 1385. • با دانستن ظرفیت واژهها میتوان تولید زبان انجام داد. • ترجمۀ خودکار (Machine Translation) • تحلیل نحوی (Syntactic Analysis) • تولید زبان (Language Generation) • ...
دستور وابستگی در دستور وابستگی مبنا روابط نحوی/معنایی بین واژههای درون جمله است. در این دستور مفهوم گروه معنا ندارد. واژهها بر اساس ظرفیتشان و نوع قرار گرفتن در جمله وابستههایی میگیرند.
ارتباط واژهها در دستور وابستگی وابستۀ پیشین مفعول فعل مرکزی وابستۀ پسین حرف اضافۀ اسم فعلیار صحبت او با دارم دوست را Richard Hudson, “An introduction to word grammar,” Cambridge University Press, 2010.
مقایسۀ اجمالی با دستور زایشی • در دستور زایشی (Generative)، با گروهها سر و کار داریم. • دستور مستقل از متن (CFG) • دستور مبتنی بر عبارات • امکان وجود بیترتیبی در جملات وجود ندارد • در دستور وابستگی با واژهها سر و کار داریم. • امکان بیترتیبی در جملات وجود دارد.
درختهای وابستگی • فرضهای زبانی متفاوتی در مورد درختهای وابستگی میشود. • فرضهای ما (ر.ک. فصل 2 کتاب مرجع) • درخت وابستگی بدون دور است. • هر جمله دارای یک واژۀ فرضی به عنوان ریشۀ جمله است. • هر واژه (غیر از ریشۀ جمله) تنها یک هسته دارد.
درختهای وابستگی • درختهای وابستگی دو نوع هستند • افکنشی (Projective) • هیچ کمانی دیگری را در صورت رسم کمانها از یک سمت بر روی کاغذ قطع نمیکند. • غیرافکنشی (Non-projective) • ممکن است کمانی باشد که برخی دیگر از کمانها را قطع کرده باشد. • در جملات بیترتیب زبانی دیده میشود.
درختهای وابستگی افکنشی هستم آمدنت از ریشه آگاه غیرافکنشی میآیی که هستم ریشه آگاه
تجزیۀ وابستگی • روشهای تجزیۀ وابستگی • مبتنی بر داده • باناظر (Supervised) • مبتنی بر گراف (Graph based) • مبتنی بر گذار (Transition based) • بیناظر (Unsupervised) • نیمهناظر (Semi-supervised) • مبتنی بر دستور زبان
تجزیۀ وابستگی در این درس تنها به روشهای تجزیۀ باناظر مبتنی بر داده پرداخته میشود.
مطالعۀ بیشتر • تجزیۀ بیناظر • مقالۀ اصلی: • D. Klein and C. D. Manning, "Corpus-based induction of syntactic structure: Models of dependency and constituency," ACL 2004. • پایاننامههای مرتبط • Dan Klein, "The Unsupervised Learning of Natural Language Structure," Phd Thesis, Stanford University, 2005. • Noah Smith, "Novel estimation methods for unsupervised discovery of latent structure in natural language text," PhD Thesis, Johns Hopkins University, 2006. • Shay B. Cohen, "Computational Learning of Probabilistic Grammars in the Unsupervised Setting.," PhD Thesis, Carnegie Mellon University, 2011. • و... • Mohammad Sadegh Rasooli and Heshaam Faili, "Fast Unsupervised Dependency Parsing with Arc-Standard Transitions," in EACL Workshop on ROBUS-UNSUP, 2012.
مطالعۀ بیشتر • تجزیۀ نیمهناظر • T. Koo, X. Carrecas and M. Collins, "Simple Semi-supervised Dependency Parsing," in ACL-HLT 2008. • G. Druck, G. Mann and A. McCallum, "Semi-supervised Learning of Dependency Parsers using Generalized Expectation Criteria," in ACL 2009. • تجزیۀ مبتنی بر دستور • فصل چهارم کتاب مرجع
روشهای باناظر • در مجموع در نوع روش مطرح در تجزیۀ وابستگی وجود دارد: • مبتنی بر گراف • مبتنی بر گذار
تجزیۀ مبتنی بر گراف • هدف پیدا کردن بهترین درخت وابستگی با استفاده از الگوریتمهای گرافی است. • این روش به طور کلی به دو نوع روش تقسیم میشود: • تجزیۀ افکنشی • تجزیۀ غیرافکنشی • مطالعۀ بیشتر • R. McDonald, "Discriminative Training and Spanning Tree Algorithms for Dependency Parsing," PhD Thesis, University of Pennsylvania, 2006.
تجزیۀ مبتنی بر گراف • الگوی تجزیه • مجموعهای از محدودیتها روی ساختارهای قابل قبول • مجموعهای از مؤلفهها • الگوریتم ثابت تجزیه • در نتیجه امتیاز یک گراف G به صورت زیر میشود
تجزیۀ مبتنی بر گراف • برای زیرگرافهای و مجموعۀ زیرگرافهای مربوط به گراف تابع تعریف میشود • معمولاً فرض میشود که این تابع برابر با جمع مؤلفههای زیرگرافهاست:
تجزیۀ مبتنی بر گراف • تعریف چهار مسأله الزامی به نظر میرسد: 1- برای گراف . 2- . 3- تابع برای یادگیری از روی دادههای برچسبدار. 4- الگوریتم تجزیۀ .
یک الگوریتم نمونه • این الگوریتم با عامل در نظر گرفتن وزن یالها سعی در پیدا کردن بهترین درخت را دارد (Arc-factored). • بر این اساس الگوریتمهای تجزیۀ افکنشی و غیرافکنشی نیز تعریف میشود.
تجزیۀ غیرافکنشی • هدف پیدا کردن درخت جهتدار پوشای بهینه است • Chu-Liu-Edmonds • در این الگوریتم به صورت حریصانه بهترین یالهای واردشده به هر گره انتخاب میشود. • در صورت وجود دور، یکی از دورها را با پیدا کردن بهترین یال واردشده به یکی از یالهای آن دور رفع میکند. • الگوریتم به صورت بازگشتی اجرا میشود. • در بدترین حالت با حل میشود.
تجزیۀ افکنشی • الگوریتم CKY برای تجزیۀ بهینه با استفاده از برنامهنویسی پویا مناسب است. • پیچیدگی محاسباتی الگوریتم است.
تجزیۀ افکنشی نحوۀ ترکیب و تجزیۀ زیردرختها با برنامهنویسی پویا
تجزیۀ افکنشی نحوۀ کار الگوریتم CYK
تجزیۀ افکنشی Jason M. Eisner, "Three new probabilistic models for dependency parsing: An exploration," in COLING 1996. • الگوریتم آیزنر
تجزیۀ افکنشی • در این الگوریتم با در نظر داشتن وابستهها چپ و راست به صورت جداگانه و مستقل از هم سرعت الگوریتم بالا میرود (). • این الگوریتم در عمدۀ روشهای بیناظر تجزیۀ وابستگی به کار رفته است. • D. Klein and C. D. Manning, "Corpus-based induction of syntactic structure: Models of dependency and constituency," ACL 2004.
روش یادگیری • f نشاندهندۀ تابع ویژگی است: • برچسب اجزای سخن (POS) • واژه • ... • w وزن مورد نظر برای هر نوع ویژگی است • این وزنها با الگوریتمهایی مانند شبکۀ عصبی پرسپترون یاد گرفته میشود.
تجزیۀ با مراتب بالاتر • چیزی که تاکنون گفته شد، مربوط به وابستگی مرتبۀ 1 بوده است. • یالها از هم مستقل تشکیل میشوند. • وابسته بودن یالها باعث پیچیدگی الگوریتم میشود. • تجزیۀ مرتبۀ دوم • تجزیۀ مرتبۀ سوم • T. Koo and M. Collins, "Efficient third-order dependency parsers," in ACL 2010.
نرمافزارهای موجود • مرتبۀ 1 و 2 • http://www.ryanmcd.com/MSTParser/MSTParser.html • https://github.com/rasoolims/MSTParserCSharp/ • مرتبۀ 3 • http://groups.csail.mit.edu/nlp/dpo3/
تجزیۀ مبتنی بر گذار سامانۀ گذار یک دستگاه انتزاعی ، شامل تعدادی پیکربندی (حالت ) و گذار (انتقال) بین این پیکربندیهاست. یکی از راههای مرسوم برای نمایش پیکربندی استفاده از پشته و حافظۀ ورودی است.
تجزیۀ یال-معیار روشهای مختلفی برای تجزیۀ مبتنی بر گذار وجود دارد. تجزیۀ یال-معیار (arc-standard) برای درختهای افکنشی است. در این الگوریتم تضمینی بر درست شدن درخت وجود ندارد و جنگلی از درختها ممکن است تشکیل شود. Joakim Nivre. 2004. Incrementality in deterministic dependency parsing. In Workshop on Incremental Parsing: Bringing Engineering and Cognition Together, pages 50–57.
تجزیۀ یال-معیار • S: Stack of processed words • I: Buffer of unprocessed words • A: Set of arcs created until now • : : An empty arcset
تجزیۀ یال-معیار Stack Buffer You are very good Arc-sets You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
تجزیۀ یال-معیار Stack Buffer You are very good Arc-sets Action Shift You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
تجزیۀ یال-معیار Stack Buffer You are very good Arc-sets Action Shift You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
تجزیۀ یال-معیار Stack Buffer You are very good Arc-sets Action Left-Reduce Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
تجزیۀ یال-معیار Stack Buffer are very good Arc-sets Action Shift Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions