580 likes | 844 Views
شرح کار پروژۀ دادگان وابستگی زبان فارسی. محمدصادق رسولی rasooli.ms{@AT@}gmail.com. دادگان زبانی در زبانشناسی رایانهای. امروزه در عمدۀ روشهای هوشمند پردازش زبانی از دادگان و پیکرههای متنی برچسبدار استفاده میشود.
E N D
شرح کار پروژۀدادگان وابستگی زبان فارسی محمدصادق رسولی rasooli.ms{@AT@}gmail.com پروژۀ دادگان وابستگی زبان فارسی
دادگان زبانی در زبانشناسی رایانهای امروزه در عمدۀ روشهای هوشمند پردازش زبانی از دادگان و پیکرههای متنی برچسبدار استفاده میشود. با وجود هزینۀ زیاد برای آمادهسازی پیکرهها، پروژههای بسیاری در زبانهای مختلف تعریف شده است. در رویکردهای مبتنی بر پیکرهها نتایج پردازشی بهتری نسبت به رویکردهای مبتنی بر قاعده به دست آمده است. پروژۀ دادگان وابستگی زبان فارسی
دادگان زبانی در زبانشناسی رایانهای در پروژههای اخیر پژوهشهای دفاعی ایالات متحده، یکی از دغدغههای اصلی در پردازش هوشمند متون، فرایند تهیۀ دادگان زبانی اعلام شده است. انتخاب نظریۀ زبانی مناسب برای تهیۀ پیکرههای زبانی از اهمیت بسیار زیادی برخوردار است پروژۀ دادگان وابستگی زبان فارسی
هزینۀ مربوط به تهیۀ پیکرههای زبانی • معمولاً تهیۀ پیکرۀ زبانی هزینههای بسیار زیادی را از نظر زمانی و نیروی انسانی در بر میگیرد. • به عنوان مثال دو مرحله از تهیۀ پیکرۀ درختی چینی در مجموع 5 سال به طول انجامید. • برای این که پیکرۀ متنی نمایندگی کافی برای دادگان زبانی داشته باشد، باید اطلاعات اولیۀ مناسبی در مورد ویژگیهای زبانی کسب کرد که این خود فرایندی زمانبر است. پروژۀ دادگان وابستگی زبان فارسی
زبان فارسی و رایانه با توجه به دغدغههای موجود در زبان فارسی، پروژههایی با حمایت دبیرخانۀ شورای عالی اطلاعرسانی شکل گرفت. پروژۀ ویراستیار اولین گام جدی در کاربردی کردن مسائل علمی دنیای پردازش متن در نرمافزارهای زبان فارسی بوده است. پس از اتمام نسخۀ 1 ویراستیار دغدغههای پردازشی برای تحلیل نحو و معنا در زبان فارسی به وجود آمد. پروژۀ دادگان وابستگی زبان فارسی
نتایج حاصل از تحقیقات • برای پردازش نحو در زبان فارسی نیاز به دو مسألۀ اساسی است: • انتخاب یک نمایش زبانی مناسب و اصولی با توجه به خاصیتهای زبان فارسی • نیاز جدی به یک پیکرۀ برچسبخوردۀ نحو در زبان فارسی • در 28 زبان زندۀ دنیا چنین پیکرهای وجود داشته است. پروژۀ دادگان وابستگی زبان فارسی
وضعیت دادگانی امروز در نحو زبان فارسی • تا آن زمان تنها پیکرۀ برچسبخوردۀ مناسب برای فهم زبان فارسی، پیکرۀ متنی بیجنخان بوده است. • تنها در آن اطلاعات ساختواژی زبان برچسب خورده است و اطلاعاتی در مورد ساختار نحوی و معنایی جملات وجود ندارد. پروژۀ دادگان وابستگی زبان فارسی
انتخاب بازنمایی نحوی مناسب • هماکنون دو نوع بازنمایی مرسوم در پیکرههای نحوی و معنایی زبانی در دنیا وجود دارد: • دستور زایشی: مانند پیکرۀ درختی پن، در این نوع از نمایش، جمله به عبارتهایی و عبارات به زیرعبارات و زیرعبارتها به واژهها تقسیمبندی میشوند. • دستور وابستگی: مانند پیکرۀ وابستگی پراگ که در این نوع از نمایش، ارتباطهای وابستگی بین واژهها مشخص میشود. پروژۀ دادگان وابستگی زبان فارسی
مقایسۀ بازنمایی زایشی و وابستگی • در هر دو نوع از بازنمایی میتوان سطح نحو و معنا را پوشش داد. • در بازنمایی وابستگی امکان نشان دادن جملات با بیترتیبی زبانی نسبت به بازنمایی زایشی بیشتر و مناسبتر است. • به همین دلیل در زبانهای بیترتیب مانند چکی، ترکی و عربی پیکرههای وابستگی ترجیح داده شدهاند. • در زبان فارسی نیز بیترتیبی وجود دارد.
مقایسۀ بازنمایی زایشی و وابستگی پیکرههای با بازنمایی دستور وابستگی قابل تبدیل به پیکرۀ زایشی هستند ولی عکسِ این مسأله به صورت صد در صد امکانپذیر نیست. دستور وابستگی به نمایش انسانی نزدیکتر است. در دستور وابستگی بسیاری از اطلاعات واژگانی (مانند ظرفیت نحوی و معنایی) را میتوان به طور صریح در کمانهای وابستگی نشان داد. با وجود این مسائل به این نتیجه رسیدهایم که دستور وابستگی را به عنوان بازنمایی نحوی پیکرۀ زبان فارسی برگزینیم.
سرنخ تحقیقات: Valency این اصطلاح در کتاب «Dependency Parsing» دیده شد و با توجه به غریب بودن این مطلب تحقیقات در جهت شناخت این مسأله به وجود آمد. در نهایت کتاب «ظرفیت فعل در زبان فارسی» به عنوان تنها کتاب مربوط به زبان فارسی پیدا شد. پروژۀ دادگان وابستگی زبان فارسی
مفهوم ظرفیت واژگانی در زبان • واژهها نیز مانند عناصر دارای ظرفیت هستند. • هر واژهای دارای ظرفیت ترکیب نحوی/معنایی خاصی است. 13
مفهوم ظرفیت واژگانی در زبان پرسیدن ظرفیت واژگانی ظرفیت واژگانی از کَسی.. چیزیرا...
کاربرد زبانی ظرفیت واژگانی امید طبیبزاده، «ظرفیت فعل در زبان فارسی»، نشر مرکز، 1385. • با دانستن ظرفیت واژهها میتوان تولید زبان انجام داد. • ترجمۀ خودکار (Machine Translation) • تحلیل نحوی (Syntactic Analysis) • تولید زبان (Language Generation) • ...
دستور وابستگی در دستور وابستگی مبنا روابط نحوی/معنایی بین واژههای درون جمله است. در این دستور مفهوم گروه معنا ندارد. واژهها بر اساس ظرفیتشان و نوع قرار گرفتن در جمله وابستههایی میگیرند.
ارتباط واژهها در دستور وابستگی وابستۀ پیشین مفعول فعل مرکزی وابستۀ پسین حرف اضافۀ اسم فعلیار صحبت او با دارم دوست را Richard Hudson, “An introduction to word grammar,” Cambridge University Press, 2010.
مقایسۀ اجمالی با دستور زایشی • در دستور زایشی (Generative)، با گروهها سر و کار داریم. • دستور مستقل از متن (CFG) • دستور مبتنی بر عبارات • امکان وجود بیترتیبی در جملات وجود ندارد • در دستور وابستگی با واژهها سر و کار داریم. • امکان بیترتیبی در جملات وجود دارد.
درختهای وابستگی • فرضهای زبانی متفاوتی در مورد درختهای وابستگی میشود. • فرضهای ما • درخت وابستگی بدون دور است. • هر جمله دارای یک واژۀ فرضی به عنوان ریشۀ جمله است. • هر واژه (غیر از ریشۀ جمله) تنها یک هسته دارد.
درختهای وابستگی • درختهای وابستگی دو نوع هستند • افکنشی (Projective) • هیچ کمانی دیگری را در صورت رسم کمانها از یک سمت بر روی کاغذ قطع نمیکند. • غیرافکنشی (Non-projective) • ممکن است کمانی باشد که برخی دیگر از کمانها را قطع کرده باشد. • در جملات بیترتیب زبانی دیده میشود.
درختهای وابستگی افکنشی هستم آمدنت از ریشه آگاه غیرافکنشی میآیی که هستم ریشه آگاه
تجزیۀ وابستگی • روشهای تجزیۀ وابستگی • مبتنی بر داده • باناظر (Supervised) • مبتنی بر گراف (Graph based) • مبتنی بر گذار (Transition based) • بیناظر (Unsupervised) • نیمهناظر (Semi-supervised) • مبتنی بر دستور زبان
سادگی تجزیۀ وابستگی به عنوان نمونه الگوریتم تجزیۀ یال-معیار (Arc-Standard) روشهای مختلفی برای تجزیۀ مبتنی بر گذار وجود دارد. تجزیۀ یال-معیار (arc-standard) برای درختهای افکنشی است. JoakimNivre. 2004. Incrementality in deterministic dependency parsing. In Workshop on Incremental Parsing: Bringing Engineering and Cognition Together, pages 50–57. پروژۀ دادگان وابستگی زبان فارسی
تجزیۀ یال-معیار • S: Stack of processed words • I: Buffer of unprocessed words • A: Set of arcs created until now • : An empty arcset
تجزیۀ یال-معیار Stack Buffer You are very good Arc-sets You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
تجزیۀ یال-معیار Stack Buffer You are very good Arc-sets Action Shift You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
تجزیۀ یال-معیار Stack Buffer You are very good Arc-sets Action Shift You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
تجزیۀ یال-معیار Stack Buffer You are very good Arc-sets Action Left-Reduce Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
تجزیۀ یال-معیار Stack Buffer are very good Arc-sets Action Shift Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
تجزیۀ یال-معیار Stack Buffer are very good Arc-sets Action Shift Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
تجزیۀ یال-معیار Stack Buffer are very good Arc-sets Action Left-Reduce Rel(are, You) Rel(good, very) ` You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
تجزیۀ یال-معیار Stack Buffer are good Arc-sets Action Right-Reduce Rel(are, You) Rel(good, very) ` ` Rel(are, good) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
تجزیۀ یال-معیار Stack Buffer are Arc-sets Action Right-Reduce Rel(are, You) Rel(good, very) ` ` Rel(are, good) You are very good Rel(root, are) Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
پیشنهاد پروژه: دادگان نحوی زبان • در آغاز برای دادگان نحوی زبان پیشنهاد پروژه شد. • خاصیتهای دستور وابستگی • قدرت بالا برای کارهای پردازشی • امکان تبدیل آن به ساختار زایشی (ساختار مبتنی بر گروهها) • مناسب برای زبان فارسی پروژۀ دادگان وابستگی زبان فارسی
فرآیند اولیۀ کار: پاییز 1389 پروژۀ دادگان وابستگی زبان فارسی
مراحل تفکیکی کار تعریف اولیۀ پروژه فرهنگ ظرفیت پیکرۀ وابستگی تهیۀ ابزار فعلیاب و تحلیل فعل تهیۀ ابزار برچسبزنی پژوهشهای زبانیِ کاربردی تهیۀ ابزار برچسبزنی تهیۀ دادههای خام اولیه برچسبزنی دادگان برچسبزنی دادگان تهیۀ دادهای خام اولیه پروژۀ دادگان وابستگی زبان فارسی
شناخت فعل مرکب در زبان فارسی با توجه به دغدغههای موجود در شناخت فعل مرکب، بررسیهای رایانهای متفاوتی بر روی فعل مرکب انجام شد که در مقالۀ ذیل این روند گزارش شده است. Mohammad Sadegh Rasooli, Heshaam Faili, and BehrouzMinaei-Bidgoli, "Unsupervised Identification of Persian Compound Verbs", Advances in Artificial Intelligence, Pages 394-406, 2011. پروژۀ دادگان وابستگی زبان فارسی
تهیۀ ابزار برچسبزنی این ابزار در پایان پاییز 1389 به پایان رسید. پروژۀ دادگان وابستگی زبان فارسی
آغاز به کار پروژۀ فرهنگ ظرفیت • پروژۀ دادگان زبانی از اواسط دیماه شروع شد. • در این حین تیم برنامهنویسی به آمادهسازی ابزار برچسبزنی پرداخت. • برای تحقیق بیشتر و اطمینان از روند طیشده، یک سخنرانی علمی با حضور دکتر طبیبزاده در دانشگاه تهران ترتیب دادیم. • این سخنرانی علمی با عنوان «دستور وابستگی، نظریۀ گروههای خودگردان» در دانشکدۀ ادبیات و علوم انسانی با حضور اساتیدی از جمله «دکتر بیجنخان» و «دکتر غلامحسین کریمی دوستان» برگزار شد. پروژۀ دادگان وابستگی زبان فارسی
سخنرانی علمی دانشگاه تهران پروژۀ دادگان وابستگی زبان فارسی
سخنرانی علمی دانشگاه تهران پروژۀ دادگان وابستگی زبان فارسی
حضور در گردهمایی قم و معرفی پروژه در این گردهمآیی مسائل پیشینی و آتی پروژه مورد بررسی و مرور قرار گرفت. پروژۀ دادگان وابستگی زبان فارسی
اتمام نسخۀ 1 فرهنگ ظرفیت همزمان با اتمام این پروژۀ در خرداد 1390، وبگاه دادگان نیز فعال شد. این فرهنگ بارها مورد بازبینی جدی قرار گرفته است. هماکنون نسخۀ 2.2.2 از این فرهنگ بر روی وبگاه دادگان وجود دارد. پروژۀ دادگان وابستگی زبان فارسی
اتمام نسخۀ 1 فرهنگ ظرفیت گزارش کار این فرهنگ در مقالۀ زیر نوشته شده است: Mohammad Sadegh Rasooli, Amirsaeid Moloodi, ManouchehrKouhestani, and BehrouzMinaei-Bidgoli, "A Syntactic Valency Lexicon for Persian Verbs: The First Steps towards Persian Dependency Treebank", in 5th Language & Technology Conference (LTC): Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, pp. 227-231, 2011. پروژۀ دادگان وابستگی زبان فارسی
آمادهسازی ابزار برچسبزنی و دادههای اولیه پروژۀ دادگان وابستگی زبان فارسی
آغاز رسمی پروژۀ پیکرۀ وابستگی زمان: تیر و مرداد 1390 برای این هدف، از افراد زبانشناس دعوت عمومی به عمل آمد و در یک کلاس آموزشی و با تهیۀ جزوات مفصل، به افراد آموزشهای لازم داده شد. پروژۀ دادگان وابستگی زبان فارسی
یک اتفاق: پیکرۀ دانشگاه اوپسالا • باخبر شدیم که در دانشگاه اوپسالا یک پروژۀ تجاری در حال انجام است که این پروژه بر عهدۀ یک دانشجوی دکترای ایرانی است. • این تیم تحقیقاتی در یک مقالۀ علمی پژوهشی ادعا کردند که میخواهند اولین پیکرۀ وابستگی زبان فارسی را بسازند. • هنوز این پیکره در آن دانشگاه ساخته نشده است ولی دو مقالۀ علمی از آن استخراج کردهاند. • بر اساس اولویتهای کار در آغاز بهمن 1390 نسخۀ پیشینی از پیکره را بر روی وبگاه دادگان همراه با راهنمای 26 صفحهای قرار دادیم. پروژۀ دادگان وابستگی زبان فارسی
نسخۀ 0/1 پیکره پروژۀ دادگان وابستگی زبان فارسی
وضعیت کنونی هماکنون حدود 25,500 جمله برچسب نحوی و صرفی کامل خوردهاند. به امید خدا، این پیکره با حدود 30,000 جمله در پایان بهار 1391 با برچسبزنی اولیه آماده میشود. در تابستان، اشکالگیریهای نهایی و مستندسازی نهایی انجام خواهد شد. پروژۀ دادگان وابستگی زبان فارسی
ابزارهای توسعهیافتۀ جانبی • فعلیاب سریع و هوشمند • در https://github.com/rasoolims/PersianVerbAnalyzer/ • تجزیهگر مبتنی بر گراف • در https://github.com/rasoolims/MSTParserCSharp/ • تجزیهگر مبتنی بر گذار • برنامۀ ترسیم درخت نحوی • خطایاب نحوی مبتنی بر ظرفیت فعلها در زبان فارسی پروژۀ دادگان وابستگی زبان فارسی