170 likes | 405 Views
تمرین سری دوم. دانشگاه صنعت ي ام ي ر کب ي ر دانشکده مهندس ي کامپ ي وتر و فناور ي اطلاعات. استاد درس: آقای دکتر عبدالله زاده توسط: اسماعیل رضایی- 86131031 . درس پردازش زبان طبيعی. به نام خدا. صورت تمرین.
E N D
تمرین سری دوم دانشگاه صنعتي امير کبير دانشکده مهندسي کامپيوتر و فناوري اطلاعات استاد درس: آقایدکتر عبدالله زاده توسط: اسماعیل رضایی- 86131031 درس پردازش زبان طبيعی
صورت تمرین چند کاربرد از کاربردهای پردازش زبان طبیعی را بیان کرده و یکی از این کاربردها را به عنوان کار تحقیقاتی خود انتخاب کنید و برای این کاربرد خاص، موارد زیر را تشریح نمایید: تعریف کاربرد تعیین حداقل 5 مقاله (به ترتیب تاریخ) از افرادی که در این ارتباط کار کرده اند. شرح کار هر یک از این افراد (بر اساس مقالات تعیین شده). برای هر یک از این 5 نمونه، Input، Process، Output را مشخص نمایید. معماری سیستمهای پردازشی هر یک را تعیین و اجزاء آنها (از قبیل گرامر، dictionary و ...) را مشخص کنید. نحوه اخذ دانش، بازنمایی دانش، ساخت دانش و نیز دانش های موردنیاز هر یک را بیان نمایید.
چند کاربرد از کاربردهای پردازش زبان طبیعی 1 – ترجمه ماشینی 2- خلاصه سازی خودکار و ماشینی متن 3- کاربرد آن در داده کاوی و بویژه در وب کاوی 4- تبدیل متن به گفتار و همچنین تبدیل گفتار به متن 5- سیستم های گفتگوی ماشینی 6- گروه بندی مطالب TEXT CLASSIFICATION 7- نمايه سازي متن 9- بازيابي متن 10- استخراج اطلاعات 11 - پاسخ به پرسش (Question Answering) 12- کاربرد در واسط های کاربری (ساخت واسط های دستوری)
ترجمه ماشینی از میان 12 کاربردی که برای پردازش زبان طبیعی بیان کردیم، ترجمه ماشینی را برای ادامه تمرین انتخاب می کنیم. 1- تعریف ترجمه ماشینی : ترجمه ماشینی عبارتست از ، آنالیز متن زبان مبدا و تولید متن معادل آن در زبان مقصد بدون هیچ دخالتی از طرف انسان،کاملا خودکار و توسط ماشین. روش های اصلی ترجمه ماشینی Direct این روش درواقع ترجمه لغت به لغت می باشد. Transfer زبان مبدا به یکی از بازنمایی های Syntax یا Semantic تحلیل شده و پس از این بازنمایی زبان مبدا به بازنمایی مناسب زبان مقصد تبدیل شده و در نهایت جملات زبان مقصد از این بازنمایی تولید می شوند. Interlingual جملات زبان مبدا به یک بازنمایی مفهومی سراسری که به آن IL گفته می شود ،تبدیل شده و جملات زبان مقصد ازتبدیل آن بدست می آید.
تعیین حداقل 5 مقاله از افرادی که در این ارتباط کار کرده اند. [1] Bonnie J. Dorr,Clare R. Voss, “A Multi-Level Approach to Interlingual MT, Definingthe Interface between Representational Languages “ ,Department of Computer science University of Maryland . [2] Chris Quirk,” Training a Sentence-Level Machine Translation Confidence Measure”, May 2004. [3] Einat Minkov,Kristina Toutanova, Hisami Suzuki Generating ,”Complex Morphology for Machine Translation”, June 2007 . [4] Kristina Toutanova , Hisami Suzuki,” Generating Case Markers in Machine Translation”, April 2007. [5] Robert C. Moore,ChrisQuirk,” Faster Beam-Search Decoding for Phrasal Statistical Machine Translation.” September 2007 .
A Multi-Level Approach to Interlingual MT [1] Bonnie J. Dorr,Clare R. Voss, “A Multi-Level Approach to Interlingual MT, Definingthe Interface between Representational Languages “ ,Department of Computer science University of Maryland . آنچه در این مقاله بحث می شود: یک طراحی چند لایه ای از یک سیستم ترجمه ماشینی شرح داده می شود.یک سیستم غیر یکنواخت(non-uniform) که برای توصیف دانش های متفاوت از زبان های بازنمایی مختلف استفاده شده است. در این سیستم جملات تمام زبان ها به یک زبان مشترک بازنمایی شده و بعد از آن این بازنمایی به زبان مقصد ترجمه می شود. در این سیستم به دلیل general purpose بودن سیستم از بسیاری از روش های بازنمایی دانش استفاده شده است تا ترجمه حاصل هر چه بیشتر به زبان مبدا نزدیک بوده و خلاء های معنایی تا حد امکان پوشش داده شود.
A Multi-Level Approach to Interlingual MT اما پیرامون input ،process و output در این سیستم : Input : ورودی این سیستم جملات زبان مبدأ هستند که باید به زبان مقصد ترجمه شوند. ورودی سیستم، خروجی سیستم PRINCIPAR است. PRINCIPAR پارسراستفاده ساخته شده توسط Dorr،Linو Lee در سال 1995 است. Process : پردازش این سیستم شامل بازنمایی دانش متن مورد نظر به زبان میانی interlingua و تبدیل دانش بازنمایی شده به جملات زبان مقصد می باشد. Output : خروجی این سیستم جملاتی با مفهوم زبان مبدأ و با syntax زبان مقصد می باشد.
فازهای پردازش در این معماری همانطور که در شکل 1 مشاهده می شود، در این مدل پیشنهادی 3 فاز پردازش داریم. 1 _ Analysis/synthesis phase : in which a source-language (SL) sentence is parsed into a syntactic structure . 2 _A composition/decomposition phase : A SL syntactic structure is composed into an IL representation or an IL representation is decomposed into a TL syntactic structure and lexical items. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
3_ KR phase : checks the IL representations filtering out incompatible forms with known facts Coercing or augmenting IL forms with logically inferred knowledge in order to resolve an incomplete IL composition. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
روش بازنمایی دانش در این سیستم اما در خصوص روش بازنمایی دانش در این سیستم : از آنجا که این سیستم یک سیستم بزرگ و همه منظوره برای ترجمه ماشینی می باشد از چندین روش بازنمااستفاده می شود. اما روش بازنمایی که بیشتر از هر روشی در این سیستم به کار می رود، Lexical Conceptual Structure(LCS)می باشد. که در اسلاید های بعدی به آنها خواهیم پرداخت.
Lexical Conceptual Structure(LCS) Invented By Jackendoff (1983 , 1990). روش بازنمایی LCS یک روش بازنمایی مفهومی است و به عنوان یک ساختار مفهومی مطرح می باشد. این روش بازنمایی سه بخش اصلی دارد. Fields Conceptual constituents Boundedness and aggregation property درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
Lexical Conceptual Structure(LCS) یک مثال از اینکه ببینیم چگونه گزاره اولیه Go با نوع Event برای بازنمایی مفهوم یک جمله به کار می رود. این بازنمایی به این معنا است که "The ball went locationally toward Beth." درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
Lexical Conceptual Structure(LCS) در اینجا یک شکل بازنمایی برای جمله زیر داریم. “John jogged to school” درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند
Lexical Conceptual Structure(LCS) بازنمایی بیان شده ، تنها مفهوم به مدرسه رفتن را می رساند و در این بازنمایی تفاوتی بین Run ، Walk و یا Jog بیان نشده است. بنابراین شکل کامل این بازنمایی به صورت زیر است. درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی آزمایشگاه سیستم های هوشمند