Machine Translation

In the name of God Machine Translation Mohammad Bahrani May 2011

ترجمه ماشيني (Machine Translation) • ترجمه ماشيني: ترجمه خودکار جملات از یک زبان طبیعی به زبان طبیعی دیگر به گونه ای که فرد بومی زبان مقصد همان مفهومی را دریافت کند که گوینده مدنظر داشته است. • آغاز تحقيقات در زمينۀ ترجمه ماشيني از دهۀ 1940 ميلادي با اهداف نظامي • با وجود پيشرفت هاي زياد در اين زمينه هنوز دقت سيستم هاي ترجمه در حدود 70% است.

ترجمه ماشيني: مشكلات • مشكلات ترجمه ماشيني به طور عمده از تفاوت بين دو زبان مبدأ و مقصد ناشي مي شود. • تفاوت هاي مورفولوژيكي: زبان هاي مختلف از لحاظ ساختار مورفولوژيكي و نحوۀ اتصال وندها متفاوتند. يك كلمه با گرفتن وندهاي مختلف ممكن است معناي بسيار متفاوتي با كلمه اصلي توليد كند. • كتابهايشانند ←(these) are their books • تفاوت هاي ساختاري (نحوي): ترتيب قرارگرفتن اجزاي جمله در زبان هاي مختلف متفاوت است. مثلاً انگليسي SVO، فارسي SOV و عربي VSO است.

ترجمه ماشيني: مشكلات • تفاوتهاي مورفولوژيكي-ساختاري: بعضي از زبان ها head-marking و بعضي dependent-marking هستند. • زبان هاي head-marking: ارتباط بين هسته (head) و وابسته (dependent) در يك عبارت برروي head مارك مي شود: خانۀ علي • زبان هاي dependent-marking: ارتباط بين هسته (head) و وابسته (dependent) در يك عبارت برروي dependent مارك مي شود: Ali’s house • معاني مختلف كلمات: يك كلمه در زبان مبدأ ممكن است به چند كلمه در زبان مقصد ترجمه شود: • I see you at the bank. • علي شير را آورد. • آن مردمرد.

ترجمه ماشيني: مشكلات • تفاوت ضماير: تعداد و نوع ضماير در زبان هاي مختلف متفاوت است. • در زبان انگليسي ضمير سوم شخص براساس جنسيت متفاوت است ولي در فارسي اينچنين نيست. • در عربي براي ارجاع به دو شخص (حالت مثني) ضماير جداگانه اي داريم. • زمان افعال (verb tenses): زمان هاي فعل در زبان هاي مختلف متفاوت است و نمي توان هميشه بين آنها تناظر يك به يك برقرار كرد.

ترجمه ماشيني: مشكلات • حروف اضافه: در بعضي زبان ها به كار بردن حروف اضافۀ مختلف ممكن است معناي جمله را كاملاً تغيير دهد: • I go to the house. • I go from the house. • I go in the house. • اصطلاحات (idioms): در هر زبان ممكن است مجموعه اي از لغات در كنار هم معناي خاصي را به وجود آورند كه با معناي تحت اللفظي آنها متفاوت باشد. • دار فانی را وداع گفت. • If I were in your shoes

ترجمه ماشيني: رويكردها • سطوح مختلف ترجمه: • ترجمۀ ماشيني كاملاً اتوماتيك (Fully Automated Translation يا FAT) • ترجمۀ ماشيني با كمك انسان (Human-Aided Machine Translation يا HAMT) • ترجمۀ انساني با كمك ماشين (Machine-Aided Human Translation يا MAHT) • ترجمۀ كاملاً انساني

ترجمه ماشيني: رويكردها

ترجمه ماشيني: رويكردها • دو رويكرد كلي در ترجمه ماشيني: • روش هاي مبتني بر قاعده (rule-based) • روش هاي مبتني بر داده • روش هاي مبتني بر قاعده • ترجمه مستقيم (direct translation) • ترجمه مبتني بر انتقال (transfer-based translation) • ترجمه براساس زبان مياني(Interlingua) • روش هاي مبتني بر داده • ترجمه آماري (statistical translation) • ترجمه مبتني بر مثال (example-based translation)

ترجمه ماشيني: روش هاي مبتني بر قاعده • ترجمۀ مستقيم (direct translation) • كلمات جملۀ ورودي پس از تحليل مورفولوژيكي به كلمات معادل در زبان مقصد ترجمه مي شوند. • مزايا: سريع، ساده و كم هزينه • معايب: ضعيف، نامعتبر و نيازمند ويرايش زياد • ترجمۀ مبتني بر انتقال (transfer-based translation) • جملۀ زبان مبدأ مورد تحليل مورفولوژيكي و نحوي قرار مي گيرد و درخت تجزيۀ نحوي (يا معنايي) از آن استخراج مي شود. • با استفاده از قواعد زباني، ساختار درخت نحوي زبان مبدأ به ساختار زبان مقصد تبديل مي شود. • براساس ساختار نحوي زبان مقصد، ترجمه توليد مي گردد. • معايب: احتياج به دانش سطح بالاي زباني و افراد خبره براي استخراج ruleها داريم.

ترجمه ماشيني: روش هاي مبتني بر قاعده

ترجمه ماشيني: روش هاي مبتني بر قاعده • روش مبتني بر زبان مياني (interlingua) • ساختار نحوي زبان مبدأ به يك زبان مصنوعي مياني نگاشته مي شود و سپس ساختار مياني به ساختار زبان مقصد تبديل مي شود. ساختار زبان مياني از زبان هاي مبدأ و مقصد مستقل است. • مزيت: مي توان با استفاده از زبان مياني، زبان هاي مختلف را به هم ترجمه كرد. • عيب: تعريف يك زبان مياني كه بتوان ساختار همۀ زبان ها را به سادگي به آن تبديل كرد كار مشكلي است.

ترجمه ماشيني: روش هاي مبتني بر قاعده Interlingua Semantic Composition Semantic Decomposition Semantic Structure Semantic Structure Semantic Analysis Semantic Generation Semantic Transfer Syntactic Structure Syntactic Structure Syntactic Transfer Syntactic Analysis Syntactic Generation Word Structure Word Structure Direct Morphological Generation Morphological Analysis Target Text Source Text

ترجمه ماشيني: روش هاي مبتني بر داده • ترجمۀ ماشيني آماري (statistical MT) • با استفاده از نظريه تصميم آماري بهترين دنباله از كلمات زبان مقصد را با توجه به دنباله كلمات مبدأ پيدا مي كند. • به ازاي جملۀ ورودي S=s1s2s3…sn از زبان مبدأ بايد جملۀ خروجي T=t1t2t3…tm از زبان مقصد را طوري پيدا كنيم كه P(T|S) ماكزيمم شود. • P(T): مدل زباني زبان مقصد (fluency جملۀ توليد شده را كنترل مي كند) • P(S|T): مدل ترجمه (با استفاده از پيكره هاي متني موازي دوزبانه به دست مي آيد)

ترجمه ماشيني: روش هاي مبتني بر داده • ترجمه مبتني بر مثال (example-based translation) • سيستم ترجمه سعي مي كند با استفاده از جملات ترجمه شده انساني كه در يك پيكره بزرگ دوزبانه وجود دارد، ترجمۀ جملات را پيدا كند. • استفاده از حافظۀ ترجمه (translation memory) • ترجمه بدون نياز به تحليل نحوي يا معنايي و فقط با استفاده از جستجو در يك پايگاه داده صورت مي گيرد. • براي مواردي مناسب است كه متون تكراري براي ترجمه به كار مي رود. • مزيت: ترجمه هاي دقيقي معادل با ترجمه هاي انساني توليد مي شود. • عيب: نياز به حجم بسيار زيادي از جملات و عبارات ترجمه شده دارد.

ترجمه ماشيني: ارزيابي • دو رويكرد كلي در ارزيابي ترجمه ماشيني • ارزيابي انساني • ارزيابي خودكار • ارزيابي انساني: خروجي سيستم ترجمه توسط انسان ارزيابي مي شود. • افراد متفاوت برحسب سليقه ارزيابي هاي متفاوتي ارائه مي دهند. • خطاي انساني ممكن است بر نتايج ارزيابي تأثير بگذارد. • به دليل استفاده از نيروي انساني پرهزينه است. • ارزيابي خودكار: خروجي ترجمه به طور اتوماتيك با ترجمۀ انساني مقايسه مي گردد و براساس معيارهاي متفاوتي ارزيابي مي گردد. بعضي از معيارها عبارتند از: • WER • PER • BLUE • NIST

ترجمه ماشيني: ارزيابي • معيار WER (Word Error Rate): مانند معيار WER در بازشناسي گفتار عمل مي كند. ميزان خطاهاي حذف، درج و جايگزيني در جملۀ خروجي نسبت به ترجمۀ صحيح سنجيده مي شود و خطا محاسبه مي گردد. • معيار PER (position independent word error rate): معيار WER وابسته به ترتیب کلمات در جمله مرجع است. ولي یک جمله صحیح می تواند ترتیب کلمات متفاوتی داشته باشد. معیار PER مانند WER است ولي ترتيب كلمات در نظر گرفته نمي شود. • معيار BLEU (BiLingual Evaluation Understudy) • ايده كلي: • the closer a machine translation is to a professional human translation, the better it is. • n-gramهاي به كاررفته در جملۀ خروجي و جملۀ مرجع را با هم مقايسه مي كند و براساس مشابهت آنها ارزيابي را انجام مي دهد.

Machine Translation