320 likes | 812 Views
Machine Translation ترجمه ماشینی. ارائه دهنده:احمد استيري زير نظر : دكتر کاهانی دانشگاه فردوسي مشهد پاییز 89 . مطالب. مقدمه پردازش زبانهای طبیعی ترجمه ماشینی انگيزه ترجمه ماشينی تاريخچه ترجمه ماشينی مشکلات در ترجمه ماشينی اجزای اصلی معماری ماشین های ترجمه
E N D
Machine Translationترجمه ماشینی ارائه دهنده:احمد استيري زير نظر : دكتر کاهانی دانشگاه فردوسي مشهد پاییز 89
مطالب • مقدمه • پردازش زبانهای طبیعی • ترجمه ماشینی • انگيزه ترجمه ماشينی • تاريخچه ترجمه ماشينی • مشکلات در ترجمه ماشينی • اجزای اصلی معماری ماشین های ترجمه • بیان کلی روش های ترجمه ماشینی و مقایسه آن ها • ارزیابی ترجمه ماشینی • کارهای انجام شده در زمینه زبان فارسی • جمع بندی و نتیجه گیری
مقدمه • پردازش زبانهای طبیعی نقشی بسیار عمده و کلیدی به خصوص در ترجمه ماشینی، بازیابی اطلاعات تک و دوزبانه، خلاصه سازی اسناد، مدیریت محتوا در سیستم های آموزشگر، خطایاب نحوی و معنایی متون، درک و تولید متون فارسی، تشخیص صحبت، تبدیل متن به گفتار، تحلیل نحوی، استخراج اطلاعات از متون و بسیاری کاربردهای دیگر ایفا می کند. • ترجمه ی ماشینی(Machine Translation) زیر شاخه ای از زبانشناسی محاسباتی میباشد که عبارت است از ترجمه ی متنی از یک زبان طبیعی به زبانی دیگر، توسط کامپیوتر.
پردازش زبانهای طبیعی • نیاز اساسی به پردازش زبانهای طبیعی با توجه به رشد حجم مستندات تولید شده و نیاز به نگهداری، دسته بندی، بازیابی و پردازش ماشینی و سریع آنها • موانع اساسی • نیاز به درک معانی • حسن سیب را نخورد برای این که کال بود. • حسن سیب را نخورد برای این که سیر بود. • دقیق نبودن دستور زبانها • باز روی زمین نشست.
زبانشناسی محاسباتی • فرایافت concept و تجزیه زبان های برنامه نویسی: • نوآم چامسکی توانست تشابه زبانهای طبیعی و زبانهای برنامه نویسی را به اثبات برساند. • ترجمه ماشینی: • شناخت مفهوم خاص یک واژه در جمله با تجزیه واژهها، نحو، مفهوم و سپس معنا • پرسش و پاسخ با زبانهای طبیعی: • مسئله ارتباط انسان و ماشین • صرف محاسباتی: • به مطالعات مربوط به ساختارهای درونی کلمات صرف گفته میشود.
ترجمه ماشینی • ترجمه ماشینی ترجمهای است که توسط کامپیوتر و بدون دخالت فرد انجام میشود. • در سطح مقدماتی، ترجمه ماشینی یک جایگزینی ساده برای کلمات از زبان طبیعی به زبان دیگری است. • با استفاده از تکنیکهای زبانشناسی پیکره ای، ترجمههای پیچیده بیشتری قابل دستیابی هستند. • واكافت واژه اي، واكافت ساختواژي، واكافت نحوي و واكافت معنايي متن برای دستیابی به ترجمه ماشینی
انگيزه ترجمه ماشينی • جهانی سازی (Globalization) • توسعه ارتباطات از طريق اينترنت • رشد جالب توجه شبکههای اجتماعی، همانند فیس بوک یا پیامرسانهای فوری • فراهم سازی وسیله ای مثل موبایل برای ترجمه همزمان در حین مکالمه دو شخص با دو زبان متفاوت و به صرفه بودن از ديدگاه اقتصادی • گسترش متون علمی، فرهنگی، اخبار و ...
تاريخچه ترجمه ماشينی • ترجمه ی ماشینی از جمله ی اولین اهداف مورد نظر در علوم رایانه و بخصوص در حوزه ی هوش ماشینی به حساب میآید و سابقهی آن به بیش از نیم قرن پیش از این باز میگردد. • تلاش براي ساختن مترجم ماشيني از دهه سي ميلادي شروع شده بود. مترجم ماشيني را آن زمان وسيلهاي ساده نظير ماشين حساب ميدانستند كه به راحتي زباني را به زبان ديگر ترجمه ميكند. اين سادهانگاري اندك اندك جاي خود را به واقعبيني داد. • نخستین ترجمهای که بطور کامل توسط کامپیوتر انجام شد، ترجمه ی متنی بود از زبان انگلیسی به زبان روسی. (1933 میلادی) • در حال حاضر ایجاد یک ماشین ترجمه یکی از اصلی ترین سیاست های کشورها و شرکت های تجاری می باشد و علاقه مندان بسیاری نیز در این زمینه در حال بررسی و پژوهش می باشند.
مشکلات ترجمه ماشینی • نیاز به درک معانی • دقیق نبودن دستور زبانها • زایایی پدیده زبان • نوع و پیچیدگی متون مورد نظر • غلط های املایی، نحوی و نگارشی در متن
اجزای اصلی معماری ماشین های ترجمه • بخش واژگانی • بخش صرفی • بخش نحوی • بخش معنايی
روشهای ترجمه ماشینی • شيوه مبتنی بر معماری مستقيم يا ترانسفورمر • شيوه مبتنی بر انتقال • شيوه ميان زبانی • روش مبتنی بر پيکره زبانی • روشهای آماری ترجمه ماشينی • روشهای مبتنی بر مثال ترجمه ماشينی • سيستم های زبان کنترل شده • سيستم تمام-خودکار ترجمه ماشينی (FAHQT) • ترجمه ماشینی پیوندی (Hybrid)
بررسیروشهای ترجمه ماشینی • روشهای آماری ترجمه ماشينی: • در روشهای آماری هدف، حداقل سازی خطای تصمیم، با استفاده از تئوری تصمیم آماری یا قاعده بیز میباشد. در واقع به مسئله ترجمه به صورت یک مسئله یادگیری ماشین برخورد می کند . • شیوه کلی آنها در واقع بررسی دقیق ترجمه های انجام شده توسط انسان ، آموختن آن و سپس ارایه ترجمه بر اساس آموزش های مرحله قبل می باشد . • روشهای مبتنی بر مثال ترجمه ماشينی یا روشهای مبتنی بر حافظه: • استفاده از ترجمه های انسانی موجود یا پيکره های دوزبانه برای ترجمه متنهای جدید • بهره گیری از واژگان معنایی (WordNet) بسیار عظیم و گسترده
بررسیروشهای ترجمه ماشینی • سيستم های زبان کنترل شده: • سيستمهایكاربردی با مجموعه واژگان و ساختارهای معين و از پيش تعيين شده • متون نوشته شده کمتر دارای ابهام بوده و لذا ماشين ترجمه کمتر مشکل ابهام زدايی خواهد داشت. • متن اوليه بهتر و در نتیجه متن خروجی با کيفيت بهتر • سيستم تمام-خودکار ترجمه ماشينی(FAHQT): • تمام اتوماتیک کردن فرآیند ترجمه با توجه پيشرفتهای حاصله در سالهای اخير در زمينه هوش مصنوعی، سيستمهای فازی و شبكه های عصبی • پيش- ويرايش و پس-ويرايش متن • غلط ياب املايی و نحوی
بررسیروشهای ترجمه ماشینی • ترجمه ماشینی پیوندی (Hybrid) • روش پیوندی، قدرتمندی دو روش آماری و قانونمند را باهم ادغام می کند. • معیارهای آماری از ابتدا توسط قوانین هدایت میشوند. • قوانین برای پیش-پردازش دادهها برای هدایت بهتر موتور آماری استفاده می شوند. • قوانین همچنین برای پس-پردازش خروجی موتور آماری برای پیاده سازی عملیاتی همچون نرمال سازی و رفع ابهام از متن موجود استفاده می شوند.
مقایسه روشهای ترجمه ماشینی • دشواری کار ترجمه خودکار، بدست آوردن اطلاعات کافی از نوع صحیح آن برای پشتیبانی روشی خاص می باشد. • هر کدام از این روشها دارای نقاط قوت و ضعف اساسی می باشند: • به عنوان مثال یک پیکره وسیع چند زبانی از داده ها، برای روشهای آماری مورد نیاز میباشد که عمل استنتاج با توجه به آنها صورت می گیرد.حال آنکه برای روشهای مبتنی بر دستور زبان لازم نیست. • اما از سویی دیگر روشهای مبتنی بر دستور زبان نیاز به یک زبان شناس حرفه ای برای طراحی دقیق دستور زبانی که استفاده خواهد شد، دارند و در این روشها پیچیدگی نسبتاً زیادی موجود است.
ارزیابی ترجمه ی ماشینی • قدیمیترین روش استفاده از داورهای انسانی برای ارزیابی کیفیت یک ترجمه میباشد. • ابزارهای ارزیابی خودکار شامل بلو محصول شرکت آیبیام(BLEU)، نیست(NIST) و متئور(METEOR) می باشند. • جایگزین ارزشیابی دوزبانه یا BLEU: عددی بین صفر تا یک • تست ماشین ترجمه با متون پیچیده، طولانی و یا حاوی لغات چند معنا • تست ماشین ترجمه با ترجمه برعکس متون
کارهای فعلی ترجمه ماشینی در زبان فارسی • پروژه دنا 1 و دنا 2 توسط دانشگاه صنعتی شریف • ترجمه ماشینی با بهره گیری از روشهای آماری توسط تیم تحقیقاتی دکتر عبدالحسن صراف زاده (رئيس دانشكده كامپيوتر و فناوري اطلاعات دانشگاه يونيتك نيوزيلند) • استفاده از پیکره های بسیار عظیم تک زبانه و دو زبانه برای بهبود روند ترجمه • ترجمه ماشینی به روش آماری، سعی در تولید ترجمه هایی دارد که از روشهای آماری مبتنی بر پیکرههای متنی دوزبانی استفاده می کنند. • یادگیری (Learning)یکی از پایه های اساسی این روش بشمار می رود. • نتیجه بهتر در ترجمه انگلیسی به فارسی نسبت به Google Translateبه خاطر وجود Persian monolingual corpuseعظیمتر و گسترده تر
آینده ترجمه ماشینی • ترجمة نوشته به صوت • برگردان نوشته به نمایش گرافیکی زبان اشاره • ترجمه صوت به صوت • ترجمه صوت به متن • چه در داخل یک سیستم زبانی و چه به زبان دیگر
جمع بندی و نتیجه گیری • ترجمه ماشینی، به معنای ترجمه خودکار جملات از یک زبان طبیعی به زبان دیگر است، به گونه ای که فرد بومی زبان مقصد، همان مفهومی را دریافت کند که گوینده مدنظر داشته است. • گام های مورد نیاز در ترجمه ماشيني عبارت اند از: واكافت واژه اي، واكافت ساختواژي، واكافت نحوي، واكافت معنايي، تشخيص نقش كلمات در جمله، تشخيص معناي صحيح كلمات • مهمترين بخش يك مترجم كه دقت در آن باعث بالا رفتن دقت كل عمل ترجمه مي گردد، رفع ابهام معنايي از كلمات جملات زبان مبدا ونيز رفع ابهام از ترجمه آنها به زبان مقصد مي باشد.
جمع بندی و نتیجه گیری • سیستم های مترجم فعلی عموما مبتنی بر قواعد زبانی ، مبتنی بر نوشتجات نمونه و ترجمه ماشینی مبتنی بر روشهای آماری، می باشند. • در حال حاضر، بهترین عملکرد مربوط به سیستم های ترجمه ماشینی مبتنی بر روشهای آماری می باشد. • با این وجود، یکی از چالشهایی که همچنان ترجمه ماشینی مبتنی بر روشهای آماری و همه روشهای مرسوم، با آن دست به گریبانند، موضوع عدم توجه به معنا و مفاهیم درون متن می باشد.
پیشنهادات • تهیه واژگان معنایی (WordNet) بسیار عظیم و گسترش و بروزرسانی متداوم آن • محدود کردن حوزه ی موضوعی متن یا تهیه واژگان معنایی به ازای موضوعات متفاوت وابسته با متون مختلف • بهره گیری از ساختارهای پیش پردازش و پس پردازش برای استانداردسازی متن • در نظر گرفتن کلیه غلط های املایی، نگارشی و ... در ابزار پیش پردازش متن
منابع [1] Booth, K. H. V. (1967). Machine aided translation with a post-editor. In A. D. Booth (Ed.), Machine Translation (pp. 53-76). Amsterdam: North-Holland Publishing Company. [2] Crystal D.، The Cambridge Encyclopedia of Language، 2nd edition، Cambridge University Press، 1996. ISBN 0-521-55967-7 [3] فرحزاد ف. استاد زبانشناسی و مطالعات ترجمة دانشگاه علامه طباطبایی، روزنامه کیهان [4] Manning، C. D.، and Schutze، H.، Foundations of Statistical Natural Language Processing، 5th edition، The MIT Press، 2002. ISBN 0-262-13360-1 [5] Boretz, Adam, "AppTek Launches Hybrid Machine Translation Software" SpeechTechMag.com (posted 2 MAR 2009) [6] Claude Piron, Le défi des langues (The Language Challenge), Paris, L'Harmattan, 1994. [7] امامی م . بررسی مسایل درك متن فارسی و پیاده سازی نمونه هایی از آن. پایان نامه كارشناسی ارشد، دانشكده مهندسی كامپیوتر، دانشگاه صنعتی شریف.،1376. [8] صراف زاده ع. سمینار علمی ، آمفي تئاتر دانشكده مهندسي، 1389 . [9] Milestones in machine translation - No.6: Bar-Hillel and the nonfeasibility of FAHQT by John Hutchins
با سپاس از توجه شما http://Ahmad.Estiri.fumblog.um.ac.ir