410 likes | 699 Views
STUDI AWAL SISTEM PENERJEMAH INGGRIS-INDONESIA ONLINE. TEGUH BHARATA ADJI. Latar belakang I. MT (Machine Translation) merupakan bagian dari NLP (Natural Language Processing) Sangat sedikitnya riset NLP di Indonesia.
E N D
STUDI AWAL SISTEM PENERJEMAH INGGRIS-INDONESIA ONLINE TEGUH BHARATA ADJI
Latar belakang I • MT (Machine Translation) merupakan bagian dari NLP (Natural Language Processing) • Sangat sedikitnya riset NLP di Indonesia. • MMTS (Multilingual Machine Translation) Project oleh BPPT > KEBI (Kamus Elektronik Bahasa Indonesia) > akar kata • Penelitian sejenis oleh Pusat Ilmu Komputer UI • Riset NLP di Indonesia sangat jauh tertinggal dibanding di negara lain yg sdh berkembang sejak th. 70-an
Latar belakang II • Internet yg sebentar lagi merambah ke seluruh masyarakat Indonesia, sebagai sarana memperoleh sumber informasi & iptek > tersedia dlm bhs. Inggris. • Penguasaan bhs Inggris yg lemah > faktor hambatan penting dlm upaya penyebaran informasi & iptek dari Internet. • Dengan adanya transliterasi Inggris – Jawa online diharapkan siswa asing yang akan belajar tidak harus datang ke Jawa, namun dengan kemajuan teknologi informasi yang ada saat ini siswa dapat mengakses lewat komputer dimanapun dia berada sesuai dengan konsep distance learning.
PERMASALAHAN Permasalahan utama yang timbul dari konsep transliterasi Inggris – Jawa ini adalah • Perbedaan MD – DM dalam bahasa Inggris dan bahasa Jawa • Adanya tingkatan bahasa dalam bahasa Jawa • Tenses dalam bahasa Inggris • Masalah –masalah lain seputar perbedaan bahasa. Permasalahan tersebut diupayakan untuk tidak merubah makna yang terkandung dalam kalimat sehingga transliterasi akan mendekati arti sesungguhnya
Perumusan Masalah • Apakah metode rule-based dengan pendekatan makna (semanticaly approach) menggunakan aturan produksi yang dikembangkan pada penelitian ini dapat menghasilkan transliterasi Bahasa Inggris ke Bahasa Jawa yang mampu membantu proses pembelajaran bagi siswa asing.
Batasan Masalah 1. Kosa Kata Jawa yang digunakani adalah kosa kata yang biasa digunakan dalam percakapan sehari-hari, tidak mengenal tingkatan bahasa. 2. Komunikasi yang akan disimulasikan adalah komunikasi sehari-hari (daily conversation) di tempat-tempat umum seperti di pasar, rumah sakit, hotel, tempat wisata dan komunikasi aktifitas umum masyarakat sehari-hari. 3. Bahasa Inggris yang digunakan adalah bahasa populer umum bukan bahasa istilah khusus (teknik,kedokteran dll). 4. Tata bahasa Inggris dan tata bahasa Jawa yang digunakan adalah tata bahasa dasar yang masih bisa dipahami olehmasyarakat umum.
TUJUAN • Mengenal konsep tree and language (Matematika Diskret) dalam hubungannya dengan tata bahasa Inggris dan tata bahasa Jawa • Mendapatkan suatu algoritma sederhana untuk pendekatan makna (semantically approach). • Meningkatkan kualitas transliterasi dengan pendekatan rule based. • Mengimplementasikan algoritma tersebut ke dalam bentuk program transliterasi Inggris – Jawa.
KONTRIBUSI • memberikan sarana kepada siswa asing untuk dapat mempelajari bahasa Jawa dengan mudah melalui media elektronik dalam hal ini komputer, sehingga diharapkan dapat mempelajari budaya Jawa dengan lebih mudah. • dipakai sebagai kamus dan rujukan pembelajaran bahasa Jawa sehingga lebih menegenalkan dan melestarikan budaya Jawa dalam rangka pengembangan pariwisata. • memberikan kontribusi pada Ilmu Pengetahuan dan Teknologi dalam pemanfaatan aplikasi Teknologi Informasi dan dapat menjadi pendukung sistem pembelajaran jarak jauh khususnya bagi siswa asing.
TINJAUAN PUSTAKA • Menurut Paisarn Charoenpornsawat et.al dari Information Research and Development Division National Elektronics Computer Technology Center dalam jurnalnya mengenai Improving Translation Quality of Rule-based Machine Translation Beberapa metode pengembangan Machine Translation • Example Based • Case Based • Statistical Based • Rule Based
Example Based • Menghasilkan terjemahan baru mengacu pada hasil terjemahan sebelumnya (Bod, 1998) • Semakin banyak menerjemahkan semakin bagus kemampuannya (Mima et al, 1998) • Menggunakan AI • Basis data banyak sehingga kemampuannya lambat (Somer,1999:121)
Case based • Menerjemahkan kalimat dengan memakai pola/case yang serupa dengan pola yang disimpan dalam set of case (Sato, 1990) • Hampir mirip dengan Example Based • Kelemahannya adalah masalah waktu komputasi dan penyimpanan
Statistical based • membuat terjemahan dari data yang dimasukkan tanpa analisis linguistik (Brown, 1993). • Kelebihannya memiliki kemampuan untuk memberikan hasil terjemahan yang sesuai meskipun diberikan sumber teks yang berbeda dengan kalimat-kalimat yang ada dalam basis data dari sistem • kelemahannya dari statistic based adalah tidak mampu menerjemahkan idiom atau frasa (Charoenpornsawat et al, 1998).
Rule Based • Sistem berdasarkan pengetahuan lingusitik • Kelebihannya adalah mampu menganalisa pada tingkatan sintaksis dan semantik secara lebih mendalam. • kelemahannya membutuhkan pengetahuan bahasa (Inggris, Jawa) yang baik serta tidak mungkin menuliskan aturan yang mencakup semua bahasa.
TINJAUAN PUSTAKA • Terry Winograd, PhD dalam thesisnya Understanding Natural Language tentang analisis kalimat
Sentence Analysis (Serial Flow of Control) Input sentence Syntactic analysis Grammar Parse tree Semantic analysis Pragmatic analysis Inferences
Level 0 Vo V1 V2 V3 Level 1 V4 V5 V6 V7 V8 V9 Level 2 Gambar 1: Tree Vo = root, V1, 2,….n = vertex Level 1 adalah offspring dari level 0 dan level 0 adalah parent dari level 1 Level 2 disebut leaves ( vertex yang tidak memiliki offspring ) TREE
Derivation tree (parse tree) sentence noun phrase Verb phrase determ noun verb noun the baby eats banana
Language dalam pendekatan semantik Pendekatan semantik akan menggunakan dua konsep penting dalam language, yaitu: • context free grammar ( grammar tipe 2 ) • aturan produksi.
Database yang dipakai pada konsep transliterasi Inggris – Jawa adalah kumpulan dari aturan produksi
Pola dasar kalimat dalam bahasa Inggris The babywalks S P The babydrinksmilk S P O That boyisa lazy student S P Pelengkap The studentstudiesin the library S P Ket Heopenedthe doorQuietly S P O Pel Ireadthe bookat your house S P O Ket
Pola dasar kalimat dalam bahasa Jawa Bapakkuguru S P Kakang ngenteni aku S P O Bapaknukokakerotiadhik S P Pl O Klambinemalihireng S P Pl Bapakmaculningsawah S P K
HIPOTESIS Hipotesis yang dapat diambil dari karya tulis ini adalah : 1. Dengan pendekatan menggunakan Tree (pohon) dimana Tree adalah tipe relasi yang banyak digunakan dalam aplikasi ilmu komputer. Relasi ini signifikan untuk rekonstruksi database dan kompiler bahasa. 2. Dengan aturan produksi akan memenuhi kaidah transliterasi, dimana sisi kiri (w) adalah kata dalam bahasa Inggris dan sisi kanan (w’) adalah padanan/arti kata tersebut dalam bahasa Jawa. Apabila w muncul sendiri atau sebagai bagian dari suatu kalimat maka akan disubstitusi / digantikan dengan w’ ( padanan/arti kata tersebut dalam bahasa Jawa). 3. Dengan metode rule based, perbedaan tata bahasa Inggris dan Jawa dapat diatasi dengan menggunakan aturan-aturan tertentu sesuai ketentuan dari kedua bahasa tersebut
Konsep transliterasi Inggris – JawaKalimat dengan pola S – P dimana S adalah kata ganti orang diikuti to be + noun dalam simple present tense akan ditransliterasikan sebagai berikut : Sentence Ukara I am noun Aku KB
Konsep transliterasi Inggris – JawaKalimat dengan pola S – P dimana S adalah kata ganti orang diikuti will / shall + Verb dalam simple future tense akan ditransliterasikan sebagai berikut : Sentence Ukara I will/shall verb1 Aku arep KK
Konsep transliterasi Inggris – JawaKata ganti orang dalam kalimat possessive (kepemilikan) yang dalam bahasa Inggris berpola MD akan diubah menjadi DM sebagai berikut : My book Bukuku Bukumu Your book Bukune dheweke His/Her book Bukune awake dhewe Our book Bukune dheweke Their book
Konsep transliterasi Inggris – JawaKalimat dengan pola S – P - O dimana orang sebagai objek akan berubah menjadi sebagai berikut : Sentence Ukara He calls me Dheweke ngundang aku I me You you He him She her We us Their them
Algoritma pendekatan makna • langkah 0: menganalisis kalimat , yaitu dengan mengecek jumlah kata, tanda baca, memecah kalimat tersebut menjadi unsur-unsurnya, dan membawanya ke temporary. • Langkah 1: substitusi kata-kata dengan padanannya dalam database/kamus, kemudian disusun kembali lengkap dengan jenis katanya. • Langkah 2: bila ditemukan kata benda(b) yang didahului kata sifat(s), maka susunan akan dibalik, sehingga didapat (b) yang diikuti oleh (s). (ATURAN MD-DM) • Langkah 3: susunan yang telah benar, disusun kembali dengan menghilangkan jenis katanya, kemudian dikeluarkan sebagai output.
The funny baby drinks milk at your house The Funny Baby Drinks Milk At your house (k) Lucu (s) Bayi(b) Ngombe(v) susu(b) Ana(k) Mu(s) Omah(b) Bayi Lucu Ngombe Susu Ana Omah mu Bayi lucu ngombe susu ana omahmu Kamus inggris
HASIL PENGUJIAN KALIMAT TUNGGAL • The baby drinks milk • Bayi ngombe susu • That student is a lazy student • Murid kuwi murid males • I go to school • Aku lunga sekolah • My father is a teacher • Bapakku guru
HASIL PENGUJIAN • I buy small bag at malioboro market • Aku tuku tas cilik ning pasar malioboro • There are many students go to the hospital • Ana akeh murid-murid lunga rumah sakit • The flower is interesting • Kembang nyenengake • There is a slight difference between them • Ana bedane tipis antarane dheweke kabeh • It is important to study history • Iki penting sinau sejarah
HASIL PENGUJIANKALIMAT MAJEMUK SETARA • Bali is a beautiful island and there are many visitors there • Bali pulau apik lan ana akeh pengunjung ning kono • Millions of people study English but only a few succeed • Jutaaan uwong sinau inggris nanging mung sawetara kasil • They should stop the power- competition or there will be a war • Dheweke kabeh kudu mandheg saingan utawa ning kono arep perang • The shops were closed so I couldn’t get any • Toko ditutup dadi aku ora oleh apa-apa
HASIL PENGUJIANKALIMAT MAJEMUK BERTINGKAT • The course that the students take sometimes does not suit their talent and ability • Kursus sing murid-murid njupuk kadhang-kadhang ora cocok bakat dheweke kabeh lan kemampuan • The bag that the tourist buy is more expensive than this • Tas sing turis tuku luwih larang ketimbang iki • The world where we live in is becoming smaller and smaller • Donya ning endi awake dhewe urip ning njerone dadi luwih cilik lan luwih cilik
HASIL PENGUJIANKALIMAT MAJEMUK BERTINGKAT • Many people die every year because of hunger • Akeh uwong mati saben tahun keluwen • They leave the house early in the morning • Dheweke kabeh nglungani omah luwih awal ana esuk • In spite of the rain he went to school • Ana udan spite kuwi dheweke lunga sekolah • Although it was raining he went to school • Arepa iki udan dheweke lunga sekolah
HASIL PENGUJIANKALIMAT MAJEMUK BERTINGKAT • The poor man works hard to support his family • Wong lanang mlarat kerja abot nyengkuyung keluarga-ne dheweke • The poor man works hard so that he could support his family • Wong lanang mlarat kerja abot dadi dheweke isa nyengkuyung keluarga-ne dheweke • He drives as if he were in a race • Dheweke numpak kaya yen dheweke ana balapan • Everywhere people warmly welcome them • Neng endi-endi uwong seneng nyambut dheweke kabeh • Wherever they go people warmly welcome them • Nengendi wae dheweke kabeh lunga uwong seneng nyambut dheweke kabeh
CONTOH PENGUJIAN LAIN • She is older than you • Dheweke luwih tuwa ketimbang sampeyan • He does not work as hard as you • Dheweke ora kerja kaya abot kaya sampeyan • I will contact him if necessary • Aku arep ngubungi dheweke yen perlu • I will contact him if it is necessary • Aku arep ngubungi dheweke yen iki perlu • We don’t know where he lives • Awake dhewe ora ngerti neng endi dheweke urip
CONTOH PENGUJIAN LAIN • He told me the news • Dheweke ngandhani aku berita kuwi • He told me that you were ill • Dheweke ngandhani aku sampeyan sakit • This is what I want • Iki apa aku pingin • Where he lives is not known • Neng endi dheweke urip ora dikenal • Our departure depends on him • Mangkate awake dhewe gumantung ana dheweke
KESIMPULAN • Transliterasi Inggris – Jawa ini dapat menerjemahkan kalimat-kalimat dalam “daily conversation” dengan cukup baik dan mendekati makna aslinya • Penggunaan Visual Basic 6.0 menjadikan program efisien dengan database berukuran kecil. Tampilan sederhana dan user friendly. • Algoritma analisis – sintesis yang didasarkan pada aturan produksi dan tata bahasa tertentu ( Aturan MD-DM ) dapat diimplementasikan secara efektif ke dalam bentuk program dengan memanfaatkan file temporary Windows. • Penggunaan rule based dapat menangani perbedaan aturan tata bahasa kedua bahasa
SARAN • File database dalam program tidak mencakup semua perbendaharaan kata dalam karena pemasukan data dilakukan secara manual. • Pengembangan program lebih jauh lagi dapat dilakukan dengan membuat file database yang dapat mengimport file database dengan format yang berbeda. • Transliterasi Inggris – Jawa sudah dapat bekerja untuk kalimat tunggal maupun kalimat majemuk. Program dimungkinkan untuk dikembangkan ke konteks yang lebih luas lagi, yaitu paragraf ataupun wacana berbahasa Inggris
Analisa Hasil perbandingan Toogle • Ada beberapa dualisme kata yang ditampilkan • Terdapat beberapa kata yang tidak dikenal, misalnya don’t, wherever, couldn’t • Belum bisa menerjemahkan idiom, misalnya • He does not work as hard as you diterjemahkan sebagai Ia tidak bekerja sebagai [sulit/keras] seperti anda • The poor man diterjemahkan sebagai Pekerjaan yang kasihan
Transtool • Menerjemahkan kalimat kata per kata tanpa melihat tata bahasanya Misalnya: • I buy small bag at Malioboro market diterjemahkan sebagai Saya membeli kecil tas di malioboro pasar • Ada beberapa kata yang tidak dikenal, misalnya don’t, couldn’t • Bisa menerjemahkan beberapa idiom, misalnya : He does not work as hard as you diterjemahkan sebagai Dia tidak bekerja sama kerasnya dengan anda