310 likes | 559 Views
STUDI AWAL SISTEM PENERJEMAH INGGRIS-INDONESIA ONLINE. TEGUH BHARATA ADJI. Latar Belakang I. MT (Machine Translation) merupakan bagian dari NLP (Natural Language Processing) Sangat sedikitnya riset NLP di Indonesia.
E N D
STUDI AWAL SISTEM PENERJEMAH INGGRIS-INDONESIA ONLINE TEGUH BHARATA ADJI
Latar Belakang I • MT (Machine Translation) merupakan bagian dari NLP (Natural Language Processing) • Sangat sedikitnya riset NLP di Indonesia. • MMTS (Multilingual Machine Translation) Project oleh BPPT > KEBI (Kamus Elektronik Bahasa Indonesia) > akar kata • Penelitian sejenis oleh Pusat Ilmu Komputer UI • Riset NLP di Indonesia sangat jauh tertinggal dibanding di negara lain yg sdh berkembang sejak th. 70-an
Latar Belakang II • Internet yg sebentar lagi merambah ke seluruh masyarakat Indonesia, sebagai sarana memperoleh sumber informasi & iptek > tersedia dlm bhs. Inggris • Penguasaan bhs Inggris yg lemah > faktor hambatan penting dlm upaya penyebaran informasi & iptek dari Internet • Dengan terhambatnya penyebaran informasi & iptek > terhambat pula perkembangan iptek yg sangat diperlukan bangsa Indonesia
Masalah yg Diteliti I • Ketersediaan informasi di Internet mayoritas dlm bhs Inggris > penelitian dimaksudkan membuat mesin yg menerjemahkan informasi di Internet yg berbhs Inggris ke dlm bhs Indonesia • Informasi yg diterjemahkan berbasis kalimat dgn format html > sistem hrs menyaring mana tag html dan mana informasi • Informasi itu diproses mesin penterjemah • Pemilihan metode (rule-based, statistic-based, example-based, case-based) > studi literatur (tgt dari struktur kedua bhs & jumlah bhs yg terlibat)
Masalah yg Diteliti II • Pembentukan pola penerjemahan > berbasis pengetahuan tata bahasa kedua bahasa • Fungsi pemetaan > faktor yg penting • Aturan tata bahasa Inggris sangat banyak > pembatasan: • Tenses (simple past, past perfect, simple present, present cont., future, future cont.) • Kalimat majemuk setara & bertingkat > diperhatikan • Context-free grammar > namun metode yg digunakan mengarah ke semantik dgn digunakannya OOP, utk Doktorate degree
Masalah yg Diteliti III • Permasalahan lain: • MD-DM • Permasalahan bhs yg sangat luas > dibatasi pada istilah populer (bukan istilah khusus spt pd bidang kedokteran, dll) dan daily conversation
TINJAUAN PUSTAKA Beberapa metode pengembangan MT • Example-Based • Case-Based • Statistical-Based • Rule-Based
Example Based • Menghasilkan terjemahan baru mengacu pada hasil terjemahan sebelumnya (Bod, 1998) • Semakin banyak menerjemahkan semakin bagus kemampuannya (Mima et al, 1998) • Menggunakan AI • Basis data banyak sehingga kemampuannya lambat (Somer,1999:121)
Case based • Menerjemahkan kalimat dengan memakai pola/case yang serupa dengan pola yang disimpan dalam set of case (Sato, 1990) • Hampir mirip dengan Example Based • Kelemahannya adalah masalah waktu komputasi dan penyimpanan
Statistical based • membuat terjemahan dari data yang dimasukkan tanpa analisis linguistik (Brown, 1993). • Kelebihannya memiliki kemampuan untuk memberikan hasil terjemahan yang sesuai meskipun diberikan sumber teks yang berbeda dengan kalimat-kalimat yang ada dalam basis data dari sistem • kelemahannya dari statistic based adalah tidak mampu menerjemahkan idiom atau frasa (Charoenpornsawat et al, 1998).
Rule Based • Sistem berdasarkan pengetahuan lingusitik • Kelebihannya adalah mampu menganalisa pada tingkatan sintaksis dan semantik secara lebih mendalam • kelemahannya membutuhkan pengetahuan bahasa (Inggris, Indonesia) yang baik serta tidak mungkin menuliskan aturan yang mencakup semua bahasa
Sentence Analysis (Serial Flow of Control) Input sentence Syntactic analysis Grammar Parse tree Destination Lang.
Level 0 Vo V1 V2 V3 Level 1 V4 V5 V6 V7 V8 V9 Level 2 Gambar 1: Tree Vo = root, V1, 2,….n = vertex Level 1 adalah offspring dari level 0 dan level 0 adalah parent dari level 1 Level 2 disebut leaves ( vertex yang tidak memiliki offspring ) TREE
Derivation tree (parse tree) sentence noun phrase Verb phrase determ noun verb noun the baby eats banana
Database yang dipakai pada konsep transliterasi Inggris – Indonesia adalah kumpulan dari aturan produksi
Pola dasar kalimat dalam bahasa Inggris The babywalks S P The babydrinksmilk S P O That boyisa lazy student S P Pelengkap The studentstudiesin the library S P Ket Heopenedthe doorQuietly S P O Pel Ireadthe bookat your house S P O Ket
Pola dasar kalimat dalam bahasa Indonesia Bapakkuguru S P Kakak menunggu aku S P O Bapakbertani di sawah S P K
HIPOTESIS Hipotesis yang dapat diambil dari karya tulis ini adalah : 1. Dengan pendekatan menggunakan Tree (pohon) dimana Tree adalah tipe relasi yang banyak digunakan dalam aplikasi ilmu komputer. Relasi ini signifikan untuk rekonstruksi database dan kompiler bahasa. 2. Dengan aturan produksi akan memenuhi kaidah transliterasi, dimana sisi kiri (w) adalah kata dalam bahasa Inggris dan sisi kanan (w’) adalah padanan/arti kata tersebut dalam bahasa Indonesia. Apabila w muncul sendiri atau sebagai bagian dari suatu kalimat maka akan disubstitusi / digantikan dengan w’ ( padanan/arti kata tersebut dalam bahasa Indonesia). 3. Dengan metode rule based, perbedaan tata bahasa Inggris dan Indonesia dapat diatasi dengan menggunakan aturan-aturan tertentu sesuai ketentuan dari kedua bahasa tersebut
Konsep transliterasi Inggris – IndonesiaKalimat dengan pola S – P dimana S adalah kata ganti orang diikuti will / shall + Verb dalam simple future tense akan ditransliterasikan sebagai berikut : Sentence Kalimat I will/shall verb1 Saya akan KK
Konsep transliterasi Inggris – IndonesiaKata ganti orang dalam kalimat possessive (kepemilikan) yang dalam bahasa Inggris berpola MD akan diubah menjadi DM sebagai berikut : My book Bukuku Bukumu Your book Bukunya His/Her book Buku kita Our book Buku mereka Their book
Konsep transliterasi Inggris – IndonesiaKalimat dengan pola S – P - O dimana orang sebagai objek akan berubah menjadi sebagai berikut : Sentence Kalimat He calls me Dia memanggil aku I me You you He him She her We us Their them
Algoritma pendekatan makna • langkah 0: menganalisis kalimat , yaitu dengan mengecek jumlah kata, tanda baca, memecah kalimat tersebut menjadi unsur-unsurnya, dan membawanya ke temporary. • Langkah 1: substitusi kata-kata dengan padanannya dalam database/kamus, kemudian disusun kembali lengkap dengan jenis katanya. • Langkah 2: bila ditemukan kata benda(b) yang didahului kata sifat(s), maka susunan akan dibalik, sehingga didapat (b) yang diikuti oleh (s). (ATURAN MD-DM) • Langkah 3: susunan yang telah benar, disusun kembali dengan menghilangkan jenis katanya, kemudian dikeluarkan sebagai output.
The funny baby drinks milk at your house The Funny Baby Drinks Milk At Your House (k) Lucu (s) Bayi(b) Minum(v) susu(b) Di(k) Mu(s) Rumah(b) Bayi Lucu Minum Susu Di Rumah Mu Bayi lucu minum susu di rumahmu Kamus inggris
KELUARAN & KONTRIBUSI I • Didapatkannya algoritma mapping bahasa Inggris-Indonesia • Didapatkannya algoritma parsing bhs Inggris • Diperolehnya fungsi object-oriented yg merupakan implementasi dari algoritma mapping dan parsing • Dengan diperolehnya ketiga hal di atas > memicu penelitian selanjutnya di bidang NLP: • algoritma parsing bhs Indonesia • Semantically approach MT • Question-Answering Algorithm • Voice-Dialog Algorithm • Speech Recognition, etch.
KONTRIBUSI II • Didapatkannya MT yg dapat menerjemahkan informasi di Internet ke dalam bhs Indonesia > secara tidak langsung bisa meningkatkan penyerapan iptek bangsa Indonesia • Dapat digunakan sbg pendukung sistem pembelajaran jarak jauh yg sedang giat dikembangkan di Indonesia krn masalah kondisi geografis Indonesia • Sbg pelestari dan pemerkaya bhs Indonesia • Mendukung VISI & MISI jurusan utk membentuk penelitian payung yang unggul di bidang NLP: • 12 Skripsi S-1 • 1 Skripsi S-2 • Beberapa dosen terlibat: RDH, LEN, RSN, TBA • Microsoft menawarkan dana
EVALUASI S/W akan diuji dengan cara: • Diuji dengan pemberian banyak input suatu teks di Internet yg mencerminkan bahasa populer atau sehari-hari • Diuji dengan beberapa bentuk tenses dan pola kalimat • Dibandingkan dengan S/W lain di pasar
Beberapa S/W di pasaran Toogle • Ada beberapa dualisme kata yang ditampilkan • Terdapat beberapa kata yang tidak dikenal, misalnya don’t, wherever, couldn’t • Belum bisa menerjemahkan idiom, misalnya • He does not work as hard as you diterjemahkan sebagai Ia tidak bekerja sebagai [sulit/keras] seperti anda • The poor man diterjemahkan sebagai Pekerjaan yang kasihan
Transtool • Menerjemahkan kalimat kata per kata tanpa melihat tata bahasanya Misalnya: • I buy small bag at Malioboro market diterjemahkan sebagai Saya membeli kecil tas di malioboro pasar • Ada beberapa kata yang tidak dikenal, misalnya don’t, couldn’t • Bisa menerjemahkan beberapa idiom, misalnya : He does not work as hard as you diterjemahkan sebagai Dia tidak bekerja sama kerasnya dengan anda