220 likes | 449 Views
PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB DENGAN EKSTRAKSI FITUR MORFOLOGI. M. ALBADR LUTAN NASUTION 13508011. Pendahuluan. Latar Belakang. Aplikasi pengenalan huruf sangat praktikal Bahasa arab dipakai oleh 50 negara
E N D
PENGEMBANGAN SISTEM PENGENALAN HURUF ARABDENGAN EKSTRAKSI FITUR MORFOLOGI M. ALBADR LUTAN NASUTION 13508011
Latar Belakang • Aplikasi pengenalan huruf sangat praktikal • Bahasa arab dipakai oleh 50 negara • Riset untuk huruf Arab cenderung masih sedikit dibanding huruf latin dan Asia lain • Pembahasan fitur morfologis dan segmentasi huruf Arab masih sedikit
Rumusan Masalah • Proses segmentasi yang mendukung • Fitur-fitur yang menjadi karakteristik huruf • Kepentingan tiap fitur • Kombinasi fitur dengan akurasi terbaik
Tujuan Berhasil dibangunnya perangkat lunak yang dapat mengenali huruf Arab.
Batasan Masalah • Bentuk citra : pindaian dokumen • Hanya huruf dan angka arab saja • Tidak mengenali angka arab internasional • Ligatur, harakat, dan tanda baca tajwid tidak ditangani pada tugas akhir
Sistem Tulisan Arab • Terdapat 28 huruf dan hamzah • Tulisan selalu kursif • Terdapat komponen sekunder • Bentuk huruf berubah sesuai posisi • Kata terpisah oleh upakata • Sering terdapat ligatur • Terkadang terdapat diakritik (harakat - tanda baca vokal)
Contoh Tulisan Arab 1 upakata baseline 1 kata 1 kata ligatur Al-Mamlakah al-'Arabiyah as-Sa'udiyah – Kerajaan Arab Saudi
Praproses Citra bertujuan untuk mengolah data citra mentah menjadi data yang lebih berguna. • Normalisasi histogram • Reduksi noise • Deteksi tepi • Penulangan/ penipisan • Skala dan rotasi • Deteksi garis dasar (baseline)
Segmentasi bertujuan untuk memisahkan antar huruf dalam kata atau memisahkan citra per baris atau per kata
Ekstraksi Fitur • Fitur level rendah • Diperoleh tanpa ada informasi tentang bentuk • Misalnya batas tepi, dan rasio piksel • Fitur level tinggi • Fitur terkait dengan bentuk pada citra • Misalnya bentuk persegi, elips, dan mata
Penelitian Terkait (1/4) • Pengenalan pelat nomor kendaraan oleh Sarfraz dkk. (2003) • Fitur perbandingan piksel dengan templat • Akurasi hingga 95% dengan font tunggal • Pengenalan huruf arab secara online oleh Al-Taani & Al-Haj (2010) • Fitur rasio persebaran densitas huruf • Akurasi hingga 90%
Penelitian Terkait (2/4) • Pengenalan huruf arab multifont oleh Izakian dkk. (2008) • Fitur kode rantai • Fitur kode posisi komponen sekunder • Pengujian dengan 3 font • Akurasi hingga 97%
Penelitian Terkait (3/4) • Pengenalan huruf arab multifont oleh Zidouri (2010) • Dua level pengenalan bentuk upakata lalu huruf • Fitur perbandingan piksel • Jaringan saraf tiruan • Usulan teknik segmentasi baru
Penelitian Terkait (4/4) • Pengujian berbagai fitur huruf arab oleh Abandah dkk. (2005, 2008, 2009) • Empat fitur utama: • Komponen sekunder • Fitur badan utama • Fitur tulang • Fitur perbatasan • Implementasi 95 fitur huruf arab • Perbandingan akurasi antar fitur
Fitur Huruf • Fitur badan utama huruf Rasio pesebaran, bentuk lengkung, aspek rasio, arah lengkung, jumlah lubang, dll • Fitur komponen sekunder huruf Jumlah, posisi, dan bentuk komponen, dll • Fitur tulang Titik minat, kode rantai, dll
Pelatihan dan Pengujian Data latih dan uji : • Dokumen cetak dengan ragam font • Basis data IFN/ENIT Persentase data latih dan uji : 50% - 50%