390 likes | 701 Views
Pengantar Sistem Manajemen Data, Informasi , dan Pengetahuan. Muhammad Nasar. Outline. Information system (overview) Information retreival. Overview Sistem Informasi. Sistem Temu Kembali Informasi (Information Retrieval System - IRS)
E N D
PengantarSistemManajemen Data, Informasi, danPengetahuan Muhammad Nasar
Outline • Information system (overview) • Information retreival
Overview Sistem Informasi • SistemTemuKembaliInformasi (Information Retrieval System - IRS) • SistemManajemen Basis Data (Data Base Management System – DBMS), • SistemInformasiManajemen(Management Information System – MIS), • SistemPendukungKeputusan(Decision Support System - DSS), dan • SistemKecerdasanBuatan(Artificial Intelligent System - AI).
Overview Sistem Informasi [1] Information Retrieval System - IRS • Berhubungan dengan • Representasi (gambaran) • Storage (penyimpanan) • Organisasi, dan • Akses ke informasi • Tujuan /fokus • Pencarian informasi yang relevan (akan dikenalkan)
Overview Sistem Informasi [2] Data Base Management System – DBMS • Merupakansistem yang didisainuntukmemanipulasidanmengurus basis data. • Data yang tersimpandalam basis data dinyatakandalambentukunsur-unsur data yang spesifikdantersimpandalamtabel-tabel. • Setiapsatuan data, ataudisebutrecord (cantuman) terdiridariruas-ruas (fields) yang berisinilai yang menunjukkankarakteristik yang spesifikatauatribut yang mengidentifikasikansatuan data yang dimaksud. • Proses yang berkaitandenganmanajemen basis data meliputipenyimpanan, temukembali, updating atau deletion, proteksidarikerusakan, dankadang-kadangmencakuptransimi data. • Output dapatmengandungrecord individual, sebagianrecord, tabel, ataubentuksusunan data yang lain dari basis data. Informasi yang ditemukanberisicantuman-cantuman yang pastisesuaidenganpermintaan.
Overview Sistem Informasi [3] Management Information System – MIS • Sistem Informasi Manajemen adalah sistem yang didisain untuk kebutuhan manajemen, untuk mendukung fungsi-fungsi dan aktivitas manajemen pada suatu organisasi. • Oleh karena itu, jenis data dan fungsi-fungsi operasi disesuaikan dengan kebutuhan manajemen.
Overview Sistem Informasi [4] Decision Support System – DSS • Sistem Pendukung Keputusan menggambarkan operasi-operasi spesifik dalam satuan-satuan informasi yang homogen. • Bertujuan untuk bahan pengambilan keputusan
Overview Sistem Informasi [5] Artificial Intelligent System – AI • antara lain sistem pakar, permainan komputer (games), logika fuzzy, jaringan syaraf tiruan dan robotika.
Overview Sistem Informasi [5] Keuntungan AI • Memungkinkan orang awam bisa mengerjakan pekerjaan para ahli. • Bisa melakukan proses secara berulang secara otomatis. • Menyimpan pengetahuan dan keahlian para pakar. • Meningkatkan output dan produktivitas. • Meningkatkan kualitas. • Mampu mengambil dan melestarikan keahlian para pakar (terutama yang termasuk keahlian langka). • Mampu beroperasi dalam lingkungan yang berbahaya.
IRS vs DBMS vs AI • Perbedaan utama terletak pada objek data masing-masing sistem informasi • Persamaan : dokumen pada umumnya tekstual
Information Retrieval System - IRS Sekilas sejarah (1) Pra Internet • Berawal di Perpustakaan, sekitar tahun 1952 • Mulai diteliti sejak 1961. • Mulai disadari bahwa sistem temu kembali informasi memiliki peran khusus dalam kegiatan perpustakaan / ilmu pengetahuan. • Tidak sekedar menyimpan buku dan menyajikan katalog
Information Retrieval System - IRS Sekilas sejarah (2) Era Internet • Tahun 80-90an : internet masih sangat sederhana • Tahun 2006 : > 25 milyar halaman web, > 1,3 milyar gambar, > 1 milyar pesan • Berbagai kebutuhan informasi • Mencari topik tertentu / informasi spesifik • Mencari jawaban dari suatu pertanyaan • Mencari informasi dalam bahasa berbeda • dll
Contoh-contoh penerapan IRS • Conventional (katalog perpustakaan) • Pencarian dengan kata kunci, judul, penulis, dll. • Text-based (Google, Yahoo, ASK). • Pencarian dengan kata kunci (keyword). Pencarian terbatas menggunakan query dalam bahasa alami. • Multimedia (Youtube) • Pencarian dengan penampilan visual (bentuk, warna, gerak,…) • Sistem jawaban pertanyaan (AskJeeves, Answerbus) • Pencarian dalam bahasa alami (terbatas) • Lainnya: • IR lintas-bahasa, music retrieval
Information Retrieval System - IRS • Konsep dasar • Indexing • Searching / matching • Perangkingan relevansi bds keyword query
Model matematika nya • dimana Q = pertanyaan (queri), D = dokumen, n = jumlah dokumen, 2n = jumlah kemungkinan himpunan bagian dari dokumen yang ditemukan. • Sistem temu-kembali akan mengambil salah satu dari kemungkinan tersebut.
[2] Indexing • Berfungsi menghasilkan database index • Merupakan proses persiapan sehingga dokumen siap untuk di-retrive.
Tahap-tahap dalam proses indexing • Parsing • Pengambilan kata-kata (term) dari tumpukan dokumen • Menghapus karakter tanda baca • Mengubah kumpulan term menjadi lowercase. • Stopword Removal • Pembuangan kata seperti : tetapi, yang, sedangkan, dan sebagainya. • Stemming • Pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar. • Term Weighting • Pemberian bobot setiap term di dalam dokumen.
Algoritma stemming • Contoh stemming bahasa Indonesia
Masalah pada Stemming • Understemming, • Pemotongan terlalu sedikit, misalnya ‘pengorbanan’ menjadi ‘korbanan’ • Overstemming • Pemotongan terlalu banyak, misalnya ‘mencapai’ menjadi ‘capa’ • More info about stemming • http://tartarus.org/~martin/PorterStemmer/
[2] Searching / matching • Penemuan kembali informasi (dokumen) yang relevan terhadap query yang diberikan • Tidak semua dokumen yang diambil (retrieved) sesuai dengan keinginan user (relevant).
Bagian-bagian IRS Text Operations (operasiterhadapteks) meliputipemilihankata-katadalamquery maupundokumen (term selection) dalampentransformasiandokumenatauquery menjaditermsindex (indeksdarikata-kata). Indexing (pengindeksan), membangun basis data indeksdarikoleksidokumen. Dilakukanterlebihdahulusebelumpencariandokumendilakukan. Query formulation (formulasiterhadapquery) yaitumemberibobotpadaindekskata-kataquery. Ranking (perangkingan), mencaridokumen-dokumen yang relevanterhadapquery danmengurukandokumentersebutberdasarkankesesuaiannyadenganquery.
Operator query (1) • Model boolean • AND, OR dan NOT • tanda kurung () untuk menentukan scope operator • Kekurangan • Hasil pencarian dokumen berupa himpunan • Sulit melihat dokumen yang paling relevan atau agak relevan (partial match). • Hasilnya kaku, menyulitkan pengguna yang tidak mengerti tentang ekpresi boolean
Operator query (2) • Model ruang vektor (1) • Kelebihan : query dapat berupa sekumpulan kata-kata / kalimat • Misalkan terdapat sejumlah n kata yang berbeda. Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n. • Setiap kata i diberikan bobot sebesar wi. • Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n.
Operator query (2) • Model ruang vektor (2) • Misalkan terdapat 3 buah kata (T1, T2 dan T3), 2 buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai : • D1 = 2T1+3T2+5T3 • D2 = 3T1+7T2+0T3 • Q = 0T1+0T2+2T3
Operator query (2) • Model ruang vektor (3) • Maka representasi grafis ketiga vektor tsb adalah
Operator query (2) • Model ruang vektor (4) • Representasi dalam bentuk matrik kata-dokumen
Operator query (3) • Model Pembobotan Kata • Salah satu cara untuk memberi bobot terhadap suatu kata adalah memberikan nilai jumlah kemunculan suatu kata (term frequency) sebagai bobot • Prinsipnya, semakin besar kemunculan suatu kata dalam dokumen akan memberikan nilai kesesuaian yang semakin besar • Silahkan pelajari lebih lanjut, http://en.wikipedia.org/wiki/Tf-idf
Parameter pengujian • Precision (ketepatan) • Precision ialahperbandinganjumlahdokumenrelevan yang didapatkansistemdenganjumlahseluruhdokumen yang terambilolehsistembaikrelevanmaupuntidakrelevan. • precision = Jumlahdokumen yang relevandengan query danterambil. jumlahseluruhdokumen yang terambil 2. Recall (kelengkapan/perolehan) • Recall ialahperbandinganjumlahdokumenrelevan yang didapatkansistemdenganjumlahseluruhdokumenrelevan yang adadalamkoleksidokumen (terambilataupuntakterambilsistem). • recall= Jumlahdokumen yang relevandengan query danterambiljumlahseluruhdokumenrelevandalamkoleksidokumen
Parameter pengujian 3. Interpolate Average Precision (IAP) • Pengukuran performansi dengan mempertimbangkan aspek keterurutan atau rangking. • Dapat dilakukan dengan interpolasi antara precision dan recall. • IAP akan mencatat semua dokumen yang relevan dan urutan dokumen tersebut pada hasil IRS dan menghitung nilai precisionnya.
Contoh • Misal terdapat 10 buah dokumen hasil perangkingan berdasarkan suatu query. Misalkan diketahui terdapat 4 buah dokumen relevan berdasarkan query tadi, tiga diantaranya ditemukan yaitu pada rangking 1, 4 dan 5. • Maka perhitungan recall precision adalah
simpulan • semakin tinggi ketepatan (precison), semakin rendah perolehan (recall).
Beberapa teknik meningkatkan performansi IRS • Relevance Feedback (RF), • ada tanda/input/klik dari user untuk memperbaiki query • Query Expansion (QE), • tidak ada tanda (sistem secara automatis memperbaiki query)
Refer to • http://en.wikipedia.org/wiki/Information_retrieval • http://en.wikipedia.org/wiki/Vector_space_model • http://www.cse.unt.edu/~rada/CSCE5200/ • http://tartarus.org/~martin/PorterStemmer/ • http://en.wikipedia.org/wiki/Tf-idf