1 / 37

Pengantar Sistem Manajemen Data, Informasi , dan Pengetahuan

Pengantar Sistem Manajemen Data, Informasi , dan Pengetahuan. Muhammad Nasar. Outline. Information system (overview) Information retreival. Overview Sistem Informasi. Sistem Temu Kembali Informasi (Information Retrieval System - IRS)

crete
Download Presentation

Pengantar Sistem Manajemen Data, Informasi , dan Pengetahuan

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PengantarSistemManajemen Data, Informasi, danPengetahuan Muhammad Nasar

  2. Outline • Information system (overview) • Information retreival

  3. Overview Sistem Informasi • SistemTemuKembaliInformasi (Information Retrieval System - IRS) • SistemManajemen Basis Data (Data Base Management System – DBMS), • SistemInformasiManajemen(Management Information System – MIS), • SistemPendukungKeputusan(Decision Support System - DSS), dan • SistemKecerdasanBuatan(Artificial Intelligent System - AI).

  4. Flatform sebuah sistem informasi

  5. Overview Sistem Informasi [1] Information Retrieval System - IRS • Berhubungan dengan • Representasi (gambaran) • Storage (penyimpanan) • Organisasi, dan • Akses ke informasi • Tujuan /fokus • Pencarian informasi yang relevan (akan dikenalkan)

  6. Overview Sistem Informasi [2] Data Base Management System – DBMS • Merupakansistem yang didisainuntukmemanipulasidanmengurus basis data. • Data yang tersimpandalam basis data dinyatakandalambentukunsur-unsur data yang spesifikdantersimpandalamtabel-tabel. • Setiapsatuan data, ataudisebutrecord (cantuman) terdiridariruas-ruas (fields) yang berisinilai yang menunjukkankarakteristik yang spesifikatauatribut yang mengidentifikasikansatuan data yang dimaksud. • Proses yang berkaitandenganmanajemen basis data meliputipenyimpanan, temukembali, updating atau deletion, proteksidarikerusakan, dankadang-kadangmencakuptransimi data. • Output dapatmengandungrecord individual, sebagianrecord, tabel, ataubentuksusunan data yang lain dari basis data. Informasi yang ditemukanberisicantuman-cantuman yang pastisesuaidenganpermintaan.

  7. Overview Sistem Informasi [3] Management Information System – MIS • Sistem Informasi Manajemen adalah sistem yang didisain untuk kebutuhan manajemen, untuk mendukung fungsi-fungsi dan aktivitas manajemen pada suatu organisasi. • Oleh karena itu, jenis data dan fungsi-fungsi operasi disesuaikan dengan kebutuhan manajemen.

  8. Overview Sistem Informasi [4] Decision Support System – DSS • Sistem Pendukung Keputusan menggambarkan operasi-operasi spesifik dalam satuan-satuan informasi yang homogen. • Bertujuan untuk bahan pengambilan keputusan

  9. Overview Sistem Informasi [5] Artificial Intelligent System – AI • antara lain sistem pakar, permainan komputer (games), logika fuzzy, jaringan syaraf tiruan dan robotika.

  10. Overview Sistem Informasi [5] Keuntungan AI • Memungkinkan orang awam bisa mengerjakan pekerjaan para ahli. • Bisa melakukan proses secara berulang secara otomatis. • Menyimpan pengetahuan dan keahlian para pakar. • Meningkatkan output dan produktivitas. • Meningkatkan kualitas. • Mampu mengambil dan melestarikan keahlian para pakar (terutama yang termasuk keahlian langka). • Mampu beroperasi dalam lingkungan yang berbahaya.

  11. IRS vs DBMS vs AI • Perbedaan utama terletak pada objek data masing-masing sistem informasi • Persamaan : dokumen pada umumnya tekstual

  12. Pertanyaan ?

  13. Information Retrieval System - IRS Sekilas sejarah (1) Pra Internet • Berawal di Perpustakaan, sekitar tahun 1952 • Mulai diteliti sejak 1961. • Mulai disadari bahwa sistem temu kembali informasi memiliki peran khusus dalam kegiatan perpustakaan / ilmu pengetahuan. • Tidak sekedar menyimpan buku dan menyajikan katalog

  14. Information Retrieval System - IRS Sekilas sejarah (2) Era Internet • Tahun 80-90an : internet masih sangat sederhana • Tahun 2006 : > 25 milyar halaman web, > 1,3 milyar gambar, > 1 milyar pesan • Berbagai kebutuhan informasi • Mencari topik tertentu / informasi spesifik • Mencari jawaban dari suatu pertanyaan • Mencari informasi dalam bahasa berbeda • dll

  15. Contoh-contoh penerapan IRS • Conventional (katalog perpustakaan) • Pencarian dengan kata kunci, judul, penulis, dll. • Text-based (Google, Yahoo, ASK). • Pencarian dengan kata kunci (keyword). Pencarian terbatas menggunakan query dalam bahasa alami. • Multimedia (Youtube) • Pencarian dengan penampilan visual (bentuk, warna, gerak,…) • Sistem jawaban pertanyaan (AskJeeves, Answerbus) • Pencarian dalam bahasa alami (terbatas) • Lainnya: • IR lintas-bahasa, music retrieval

  16. Information Retrieval System - IRS • Konsep dasar • Indexing • Searching / matching • Perangkingan relevansi bds keyword query

  17. Model matematika nya • dimana Q = pertanyaan (queri), D = dokumen, n = jumlah dokumen, 2n = jumlah kemungkinan himpunan bagian dari dokumen yang ditemukan. • Sistem temu-kembali akan mengambil salah satu dari kemungkinan tersebut.

  18. [2] Indexing • Berfungsi menghasilkan database index • Merupakan proses persiapan sehingga dokumen siap untuk di-retrive.

  19. Tahap-tahap dalam proses indexing • Parsing • Pengambilan kata-kata (term) dari tumpukan dokumen • Menghapus karakter tanda baca • Mengubah kumpulan term menjadi lowercase. • Stopword Removal • Pembuangan kata seperti : tetapi, yang, sedangkan, dan sebagainya. • Stemming • Pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar. • Term Weighting • Pemberian bobot setiap term di dalam dokumen.

  20. Algoritma stemming • Contoh stemming bahasa Indonesia

  21. Masalah pada Stemming • Understemming, • Pemotongan terlalu sedikit, misalnya ‘pengorbanan’ menjadi ‘korbanan’ • Overstemming • Pemotongan terlalu banyak, misalnya ‘mencapai’ menjadi ‘capa’ • More info about stemming • http://tartarus.org/~martin/PorterStemmer/

  22. [2] Searching / matching • Penemuan kembali informasi (dokumen) yang relevan terhadap query yang diberikan • Tidak semua dokumen yang diambil (retrieved) sesuai dengan keinginan user (relevant).

  23. Bagian-bagian IRS Text Operations (operasiterhadapteks) meliputipemilihankata-katadalamquery maupundokumen (term selection) dalampentransformasiandokumenatauquery menjaditermsindex (indeksdarikata-kata). Indexing (pengindeksan), membangun basis data indeksdarikoleksidokumen. Dilakukanterlebihdahulusebelumpencariandokumendilakukan. Query formulation (formulasiterhadapquery) yaitumemberibobotpadaindekskata-kataquery. Ranking (perangkingan), mencaridokumen-dokumen yang relevanterhadapquery danmengurukandokumentersebutberdasarkankesesuaiannyadenganquery.

  24. Operator query (1) • Model boolean • AND, OR dan NOT • tanda kurung () untuk menentukan scope operator • Kekurangan • Hasil pencarian dokumen berupa himpunan • Sulit melihat dokumen yang paling relevan atau agak relevan (partial match). • Hasilnya kaku, menyulitkan pengguna yang tidak mengerti tentang ekpresi boolean

  25. Operator query (2) • Model ruang vektor (1) • Kelebihan : query dapat berupa sekumpulan kata-kata / kalimat • Misalkan terdapat sejumlah n kata yang berbeda. Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n. • Setiap kata i diberikan bobot sebesar wi. • Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n.

  26. Operator query (2) • Model ruang vektor (2) • Misalkan terdapat 3 buah kata (T1, T2 dan T3), 2 buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai : • D1 = 2T1+3T2+5T3 • D2 = 3T1+7T2+0T3 • Q = 0T1+0T2+2T3

  27. Operator query (2) • Model ruang vektor (3) • Maka representasi grafis ketiga vektor tsb adalah

  28. Operator query (2) • Model ruang vektor (4) • Representasi dalam bentuk matrik kata-dokumen

  29. Operator query (3) • Model Pembobotan Kata • Salah satu cara untuk memberi bobot terhadap suatu kata adalah memberikan nilai jumlah kemunculan suatu kata (term frequency) sebagai bobot • Prinsipnya, semakin besar kemunculan suatu kata dalam dokumen akan memberikan nilai kesesuaian yang semakin besar • Silahkan pelajari lebih lanjut, http://en.wikipedia.org/wiki/Tf-idf

  30. Parameter pengujian • Precision (ketepatan) • Precision ialahperbandinganjumlahdokumenrelevan yang didapatkansistemdenganjumlahseluruhdokumen yang terambilolehsistembaikrelevanmaupuntidakrelevan. • precision = Jumlahdokumen yang relevandengan query danterambil. jumlahseluruhdokumen yang terambil 2. Recall (kelengkapan/perolehan) • Recall ialahperbandinganjumlahdokumenrelevan yang didapatkansistemdenganjumlahseluruhdokumenrelevan yang adadalamkoleksidokumen (terambilataupuntakterambilsistem). • recall= Jumlahdokumen yang relevandengan query danterambiljumlahseluruhdokumenrelevandalamkoleksidokumen

  31. Parameter pengujian 3. Interpolate Average Precision (IAP) • Pengukuran performansi dengan mempertimbangkan aspek keterurutan atau rangking. • Dapat dilakukan dengan interpolasi antara precision dan recall. • IAP akan mencatat semua dokumen yang relevan dan urutan dokumen tersebut pada hasil IRS dan menghitung nilai precisionnya.

  32. Contoh • Misal terdapat 10 buah dokumen hasil perangkingan berdasarkan suatu query. Misalkan diketahui terdapat 4 buah dokumen relevan berdasarkan query tadi, tiga diantaranya ditemukan yaitu pada rangking 1, 4 dan 5. • Maka perhitungan recall precision adalah

  33. simpulan • semakin tinggi ketepatan (precison), semakin rendah perolehan (recall).

  34. Beberapa teknik meningkatkan performansi IRS • Relevance Feedback (RF), • ada tanda/input/klik dari user untuk memperbaiki query • Query Expansion (QE), • tidak ada tanda (sistem secara automatis memperbaiki query)

  35. Contoh teknik QE

  36. Refer to • http://en.wikipedia.org/wiki/Information_retrieval • http://en.wikipedia.org/wiki/Vector_space_model • http://www.cse.unt.edu/~rada/CSCE5200/ • http://tartarus.org/~martin/PorterStemmer/ • http://en.wikipedia.org/wiki/Tf-idf

  37. Pertanyaan?

More Related