330 likes | 650 Views
DATA MINING : DESKRIPSI. OverView Berbagai cara deskripsi dan pengetahuan yg dihasilkan Deskripsi Grafis Deskripsi Lokasi Deskripsi Keberagaman Conclusion. Overview. Data tinggi badan dari Kelas Biasa. Data tinggi badan dari Kelas Plus. Overview.
E N D
DATA MINING : DESKRIPSI OverView Berbagai cara deskripsi dan pengetahuan yg dihasilkan Deskripsi Grafis Deskripsi Lokasi Deskripsi Keberagaman Conclusion
Overview Data tinggi badan dari Kelas Biasa Data tinggi badan dari Kelas Plus
Overview • Sekilas kita sulit menangkap maksud dari kumpulan data tsb. • Kumpulan data tsb perlu diolah sedemikian shg agar dpt memberikan gambaran mengenai data tsb. • Bgm jika data tsb melibatkan 10.000 siswa? • Maka itu, diperlukan suatu metode utk menggambarkan data scr ringkas yg disebut ‘DESKRIPSI’
Berbagai cara deskripsi dan pengetahuan yg dihasilkan • Deskripsi Grafis • Diagram Titik • Histogram • Deskripsi Lokasi • Rata2 (Mean) • Nilai Tengah (Median) • Nilai Sering Muncul (Modus) • Kuartil • Persentil • Deskripsi Keberagaman
Berbagai cara deskripsi dan pengetahuan yg dihasilkan • Deskripsi Grafis • Diagram Titik • Histogram • Deskripsi Lokasi • Rata2 (Mean) • Nilai Tengah (Median) • Nilai Sering Muncul (Modus) • Kuartil • Persentil • Deskripsi Keberagaman
Deskripsi Grafis Merupakan cara utk mendeskripsikan data dalam bentuk gambar yg sesungguhnya Dua Gambar yg umum digunakan dlm deskripsi grafis adalah diagram titik dan histogram
Diagram Titik • Pengetahuan apa yg diperoleh? • Data Kelas Biasa (merah) 165-172cm • Data Kelas Plus (biru) >175cm, namun nilainya lbh beragam dgn sebaran yg lbh luas 165 170 175 180
Histogram Data tinggi badan dari Kelas Biasa
Histogram • Langkah 1 Buat bbrp interval yg lebarnya sama
Histogram • Langkah 2 Hitung sbrp banyak data yg menjadi anggota tiap interval
Histogram • Langkah 3, Buat histogram • Pengetahuan apa yg diperoleh?
Histogram • Pengetahuan apa yg diperoleh? • Dapat melihat lokasi kecenderungan mengumpulnya data di batang tertinggi • Histogram yg “tinggi-mengerucut” keberagaman data yg relatif rendah • Histogram yg “pendek-melebar” keberagaman data yg beragam dan menyebar luas
Deskripsi Lokasi • Deskripsi grafis sdh menggambarkan karakteristik data namun sifatnya msh terlalu kasar dan kurang praktis untuk dilakukan. • Shg diperlukan suatu angka yg cukup dapat mewakili data yg ada serta dpt diperoleh dengan cara yg lebih praktis daripada menggambar • Angka yg dpt “mewakili” tsd LOKASI • Disebut lokasi krn dpt memberikan informasi ttd data dari dari posisi tempat tertentu.
Mean • Rata2 brrti “membuat menjadi rata” nilai perataan tsb dianggap sebagai lokasi pusat, titik berat, atau titik keseimbangan data • Secara matematis, bila kita memiliki nilai observasi x1, x2, ... ,x maka rata2 adalah: n (X1 + x2 + ... + xn) = ∑Xi X = n n i=1 • Scr sederhana, persamaan tsb brrti menjumlahkan semua data, kemudian membagi dgn banyaknya data
Mean Contoh: • Diketahui data Kls Biasa: 168, 164, 167, 164, 171, 166, 169, 172, 166,166 • Jumlah kls biasa 1673 • Maka Rata2 1673/10= 167,3 cm. • Data Kls Plus: 175, 176, 183, 180, 177, 177, 182, 179, 179, 171 • Jumlah kls plus 1779 • Maka Rata2 1779/10= 177,9 cm.
Mean • Pengetahuan apa yg diperoleh? • Bhw secara umum siswa kelas biasa memiliki TB 167,3 cm. • Siswa kelas biasa lebih pendek dari kelas plus yg umumnya bertinggi badan 177,9 cm.
Median • Scr harfiah, mencari tempat nilai tengah. • Langkah pertama urutkan data lbh dahulu • Data asli kelas biasa: 168, 164, 167, 164, 171, 166, 169, 172, 166,166 • Data urut menjadi: 164,164,166,166,166,167,168,169,171,172 • Krn jumlah data genap (10) mk, nilai tengah antara diurutan ke-5 dan 6 166 dan 167 • Median = ((data ke-5 + data ke-6)/2) = ((166+167)/2 = 166,5
Median • Apa keuntungan Median dibandingkan Mean? • Median tdk terlalu terpengaruh oleh adanya nilai ektrem. • Maksudnya: • Data terurut: 164,164,166,166,166,167,168,169,171,172 • (rata2 =167,3 ------ Median = 166,5) • Data terurut modifikasi: 164,164,166,166,166,167,168,169,171,1720 • (rata2 =332,3 ------ Median = 166,5)
Modus • Mencari nilai observasi yang sering muncul • Contoh dari Data urut Kelas Biasa: 164,164,166,166,166,167,168,169,171,172 Maka, Nilai 166 adalah nilai yg sering muncul (Modus) sebanyak 3x • Pengetahuan yg diperoleh adalah, bhw dari Kelas Biasa memiliki byk siswa yg TB nya 166cm
Modus • Kegunaan modus; Modus lbh mencerminkan lokasi kecenderungan berkumpulnya sebagian besar data dibanding ukuran-lainnya. Contoh: • Sebuah PT menyatakan bhw rata2 gaji karyawannya adalah Rp. 10 juta. • Kenyataannya, 90 org digaji Rp 1 juta dan hanya 10 org yg di gaji Rp. 100 juta. • Dibandingkan rata2, informasi yg lbh berguna adalah bhw sebagian besar (modus) karyawan di gaji Rp. 1 juta
Kuartil • Membagi seluruh data menjadi empat bagian dan mencari nilai di tiap seperempat bagian (kuartil) • Ketiga kuartil dpt dinotasikan sebagai q1, q2, q3 (q2=median) • Contoh dari data terurut: 164,164,166,166,166,167,168,169,171,172 maka: q1=166; q2=(166+167)/2=165,5; q3=169
Kuartil • Pengetahuan apa yg diperoleh? Apabila kita ingin membagi 4 bagian sama besar dari tinggi badan yg telah diurutkan, maka diperoleh angka 166 cm, 166,5 cm dan 169 cm
Persentil • Membagi seluruh data menjadi seratus bagian dan mencari nilai di tiap seperseratus bagian (persentil) • Ketiga kuartil dpt dinotasikan sebagai p0.xx • Contoh, Bgm apabila ingin mencari p0.10, p0.46, p0.83? Dari data terurut: 164,164,166,166,166,167,168,169,171,172 maka: p0.10=164; p0.46=166; p0.83=171
Persentil • Pengetahuan apa yg diperoleh? Apabila kita ingin membagi 100 bagian sama besar dari tinggi badan yg telah diurutkan, maka diperoleh angka-angka pada belahan tersebut
Deskripsi Keberagaman • Deskripsi Lokasi sdh menggambarkan ttg lokasi pusat data (mean, median, modus), namun kita blm memilik gambaran atas keberagaman data. • Sbg gambaran: • Data kelompok 1: 6,6,7,7,7,8,8 (mean: 7, median:7, modus:7) • Data kelompok 2: 0,1,3,7,7,12,19 (mean: 7, median:7, modus:7) • Meskipun ketiga ukuran lokasi itu sama namun kedua kelompok itu “berbeda” • Shg diperlukan ukuran keberagaman range, varians dan standart deviasi
Range • Besarnya rentang jarak antara data terkecil dgn data terbesar. • Rentang yg besar menandakan bhw data relatif lebih beragam. • Sbg gambaran: • Data kelompok 1: 6,6,7,7,7,8,8 (Range kelompok 1 8-6=2) • Data kelompok 2: 0,1,3,7,7,12,19 (Range kelompok 1 19-0=19)
Range • Pengetahuan apa yg diperoleh? • Kelompok 2 memiliki data yg lebih beragam dgn range yg jauh lbh besar drpd Kel.1 • Akan tetapi, krn ukuran ini hanya mengambil dua data ekstrem adakalanya sulit utk dijadikan ukuran unik utk menilai keberagaman data, sebagaimana contoh: • Kel.1 : 6,15,15,16,16,25 (Range kel.1=25-6=19) • Kel.2 : 0,1,3,7,7,12,19 (Range kel.2=19-0=19)
Varians dan Standart Deviasi • Range msh blm dpt dijadikan dasar utk menilai keberagaman data. • Ukuran Varians yg menggunakan prinsip mencari jarak antara setiap data dengan pusatnya (rata2) seringkali digunakan. • Rumus: _ n ∑ ( Xi – X ) i=1 __________ S2 = n-1
Varians dan Standart Deviasi • Varians kel.1 = 181,71 / 6 = 30,3 • Varians kel.2 = 270/ 6 = 45
Varians dan Standart Deviasi • Pengetahuan apa yg diperoleh? • Data Kel.2 berjarak relatif lebih jauh dari pusatnya (dhi.Rata2nya, yaitu: 7) drpd data Kel.1 shg Variansnya lbh besar. • Dgn kata lain, data Kel.2 lbh beragam drpd data Kel.1 • Seandainya data tsb memiliki satuan cm2, maka varians memiliki satuan cm2 pula. • Dampaknya Varians jadi krg sinkron dgn ukuran lainnya spt, mean, modus, persentil, range, dll utk itu perlu dibuat Standar Deviasi
Varians dan Standart Deviasi • Standar Deviasi merupakan akar kuadrat Varians • Maka Standar Deviasi Kel.1 = √ 30,29 = 5,5 • Maka Standar Deviasi Kel.2 = √ 45 = 6,7 • Pengetahuan apakah yg diperoleh? • Data Kel.2 lebih beragam dibandingkan Kel.1. Standar Deviasi memiliki satuan yg sama dgn data asalnya. • Apabila data tsb memiliki satuan cm, maka Standar Deviasinya pun memiliki satuan cm • Dgn demikian, hasil yg muncul menjadi lbh mudah dicerna maknanya
Conclusion • Kegunaan Fungsi Deskripsi • Berbagai cara menggunakan fungsi Deskripsi • Berbagai ukuran yg dipakai dalam cara-2 deskripsi, cara menghitung, dan menginterpretasikan ukuran tsb.