DATA MINING
Pengertian Data Mining
Data Mining adalah proses yang menggunakan teknik statistik,
matematika, kecerdasan buatan, machine learning untuk mengekstraksi dan
mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari
berbagai database besar tedapat beberapa istilah lain yang memiliki makna sama
dengan data mining, yaitu Knowledge discovery in databases (KDD),
ekstraksi pengetahuan (knowledge extraction), Analisa data/pola (data/pattern
analysis), kecerdasan bisnis
Fungsi Data Mining
Data mining mempunyai fungsi yang
penting untuk membantu mendapatkan informasi yang berguna serta meningkatkan
pengetahuan bagi pengguna. Pada dasarnya, data mining mempunyai empat fungsi
dasar yaitu:
- Fungsi Prediksi (prediction). Proses untuk menemukan pola dari data dengan menggunakan beberapa variabel untuk memprediksikan variabel lain yang tidak diketahui jenis atau nilainya.
- Fungsi Deskripsi (description). Proses untuk menemukan suatu karakteristik penting dari data dalam suatu basis data.
- Fungsi Klasifikasi (classification). Klasifikasi merupakan suatu proses untuk menemukan model atau fungsi untuk menggambarkan class atau konsep dari suatu data. Proses yang digunakan untuk mendeskripsikan data yang penting serta dapat meramalkan kecenderungan data pada masa depan.
- Fungsi Asosiasi (association). Proses ini digunakan untuk menemukan suatu hubungan yang terdapat pada nilai atribut dari sekumpulan data.
Proses Data Mining
Proses yang umumnya dilakukan oleh data mining antara lain:
deskripsi, prediksi, estimasi, klasifikasi, clustering dan asosiasi. Secara
rinci proses data mining dijelaskan sebagai berikut
a. Deskripsi
Deskripsi bertujuan untuk mengidentifikasi pola yang muncul
secara berulang pada suatu data dan mengubah pola tersebut menjadi aturan dan
kriteria yang dapat mudah dimengerti oleh para ahli pada domain aplikasinya.
Aturan yang dihasilkan harus mudah dimengerti agar dapat dengan efektif
meningkatkan tingkat pengetahuan (knowledge) pada sistem. Tugas deskriptif
merupakan tugas data mining yang sering dibutuhkan pada teknik postprocessing
untuk melakukan validasi dan menjelaskan hasil dari proses data mining.
Postprocessing merupakan proses yang digunakan untuk memastikan hanya hasil
yang valid dan berguna yang dapat digunakan oleh pihak yang berkepentingan.
b. Prediksi
Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi
data diklasifikasikan berdasarkan perilaku atau nilai yang diperkirakan pada
masa yang akan datang. Contoh dari tugas prediksi misalnya untuk memprediksikan
adanya pengurangan jumlah pelanggan dalam waktu dekat dan prediksi harga saham
dalam tiga bulan yang akan datang.
c. Estimasi
Estimasi hampir sama dengan prediksi, kecuali variabel
target estimasi lebih ke arah numerik dari pada ke arah kategori. Model
dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target
sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai
dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai
contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit
berdasarkan umur pasien, jenis kelamin, berat badan, dan level sodium darah.
Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses
pembelajaran akan menghasilkan model estimasi.
d. Klasifikasi
Klasifikasi merupakan proses menemukan sebuah model atau
fungsi yang mendeskripsikan dan membedakan data ke dalam kelas-kelas.
Klasifikasi melibatkan proses pemeriksaan karakteristik dari objek dan
memasukkan objek ke dalam salah satu kelas yang sudah didefinisikan sebelumnya.
e. Clustering
Clustering merupakan pengelompokan data tanpa berdasarkan
kelas data tertentu ke dalam kelas objek yang sama. Sebuah kluster adalah
kumpulan record yang memiliki kemiripan suatu dengan yang lainnya dan memiliki
ketidakmiripan dengan record dalam kluster lain. Tujuannya adalah untuk
menghasilkan pengelompokan objek yang mirip satu sama lain dalam
kelompok-kelompok. Semakin besar kemiripan objek dalam suatu cluster dan
semakin besar perbedaan tiap cluster maka kualitas analisis cluster semakin
baik.
f. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut
yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis
keranjang belanja (market basket analisys). Tugas asosiasi berusaha untuk
mengungkap aturan untuk mengukur hubungan antara dua atau lebih atribut.
Tahapan data mining
Sebagai suatu rangkaian proses,
data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan pada Gambar dibawah ini. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat
langsung atau dengan perantaraan knowledge base. Tahapan-tahapan tersebut,
diantaranya :
Tahapan Data Mining
1. Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional
perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data
hasil seleksi yang digunakan untuk proses data mining, disimpan dalam suatu
berkas, terpisah dari basis data operasional.
2. Pre-processing / cleaning
Sebelum proses data mining dapat dilaksanakan, perlu
dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning
mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten,
dan memperbaiki kesalahan pada data.
3. Transformation
Coding adalah proses transformasi pada data yang telah
dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding
dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola
informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi
menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu.
Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan
metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD
secara keseluruhan.
5. Interpretation / evalution
Pola informasi yang dihasilkan dari proses data mining perlu
ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan.
Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap
ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan
dengan fakta atau hipotesis yang ada sebelumnya.
Contoh Aplikasi
Berikut ini merupakan contoh dari salah satu kasus resiko kredit (credit risk) yang menggunakan decision tree untuk menentukan apakah seorang potential customer dengan karakteristik saving, asset dan income tertentu memiliki good credit risk atau bad credit risk.Dapat dilihat pada gambar tersebut, bahwa target variable dari decision tree tersebut atau variable yang akan diprediksi adalah credit risk dengan menggunakan predictor variable : saving, asset, dan income. Setiap nilai atribut dari predictor variable akan memiliki cabang menuju predictor variable selanjutnya, dan seterusnya hingga tidak dapat dipecah dan menuju pada target variable.
Penentuan apakah diteruskan menuju predictor variable (decision node) atau menuju target variable (leaf node) tergantung pada keyakinan (knowledge) apakah potential customer dengan nilai atribut variable keputusan tertentu memiliki keakuratan nilai target variable 100% atau tidak. Misalnya pada kasus di atas untuk saving medium, ternyata knowledge yang dimiliki bahwa untuk seluruh potential customer dengan saving medium memiliki credit risk yang baik dengan keakuratan 100%. Sedangkan untuk nilai low asset terdapat kemungkinan good credit risk dan bad credit risk.
Jika tidak terdapat pemisahan lagi yang mungkin dilakukan, maka algoritma decision tree akan berhenti membentuk decision node yang baru. Seharusnya setiap branches diakhiri dengan “pure” leaf node, yaitu leaf node dengan target variable yang bersifat unary untuk setiap records pada node tersebut, di mana untuk setiap nilai predictor variable yang sama akan memiliki nilai target variable yang sama. Tetapi, terdapat kemungkinan decision node memiliki “diverse” atributes, yaitu bersifat non‐unary untuk nilai target variablenya, di mana untuk setiap record dengan nilai predictor variable yang sama ternyata memiliki nilai target variable yang berbeda. Kondisi tersebut menyebabkan tidak dapat dilakukan pencabangan lagi berdasarkan nilai predictor variable. Sehingga solusinya adalah membentuk leaf node yang disebut “diverse” leaf node, dengan menyatakan level kepercayaan dari diverse leaf node tersebut. Misalnya untuk contoh data berikut ini :
Dari training data tersebut kemudian disusunlah alternatif untuk
candidate split, sehingga setiap nilai untuk predictor variable di atas
hanya membentuk 2 cabang, yaitu sebagai berikut:
Kemudian untuk setiap candidate split di atas, dihitung
variabel‐variabel berikut berdasarkan training data yang dimiliki.
Adapun variabel‐variabel tersebut, yaitu :
Adapun contoh hasil perhitungannya adalah sebagai berikut :
Dapat dilihat dari contoh perhitungan di atas, bahwa yang memiliki nilai goodness of split * Φ(s/t) + yang terbesar, yaitu split 4 dengan nilai 0.64275. Oleh karena itu split 4 lah yang akan digunakan pada root node, yaitu split dengan : assets = low dengan assets = {medium, high}.
Untuk penentuan pencabangan, dapat dilihat bahwa dengan assets=low maka didapatkan pure node leaf, yaitu bad risk (untuk record 2 dan 7). Sedangkan untuk assets = {medium, high} masih terdapat 2 nilai, yaitu good credit risk dan bad credit risk. Sehingga pencabangan untuk assets = {medium, high} memiliki decision node baru. Adapun pemilihan split yang akan digunakan, yaitu dengan menyusun perhitungan nilai Φ(s/t) yang baru tanpa melihat split 4, record 2 dan 7.





