Classification
Classification adalah metode yang paling umum
pada data mining. Persoalan bisnis sperti Churn Analysis, dan Risk Management
biasanya melibatkan metode Classification.
Classification adalah tindakan untuk
memberikan kelompok pada setiap keadaan. Setiap keadaan berisi
sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh
untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai
fungsi dari input attribute.
Contohnya kita lihat pada contoh kasus
College Plan pada postingan Pengenalan data mining.
Class adalah attribute CollegePlans
yang berisi dua pernyataan, Yes dan No,
perhatikan ini.
Sebuah Classification Model akan menggunakan
atribut lain dari kasus tersebut (input attribut; yaitu kolom IQ,
Gender, ParentIncome, dan ParentEncouragement)
untuk dapat menentukan pola (pattern) class (Output Attribute;
yaitu Kolom CollegePlans yang berisi Yes atau
No).
Algoritma Data Mining yang membutuhkan variabel
target untuk belajar (sampai mendapatkan rule / pola yang berlaku pada data
tersebut) kita standarkan dengan sebuthan dengan Supervised Algorithm.
Clustering
Clustering
adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu
metode Data Mining, yang tujuannya adalah untuk mengelompokkan data
dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan
karakteristik yang berbeda ke ‘wilayah’ yang lain.
Ada
beberapa pendekatan yang digunakan dalam mengembangkan metode clustering. Dua
pendekatan utama adalah clustering dengan pendekatan partisi dan clustering
dengan pendekatan hirarki. Clustering dengan pendekatan partisi atau sering
disebut dengan partition-based clustering mengelompokkan data dengan
memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Clustering
dengan pendekatan hirarki atau sering disebut dengan hierarchical clustering
mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data
yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada
hirarki yang berjauhan. Di samping kedua pendekatan tersebut, ada juga
clustering dengan pendekatan automatic mapping (Self-Organising Map/SOM)
Clustering
Dengan Pendekatan Partisi
K-Means
Salah
satu metode yang banyak digunakan dalam melakukan clustering dengan partisi ini
adalah metode k-means. Secara umum metode k-means ini melakukan proses
pengelompokan dengan prosedur sebagai berikut:
- Tentukan jumlah cluster
- Alokasikan data secara random ke cluster yang ada
- Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya
- Alokasikan kembali semua data ke cluster terdekat
- Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi masih sudah di bawah treshold
Prosedur
dasar ini bisa berubah mengikuti pendekatan pengalokasian data yang diterapkan,
apakah crisp atau fuzzy. Setelah meneliti clustering dari sudut
yang lain, saya menemukan bahwa k-means clustering mempunyai beberapa
kelemahan.
Hal-hal
terkait dengan metode k-means saya rangkum dalam tulisan saya yang dapat
di-download di sini (k-means – penerapan, permasalahan dan metode terkait).
Penjelasan
lengkap tentang k-means dapat juga dilihat pada Yudi
Agusta’s K-Means Page.
Mixture
Modelling (Mixture Modeling)
Mixture
modelling (mixture modeling) merupakan metode pengelompokan data yang mirip
dengan k-means dengan kelebihan penggunaan distribusi statistik dalam
mendefinisikan setiap cluster yang ditemukan. Dibandingkan dengan k-means yang
hanya menggunakan cluster center, penggunaan distribusi statistik ini
mengijinkan kita untuk:
- Memodel data yang kita miliki dengan setting karakteristik yang berbeda-beda
- Jumlah cluster yang sesuai dengan keadaan data bisa ditemukan seiring dengan proses pemodelan karakteristik dari masing-masing cluster
- Hasil pemodelan clustering yang dilaksanakan bisa diuji tingkat keakuratannya
Distribusi
statistik yang digunakan bisa bermacam-macam mulai dari yang digunakan untuk
data categorical sampai yang continuous, termasuk di antaranya distribusi
binomial, multinomial, normal dan lain-lain. Beberapa distribusi yang bersifat
tidak normal seperti distribusi Poisson, von-Mises, Gamma dan Student t, juga
diterapkan untuk bisa mengakomodasi berbagai keadaan data yang ada di lapangan.
Beberapa pendekatan multivariate juga banyak diterapkan untuk memperhitungkan
tingkat keterkaitan antara variabel data yang satu dengan yang lainnya.
Clustering
dengan Pendekatan Hirarki
Clustering
dengan pendekatan hirarki mengelompokkan data yang mirip dalam hirarki yang
sama dan yang tidak mirip di hirarki yang agak jauh. Ada dua metode yang sering
diterapkan yaitu agglomerative hieararchical clustering dan divisive
hierarchical clustering. Agglomerative melakukan proses clustering dari N
cluster menjadi satu kesatuan cluster, dimana N adalah jumlah data,
sedangkan divisive melakukan proses clustering yang sebaliknya yaitu dari satu
cluster menjadi N cluster.
Beberapa
metode hierarchical clustering yang sering digunakan dibedakan menurut
cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan Single
Linkage, Complete Linkage, Average Linkage, Average Group
Linkage dan lain-lainnya. Seperti juga halnya dengan partition-based
clustering, kita juga bisa memilih jenis jarak yang digunakan untuk
menghitung tingkat kemiripan antar data.
Salah
satu cara untuk mempermudah pengembangan dendogram untuk hierarchical clustering
ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar
data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam
cara seperti dengan Euclidean Distance Space. Berangkat dari similarity matrix
ini, kita bisa memilih lingkage jenis mana yang akan digunakan untuk
mengelompokkan data yang dianalisa.
Clustering
Dengan Pendekatan Automatic Mapping
Self-Organising
Map (SOM)
Self-Organising
Map (SOM) merupakan suatu tipe Artificial Neural Networks yang di-training secara
unsupervised. SOM menghasilkan map yang terdiri dari output dalam dimensi yang
rendah (2 atau 3 dimensi). Map ini berusaha mencari property dari input data.
Komposisi input dan output dalam SOM mirip dengan komposisi dari proses feature
scaling (multidimensional scaling).
Walaupun
proses learning yang dilakukan mirip dengan Artificial Neural Networks, tetapi
proses untuk meng-assign input data ke map, lebih mirip dengan K-Means dan kNN
Algorithm. Adapun prosedur yang ditempuh dalam melakukan clustering dengan SOM
adalah sebagai berikut:
- Tentukan weight dari input data secara random
- Pilih salah satu input data
- Hitung tingkat kesamaan (dengan Eucledian) antara input data dan weight dari input data tersebut dan pilih input data yang memiliki kesamaan dengan weight yang ada (data ini disebut dengan Best Matching Unit (BMU))
- Perbaharui weight dari input data dengan mendekatkan weight tersebut ke BMU dengan rumus:
Wv(t+1) = Wv(t) + Theta(v, t) x Alpha(t) x (D(t) – Wv(t))
Dimana:
- Wv(t): Weight pada saat ke-t
- Theta (v, t): Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan.
- Alpha (t): Learning Coefficient yang berkurang secara monotonic
- D(t): Input data
- Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah iterasi
Variasi
Metode Clustering
- Quality Threshold Clustering Method
- Locality Sensitive Hashing
- Algoritma Rock
- Hierarchical Frequent Term-Base Clustering
- Suffix Tree Clustering
- Single Pass Clustering
- Neighborhood Clustering
- Sequence Clustering
- Spectral Clustering
- Clustering on Frequent Tree
- Latent Class Cluster Analysis a.k.a. Latent Profile Analysis a.k.a. Mixture Model for Continuous Variabel
- Latent Class Analysis a.k.a. Mixture Model for Categorical Variable
Hal-hal
Terkait Dengan Clustering
- Analisa Faktor
- Singular Value Decomposition
- Eigen Value and Eigen Vector
- Similarity Measure
- Feature Discretisation
- Feature Selection
- Feature Scaling
- Indexing Method For Searching
Clustering
Implementation
Clustering
juga disebut sebagai segmentation. Metoda ini digunakan untuk mengidentifikasi
kelompok alami dari sebuah kasus yang di dasarkan pada sebuah kelompok atribut,
mengelompokkan data yang memiliki kemiripan atribut.
Gambar
dibawah ini menunjukkan kelompok data pelanggan sederhana yang berisi dua
atribut, yaitu Age (Umur) dan Income (Pendapatan).
Algoritma
Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua
atribut ini.
- Cluster 1 berisi populasi berusia muda dengan pendapatan rendah
- Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi
- Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.
Clustering
adalah metode data mining yang Unsupervised,
karena tidak ada satu atributpun yang digunakan untuk memandu proses
pembelajaran, jadi seluruh atribut input diperlakukan sama.
Kebanyakan
Algoritma Clustering membangun sebuah model melalui serangkaian pengulangan
dan berhenti ketika model tersebut telah memusat atau berkumpul (batasan
dari segmentasi ini telah stabil).
Association
Association juga disebut sebagai Market Basket Analysis. Sebuah
problem bisnis yang khas adalah menganalisa tabel transaksi penjualan dang
mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer,
misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap.
Kesamaan yang ada dari data pembelian digunakan untuk mengidentifikasi kelompok
kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan
cross-selling seperti gambar dibawah ini.
Anda
bisa lihat disini, beberapa hal dapat kita baca, misalnya :
- Ketika orang membeli susu, dia biasanya membeli keju
- Ketika orang membeli pepsi atau coke, biasanya dia membeli juice
Didalam
istilah association, setiap item dipertimbangkan sebagai informasi.
Metode
association memiliki dua tujuan:
- Untuk mencari produk apa yang biasanya terjual bersamaan
- Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.
Regression
Metode Regression mirip dengan metode
Classification, yang membedakannya adalah metode regression tidak bisa mencari
pola yang dijabarkan sebagai class (kelas).
Metoda regression bertujuan untuk mecari pola dan
menentukan sebuah nilai numerik.
Sebuah Teknik Linear Line-fitting sederhana
adalah sebuah contoh dari Regression, dimana hasilnya adalah sebuah fungsi
untuk menentukan hasil yang berdasarkan nilai dari input.
Bentuk yang lebih canggih dari regression sudah
mendukung input berupa kategori, jadi tidak hanya input berupa numerik. Teknik
paling popular yang digunakan untuk regression adalah linear regression dan
logistic regression. Teknik lain yang didukung oleh SQL Server Data mining
adalah Regression Trees (bagian dari dari algoritma Microsoft Decission Trees)
dan Neural Network.
Regression digunakan untuk memecahkan banyak problem
bisnis – contohnya untuk memperkirakan metode distribusi, kapasitas distribusi,
musim dan untuk memperkirakan kecepatan angin berdasarkan temperatur, tekanan
udara, dan kelembaban.
Fore Casting
Forecasting
juga adalah metode data mining yang sangat penting. Contohnya digunakan untuk
menjawab pertanyaan seperti berikut:
·
Seperti apa jadinya nilai saham dari
Microsoft Corporation (pada NASDAQ, disimbolkan sebagai MSFT) pada keesokan
hari?
·
Sebanyak apa penjualan produk
tertentu pada bulan depan?
Teknik
Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas. Sebagai
inputnya teknik Forecasting akan mengambil sederetan angka yang menunjukkan
nilai yang berjalan seiring waktu dan kemudian Teknik Forecasting ini akan
menghubungkan nilai masa depan dengan menggunakan bermacam-macam teknik
machine-learning dan teknik statistik yang berhubungan dengan musim, trend, dan
noise pada data.
Gambaranya
dapat anda lihat sebagai berikut:
Gambar
diatas menunjukkan dua kurva, garis yang tegas adalah time-series data
sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series
model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu.
Sequence
Analysis
Sequence
Anlysis digunakan untuk mencari pola pada serangkaian kejadian yang disebut
dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian bagian: A, G,
C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL. Pada
kejadian nyata anda mungkin memodelkan pembelian oleh pelanggan sebagai sebuah
sequence (rangkaian) data, rangkaian tersebut adalah:
- Pertama-tama Seorang pelanggan membeli komputer
- kemudian membeli speaker
- dan akhirnya membeli sebuah webcam.
Baik
Sequence maupun time-series data mempunyai kemiripan, mereka sama sama berisi
tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah
time-series berisi data bertipe numerik, dan sebuah sequence series berisi
bagian yang khas.
Gambar
dibawah ini menunjukan rangkaian klik pada sebuah website berita. Setiap node
adalah sebuah kategori URL. Dan garis melambangkan transisi antar kategori URL
tersebut. Setiap transisi di kelompokan dengan sebuah bobot yang menggambarkan
kemungkinan transisi antara satu URL dan URL yang lain.
Deviation
Analysis
Deviation Analysis digunakan untuk mencari kasus
yang bertindak sangat berbeda dari normalnya. Deviation analysis pengguaannya
sangat luas, yang paling umum menggunakan metode ini adalah pendeteksian
penyalah gunaan Kartu kredit. Mengidentifikasi kasus yang tidak normal diantara
jutaan transaksi adalah pekerjaan yang sangat menantang. Penggunaan yang
lainnya misalnya, pendeteksian gangguan jaringan komputer, analisa kesalahan
produksi, dan lain-lain.
Tidak ada teknik standar dalam deviation
analysis. Hanya saja biasanya para analis menggunakan decision trees,
clustering atau neural network untuk pekerjaan ini.
Sumber :
http://yudiagusta.wordpress.com/clustering/
http://ishwara.us/metode-data-mining/
mbak, ingin tanya tentang teknik data mining untuk memprediksi penjualan suatu produk, model yang umum untuk memprediksi data historis time series penjualan yang berbentuk seasonal trend selain holt-winter apa ya mbak? saya pernah menulis artikel tentang holt winter berikut: http://datacomlink.blogspot.co.id/2015/12/serumit-apa-forecast-metode-holt.html
BalasHapusthanks buat artikelnya
BalasHapusTutorian dan Tips seputar dunia internet
Mantap gan sangat membantu
BalasHapus