Analisis Cluster
- Clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, membuat keputusan dan machine learning, termasuk data mining, document retrieval, segmentasi citra, dan klasifikasi pola.
- Metodologi clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya.
Tipe Clustering
Partitional Clustering
- Pembagian objek data ke dalam non-overlapping subset (cluster) sehingga setiap objek data adalah tepat satu subset
Hierarchical Clustering
- Sehimpunan cluster bersarang yang diorganisasikan sebagai struktur hirarki pohon.
Well-separated clusters
- Sebuah cluster adalah sehimpunan titik yang memiliki kemiripan dengan titik lain dalam cluster daripada di cluster lain.
Center-based clusters
- Sebuah cluster yang memiliki anggota-anggota yang mirip dengan pusat cluster daripada pusatcluster lain.
● Pusat cluster
- Centroid: Rata-rata dari semua titik dalam cluster
- Medoid: memilih titik sebagi titik tengah.
Density-based clusters
- Sebuah cluster adalah area padat titik, yang dipisahkan dengan area kepadatan rendah, dari area kepadatan tinggi lainnya.
- Digunakan ketika cluster tidak teratur atau saling terkait, dan ketika noise dan outliers hadir.
Komponen
- representasi pola (termasuk ekstraksi sifat/ciri dan atau pemilihan),
- definisi ukuran kedekatan pola sesuai dengan domain data,
- clustering atau pengelompokan,
- jika diperlukan, abstraksi data (proses ekstraksi untuk deksripsi cluster),
- jika diperlukan, penilaian terhadap hasil (menggunakan metode pengukuran dan pengujian terhadap hasil clustering apakah valid atau tidak).
Tahapan Clustering
- Representasi pola (pattern representation) merupakan jumlah kelas, jumlah pola yang ada, jumlah, tipe dan skala ciri/sifat yang tersedia untuk algoritma clustering.
- Pemilihan ciri/sifat (feature selection) adalah proses identifikasi ciri/sifat yang lebih efektif untuk digunakan dalam algoritma clustering, sedangkan ekstraksi ciri/sifat adalah pemakaian satu atau lebih transformasi dari ciri/sifat yang ada sebelumnya untuk mendapatkan ciri/sifat yang lebih menonjol.
- Kedekatan pola biasanya diukur dengan fungsi jarak antar dua pasang pola.
- Pengukuran jarak yang sederhana, seperti Euclidean distance, Minkowski, Hamming distance, sering digunakan untuk menyatakan ketidaksamaan antara dua pola
- Sedangkan pengukuran kesamaan lain, seperti Simple Matching Coefficient, Jaccard Coefficient, Cosine Similarity, dapat digunakan untuk menunjukkan kesamaan karakter antar pola-pola.
k-Means
- Partitional clustering
- Setiap cluster terasosiasi dengan sebuah centroid
- Setiap titip dinyatakan ke suatu cluster yang paling dekat dengan centroidnya.
- Jumlah cluster, K, dinyatakan di awal
Contoh K-Means
● Kelompokkan dataset berikut ke dalam 3 kelompok dengan k-means (2 epoch saja):
- A1=(2,10)
- A2=(2,5)
- A3=(8,4)
- A4=(5,8)
- A5=(7,5)
- A6=(6,4)
- A7=(1,2)
- A8=(4,9)
Keterbatasan K-Means
- K-Mean bermasalah ketika cluster-cluster berbeda
- Ukuran
- Kepadatan
- Tidak berbentuk bola
- K-Mean bermasalah ketika data berisi outlier
K-Medoid
- Seperti metode partisi clustering yang lainnya, metode kmedoid juga digunakan untuk pengelompokkandokumen.
- Dalam metode k-medoid ini setiap cluster dipresentasikan dari sebuah objek di dalam cluster yang disebut dengan medoid.
- Tujuannya adalah menemukan kelompok k-cluster (jumlah cluster) diantara semua objek data di dalam sebuah kelompok data.
- Clusternya dibangun dari hasil mencocokkan setiap objek data yang paling dekat dengan cluster yang dianggap sebagai medoid sementara.
K-Medoids
- pilih point k sebagai inisial centroid / nilai tengah (medoids) sebanyak k cluster.
- cari semua point yang paling dekat dengan medoid, dengan cara menghitung jarak vector antar dokumen. (menggunakan Euclidian distance)
- secara random, pilih point yang bukan medoid.
- hitung total distance
- if TD baru < TD awal, tukar posisi medoid dengan medoids baru, jadilah medoid yang baru.
- ulangi langkah 2 - 5 sampai medoid tidak berubah.
Nearest Neighbor clustering
- Sebuah titik membentuk cluster baru atau bergabung dengan salah satu cluster yang sudah ada bergantung pada seberapa dekat titik tersebut dengan cluster.
- Sebuah treshold, t, untuk menentukan bergabung atau membuat cluster baru.
Hierarchical Clustering
- Membentuk beberapa himpunan cluster
- Jumlah cluster tidak dimasukkan di awal
- Struktur hirarki cluster dapat dipresentasikan sebagaidendrogram.
- Daun berisi 1 item.
- Setiap item masuk dalam satu cluster
- Root mewakili semua item
- Internal node menyatakan cluster yang dibentuk oleh penggabungancluster anak.
- Setiap level diasosiasikan dengan suatu treshold jarak yang digunakan untuk menggabungkan cluster
– Jika jarak antar 2 cluster lebih kecil dari treshold, maka digabungkan.
– Jarak akan bertambah sesuai dengan level.
Single Link dan Complete Link
- Single Link adalah 2 cluster digabungkan jika hanya 2 titiknya berdekatan.
- Complete Link adalah Jarak antar 2 cluster adalah jarak terbesar antar sebuah elemen dalam satu cluster dan sebuah elemen di cluster lain.
0 komentar:
Posting Komentar