Kenalan dengan Metode Clustering—Ada beragam metode pengolahan data dalam penelitian yang beberapa di antaranya sudah pernah dibahas sebelumnya. Kali ini, kita akan membahas terkait metode clustering.
Apa itu metode clustering?
Clustering merupakan sebuah metode pengelompokan data ke dalam beberapa cluster sehingga data dalam satu cluster memiliki tingkat kemiripan yang tinggi serta data antar cluster memiliki kemiripan yang rendah. Objek yang ada di dalam cluster merupakan data dengan karakteristik yang serupa namun berbeda dengan cluster yang lain. Pengelompokan ini dilakukan dengan memanfaatkan suatu algoritma clustering. Clustering juga dikenal dengan istilah data segmentasi sebab metode ini mempartisi banyak data set ke dalam banyak grup berdasarkan kesamaannya. Istilah lain yang juga berkaitan dengan clustering adalah outlier detection.
Apa saja manfaat clustering?
Metode clustering dapat dimanfaatkan sebagai prediksi serta analisis masalah dalam bisnis tertentu seperti pada segmentasi pasar, marketing maupun pemetaan zonasi wilayah. Selain itu, metode ini juga mampu mengidentifikasi objek dalam berbagai bidang seperti computer vision dan image processing.
Bagaimana konsep dasar dari clustering?
Data yang dihasilkan dari metode ini dikatakan baik apabila dihasilkan tingkat kesamaan yang tinggi dalam satu kelas namun rendah antar kelas. Kesamaan tersebut dihasilkan melalui pengukuran secara numeric terhadap dua buah objek.
Ada empat tipe data dalam clustering antara lain:
- Variabel berskala interval
- Variabel biner
- Variabel nominal, ordinal, dan rasio
- Variabel dengan tipe lainnya
Apa saja syarat clustering?
Dikutip dari Han dan Kamber (2012), syarat serta tantangan yang harus dipenuhi oleh suatu algoritma clustering antara lain:
- Skalabilitas
Metode clustering harus mampu menangani data dalam jumlah yang besar yang tidak hanya berisi ratusan objek namun juga mampu menangani hingga lebih dari jutaan objek.
- Kemampuan analisa beragam bentuk data
Algoritma klasterisasi harus mampu diterapkan pada beragam bentuk data seperti nomina, ordinal maupun gabungan
- Menemukan cluster dengan bentuk yang tidak terduga
Pada umumnya algoritma yang ada menggunakan metode Euclidean atau Manhattan yang hasilnya berbentuk bulat. Padahal hasilnya dapat berbentuk aneh dan tidak sama antara satu dan yang lainnya. Algoritma clustering harus mampu menangani data dengan bentuk yang tidak terduga
- Kemampuan untuk dapat menangani noise
Algoritma clustering harus mampu menangani data yang rusak, tidak dimengerti ataupun hilang sebab tidak semua data selalu dalam keadaan baik
- Sensitifitas terhadap perubahan input
Perubahan ataupun penambahan data dapat mengubah cluster sehingga dibutuhkan algoritma yang memiliki tingkat sensitifitas yang tinggi
- Mampu melakukan clustering untuk data dimensi tinggi
Suatu data dapat berisi banyak dimensi maupun atribut sehingga algoritma yang digunakan harus mampu menangani data dengan dimensi yang banyak.
- Interpretasi dan kegunaan
Hasil dari proses clustering harus mampu diinterpretasikan dan berguna. PRS.


