2.2 Pengertian Normalisasi Data

Buku ini sedang dalam tahap tinjauan terbuka. Kami ingin umpan balik Anda untuk membuat buku ini lebih baik bagi. Anda dapat memberikan anotasi pada beberapa teks dengan memilihnya menggunakan kursor dan kemudian klik “Beri Anotasi” pada menu pop-up. Anda juga dapat melihat anotasi orang lain: klik tanda panah di sudut kanan atas halaman

Normalisasi data adalah proses mengubah skala data sehingga semua variabel berada dalam rentang yang sama. Hal ini penting dalam analisis cluster karena algoritma clustering, seperti K-Means, sensitif terhadap skala variabel. Jika variabel memiliki skala yang berbeda, variabel dengan skala yang lebih besar dapat mendominasi hasil clustering, sehingga mengaburkan pola yang sebenarnya ada dalam data.

2.2.1 Metode untuk Normalisasi Data

Ada beberapa metode yang umum digunakan untuk normalisasi data, antara lain:

Min-Max Normalization: Mengubah nilai ke dalam rentang [0, 1] dengan rumus: \[ X' = \frac{(X - X_{min})}{(X_{max} - X_{min})} \] di mana \(X'\) adalah nilai yang dinormalisasi, \(X_{min}\) dan \(X_{max}\) adalah nilai minimum dan maksimum dari dataset.
Z-Score Normalization: Menggunakan rumus yang sama dengan Z-score yang telah dijelaskan sebelumnya: \[ Z = \frac{(X - \mu)}{\sigma} \] Di sini, nilai yang dinormalisasi akan memiliki rata-rata 0 dan deviasi standar 1.