2.2 Pengertian Normalisasi Data
Normalisasi data adalah proses mengubah skala data sehingga semua variabel berada dalam rentang yang sama. Hal ini penting dalam analisis cluster karena algoritma clustering, seperti K-Means, sensitif terhadap skala variabel. Jika variabel memiliki skala yang berbeda, variabel dengan skala yang lebih besar dapat mendominasi hasil clustering, sehingga mengaburkan pola yang sebenarnya ada dalam data.
2.2.1 Metode untuk Normalisasi Data
Ada beberapa metode yang umum digunakan untuk normalisasi data, antara lain:
Min-Max Normalization: Mengubah nilai ke dalam rentang [0, 1] dengan rumus: \[ X' = \frac{(X - X_{min})}{(X_{max} - X_{min})} \] di mana \(X'\) adalah nilai yang dinormalisasi, \(X_{min}\) dan \(X_{max}\) adalah nilai minimum dan maksimum dari dataset.
Z-Score Normalization: Menggunakan rumus yang sama dengan Z-score yang telah dijelaskan sebelumnya: \[ Z = \frac{(X - \mu)}{\sigma} \] Di sini, nilai yang dinormalisasi akan memiliki rata-rata 0 dan deviasi standar 1.