2.1 Outlier
Outlier adalah nilai yang secara signifikan berbeda dari nilai-nilai lain dalam dataset. Outlier dapat muncul karena berbagai alasan, termasuk kesalahan pengukuran, variasi alami dalam data, atau fenomena yang tidak biasa. Dalam analisis cluster, keberadaan outlier dapat mempengaruhi hasil clustering, karena algoritma clustering cenderung dipengaruhi oleh nilai-nilai ekstrem. Oleh karena itu, penting untuk mendeteksi dan menangani outlier sebelum melakukan analisis lebih lanjut.
2.1.1 Deteksi Outlier
Ada beberapa metode untuk mendeteksi outlier, di antaranya adalah:
Metode Z-Score: Menggunakan rumus berikut untuk menghitung Z-score dari setiap nilai: \[ Z = \frac{(X - \mu)}{\sigma} \] di mana \(X\) adalah nilai yang dianalisis, \(\mu\) adalah rata-rata dari dataset, dan \(\sigma\) adalah deviasi standar. Nilai Z yang lebih besar dari 3 atau kurang dari -3 sering dianggap sebagai outlier.
Metode IQR (Interquartile Range): Menghitung rentang interkuartil (IQR) dan menentukan batas bawah dan atas: \[ IQR = Q3 - Q1 \] di mana \(Q1\) adalah kuartil pertama dan \(Q3\) adalah kuartil ketiga. Outlier dapat ditentukan dengan: \[ \text{Batas Bawah} = Q1 - 1.5 \times IQR \] \[ \text{Batas Atas} = Q3 + 1.5 \times IQR \]