Normalisasi Data dalam Analisis Data

Normalisasi Data dalam Analisis Data

Normalisasi data adalah salah satu step yang penting dalam analisis data maupun pemrosesan data. Bahkan upaya menormalisasi data bisa jadi hal paling krusial untuk pengambilan keputusan berdasarkan data.

Oleh karena itu, setiap pekerjaan yang berkaitan dengan analisis data tentu saja harus mengetahui dan memahami tentang cara menormalisasi data.

Terdapat tiga cara untuk menormalisasi suatu data, adapun yang populer digunakan khususnya untuk data numerik yaitu Decimal Scaling, Min-Max Scaling dan Z-Score Normalisation.

Dalam artikel ini, kita akan belajar ketiga teknik normalisasi pada data secara mendalam. Silahkan disimak dengan baik penjelasan di bawah.

Apa itu Normalisasi Data ?

Normalisasi pada suatu data merupakan teknik manipulasi data berdasarkan metode ilmiah sehingga sekumpulan data memiliki range skala yang standar.

Contoh normalisasi data misalnya sekumpulan data numerik yang memiliki nilai dari 0 sampai 1000 dinormalisasi sehingga nilainya di antara 0 dan 1.

Contoh lain misalnya mengubah range data sehingga memilki nilai rata-rata 0 dan standar deviasi 1.

Contoh normalisasi data untuk tipe non-numerik dengan melakukan penyeragaman cara penulisan, misalnya penulisan kabupaten ada yang ditulis KABUPATEN, Kabupaten, Kab., kabupaten, kab dsb kemudian dinormalisasi menjadi kabupaten. Dengan begitu menjadi seragam.

Tujuan Normalisasi Data

Tujuan utama membuat data ternormalisasi sebenarnya untuk memudahkan proses analisa data sehingga kumpulan data tidak ambigu. Semakin seragam skala data yang kita miliki, maka semakin mudah melakukan pengelolaan data untuk pengambilan keputusan.

Dalam kasus data numerik, melakukan normalisasi bertujuan untuk meningkatkan kinerja perhitungan analisis. Bisa dibayangkan jika kita tidak menyeragamkan skala data numerik, misal kita memiliki data skala tinggi 100 sampai 1000000, di sisi lain skalanya rendah 0 sampai 10.

Jika dipaksakan tanpa melakukan normalisasi, maka insight yang dihasilkan dari hasil perhitungan analisis bisa jadi salah.

Teknik Normalisasi Data

Sebagaimana telah disebutkan di atas, terdapat tiga teknik menormalisasi data. Berikut penjelasan lengkapnya.

1. Decimal Scaling

Teknik normalisasi data menggunakan decimal scaling merupakan cara paling sederhana dalam melakukan penyeragaman data numerik. Sesuai dengan namanya, decimal scaling itu teknik menggeser digit decimal suatau data.

Untuk menormalisasi data dengan teknik ini, kita lakukan pembagian untuk setiap data dengan nilai 10 pangkat digit absolut maksimum datanya.

Rumus Normalisasi Data Decimal Scaling

$v_i' = \frac{v_i}{10^j}$ ...(1)

$v_i$ = nilai data

$j$ = jumlah digit data maksimum absolut

$v_i'$ = data hasil normalisasi

Contoh Normalisasi Data Decimal Scaling

Misalkan saya mimiliki data numerik sebagai berikut: 121, 132, 432, 1210.

Perhatikan, berdasarkan data tersebut nilai maksimum absolut data yaitu 1210, memiliki 4 digit, maka j = 4. Lalu lakukan perhitungan normalisasi decimal scaling menggunakan rumus persamaan (1).

$v_1' = \frac{121}{10^4} = 0.0121$

$v_2' = \frac{132}{10^4} = 0.0132$

$v_3' = \frac{432}{10^4} = 0.0432$

$v_4' = \frac{1210}{10^4} = 0.1210$

Jadi hasil normalisasi decimal scaling dari data tersebut yaitu 0.0121, 0.0132, 0.0432, 0.1210.

2. Min-Max Scaling (Normalization)

Teknik normalisasi min-max scaling merupakan cara menormalisasi data dengan mentransformasi data asli secara linear. Normalisasi min-max scaling biasa disebut sebagai penyekalaan ulang data menjadi antara 0 dan 1.

Rumus Normalisasi Data Min-Max Scaling

$X_{normalized} = \frac{X_i - X_{min}}{X_{max} - X_{min}}$ ...(2)

$X_i$ = data asli

$X_{min}$ = data minimum

$X_{max}$ = data maximum

$X_{normalized}$ = data hasil normalisasi

Contoh Normalisasi Min-Max Scaling

Misalkan saya memiliki data sebagai berikut: 12, 34, 54, 65, 78.

Dari data tersebut diketahui nilai minimumnya $X_{min} = 12$, nilai maximum $X_{max} = 78$. Berikutnya lakukan perhitungan normalisasi min-max scaling menggunakan rumus persamaan (2).

$X_{normalized_1} = \frac{12 - 12}{78 - 12} = 0.0$

$X_{normalized_2} = \frac{34 - 12}{78 - 12} = 0.3333$

$X_{normalized_3} = \frac{54 - 12}{78 - 12} = 0.6363$

$X_{normalized_4} = \frac{65 - 12}{78 - 12} = 0.8030$

$X_{normalized_5} = \frac{78 - 12}{78 - 12} = 1.0$

Sehingga hasil normalisasi nya yaitu 0.0, 0.3333, 0.6363, 0.8030, 1.0. Perhatikan, nilai hasil normalisasi dengan min-max scaling menunjukkan perubahan nilai menjadi di antara 0 dan 1.

3. Z-Score atau Zero Mean Normalisation (Standardisation)

Normalisasi Z-Score merupakan teknik normalisasi data yang mengacu pada nilai rata-rata data dan standar deviasi datanya. Sebutan lain untuk teknik normalisasi ini adalah normalisasi zero mean atau rata-rata nol.

Hal ini karena pendekatan teknik normalisasi z-score memanipulasi data sedemikian sehingga nilai rata-rata dataset menjadi nol dan standar deviasinya satu.

Rumus Normalisasi Data Z-Score

$Z = \frac{X_i - \mu}{\sigma}$ ...(3)

$\mu = \frac{\sum_{i=1}^{n} X_i}{n}$ ...(4)

$\sigma = \sqrt{\frac{\sum_{i=1}^{n} (X_i - \mu)^2}{n-1}}$ ...(5)

$X_i$ = data

$\mu$ = nilai rata-rata data

$\sigma$ = standar deviasi

$Z$ = data ternormalisasi z-score

Bagaimana, bingung? hehe, kalau iya mari kita coba praktek perhitungan.

Contoh Normalisasi Z-Score

Misal saya punya data seperti berikut 12, 23, 34, 76, 32.

Nah, untuk menghitung normalisasi z-score step pertama kita perlu mencari nilai rata-rata datanya terlebih dahulu menggunakan rumus persamaan (4). Kedua, kita perlu menghitung nilai standar deviasi dengan rumus persamaan (5). Ketiga, hitung nilai normalisasinya dengan rumus persamaan (3).

Step 1:

$\mu = \frac{\sum_{i=1}^{n} X_i}{n}$

$\mu = \frac{12 + 23 + 34 + 76 + 32}{5} = 35.4$

Step 2:

$\sigma = \sqrt{\frac{\sum_{i=1}^{n} (X_i - \mu)^2}{n-1}}$

$\sigma = \sqrt{\frac{(12 - 35.4)^2+(23 - 35.4)^2+(34 - 35.4)^2+(76 - 35.4)^2+(32 - 35.4)^2}{5-1}}$

$\sigma = \sqrt{\frac{2363.20}{4}} = 24.3063$

Step 3:

$Z = \frac{X_i - \mu}{\sigma}$

$Z_1 = \frac{12 - 35.4}{24.3063} = -0.9627$

$Z_2 = \frac{23 - 35.4}{24.3063} = -0.5102$

$Z_3 = \frac{34 - 35.4}{24.3063} = -0.0576$

$Z_4 = \frac{76 - 35.4}{24.3063} = 1.6703$

$Z_5 = \frac{32 - 35.4}{24.3063} = -0.1399$

Sehingga diperoleh data hasil normalisasi z-score nya sebagai berikut -0.9627, -0.5102, -0.0576, 1.6703, -0.1399.

Namun perlu diingat bahwa nilai tersebut sudah saya lakukan pembulatan. Sehingga apabila dihitung nilai rata-ratanya pasti tidak tepat 0, tetapi mendekati 0. Begitu juga dengan standar deviasinya tidak akan tepat 1, tetapi mendekati nilai 1.

Jika Anda menghitung dengan tanpa melakukan pembulatan, kemungkinan besar akan diperoleh nilai rata-rata tepat 0 dengan standar deviasi 1.

Kapan Menggunakan Normalization dan Standardisation

Istilah lain dari Min-Max Scaling adalah Normalization, sedangkan istilah lain Z-Score adalah Standardisation. Mungkin Anda bertanya-tanya kapan menggunakan normalization dan standardisation?

Normalization atau Min-Max Scaling biasanya digunakan ketika distribusi data yang kita miliki tidak terdistribusi normal (non-Gaussian).

Standardisation atau normalisasi Z-Score biasanya digunakan ketika distribusi data yang kita miliki terdistribusi normal (Gaussian).

Tomi Nurhidayat

Data Science dan Machine Learning Enthusiast | SEO Enthusiast.

Previous Post Next Post