Pernah bikin model machine learning? Kalian tentu akan sangat familiar dengan metode scaling seperti standarisasi dan normalisasi bukan? Beberapa metode scaling mungkin diperlukan untuk menyamakan skala data. Tujuannya untuk mempermudah dan mempercepat perhitungan, mengurangi kemungkinan skewness, merubah distribusi, dan bahkan dalam beberapa kasus dapat meningkatkan nilai akurasi. Yak kalian bener bgt, bisa ningkatin akurasi. Kalau gak percaya cek aja modul 'ML Pipeline Untuk Studi Perbandingan Skripsi' dibawah ini:
Beli Project: Teknik ML Pipeline Untuk Studi Perbandingan Skripsi disini
Nah salah satu metode scaling yang akan kita pelajari saat ini adalah standarisasi. So, stay tune.
Standarisasi dalam statistik adalah proses mengubah skala data agar dapat dibandingkan secara langsung satu sama lain. Metode ini sering digunakan untuk menyederhanakan perbandingan antar data yang berasal dari variabel dengan skala yang berbeda. Dengan standarisasi, kita dapat menghilangkan pengaruh skala yang berbeda pada variabel sehingga memungkinkan analisis yang lebih adil dan akurat.
Tujuan utama dari standarisasi adalah untuk membuat variabel yang berbeda menjadi sebanding. Dalam konteks data statistik, beberapa variabel mungkin memiliki unit pengukuran yang berbeda (misalnya, tinggi dalam sentimeter dan berat dalam kilogram). Jika variabel-variabel ini tidak distandarisasi, hasil analisis statistik seperti regresi atau analisis korelasi bisa menjadi bias, karena variabel yang memiliki unit pengukuran lebih besar cenderung mendominasi hasil.
Metode yang paling umum untuk melakukan standarisasi adalah dengan menggunakan Z-score atau dikenal juga sebagai standar deviasi satuan. Rumus Z-score adalah sebagai berikut:
Dimana:
Z-score menunjukkan seberapa jauh suatu nilai dari rata-rata dalam satuan standar deviasi. Nilai Z-score yang positif menunjukkan bahwa data berada di atas rata-rata, sedangkan nilai negatif menunjukkan data berada di bawah rata-rata. Nah nilai hasil standarisasi biasanya bervariasi antara Zmax hingga Xmin.
Misalkan kita memiliki dua variabel: tinggi badan (dalam sentimeter) dan berat badan (dalam kilogram) dari sekelompok individu. Karena kedua variabel ini memiliki unit yang berbeda, membandingkan mereka secara langsung dapat menyebabkan distorsi. Dengan standarisasi, kita dapat mengonversi setiap nilai tinggi dan berat menjadi Z-score, sehingga keduanya dapat dibandingkan dalam satu skala yang sama (Z-score).
Misalkan nilai rata-rata tinggi adalah 170 cm dengan standar deviasi 10 cm, dan nilai rata-rata berat adalah 70 kg dengan standar deviasi 15 kg. Jika seorang individu memiliki tinggi 180 cm dan berat 85 kg, Z-score untuk tinggi adalah:
Sedangkan Z-score untuk berat adalah:
Kedua Z-score ini menunjukkan bahwa individu tersebut memiliki tinggi dan berat yang masing-masing satu standar deviasi di atas rata-rata.
Standarisasi sangat penting ketika:
Standarisasi dalam statistik adalah teknik yang sangat penting dalam analisis data, terutama ketika variabel dengan unit pengukuran yang berbeda terlibat. Dengan mengubah nilai data menjadi Z-score, standarisasi membantu memastikan bahwa setiap variabel memiliki pengaruh yang sama dalam analisis, sehingga menghasilkan hasil yang lebih akurat dan bermakna.