Beli Project AI +

Halo Ryan Blog

Mengenal Normalisasi Dalam Machine Learning

Tim Halo Ryan, 05 Oct 2024

Pernah bikin model machine learning? Kalian tentu akan sangat familiar dengan metode scaling seperti standarisasi dan normalisasi bukan? Beberapa metode scaling mungkin diperlukan untuk menyamakan skala data. Tujuannya untuk mempermudah dan mempercepat perhitungan, mengurangi kemungkinan skewness, merubah distribusi, dan bahkan dalam beberapa kasus dapat meningkatkan nilai akurasi. Yak kalian bener bgt, bisa ningkatin akurasi. Kalau gak percaya cek aja modul 'ML Pipeline Untuk Studi Perbandingan Skripsi' dibawah ini:

Beli Project: Teknik ML Pipeline Untuk Studi Perbandingan Skripsi disini

Nah salah satu metode scaling yang akan kita pelajari saat ini adalah Normalisasi. So, stay tune!

Apa Itu Normalisasi

Normalisasi data adalah proses mengubah nilai data ke dalam rentang tertentu, biasanya antara 0 dan 1. Tujuan utama dari normalisasi dalam machine learning adalah untuk memastikan bahwa fitur-fitur (variabel) pada dataset memiliki skala yang sama, sehingga algoritma dapat bekerja secara optimal. Banyak algoritma pembelajaran mesin yang sensitif terhadap skala fitur, seperti K-Nearest Neighbors (KNN), Support Vector Machine (SVM), dan Jaringan Saraf (Neural Networks), sehingga normalisasi sering kali menjadi langkah penting dalam preprocessing data.

Mengapa Normalisasi Penting?

  1. Algoritma yang Menggunakan Jarak Euclidean: Algoritma seperti KNN, K-means, dan SVM menghitung jarak antar data poin dalam ruang fitur. Jika salah satu fitur memiliki rentang yang jauh lebih besar daripada fitur lainnya, fitur tersebut akan mendominasi perhitungan jarak, yang bisa mengakibatkan hasil yang bias. Normalisasi membantu memastikan bahwa semua fitur memiliki pengaruh yang sama.
  2. Konvergensi yang Lebih Cepat: Beberapa algoritma optimasi seperti Gradient Descent bekerja lebih efisien jika fitur memiliki skala yang sama, karena membuat proses pencarian solusi optimal lebih stabil dan cepat.
  3. Konsistensi dalam Interpretasi: Normalisasi membuat hasil model lebih mudah dipahami, karena setiap fitur diubah ke skala yang sama. Ini penting ketika bekerja dengan model-model yang sensitif terhadap ukuran data.

Teknik & Rumus Umum Normalisasi

Berikut adalah rumus umum yang digunakan untuk normalisasi data dalam machine learning:

Keterangan:

  • X' adalah Nilai yang telah dinormalisasi.
  • X adalah Nilai asli dari data.
  • Xmin adalah Nilai minimum dari seluruh dataset untuk fitur tersebut.
  • Xmax adalah Nilai maksimum dari seluruh dataset untuk fitur tersebut.

Normalisasi ini mengubah skala data menjadi antara 0 dan 1. Normalisasi juga sering disebut sebagai Min-Max-Scaler. Normalisasi Min-Max sangat efektif jika kita tahu rentang nilai minimum dan maksimum dari data kita, serta ketika kita ingin memastikan bahwa setiap nilai berada dalam rentang yang tetap.

Kapan Harus Menggunakan Normalisasi?

  1. Algoritma berbasis jarak: Algoritma seperti KNN dan K-means sangat sensitif terhadap skala data. Normalisasi memastikan semua fitur berkontribusi secara proporsional.
  2. Model optimisasi: Pada algoritma optimisasi seperti Gradient Descent, normalisasi membantu konvergensi yang lebih cepat.
  3. Jaringan saraf: Untuk algoritma seperti neural networks, normalisasi membantu dalam menjaga stabilitas dan efisiensi pelatihan dengan mencegah gradient exploding atau gradient vanishing.

Kesimpulan

Normalisasi data adalah langkah penting dalam machine learning, terutama ketika menggunakan algoritma yang sensitif terhadap skala variabel. Metode yang paling umum adalah Min-Max Scaling yang digunakan tergantung pada sifat data dan kebutuhan algoritma yang digunakan. Dengan menerapkan normalisasi, kita dapat memastikan bahwa model machine learning bekerja secara optimal dan memberikan hasil yang lebih akurat.

Baca Artikel Lainnya +