Beli Project AI +

Halo Ryan Blog

Apa Itu Log Loss dalam Machine Learning?

Tim Halo Ryan, 28 Sep 2024

Dalam machine learning, memilih metrik yang tepat untuk mengevaluasi performa model adalah langkah penting. Salah satu metrik yang sering digunakan dalam klasifikasi probabilistik adalah Log Loss, atau sering disebut juga Logarithmic Loss, Logistic Loss, atau Binary Cross-Entropy Loss. Log Loss adalah metrik yang mengukur seberapa baik model klasifikasi probabilistik dalam memprediksi probabilitas dari kelas yang benar.

Apa Itu Log Loss?

Log Loss mengukur performa model dengan menghitung kesalahan antara probabilitas yang diprediksi oleh model dengan label sebenarnya. Berbeda dengan metrik akurasi yang hanya memperhitungkan apakah prediksi itu benar atau salah, Log Loss memberikan penalti yang lebih besar untuk prediksi yang salah dengan probabilitas yang tinggi. Tujuannya adalah untuk mengevaluasi seberapa baik model dapat memberikan probabilitas untuk setiap kelas dalam klasifikasi.

Log Loss paling sering digunakan dalam klasifikasi biner (dua kelas), tetapi juga dapat diperluas ke masalah klasifikasi multi-kelas. Untuk klasifikasi biner, rumus matematis Log Loss adalah:

Dimana:

  • N adalah jumlah total sampel
  • yi adalah label sebenarnya untuk sampel i (0 atau 1)
  • pi adalah probabilitas yang diprediksi oleh model bahwa sampel i termasuk dalam kelas positif (1)
  • log adalah logaritma natural (len)

Bagaimana Log Loss Bekerja?

Log Loss mengevaluasi prediksi probabilitas model dengan membandingkan probabilitas yang diprediksi dengan label yang sebenarnya. Metrik ini akan memberikan nilai 0 (kesalahan sempurna) ketika model memprediksi probabilitas yang benar-benar cocok dengan kelas yang sebenarnya. Sebaliknya, Log Loss akan memberikan penalti besar untuk prediksi yang sangat salah, terutama ketika model memberikan probabilitas tinggi untuk kelas yang salah.

Misalnya, jika model memprediksi bahwa suatu data memiliki kemungkinan 0,9 untuk menjadi kelas positif, tetapi kenyataannya adalah kelas negatif, penalti akan jauh lebih besar dibandingkan prediksi dengan probabilitas 0,4.

Contoh:

  • Jika label sebenarnya adalah 1, dan model memprediksi probabilitas 0,9, kesalahan Log Loss untuk prediksi ini akan kecil karena probabilitas yang tinggi untuk kelas yang benar.
  • Namun, jika model memprediksi probabilitas 0,1 untuk label 1, kesalahan Log Loss akan jauh lebih besar, karena prediksi model terlalu jauh dari kebenaran.

Contoh Perhitungan Log Loss

Mari kita lihat contoh perhitungan Log Loss sederhana untuk klasifikasi biner. Anggaplah kita memiliki 3 data sampel dengan label sebenarnya dan probabilitas yang diprediksi oleh model sebagai berikut:

Sampel Label Sebenarnya (y) Probabilitas yang Diprediksi (p)
1 1 0,8
2 0 0,4
3 1 0,7

Langkah 1: Hitung Log Loss untuk Setiap Sampel

Untuk setiap sampel, kita akan menghitung Log Loss dengan rumus:

Sampel 1 (label = 1, probabilitas = 0,8):

Sampel 2 (label = 0, probabilitas = 0,4):

Sampel 3 (label = 1, probabilitas = 0,7):

Langkah 2: Hitung Log Loss Total

Setelah menghitung Log Loss untuk setiap sampel, kita dapat menghitung nilai rata-rata untuk dataset tersebut. Rumusnya adalah:

Dalam contoh ini, jumlah sampelnya adalah 3, sehingga kita dapat menghitung Log Loss total:

Dengan demikian, nilai Log Loss total untuk dataset tersebut adalah 0,3635. Ini menunjukkan bahwa, secara keseluruhan, model cukup baik dalam memprediksi probabilitas kelas yang benar, tetapi masih ada ruang untuk perbaikan.

Mengapa Log Loss Penting?

  1. Mempertimbangkan Probabilitas: Log Loss memperhitungkan probabilitas yang diprediksi, yang berarti ia memberikan gambaran lebih rinci tentang kualitas prediksi model daripada metrik seperti akurasi, yang hanya mempertimbangkan apakah prediksi itu benar atau salah. Ini sangat berguna dalam situasi di mana kita tidak hanya membutuhkan prediksi kelas, tetapi juga tingkat keyakinan model terhadap prediksi tersebut.
  2. Penalti untuk Kesalahan yang Besar: Log Loss menghukum keras prediksi yang sangat salah. Model yang sangat yakin namun salah (misalnya, memprediksi probabilitas 0,99 untuk kelas yang salah) akan mendapat nilai Log Loss yang sangat tinggi. Hal ini membuat Log Loss menjadi metrik yang sensitif terhadap kualitas prediksi probabilitas.
  3. Ideal untuk Klasifikasi dengan Output Probabilistik: Dalam banyak aplikasi nyata seperti prediksi dalam bidang kesehatan, keuangan, atau sistem rekomendasi, model sering kali tidak hanya memberikan prediksi biner (ya atau tidak), tetapi probabilitas dari setiap kemungkinan. Log Loss sangat cocok untuk jenis masalah seperti ini.

Kapan Menggunakan Log Loss?

Log Loss adalah metrik yang ideal untuk digunakan dalam beberapa situasi berikut:

  1. Model Klasifikasi Probabilistik: Jika model Anda memberikan output berupa probabilitas untuk setiap kelas, maka Log Loss adalah metrik yang baik karena ia mengevaluasi seberapa baik probabilitas tersebut mencerminkan realitas.
  2. Masalah Klasifikasi Biner atau Multi-Kelas: Dalam masalah klasifikasi biner, Log Loss sering digunakan. Metrik ini juga dapat diperluas ke klasifikasi multi-kelas dengan menggunakan variasi seperti categorical cross-entropy.
  3. Prediksi yang Memerlukan Tingkat Keyakinan: Ketika model tidak hanya memberikan prediksi, tetapi juga tingkat keyakinan pada prediksi tersebut, Log Loss memberikan panduan yang lebih baik untuk menilai kualitas prediksi tersebut.

Kesimpulan

Log Loss adalah metrik yang sangat penting dalam machine learning, terutama untuk model klasifikasi probabilistik. Metrik ini mengukur seberapa baik model memprediksi probabilitas kelas yang benar, dengan memberikan penalti besar pada prediksi yang salah dengan probabilitas tinggi. Meskipun terkadang lebih kompleks dan sulit diinterpretasikan dibandingkan dengan metrik sederhana seperti akurasi, Log Loss memberikan wawasan yang lebih dalam tentang bagaimana model memprediksi dan seberapa yakin model dalam melakukan prediksi.

Log Loss sangat berguna dalam banyak aplikasi dunia nyata, di mana keyakinan model sama pentingnya dengan prediksi yang dihasilkan, seperti di bidang kesehatan, keuangan, dan sistem rekomendasi. Dengan memahami dan menggunakan Log Loss, Anda dapat membuat model yang lebih robust dan akurat dalam memprediksi probabilitas.

Baca Artikel Lainnya +