Dalam machine learning, memilih metrik yang tepat untuk mengevaluasi performa model adalah langkah penting. Salah satu metrik yang sering digunakan dalam klasifikasi probabilistik adalah Log Loss, atau sering disebut juga Logarithmic Loss, Logistic Loss, atau Binary Cross-Entropy Loss. Log Loss adalah metrik yang mengukur seberapa baik model klasifikasi probabilistik dalam memprediksi probabilitas dari kelas yang benar.
Log Loss mengukur performa model dengan menghitung kesalahan antara probabilitas yang diprediksi oleh model dengan label sebenarnya. Berbeda dengan metrik akurasi yang hanya memperhitungkan apakah prediksi itu benar atau salah, Log Loss memberikan penalti yang lebih besar untuk prediksi yang salah dengan probabilitas yang tinggi. Tujuannya adalah untuk mengevaluasi seberapa baik model dapat memberikan probabilitas untuk setiap kelas dalam klasifikasi.
Log Loss paling sering digunakan dalam klasifikasi biner (dua kelas), tetapi juga dapat diperluas ke masalah klasifikasi multi-kelas. Untuk klasifikasi biner, rumus matematis Log Loss adalah:
Dimana:
Log Loss mengevaluasi prediksi probabilitas model dengan membandingkan probabilitas yang diprediksi dengan label yang sebenarnya. Metrik ini akan memberikan nilai 0 (kesalahan sempurna) ketika model memprediksi probabilitas yang benar-benar cocok dengan kelas yang sebenarnya. Sebaliknya, Log Loss akan memberikan penalti besar untuk prediksi yang sangat salah, terutama ketika model memberikan probabilitas tinggi untuk kelas yang salah.
Misalnya, jika model memprediksi bahwa suatu data memiliki kemungkinan 0,9 untuk menjadi kelas positif, tetapi kenyataannya adalah kelas negatif, penalti akan jauh lebih besar dibandingkan prediksi dengan probabilitas 0,4.
Contoh:
Mari kita lihat contoh perhitungan Log Loss sederhana untuk klasifikasi biner. Anggaplah kita memiliki 3 data sampel dengan label sebenarnya dan probabilitas yang diprediksi oleh model sebagai berikut:
Sampel | Label Sebenarnya (y) | Probabilitas yang Diprediksi (p) |
1 | 1 | 0,8 |
2 | 0 | 0,4 |
3 | 1 | 0,7 |
Langkah 1: Hitung Log Loss untuk Setiap Sampel
Untuk setiap sampel, kita akan menghitung Log Loss dengan rumus:
Sampel 1 (label = 1, probabilitas = 0,8):
Sampel 2 (label = 0, probabilitas = 0,4):
Sampel 3 (label = 1, probabilitas = 0,7):
Langkah 2: Hitung Log Loss Total
Setelah menghitung Log Loss untuk setiap sampel, kita dapat menghitung nilai rata-rata untuk dataset tersebut. Rumusnya adalah:
Dalam contoh ini, jumlah sampelnya adalah 3, sehingga kita dapat menghitung Log Loss total:
Dengan demikian, nilai Log Loss total untuk dataset tersebut adalah 0,3635. Ini menunjukkan bahwa, secara keseluruhan, model cukup baik dalam memprediksi probabilitas kelas yang benar, tetapi masih ada ruang untuk perbaikan.
Log Loss adalah metrik yang ideal untuk digunakan dalam beberapa situasi berikut:
Log Loss adalah metrik yang sangat penting dalam machine learning, terutama untuk model klasifikasi probabilistik. Metrik ini mengukur seberapa baik model memprediksi probabilitas kelas yang benar, dengan memberikan penalti besar pada prediksi yang salah dengan probabilitas tinggi. Meskipun terkadang lebih kompleks dan sulit diinterpretasikan dibandingkan dengan metrik sederhana seperti akurasi, Log Loss memberikan wawasan yang lebih dalam tentang bagaimana model memprediksi dan seberapa yakin model dalam melakukan prediksi.
Log Loss sangat berguna dalam banyak aplikasi dunia nyata, di mana keyakinan model sama pentingnya dengan prediksi yang dihasilkan, seperti di bidang kesehatan, keuangan, dan sistem rekomendasi. Dengan memahami dan menggunakan Log Loss, Anda dapat membuat model yang lebih robust dan akurat dalam memprediksi probabilitas.