Model regresi merupakan salah satu model prediktif (predictive modeling) yang dapat melibatkan prediksi terhadap nilai numerik.
Setiap model prediktif tentunya akan selalu ada nilai kesalahan prediksi (error). Oleh karena itu, diperlukan metrik evaluasi untuk setiap model prediktif.
Sehingga kita dapat mengetahui seberapa besar tingkat keakuratan maupun kesalahan model dalam melakukan prediksi.
Namun untuk kasus regresi yang bukan masalah klasifikasi, kita tidak dapat mengevaluasi model melalui metrik akurasi.
Dalam artikel ini kita akan mempelajari metrik evaluasi model regresi untuk masalah non klasifikasi.
Mengevaluasi Model Regresi
Anda mungkin bertanya-tanya bagaimana menghitung akurasi untuk model regresi?
Perlu diketahui, akurasi merupakan metrik yang digunakan untuk masalah klasifikasi, bukan untuk masalah regresi.
Sehingga kita tidak bisa menghitung akurasi model regresi menggunakan pendekatan akurasi.
Kita harus melihat performa model regresi melalui errornya untuk setiap prediksi yang dilakukan oleh model.
Terdapat tiga metrik evaluasi model regresi yang biasa digunakan untuk melihat performa model:
- Mean Square Error (MSE)
- Root Mean Square Error (RMSE)
- Mean Absolute Error (MAE)
Metrik Evaluasi Model Regresi
Di bagian ini, kita akan belajar lebih dalam tentang metrik untuk mengevaluasi model regresi yang populer. Anda juga akan mengetahui rumus cara menghitungnya.
1. Mean Square Error (MSE)
Metrik mean square error atau lebih dikenal MSE merupakan salah satu metrik evaluasi yang sangat populer.
Ide pada metrik evaluasi MSE yakni menghitung rata-rata selisih kuadrat antara nilai sesungguhnya dengan nilai prediksi. Secara matematis dapat dituangkan dalam persamaan berikut.
$MSE = \frac{\sum_{i=1}^{n} (y_i-\hat{y_i})^2}{n}$
$n=$ jumlah data
$y_i=$ nilai sesungguhnya
$\hat{y_i}=$ nilai prediksi
Dapat dipahami bahwa selisih antara nilai sesungguhnya dengan nilai prediksi merupakan kesalahan prediksi (error).
Ketika error dikuadratkan, maka akan menghilangkan nilai negatif sehingga diperoleh nilai erorr positif.
Selain itu, tujuan melakukan kuadrat error dalam metrik MSE yaitu untuk penalti ketika terjadi error yang besar.
Bisa dibayangkan ketika $erorr > 1$ atau $error < -1$, maka nilai kuadratnya akan menghasilkan nilai yang lebih besar.
Nilai ideal MSE yaitu 0, artinya nilai prediksi model tepat sesuai dengan nilai sesungguhnya. Tetapi dalam kasus real prediktif model, MSE 0 mustahil diperoleh.
Sehingga dapat kita pahami bahwa semakin kecil nilai MSE nya atau $MSE \approx 0$, berarti model memiliki performa yang baik terhadap dataset tersebut.
2. Root Mean Square Error (RMSE)
Metrik root mean square error atau lebih dikenal sebagai RMSE merupakan koreksi untuk metrik MSE sebelumnya pada beberapa kasus tertentu.
Pada metrik MSE kita tahu bahwa terjadi kuadrat selisih nilai sesungguhnya dengan nilai hasil prediksinya. Sehingga di beberapa kasus bisa mengakibatkan perubahan satuan.
Sebagai contoh, nilai sesungguhnya memiliki satuan rupiah karena berupa mata uang. Maka jika digunakan metrik MSE, akan terjadi kudrat pada satuan mata uangnya. Hal ini tentu saja akan membingungkan bagi stackholders.
Oleh karena itu, idenya dengan melakukan akar kuadrat (square root) pada hasil MSE sebelumnya, sehingga dapat mengembalikan satuan juga.
Secara matematis, rumus RMSE dapat disajikan dalam bentuk persamaan berikut.
$RMSE = \sqrt{\frac{\sum_{i=1}^{n} (y_i-\hat{y_i})^2}{n}}$
$n=$ jumlah data
$y_i=$ nilai sesungguhnya
$\hat{y_i}=$ nilai prediksi
Perlu dipahami, jika MSE sebelumnya membuat adanya penalti terhadap error yang besar, maka di RMSE akan dikembalikan akibat adanya akar kuadrat (square root).
Namun masih dapat dipastikan bahwa nilainya tetap positif dan tidak mungkin kurang dari 0.
Seperti halnya MSE, nilai ideal dari RMSE pun yaitu 0. Tetapi lagi-lagi, RMSE 0 mustahil diperoleh.
Sehingga dapat kita pahami bahwa semakin kecil nilai RMSE nya atau $RMSE \approx 0$, berarti model memiliki performa yang baik terhadap dataset tersebut.
3. Mean Absolute Error (MAE)
Metrik mean absolute error atau lebih populer dengan istilah MAE merupakan salah satu metrik evaluasi model regresi.
Terdapat kesamaan ide antara MAE dan RMSE, yaitu tidak adanya perubahan satuan pada nilai sesungguhnya maupun prediksinya.
Perbedaanya terletak pada nilai error nya, di mana error yang dihasilkan MAE itu linear karena tidak ada proses kuadrat seperti pada RMSE.
Metrik MAE juga tidak ada konsep pinalti terhadap error yang besar, tidak seperti MSE maupun RMSE.
Adapun ide metrik mean absolute error ini terletak pada perhitungan errornya yang menggunakan nilai absolute atau mutlak.
Secara matematis, memaksa nilai selisih sesungguhnya dengan nilai prediksi menjadi positif akibat fungsi absolute atau mutlak dalam matematika.
Jika disajikan dalam bentuk persamaan matematis, MAE dapat ditulisakan sebagai berikut.
$MAE = \frac{\sum_{i=1}^{n} |y_i-\hat{y_i}|}{n}$
$n=$ jumlah data
$y_i=$ nilai sesungguhnya
$\hat{y_i}=$ nilai prediksi
Dapat kita pahami bahwa akibat tanda mutlak inilah yang menyebabkan tidak mungkin bernilai negatif. Sehingga nilai MAE pun dipastikan error positif.
Seperti halnya MSE dan RMSE, nilai ideal MAE juga 0. Tetapi di kasus nyata, MAE 0 mustahil diperoleh.
Sehingga dapat kita pahami bahwa semakin kecil nilai MAE nya atau $MAE \approx 0$, berarti model memiliki performa yang baik terhadap dataset tersebut.