사이킷런의 일부 메서드들은 평가 지표를 '높을 수록 더 좋다'라는 방식으로 사용자가 일관성있게 해석할 수 있도록 설계되어 있다.
score()메서드가 대표적인 그 예시이다.
만약 에러율과 같은 지표, 즉 '낮을 수록 모델의 성능이 더 좋은' 지표라면 사이킷런의 이러한 방식에 맞지 않게 된다.
따라서 에러율을 score메서드의 반환값으로 사용하려면, 에러율을 음수로 만들어서 사용하면 된다. 이렇게 하면 에러율이 낮을 수록 ( 즉, 모델의 성능이 좋을 수록 ) score 메서드의 반환값이 높아지는 것 처럼 해석할 수 있게 된다. 즉, '-에러율'값이 높을 수록 원래의 에러율은 낮아지므로, 모델의 성능이 좋다는 것을 의미하게 된다. 이런 방식은 평가 지표가 '낮을 수록 좋다'를 '높을 수록 좋다'로 바꾸는 일반적인 방법론 중 하나이다.
로지스틱 회귀 - 다중분류는 타깃클래스 2개 이상? (1) | 2024.02.02 |
---|---|
Logistic regression - softmax와 sigmoid를 헷갈리지 말 것 (3) | 2024.02.01 |
Logistic regression - softmax function에서 굳이 지수함수? (0) | 2024.02.01 |
kNN 회귀 - 과소적합 해결 방법 (0) | 2024.01.30 |
kNN 회귀 알고리즘 : fit함수 데이터와 score함수 데이터가 같을 때 (1) | 2024.01.28 |