모델이 훈련세트에만 최적화되어 새로운 테스트 세트로 성능 평가 했을 때 훈련 세트에만 점수가 높게 나오고 테스트 세트에는 점수가 낮게 나오는 경우
모델이 훈련세트에 덜 학습되어 테스트 세트에 비해 성능 평가 점수가 낮거나 테스트세트, 훈련세트 모두 점수가 낮게 나오는 경우
모델이 복잡하게 만든다는 것은 모델에 학습을 좀 더 시켜준다는 뜻이다! ( 당연하다. 훈련세트에 덜 학습되어 과소적합 상황이 나오는 것 )
이웃의 개수를 좀 더 줄이면 된다!
여기서 헷갈릴 수 있지만, 과소적합의 정의와 kNN 회귀의 방법론을 생각하면 쉽다.
이웃의 갯수가 상대적으로 작을 때 예측한 값을 모두 연결한 그래프와 이웃의 갯수가 상대적으로 클 때 예측한 그래프를 비교해보면 이웃의 갯수가 상대적으로 클 때 예측한 그래프가 좀 더 단순하다!
샘플의 갯수가 42인 상황에서 이웃의 갯수가 3인 경우와 42인 경우를 생각하면 쉽다.
즉. kNN회귀에서 이웃의 갯수와 모델의 복잡도는 반비례한다!
로지스틱 회귀 - 다중분류는 타깃클래스 2개 이상? (1) | 2024.02.02 |
---|---|
Logistic regression - softmax와 sigmoid를 헷갈리지 말 것 (3) | 2024.02.01 |
Logistic regression - softmax function에서 굳이 지수함수? (0) | 2024.02.01 |
kNN 회귀 알고리즘 : fit함수 데이터와 score함수 데이터가 같을 때 (1) | 2024.01.28 |
Scikit-Learn: score()메서드 출력값의 의미( 평가지표가 낮을 수록 모델의 성능이 더 좋은 경우 ) (0) | 2024.01.28 |