-
모델 학습 및 검증에 관하여Machine Learning/기본개념 2023. 5. 20. 02:32반응형
우리는 앞서 선형회귀 모델과 학습에 관해서 이야기를 나눴는데
한정된 데이터세트 내에서 반복된 학습과 테스트를 하다보면
해당 데이터에 최적화된 모델을 얻을 수 있다.
이게 무슨 말이냐하면 우리가 가진 데이터세트에만 최적화된 모델이라는 뜻이다.
만약 새로운 데이터가 들어왔을 때 우리는 해당 모델이 올바르게 작동하는지 알 수 없다.
이를 과적합이라고 표현한다. 그럼 이 문제를 어떻게 해결할 수 있을까?
우리가 가진 데이터 세트를 좀 더 세분화하는 방법이 있다.
이전에는 학습데이터와 테스트 데이터 두 분류로 나누었다면
학습 데이터, 테스트 데이터, 검증 데이터 이렇게 세 분류로 나누는 것이다.
그럼 우린 한 단계를 더 거치면서(검증) 새로운 데이터에 대한 올바른 결과값을 낼 수 있는
모델을 얻을 수 있을거라 예측할 수 있다.
기존에 학습 데이터 > 테스트 데이터로 검증하는 방식이였다면
여기서 학습 데이터 > 검증 데이터로 성능이 가장 우수한 모델을 선택하여
해당 모델을 가지고 테스트 데이터로 결과를 얻었을 때 검증 데이터와 비슷하다면
우리가 원하는 모델을 얻었다고 할 수 있다.
그러나 검증 결과가 테스트 결과보다 우수하다면 해당 모델이 검증 데이터에 과적합한 모델이라고 할 수 있다.
이처럼 한 단계를 더 거치면서 우리는 더 올바른 모델을 얻기 위해 나아갔다고 할 수 있다.
주의할 점도 있는데 바로 데이터 세트를 어떻게 구성하느냐가 중요하다.
데이터 분포에서 각각 사례를 추출할 때 독립적, 개별적으로 추출해야한다.
시간이 지나도 데이터 분포가 변하지 않아야 한다.
항상 동일한 파티션에서 가져와야 한다.
예를 들어 소비자가 많이 구매하는 품목을 따졌을 때 계절성에 따라 구매하는 품목이 달라질 수 있으므로
이는 적합하지 않다고 우리는 예측할 수 있다. 이런 가능성도 존재하기 떄문에 데이터를 올바르게 구성하는
것이 중요하다.
반응형'Machine Learning > 기본개념' 카테고리의 다른 글
정규화와 로지스틱 회귀 (0) 2023.05.22 특성교차 (0) 2023.05.22 TensorFlow keras를 이용한 선형회귀 (0) 2023.05.19 Numpy 기본 개념 익히기 (0) 2023.05.19 머신러닝, 선형회귀에 대해 알아보자 (0) 2023.05.18