ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 모델 학습 및 검증에 관하여
    Machine Learning/기본개념 2023. 5. 20. 02:32
    반응형

    우리는 앞서 선형회귀 모델과 학습에 관해서 이야기를 나눴는데

    한정된 데이터세트 내에서 반복된 학습과 테스트를 하다보면 

    해당 데이터에 최적화된 모델을 얻을 수 있다.

     

    이게 무슨 말이냐하면 우리가 가진 데이터세트에만 최적화된 모델이라는 뜻이다.

    만약 새로운 데이터가 들어왔을 때 우리는 해당 모델이 올바르게 작동하는지 알 수 없다.

     

    이를 과적합이라고 표현한다. 그럼 이 문제를 어떻게 해결할 수 있을까?

     

    우리가 가진 데이터 세트를 좀 더 세분화하는 방법이 있다.

    이전에는 학습데이터와 테스트 데이터 두 분류로 나누었다면

    학습 데이터, 테스트 데이터, 검증 데이터 이렇게 세 분류로 나누는 것이다.

     

    그럼 우린 한 단계를 더 거치면서(검증) 새로운 데이터에 대한 올바른 결과값을 낼 수 있는

    모델을 얻을 수 있을거라 예측할 수 있다.

     

    기존에 학습 데이터 > 테스트 데이터로 검증하는 방식이였다면

    여기서 학습 데이터 > 검증 데이터로 성능이 가장 우수한 모델을 선택하여

    해당 모델을 가지고 테스트 데이터로 결과를 얻었을 때 검증 데이터와 비슷하다면 

    우리가 원하는 모델을 얻었다고 할 수 있다.

    그러나 검증 결과가 테스트 결과보다 우수하다면 해당 모델이 검증 데이터에 과적합한 모델이라고 할 수 있다.

     

    이처럼 한 단계를 더 거치면서 우리는 더 올바른 모델을 얻기 위해 나아갔다고 할 수 있다.

    주의할 점도 있는데 바로 데이터 세트를 어떻게 구성하느냐가 중요하다.

     

    데이터 분포에서 각각 사례를 추출할 때 독립적, 개별적으로 추출해야한다.

    시간이 지나도 데이터 분포가 변하지 않아야 한다.

    항상 동일한 파티션에서 가져와야 한다.

     

    예를 들어 소비자가 많이 구매하는 품목을 따졌을 때 계절성에 따라 구매하는 품목이 달라질 수 있으므로

    이는 적합하지 않다고 우리는 예측할 수 있다. 이런 가능성도 존재하기 떄문에 데이터를 올바르게 구성하는

    것이 중요하다.

     

     

    반응형

    'Machine Learning > 기본개념' 카테고리의 다른 글

    정규화와 로지스틱 회귀  (0) 2023.05.22
    특성교차  (0) 2023.05.22
    TensorFlow keras를 이용한 선형회귀  (0) 2023.05.19
    Numpy 기본 개념 익히기  (0) 2023.05.19
    머신러닝, 선형회귀에 대해 알아보자  (0) 2023.05.18

    댓글

Designed by Tistory.