Machine Learning/기본개념
-
분류Machine Learning/기본개념 2023. 5. 25. 14:15
분류는 말그대로 분류이다. 입력을 우리가 지정한 클래스로 분류하는 작업이다. 확률 출력에 로지스틱 회귀를 사용하는 경우도 있지만 분류를 사용하는 경우도 있다. 분류의 성능을 평가하는 방법은 정확성과 정밀도가 있다. 분류에도 결함이 있는데 문제의 클래스 불균형이 존재할 때 오류가 발생한다. 예를들어 광고클릭률을 분류하는 모델이 있는데 보통 광고의 클릭률은 0.001%에서0.0001%사이이다. 이는 거짓을 판명하는데 있어서 99.99%의 정확성을 보이지만 유용한 결과가 아님을 우리는 알 수 있다. 이를 해결하기 위해 우리는 True Positive, True Negative, False Positive, False Negative를 사용한다. ex) TP : 늑대다!라고 외쳤고 늑대가 실제로 있었다 FP :..
-
정규화와 로지스틱 회귀Machine Learning/기본개념 2023. 5. 22. 02:18
정규화 우리는 데이터를 학습시키다보면 학습데이터에 익숙해져버려서 새로운 데이터에서 제대로 검증할 수 없는 상황이 발생할 수 있다.(과적합) 이를 해결하기 위해 우리는 정규화를 사용할 수 있다. 정규화를 하는 방법은 조기중단이나 모델 복잡성 패널티와 같은 방법이 있다. L2정규화가 대표적인데 손실에 스칼라를곱한 전규화 항을 더해줌으로써 전반적인 영향을 조정한다. 이렇게하면 입력값 중에 유용하지 않은 가중치의 값이 0에 가깝도록 유도할 수 있다. 로지스틱 회귀 우리가 사용하는 확률은 0에서 1사이로 제한되어 있지만 예측 모델에서 이 범위에 벗어나는 값이 나올 수도 있다. 특히 예측 확률을 곱하거나 예측 확률을 사용하여 예측값을 생성한다면 더 큰 문제이다. 그렇기 때문에 새로운 손실 함수와 예측 방법이 필요한..
-
특성교차Machine Learning/기본개념 2023. 5. 22. 02:13
이런식으로 데이터가 분류될 때 우리는 특성교차를 사용한다. 특성 교차는 두개 이상의 입력 특성을 곱하여 특성 공간에서 비선형성을 인코딩하는 합성 특성이다. x3 = x1*x2로 생각해볼 수 있다. 특성 교차의 종류 [A X B]: 두 특성의 값을 곱하여 구성되는 특성 교차 [A x B x C x D x E]: 특성 5개의 값을 곱하여 구성되는 특성 교차 [A x A]: 단일 특성을 제곱하여 구성되는 특성 교차 원 핫 인코딩 값이 문자열로 되어있어서 특성 벡터로 사용할 수 없을 때 문자열마다 고유계수를 가지는 원-핫 인코딩을 통해 특성벡터로 변환할 수 있다. 특성 특성은 분명하고 명확한 의미를 가져야한다. 그러므로 우리는 데이터를 파악하는 것을 우선 해야한다. 데이터를 파악하는 방법은 세 가지가 있다. -..
-
모델 학습 및 검증에 관하여Machine Learning/기본개념 2023. 5. 20. 02:32
우리는 앞서 선형회귀 모델과 학습에 관해서 이야기를 나눴는데 한정된 데이터세트 내에서 반복된 학습과 테스트를 하다보면 해당 데이터에 최적화된 모델을 얻을 수 있다. 이게 무슨 말이냐하면 우리가 가진 데이터세트에만 최적화된 모델이라는 뜻이다. 만약 새로운 데이터가 들어왔을 때 우리는 해당 모델이 올바르게 작동하는지 알 수 없다. 이를 과적합이라고 표현한다. 그럼 이 문제를 어떻게 해결할 수 있을까? 우리가 가진 데이터 세트를 좀 더 세분화하는 방법이 있다. 이전에는 학습데이터와 테스트 데이터 두 분류로 나누었다면 학습 데이터, 테스트 데이터, 검증 데이터 이렇게 세 분류로 나누는 것이다. 그럼 우린 한 단계를 더 거치면서(검증) 새로운 데이터에 대한 올바른 결과값을 낼 수 있는 모델을 얻을 수 있을거라 예..