정규화와 로지스틱 회귀

Machine Learning/기본개념 2023. 5. 22. 02:18

정규화

우리는 데이터를 학습시키다보면 학습데이터에 익숙해져버려서 새로운 데이터에서 제대로 검증할 수 없는 상황이

발생할 수 있다.(과적합)

이를 해결하기 위해 우리는 정규화를 사용할 수 있다.

정규화를 하는 방법은 조기중단이나 모델 복잡성 패널티와 같은 방법이 있다.

L2정규화가 대표적인데 손실에 스칼라를곱한 전규화 항을 더해줌으로써 전반적인 영향을 조정한다.

이렇게하면 입력값 중에 유용하지 않은 가중치의 값이 0에 가깝도록 유도할 수 있다.

우리가 사용하는 확률은 0에서 1사이로 제한되어 있지만 예측 모델에서 이 범위에 벗어나는 값이 나올 수도 있다.

특히 예측 확률을 곱하거나 예측 확률을 사용하여 예측값을 생성한다면 더 큰 문제이다.

그렇기 때문에 새로운 손실 함수와 예측 방법이 필요한데, 자연스럽게 0과1사이의 확률로 해석되고 0과 1사이의

범위를 절대 초과하지 않는 함수, 로지스틱 회귀법이 필요하다.(시그모이드 함수 사용)

로지스틱 회귀와 선형회귀의 차이점은 입력값은 여러개일 수 있지만 로지스틱 회귀에서 출력은

0~1사이의 값이다. 만약 1이고양이라는 의미이고 0.78이라는 값이 나왔으면 0.78확률로 모델은 고양이라고 생각한다.

여기에도 0.22라는 오차범위가 존재하는데 이 오차범위를 줄일 수 있는 손실함수는 로그손실이다.