분류 :: Han의 Coding Libary

Machine Learning/기본개념 2023. 5. 25. 14:15

분류는 말그대로 분류이다.

입력을 우리가 지정한 클래스로 분류하는 작업이다.

확률 출력에 로지스틱 회귀를 사용하는 경우도 있지만 분류를 사용하는 경우도 있다.

분류의 성능을 평가하는 방법은 정확성과 정밀도가 있다.

분류에도 결함이 있는데 문제의 클래스 불균형이 존재할 때 오류가 발생한다.

예를들어 광고클릭률을 분류하는 모델이 있는데 보통 광고의 클릭률은 0.001%에서0.0001%사이이다.

이는 거짓을 판명하는데 있어서 99.99%의 정확성을 보이지만 유용한 결과가 아님을 우리는 알 수 있다.

이를 해결하기 위해 우리는 True Positive, True Negative, False Positive, False Negative를 사용한다.

ex)

TP : 늑대다!라고 외쳤고 늑대가 실제로 있었다
FP : 늣대다!라고 뻥쳤고 늑대는 없었다 마을사람들이 화냄
FN : 늑대다를 안했고 실제로 늑대가 있었음
TN : 늑대다!도 안했고 늑대도 없었다

이를 평가하는 방법은 정밀도와 재현율이 있다.

정밀도는 참양성을 모든 양성 예측으로 나눈 값이다.

정밀도를 높이려면 실제 늑대가 나타났을 때만 늑대다!라고 외쳐야 한다. 이를 분류 임계값을 높인다고 표현한다.

재현율은 참양성값을 실제 정답(TP,FN)의 합으로 나눈 값을 의미한다.

재현율을 높이려면 바스락거리는 소리만 들려도 늑대다!라고 외쳐야한다. 이는 분류 임계값을 낮추는 작업이다.

따라서 우리는 분류 모델을 개발할 때 정밀도와 재현율을 모두 만족하는 가중치를 얻어내야한다.

최적의 분류 임계값을 알 수 없을때 우린 ROC곡선을 사용하기도 한다.

L1정규화(희소성)
희소벡터끼리 특성교차를 하면 더욱 많은 차원이 생성되고 모델의 크기도 거킨다.
따라서 고차원 희소 벡터에서는 가중치가 정확히 0으로 떨어지도록 유도하는 것이 좋다.

Han의 Coding Libary Han의 Coding Libary