CoderHan
2023. 5. 22. 02:13
반응형
이런식으로 데이터가 분류될 때 우리는 특성교차를 사용한다.
특성 교차는 두개 이상의 입력 특성을 곱하여 특성 공간에서 비선형성을 인코딩하는 합성 특성이다.
x3 = x1*x2로 생각해볼 수 있다.
특성 교차의 종류
- [A X B]: 두 특성의 값을 곱하여 구성되는 특성 교차
- [A x B x C x D x E]: 특성 5개의 값을 곱하여 구성되는 특성 교차
- [A x A]: 단일 특성을 제곱하여 구성되는 특성 교차
원 핫 인코딩
값이 문자열로 되어있어서 특성 벡터로 사용할 수 없을 때 문자열마다 고유계수를 가지는 원-핫 인코딩을 통해 특성벡터로 변환할 수 있다.
특성
특성은 분명하고 명확한 의미를 가져야한다. 그러므로 우리는 데이터를 파악하는 것을 우선 해야한다.
데이터를 파악하는 방법은 세 가지가 있다.
- 시각화 : 히스토그램을 나타내며 가장 흔한 것부터 낮은 것까지 순위를 매긴다
- 디버그 : 중복된 예나 누락된 값, 이상점을 찾아 없앤다
- 모니터링 : 시간 경과에 따른 특성의 안정성
좋은 특성의 특징
좋은 특성은 데이터 세트에 5번 이상 표시되어야 한다.
명확하고 유의미한 내용을 가져야 한다.
특성값 확장
확장은 부동 소수점 특성값을 자연 범위에서 표준범위로 변환하는 것을 의미한다ex) (100~900) > (-1~1)
특성세트가 단일 특성으로 구성된 경우 특별한 이점은 없지만 여러 특성으로 구성된 경우 이점이 있다.
- 경사하강법이 더 빠르게 수렴한다.
- 적절한 가중치를 학습하는데 도움이 된다.
scaledValue = (value - mean) / stddev
특성교차가 필요한 이유는 선형 학습에 비선형적 학습을 통합할 수 있다는 점이 가장 중요하다
반응형