Code Etc/후기 모음

[SK AI 경연] mfcc, mel 적용,,

CoderHan 2023. 7. 30. 01:49
반응형

그간 공부한 내용을 바탕으로 소리 데이터를 mfcc와 mel spectogram을 활용해서

특성을 추출했고 이를 numpy를 통해 합쳤다.

 

학습 데이터를 살펴보니 스테레오 타입과 모노 타입이 존재해서 librosa로 load할 때 

특성 추출에 효과적인 모노타입으로 변경해주었다. 그리고 과적합을 방지하기 위해

노이즈도 추가해주었다.

 

결과적으로 293개의 shape이 추출되었고 extratreeclassifier로 학습했는데

어큐러시와 로그손실이 전부 저조하게 나왔다..XGBoost도 써보려고 했으나

특성 추출에 오늘 사용 가능한 GPU를 전부 써버려서 내일 해봐야 할 것 같다..

 

소리 분류와 관련된 많은 것들을 찾아보면 mfcc와 mel spectogram으로 80%이상의 높은 정확도를

가진 모델을 얻은 것들을 쉽게 찾아볼 수 있는데 대부분 CNN이나 RNN같은 신경망 모델을 사용했다.

 

그러나 이번 경연에서 딥러닝 모델을 사용할 수 없기 때문에 꽤 어려움을 겪고 있다..

하이퍼 파라미터 튜닝도 모델 성능에 결과를 미칠 수 있지만 default값을 사용하는 게 더욱 효과적인 느낌도 있다..

 

이제 남은 방법이 몇 가지 없는데 생각해보고 있는 건 다른 모델을 사용한다거나

특성의 갯수를 조절하는 방법인데.. 구글링을 통해서 더 여러가지 방법을 모색해봐야겠다...

반응형