-
[SK AI경연] MFCC, mel_spectrogram에 관하여Code Etc/후기 모음 2023. 7. 24. 22:19반응형
MFCC란?
MFCC (Mel-Frequency Cepstral Coefficient)로 소리 데이터를 특정벡터화 해주는 알고리즘이다.
머신러닝에서 어떤 데이터를 벡터화 한다는 것은 학습이 가능함을 의미한다.
MFCC가 Feature로 사용될 수 있다는 뜻이고 librosa로 간단하게 추출할 수 있다.
그러나 파라미터에 따라 큰 차이를 보이므로 정확한 이해가 필요하다.
SAMPLE_RATE는 음성 데이터의 형식에 따라 다를 수 있으므로
사용하는 데이터의 sampleRate를 아는 것이 중요하다.
melscale
mel은 사람 달팽이관을 모티브로 따온 개념이다.
사람은 저주파 소리변화는 잘 감지하는 데 고주파에서 변하는 소리는 잘 감지하지 못한다
이는 달팽이관의 구조와 관련이 있으며 이러한 특징은 우리가 특정 벡터로 추출할 때
달팽이관의 특성에 맞춰서 특징을 뽑는 것이 효과적이라는 의미이다.
파라미터
sr : 샘플레이트를 말하며 hz를 의미한다.
n_mfcc : return될 mfcc의 갯수를 정해주는 파라미터이며 default는 20이다.
n_fft : frame의 길이를 결헝하는 파라미터이다.
일반적으로 자연어 처리에서 음성을 25m를 기본으로 하고 있으며16000hz가 sr인 음성에서
400에 해당하는 값이다.즉 n_fft는 sr에 frame_length인 0.025를 곱한 값이다.
hop_length : hop_length만큼 옆으로 가면서 데이터를 읽는다. 10ms를 기본으로 하고 있어
16000hz에서는 160에 해당한다.(자르는 간격)
글을 적는 데 도움이 된 사이트와 참고할 만한 글
MFCC
https://librosa.github.io/librosa/generated/librosa.feature.melspectrogram.html
https://youdaeng-com.tistory.com/5
https://blog.naver.com/sooftware/221661644808
Mels
http://dacon.io/en/codeshare/5153
https://blog.naver.com/rudwns7983/222498276447
반응형'Code Etc > 후기 모음' 카테고리의 다른 글
[SK AI 경연] 참가 후기 (0) 2023.08.05 [SK AI 경연] mfcc, mel 적용,, (0) 2023.07.30 [SK AI경연] 소리 분류 모델 만들기 (0) 2023.07.24 나의 첫 AI경연대회 후기 (0) 2023.07.17