Please enable JavaScript.
Coggle requires JavaScript to display documents.
Audio Processing Căn Bản - Coggle Diagram
Audio Processing
Căn Bản
Music Analysis
Genre Classification
Digital Sound Representation
Quantized in time (44100Hz)
Quantizied in amplitude (16bit)
N channels. Mono/Stereo
Uncompressed formats: PCM .WAV
Lossless compression: .FLAC
Lossy compression: .MP3
Spectrogram
https://academo.org/demos/spectrum-analyzer/
Environmental sound classification
ý tưởng: + cắt audio được gán nhãn sẵn thành nhiều đoạn khác nhau để tăng số lượng mẫu dataset
sau khi train, mẫu thử cũng được cắt thành nhiều đoạn, thực hiện dự đoán trên từng đoạn sau đó tổng hợp kết quả lại để đưa ra kết luận phân nhóm cuối cùng
references
https://www.youtube.com/watch?v=QEEBNF0aeeg&ab_channel=EuroPythonConference
UrbanSound8K - Urban Sound Datasets
CNNs are the best-in-class for image-classification
Cách trích chọn đặc trưng cho âm thanh
Tools/pp
Cepstral
MFCC
biến đổi fourier
https://www.youtube.com/watch?v=r6sGWTCMz2k&ab_channel=3Blue1Brown
https://www.youtube.com/watch?v=spUNpyF58BY&ab_channel=3Blue1Brown
amplitude
Biểu diễn theo miền tần số
Các đặc trưng về âm sắc (Timbral Texture Features).
Các đặc trưng về nhịp điệu (Rhythmic Content Features).