appunti.txt

Kepras: libreria per Keras per fare audio preprocessing DSP (ad esempio resampling, STFT transform o Mel Spectrogram), utilizzabile con Librosa.

Sembra che lo mel spectrogram (chiamato anche MFC) sia una delle rappresentazioni che più simulano il comportamento dell'orecchio umano che ascolta un segnale sonoro.
Si potrebbe usare Chroma features per identificare le progressioni di accordi, dato che diconno che MFC non c'entra molto con la genre recognition, siccome è più utile per identificare il timbro (https://ieeexplore.ieee.org/document/9012215).


paper interessante: https://arxiv.org/pdf/1609.04243.pdf
SI possono usare CRNN (convolutional recurrent neural network):
CNN -> feature locali nello spazio
RNN -> feature locali nel tempo	

Si può utilizzare il dropout per diminuire l'overfitting e la batch normalization per migliorare le performance.