Este projeto apresenta o desenvolvimento de um pipeline completo de classificação de músicas fundamentado na hipótese de que atributos acústicos permitem distinguir faixas com características mais lentas ou mais agitadas.
A análise parte de conceitos musicais, utilizados para definir a variável alvo a partir do atributo valence, e evolui de forma incremental por meio de análise exploratória, validação estatística, modelagem supervisionada e otimização sistemática de hiperparâmetros, resultando em um modelo final interpretável e estatisticamente consistente.
Investigar se atributos acústicos extraídos automaticamente são capazes de discriminar músicas lentas e agitadas de forma:
- Estatisticamente válida
- Preditivamente eficiente
- Semanticamente interpretável
O pipeline do projeto foi estruturado nas seguintes etapas:
- A variável valence foi utilizada como critério de negócio
- Músicas com valence > 0.5 foram classificadas como agitadas
- Músicas com valence ≤ 0.5 foram classificadas como lentas
- Avaliação das distribuições das variáveis acústicas
- Visualizações com histogramas e violin plots
- Análise de correlação entre atributos
- Aplicação do teste não paramétrico de Mann–Whitney U
- Confirmação de diferenças estatisticamente significativas entre as classes
- Evidência estatística consistente para as variáveis:
- danceability
- energy
- loudness
- acousticness
- Seleção de atributos relevantes
- Codificação de variáveis categóricas (Label Encoding)
- Separação em conjuntos de treino e teste (Hold-out estratificado)
- Normalização com MinMaxScaler (sem vazamento de dados)
Modelos avaliados:
- Regressão Logística
- K-Nearest Neighbors (KNN)
- Random Forest
Avaliação baseada em:
- F1-score ponderado
- Curva ROC e AUC
- Matriz de confusão
- Validação cruzada (5-fold)
- Comparação entre modelos lineares e não lineares
- Identificação de relações não lineares entre as variáveis
O Random Forest apresentou o melhor desempenho médio, indicando maior capacidade de capturar a estrutura do problema.
- Uso de RandomizedSearchCV
- Amostragem estratificada para redução de custo computacional
- Treinamento final com os melhores hiperparâmetros encontrados
- Extração da importância das variáveis
- Análise alinhada com conceitos musicais
Principais atributos identificados:
- Danceability
- Energy
- Acousticness
- Loudness
- Evidência visual, estatística e preditiva consistente
- O problema apresenta estrutura não linear
- O modelo aprende padrões coerentes com características musicais reais
- Forte alinhamento entre EDA, testes estatísticos e modelo final
- Python
- Pandas, NumPy
- Matplotlib, Seaborn
- Scikit-learn
- SciPy
Os resultados demonstram que atributos acústicos de alto nível são eficazes para a classificação musical, permitindo a construção de modelos robustos, interpretáveis e alinhados com conceitos teóricos da música. O projeto evidencia a importância da integração entre análise exploratória, validação estatística e modelagem supervisionada na construção de soluções confiáveis em Ciência de Dados aplicada à música.
Matheus Costa Ribeiro
Pós-Graduando em Ciência de Dados e Big Data