210 likes | 344 Views
Automatic Audio Segmentation : Segment Boundary and Structure Detection in Popular Music. Autor : Ewald Peizer. Vienna University of Technology Institute of Software Technology and Interactive Systems. Introdução.
E N D
Automatic Audio Segmentation : Segment Boundary and Structure Detection in Popular Music Autor : Ewald Peizer Vienna University of Technology Institute of Software Technology and Interactive Systems
Introdução • Segmentação automática de áudio tem como objetivo extrair informações sobre a estrutura de uma música. • A estrutura de uma música é composta de : Introdução Verso Refrão Bridge, etc.
Introdução • O tema deste artigo é um subcampo da MIR ( Music Information Retrieval ) que visa extrair informações sobre a estrutura musical de canções.
Introdução • Estas informações podem ser usadas em várias aplicações práticas: 1 - Facilitar a navegação ou consulta em grandes coleções de músicas. 2 - Query - by - humming
Algoritmo • Este artigo apresenta um algoritmo de duas fases : 1 – Segment Boundaries 2 – Structure Detection
Segment Boundaries • São extraídos features do sinal do áudio. Spectogram Mel Frequency Cepstrum Coeficients Rhythm Patterns Statistical Spectrum Descriptors Constant Q Transform
J. Foote. Automatic audio segmentation using a measure of audio novelty
Segment Boundaries • Usa um algoritmo proposto por Foote que usa Gaussian novelty score emergindo picos candidatos.
Structure Detection • A saída da 1ª fase do algoritmo serve como entrada para a 2ª fase ( detecção da estrutura). • A 2ª fase do algoritmo tenta detectar a estrutura da canção. • Os segmentos possuem representação distinta, ou seja : A – intro B – chorus C - verse D - bridge, etc..
Struture Detection • A estrutura de uma canção pode ser deduzida através destes rótulos. • Presumimos que os segmentos do mesmo tipo são representados por features similares. • Assim é executado técnicas de cluster não supervisionadas.
Struture Detection • Means – of - frames
Avaliação • Para poder comparar os resultados com outras pesquisas foi utilizado um merge de vários corpus. • Total = 108 canções, maior CORPUS já utilizado em um algoritmo de AAS.
Avaliação - Ambiguidade • A estrutura de uma música é ambígua, sendo assim não é trivial para avaliar os resultados do algoritmo • Foi realizada uma avaliação através de um modelo hierárquico de dois níveis.
Audio Segmentation File Format • Foi introduzido um novo formato baseado em XML – SegmXML • Este arquivo contém informações de segmentaçãoes hierárquicas para promover uma base comum para que futuros resultados sejam melhor comparáveis.
Limitações • Frequentemente há um pico gerado por novelty score que significa a mudança de um instrumento. • Canções com um som de guitarra distorcido e denso parece ter um pior resultado do que canções melódicas.
Conclusões • O algoritmo, provou ser robusto em um sentido negativo e positivo : • Muitos experimentos realizados com vários ajustes de parâmetros e novas heurísticas aplicadas não levaram a nehuma melhora de desempenho estatístico. • Por outro lado validação cruzada e de performance em um conjunto de teste independente não mostrou nenhuma queda de desempenho.
Referências [Foo00] J. Foote. Automatic audio segmentation using a measure of audio novelty. In Proc. ICME, volume 1, New York City, New York, USA, 2000. [ANS+05] S. Abdallah, K. Noland, M. Sandler, M. Casey, and C. Rhodes. Theory and evaluation of a Bayesian music structure extractor. In Proc. ISMIR 2005, pages 420{425, London, UK, 2005. [Cha05] W. Chai. Automated analysis of musical structure. PhD thesis, Mas- sachusetts Institute of Technology, MA, USA, September 2005. [HSG06]C. Harte, M. Sandler, and M. Gasser. Detecting harmonic change in musical audio. In Proc. ACMMM, pages 21{26, Santa Barbara, California, USA, 2006. ACM Press New York, New York, USA. [PK06] J. Paulus and A. Klapuri. Music structure analysis by nding repeated parts. In Proc. ACMMM, pages 59{68, Santa Barbara, California, USA, 2006. ACM Press New York, New York, USA.