Divergência de Kullback-Leibler e obliquidade amostral para detecção de patologias de voz [recurso eletrônico]
Ramiro Roque Antunes Barreira
TESE
Português
T/UNICAMP B274d
[Kullback-Leibler divergence and sample skewness for voice pathology detection]
Campinas, SP : [s.n.], 2023.
1 recurso online (225 p.) : il., digital, arquivo PDF.
Orientador: Romis Ribeiro de Faissol Attux
Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação
Resumo: Este trabalho propõe novos atributos com o objetivo de aprimorar a performance de um sistema de detecção automática de patologias de voz. Os atributos são desenhados precisamente em termos de efeitos de vozes patológicas sobre o sinal de fala. O sistema se propõe a fornecer alta acurácia com...
Ver mais
Resumo: Este trabalho propõe novos atributos com o objetivo de aprimorar a performance de um sistema de detecção automática de patologias de voz. Os atributos são desenhados precisamente em termos de efeitos de vozes patológicas sobre o sinal de fala. O sistema se propõe a fornecer alta acurácia com um baixo número de parâmetros. A divergência de Kullback–Leibler (KLD - Kullback-Leibler divergence), aplicada a segmentos consecutivos do sinal de fala, fornece uma medida de instabilidade da voz. Neste trabalho, a KLD é aplicada ao histograma do segmento e a uma forma modificada de seu espectro chamada de espectro de supressão de altas amplitudes (HASS - higher amplitude suppression spectrum). A H-KLD (histogram KLD) e a HASS-KLD são dois dos três atributos abordados no presente trabalho. Um atributo adicional que fornece o nível de amortecimento da forma de onda do período de pitch da voz é proposto, a obliquidade amostral de curto-termo do sinal. A H-KLD, a HASS-KLD, e a obliquidade amostral são atributos empregados juntamente com os coeficientes mel-cepstrais (MFCC - mel-frequency cepstral coefficients) em um sistema de detecção de patologias de voz. O sistema é composto de um classificador de modelos de mistura de Gaussianas (GMM - Gaussian mixture models) e dois classificadores de distribuição generalizada de valores extremos. Eles são combinados por meio de um classificador de fusão. Como classificadores de fusão, classificadores como o naïve Bayes Gaussiano, o GMM, a regressão logística e a máquina de vetores suporte (SVM - support vector machine) são testados. Um subconjunto padrão do banco de dados de vozes patológicas do Massachusetts Eye and Ear Infirmary (MEEI) é adotado para a avaliação do sistema. A taxa de sucesso global de 100,00% obtida mostra que os atributos propostos são adequados para a avaliação da qualidade vocal patológica
Ver menos
Abstract: This work proposes new features aiming to improve the performance of an automatic voice pathology detection system. The features are designed precisely in terms of voice pathologies effects upon the speech signal. The system is intended to deliver high accuracy with a low number of...
Ver mais
Abstract: This work proposes new features aiming to improve the performance of an automatic voice pathology detection system. The features are designed precisely in terms of voice pathologies effects upon the speech signal. The system is intended to deliver high accuracy with a low number of parameters. Kullback-Leibler divergence (KLD) applied to consecutive frames of the speech signal provides a measure of voice instability. In this work, the KLD is applied to frame’s histogram and a modified form of its spectrum named higher amplitude suppression spectrum (HASS). The H-KLD (histogram KLD) and the HASS-KLD are two of the three features presently approached. An additional feature that provides the level of damping of the voice pitch period waveform is proposed, the short-term sample skewness of the signal. The H-KLD, the HASS-KLD, and the sample skewness are features employed along with mel-frequency cepstral coefficients (MFCC) in a voice pathology detection system. The system is composed of a Gaussian mixture models (GMM) classifier and two generalized extreme value (GEV) distribution classifiers. They are combined by means of a fusion classifier. As fusion classifiers, the Gaussian naïve Bayes, the GMM, the logistic regression and the support vector machine (SVM) are tested. A standard subset of the Massachusetts Eye and Ear Infirmary (MEEI) voice disorders database is adopted for evaluating the system. The obtained global success rate of 100.00% shows that the proposed features are suitable for pathological voice quality assessment
Ver menos
Aberto
Attux, Romis Ribeiro de Faissol, 1978-
Orientador
Ricz, Lílian Neto Aguiar, 1971-
Avaliador
Ferrari, Rafael, 1977-
Avaliador
Fantinato, Denis Gustavo, 1985-
Avaliador
Divergência de Kullback-Leibler e obliquidade amostral para detecção de patologias de voz [recurso eletrônico]
Ramiro Roque Antunes Barreira
Divergência de Kullback-Leibler e obliquidade amostral para detecção de patologias de voz [recurso eletrônico]
Ramiro Roque Antunes Barreira