JVHC 2013 - Proyecto e-VOICE - Universidad de Las Palmas de

Transcripción

TEC2012‐38630‐C04
JVHC 2013
I Jornadas Multidisciplinares de
Usuarios de la Voz, el Habla y el Canto
Las Palmas de Gran Canaria - 27-28 de junio 2013
Editores:
Jesús B. Alonso Hernández
Carlos M. Travieso Gonzalez
Pedro Gómez Vilda
Libro de Actas de las I Jornadas Multidisciplinares de
Usuarios de la Voz, el Habla y el Canto
Las Palmas de Gran Canaria - 27-28 de enero 2013
ISBN: 84-695-8101-5
Editores:
Carlos M. Travieso González
Pedro Gómez Vilda
Editores:
Carlos M. Travieso González
Pedro Gómez Vilda
© Todos los derechos sobre cada uno de los trabajos
pertenecen a los autores.
ISBN-10: 84-695-8101-5
ISBN-13: 978-84-695-8101-8
INSTITUTO UNIVERSITARIO PARA EL DESARROLLO
TECNOLÓGICO Y LA INNOVACIÓN EN COMUNICACIONES (IDETIC)
Universidad de Las Palmas de Gran Canaria
Despacho 102, Pabellón B,
Edificios de Electrónica y Telecomunicación
Campus Universitario de Tafira
35017 – Las Palmas (Spain)
Impreso por La Universidad de Las Palmas de Gran Canaria
Las Palmas de Gran Canaria
Primera Edición
Junio 2013
I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto
Las Palmas de Gran Canaria – 27-28 de junio 2013
Prologo
Las I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto (JVHC’13) están
organizadas por la División de Procesado Digital de Señales del Instituto para el Desarrollo
Tecnológico y la Innovación en Comunicaciones (IDeTIC) de la Universidad de la Universidad de
Las Palmas de Gran Canaria (ULPGC) y por el Laboratorio de Comunicación Oral "Robert Wayne
Newcomb" de la Facultad de Informática de la Universidad Politécnica de Madrid (UPM).
JVHC son unas jornadas en las que investigadores y profesionales de múltiples disciplinas
muestran mediante comunicaciones originales, su trabajo y experiencias en el ámbito de la
utilización de la voz, el habla y el canto. Además, las JVHC pretenden ser un foro de encuentro
en el que investigadores y profesionales de diferentes disciplinas puedan encontrar sinergias
para colaboraciones futuras.
Las diferentes áreas temáticas de la JVHC son las siguientes:
1.
2.
3.
4.
5.
6.
7.
8.
Estudio de patologías laríngeas y del sistema fonador
Estudio de patologías neurodegenerativas
Aplicaciones en Rehabilitación: foniatría y logopedia
Aplicaciones en fonética y lingüística
Aplicaciones forenses y en el ámbito de la seguridad
Aplicaciones en música y canto
Soporte electroacústico
Aplicaciones en procesado de video
Por último, quisiéramos agradecer los apoyos económicos que han obtenido las JVHC’13 por
parte de la Cátedra Telefónica-ULPGC, en el marco del proyecto Sistema de Evaluación Remota
del Sistema Fonador (e-VOICE), y del Ministerio de Ciencia e Innovación de España (MICINN),
en el marco del proyecto de investigación Síntesis de Muestras Biométricas para Aplicaciones
en Salud y Seguridad (TEC2012-38630-C04).
En Las Palmas de Gran Canaria 27 de junio de 2013
Jesús Bernardino Alonso Hernández
Carlos Manuel Travieso Gonzalez
Pedro Gómez Vilda
Presidentes del Las I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto
i
ISBN: 84-695-8101-5
Comité Organizador
Presidentes
Jesús B. Alonso Hernández (ULPGC)
Carlos M. Travieso González (ULPGC)
Pedro Gómez Vilda (UPM)
Secretario
Miguel A. Ferrer Ballester (ULPGC)
Vocales:
Nicolás Sáenz Lechón (UPM)
Aythami Morales Moreno (ULPGC)
Patricia Henríquez Rodríguez (ULPGC)
Santiago Pérez Suarez (ULPGC)
David Sánchez Rodríguez (ULPGC)
Agustín Álvarez Marquina (UPM)
Rafael Martínez Olalla (UPM)
Moisés Díaz Cabrera (ULPGC)
Comité Técnico-Científico
Estudio de patologías laríngeas y del sistema fonador
Jesús B. Alonso Hernández (ULPGC)
José de León y de Juan (Serv. ORL. HGGC)
Aplicaciones forenses y en el ámbito de la seguridad.
Miguel A. Ferrer Ballester (ULPGC)
Agustín Álvarez Marquina (UPM)
Aplicaciones en música y canto.
Zulema Santana López (CPM LP)
Oscar Dominguez Jaén (CPM LP)
Soporte electroacústico
Manuel Medina Molina (ULPGC)
Fidel Cabrera Quintero (ULPGC)
Aplicaciones en procesado de video
Juan Ignacio Godino (UPM)
Carlos M. Travieso González (ULPGC)
Instituciones patrocinadoras
Ministerio de Ciencia e Innovación de España
Cátedra Telefónica-ULPGC
Estudio de patologías neurodegenerativas
Pedro Gómez Vilda (UPM)
Marcos Faundez (UPMt)
Aplicaciones en Rehabilitación: foniatría y logopedia.
Marisol Soledad García Acosta (Serv. FON. HGGC)
Ulrika Törnos
Aplicaciones en fonética y lingüística
Mercedes Cabrera Abreu (ULPGC)
Karmele López de Ipina (EHU)
Francisco Vizcaíno Ortega (ULPGC)
iii
ISBN: 84-695-8101-5
Programa Técnico
Sesión 1: Estudio de patologías laríngeas y del sistema fonador
José de León y de Juan
“Aproximación a la Anatomo-Fisiología de la produción vocal” .......................................... 1
Felipe Jungjohann Jofre
“Disfonías funcionales. Lesiones benignas de cuerdas vocales” .......................................... 2
Athanasios Tsanas, Pedro Gómez-Vilda
“Novel robust decision support tool assisting early diagnosis of pathological
voices using acoustic analysis of sustained vowels”............................................................ 3
Pedro Gómez Vilda, Ana Martínez de Arellano, Víctor Nieto Lluis, Victoria Rodellar-Biarge,
Agustín Álvarez Marquina, Luis M. Mazaira Fernández
“Monitoring Treatment of Vocal Fold Paralysis by Biomechanical Analysis of
Voice”............................................................................................................................. 13
Jorge Andrés Gómez García, Juan Ignacio Godino Llorente, Germán Castellanos Domínguez
“Identificación de género para la detección automática de patologías” ............................ 23
Laureano Moro Velázquez, Juan Ignacio Godino Llorente
“Análisis de métodos de parametrización para la simulación de un sistema de
evaluación perceptual de voces patológicas” ................................................................... 31
Jesús B. Alonso, Josué Cabrera, José de León, Miguel A. Ferrer, Carlos M. Travieso, David
Sánchez, Patricia Henríquez, Aythami Morales, Juan Francisco Rivero, Francisco Ayudarte,
Santiago Tomás, Fidel Cabrera, Juan Manuel Caballero
“Proyecto e-VOICE: Sistema de Evaluación Remota del Sistema Fonador” ........................ 46
Sesión 2: Estudio de patologías neurodegenerativas
Jiri Mekyska
“Neurological Disorders Analysis Using the Speech Signal Processing” .............................. 59
K. Lopez-de-Ipiña, J.B. Alonso, J. Solé-Casals, N.Barroso, P.Henriquez, M. Faundez-Zanuy, C.
Travieso, M. Ecay-Torres, P.Martinez-Lage, U. Martinez-de-Lizardui, H. Egiraun, A. Ezeiza
“Analysis of Spontaneous Speech and Emotional Response oriented to
Alzheimer's Disease Diagnosis” ............................................................................................... 60
Pedro Gómez-Vilda, Ana Rita M. Londral, Mamede de Carvalho, José Manuel FerrándezVicente, Victoria Rodellar-Biarge
“Characterization of Speech in Amyotrophic Lateral Sclerosis by Neuromorphic
Processing” ..................................................................................................................... 61
Cayetano Cabrera, Jesús. B. Alonso, Carlos M. Travieso, Miguel A. Ferrer
v
ISBN: 84-695-8101-5
VI Jornadas de Reconocimiento Biométrico de Personas
Las Palmas de Gran Canaria - 26-27 de enero 2012
“Herramienta de creación de base de datos de habla espontanea de pacientes
con diagnóstico de Enfermedad de Alzheimer” ................................................................ 71
Sesión 3: Aplicaciones en Rehabilitación: foniatría y logopedia
Maria Soledad García Acosta
“Aplicaciones en Rehabilitación: Trastornos de la Voz y su Reeducación” ......................... 81
Marcelo J. Rodríguez-Cruz, Amalia Sánchez-López, María Teresa Schüller-Moreno, Pilar RevillaRodríguez
“ Análisis biométrico aplicado en la evaluación y tratamiento en patología
vocal” ............................................................................................................................. 82
Sesión 4: Aplicaciones en música y canto.
Oscar Juan Domínguez Jaén, Mª Zulema Santana López
“Una nueva dimensión en la enseñanza musical: el procesado digital de
señales” .......................................................................................................................... 95
Pedro Gómez Vilda, Elisa Belmonte-Useros, Víctor Nieto Lluis, Victoria Rodellar-Biarge, Agustín
Álvarez Marquina, Luis M. Mazaira Fernández
“Vocal Fold Biomechanical Analysis for the Singing Voice” ............................................... 96
Mª Zulema Santana López, Jesús B. Alonso, Fidel Cabrera, Oscar Juan Domínguez, Dionisio
Rodriguez, Carlos M. Travieso
“Diseño y desarrollo de una propuesta metodológica para la reeducación de la
voz: Método Cimardi “Pantalla de Celofán””.................................................................. 106
Ulrika Törnros
“Entrenamiento vocal en la práctica”............................................................................. 119
Sesión 5: Aplicaciones forenses y en el ámbito de la seguridad.
Miguel Ángel Ferrer
“Introducción a la Biometría de Voz : Identificación de Locutor“..................................... 121
Luis Miguel Mazaira-Fernández, Agustín Álvarez Marquina, Pedro Gómez Vilda, Rafael
Martínez-Olalla, Cristina Muñoz-Mulas
“Classical vs. Biometric Features in the 2013 Speaker Recognition Evaluation in
Mobile Environments” .................................................................................................. 122
Eugenia SanSegundo, Pedro Gómez-Vilda
“Voice Biometrical Match of Twin and non-Twin Siblings”.............................................. 132
Pedro Quintana Morales, Juan L. Navarro Mesa, Antonio Ravelo García, Iván Guerra, Moreno,
Eduardo Hernández Pérez
“Modelado ARMA con resolución perceptual sobre fases glóticas para
clasificación de voz patológica” ..................................................................................... 137
Juan L. Navarro Mesa, Pedro Quintana Morales, Antonio Ravelo García, Iván Guerra Moreno,
Eduardo Hernández Pérez
ISBN: 978-84-695-0695-0
vi
“Generación de una base de datos y análisis de señales del lenguaje silbado de
La Gomera”................................................................................................................... 138
Sesión 6: Aplicaciones en fonética y lingüística
Mercedes Cabrera Abreu, Francisco Vizcaíno Ortega, Carmen Nieves Hernández Flores
“L1 Spanish interferences in the acquisition of tonality and tone in L2 English
prosody. Results from perception and production” ........................................................ 139
Sesión 7: Aplicaciones en procesado de video
Gustavo Andrade-Miranda, Juan Ignacio Godino-Llorente
“Seguimiento automático de la apertura glotal a partir de imágenes digitales
de alta velocidad usando correlación cruzada adaptiva” ................................................ 143
Sesión 8: Soporte electroacústico
Manuel Medina Molina, Juan Manuel Caballero, Fidel Cabrera Quintero
“Consideraciones acústicas durante el proceso de grabación de audio” .......................... 153
Fidel Cabrera Quintero, Manuel Medina Molina, Juan Manuel Caballero Suárez
“La digitalización: ¿Qué software utilizo?” ..................................................................... 154
vii
ISBN: 84-695-8101-5
Aproximación a la Anatomo-Fisiología de la produción
vocal
José de León y de Juan1
1
Servicio de Otorrinolaringología
Hospital de Gran Canaria Dr. Negrín
Barranco de la Ballena, s/n
Abstract. En esta ponencia se describirá brevemente la anatomía de las estructuras del aparato fonatorio con especial mención de la laringe y su sistema musculo membranoso. Así mismo se describen los conceptos fundamentales sobre
las caracteristicas acústicas de la voz y su mecanismo de producción: Voz hablada y Voz cantada.
ISBN: 84-695-8101-5
1
Disfonías funcionales. Lesiones benignas de cuerdas
vocales
Felipe Jungjohann Jofre1
1
Barranco de la Ballena, s/n
Abstract. En esta ponencia se describen las causas más frecuentes de disfonía y
además el concepto y clasisficación de las disfonías funcionales. De igual
forma se describen las lesiones benignas de cuerdas vocales, prestando especial
atención a la descripción de las lesiones más representativas.
2
ISBN: 84-695-8101-5
Novel robust decision support tool assisting early
diagnosis of pathological voices using acoustic analysis of
sustained vowels
Athanasios Tsanas1,2,*, Pedro Gómez-Vilda3
1
Oxford Centre for Industrial and Applied Mathematics, University of Oxford, UK
Institute of Biomedical Engineering, Department of Engineering Science, University of Oxford, UK
3
Facultad de Informática, Universidad Politécnica de Madrid, Campus de Montegancedo, s/n
28660 Boadilla del Monte, Madrid, Spain
*Asterisk indicates corresponding author
2
(A. Tsanas) [email protected]
(P. Gómez-Vilda) [email protected]
Abstract. Effective vocal communication is critical in daily life, and 30% of
the general population may suffer from a voice disorder at some point in their
lives. Early diagnosis of voice pathologies facilitates mitigating symptoms and
optimizing treatment for expedient recovery. Here, we studied the potential of
an automated clinical decision support tool to differentiate subjects with early
onset voice disorders from healthy controls simply on the basis of a single sustained vowel phonation. We characterized 200 phonations from 200 subjects
with 445 speech signal processing algorithms, extracting clinically useful properties of the phonations in order to differentiate healthy and pathological cases.
We selected parsimonious gender-dependent feature subsets and demonstrated
that we can automatically differentiate healthy and pathological subject cohorts
with approximately 91% overall accuracy. These compelling findings endorse
the use of the proposed methodology towards assisting speech experts in vocal
performance assessment and diagnosis of early onset voice disorders.
Keywords: Acoustic analysis, clinical decision support tool, dysphonia
measures, nonlinear speech signal processing, sustained vowels
1
Introduction
Effective communication through efficient vocal expression in daily life is critical
and is often taken for granted. Although epidemiological studies for voice disorders
are fairly scarce, the lifetime prevalence of a voice disorder is believed to be almost
30% for the general adult population [1]. Voice disorders are characterized by the
malfunction of one or more parts involved in vocal production (predominantly the
vocal folds), resulting in reduced perceived vocal quality. Characteristic symptoms
Multidisciplinary Conference of Users of Voice, Speech and Singing (JVHC 13) 2013
© Springer-Verlag Berlin Heidelberg 2013
ISBN: 84-695-8101-5
3
may include reduced/increased loudness, increased vocal tremor, and breathiness
(noise) depending on the pathology [2].
Vocal impairment is clinically assessed by speech experts using sustained vowel
phonations, and/or conversational speech. Although some of the vocal deficiencies in
conversational speech might not be detectable when assessing sustained vowels, conversational speech is considerably more complex to analyze due to articulatory and
other linguistic confounds [3]. Therefore, in clinical practice speech experts typically
rely on the use of sustained vowels: the subject is asked to produce a sustain phonation for as long as possible attempting to maintain steady frequency and amplitude.
The sustained vowel “ahh…” (often written /a/ in the speech signal processing discipline) has been shown to be sufficient for many voice assessment applications [3].
It is often practically impossible to perceptually detect subtle differences resulting
in vocal performance degradation during early voice disorder onset. However, early
diagnosis of voice pathologies would facilitate mitigating symptoms and optimizing
treatment for quick recovery of vocal performance. Although it may be possible to
have accurate diagnosis by speech experts, it would be beneficial and cost-effective to
develop a tool that would perform accurately this assessment, prompting individuals
to seek specialized help. There is considerable research on the topic of developing
clinical decision support tools using speech signals, for example see [3], [4], [5], [6],
[7]. The automatic objective study of voice disorders relies on speech signal processing algorithms (better known as dysphonia measures), which attempt to extract
clinically distinct characteristics of the phonations [3], [6]. Here, the aim is to use
these signal characteristics to differentiate subjects with pathological voices from
subjects with healthy voices. We envisage the proposed methodology being a useful
step towards the development of an automatic and accurate decision support tool for
clinical diagnosis of early onset voice disorders which may facilitate screening the
population at large.
2
Data
We recorded 200 sustained vowel /a/ phonations from 200 individuals: 50 males
(age 32±12) with normative voice, 50 males (age 35±11) with pathological voice, 50
females (age 30±10) with normative voice, and 50 females (age 33±12) with pathological voice. All pathological cases were early stage voice performance degradation,
and were not distinguishable from the healthy phonations to a non-specialist in this
domain. The clinical voice assessment was conducted by experts in the ear, nose, and
throat (ENT) services of Hospital Principe de Asturias. The subjects‟ enrolment in
this study and all recruiting materials were approved by an independent Institutional
Review Board in the Faculty of Medicine, University of Alcalá de Henares.
The sustained vowel /a/ phonations were recorded in a double-walled, soundattenuated room using a head-mounted microphone positioned 5 cm from the subject‟s lips. The voice signals were sampled at 44.1 kHz with 16 bits of resolution, and
were recorded using the MedivozCaptura software package [8]. Manual inspection
did not reveal any problematic recordings, so all 200 data samples were used in the
subsequent analysis.
4
ISBN: 84-695-8101-5
3
Methods
The aim of this study is to automatically assess whether a person has a healthy or
pathological voice simply on the basis of a sustained vowel /a/ phonation. We apply a
three step methodology towards this aim: (1) speech signal processing algorithms to
characterize the sustained vowel phonations (feature calculation), (2) select a parsimonious feature subset which provides maximal clinical information to predict the
response i.e. normative versus pathological phonation (feature selection), (3) use a
powerful machine learning classifier to map the selected feature subset to the response (feature mapping).
3.1
Feature calculation
We applied 445 dysphonia measures which were used to acoustically characterize
each phonation, combining the efforts of two different research teams. Specifically,
we used 136 dysphonia measures used by the research team lead by Gómez-Vilda.
These dysphonia measures include power spectral density measures, cepstral coefficients, body mass, body loss, body stiffness, body imbalance, cover mass, cover loss,
cover stiffness, and their corresponding imbalances. Other parameters considered
were open, close and return quotients, glottal gaps, and some classical perturbation
parameters: jitter, shimmer, NHR and mucosal/average amplitude ratio. In each case,
we characterized the signals on a phonation-cycle synchronous basis over segments
from 50-200 ms, extracting vectors to describe the local signal properties, and computed the mean and standard deviations to provide a succinct descriptor of the signal
properties.
In addition, we used an array of 309 dysphonia measures originally developed to
study Parkinsonian phonations, which was described in detail previously by Tsanas
[6]. Here, we briefly describe these algorithmic tools and refer to the detailed references below for the rationale and actual implementation of the specific algorithms.
For those dysphonia measures where fundamental frequency (F0) is a pre-requisite,
we used the Sawtooth Waveform Inspired Pitch Estimator (SWIPE) F0 estimation
algorithm [9], because it was recently shown to outperform, on average, alternative
single F0 estimators in the context of sustained vowel /a/ phonations [10]. For presentation purposes we classify the dysphonia measures in groups to summarize the characteristics of the sustained vowels they aim to characterize.
The first group of dysphonia measures aims to quantify departure from periodicity: this builds on physiological evidence that pathological voices exhibit increased
aperiodic vibration of the vocal folds, resulting in large amplitude and F0 variation
[3]. Although physiological voices have certain variation during sustained phonation
(vibrato), subjects with pathological voices exhibit exacerbated variation of F0 and
amplitude compared to age- and gender-matched healthy controls. The most wellknown dysphonia measures in this category are jitter and shimmer and are considered
the standard reference algorithms for biomedical speech signal analysis [3], [6]. They
are effectively classical perturbation schemes: jitter quantifies F0 variation, and
shimmer quantifies amplitude variation. Although jitter and shimmer refer to a con-
ISBN: 84-695-8101-5
5
ceptually simple property of speech, there is no unique algorithmic expression widely
acceptable; we investigated many jitter variants and shimmer variants, to refer to
algorithmic expressions which quantify departure in periodicity for both F0 and amplitude [5], [6]. Related, but somewhat more complicated algorithmic expressions of
the same basic idea include the Recurrence Period Density Entropy (RPDE) [11], the
Pitch Period Entropy (PPE) [12], the Glottal Quotient (GQ) [5], and other F0-related
measures such as statistical descriptors of the F0 density estimate [5]. RPDE quantifies the uncertainty in vocal fold cycle estimates using the entropy concept; PPE
quantifies impaired control in keeping F0 stable over and above normal vibrato; GQ is
essentially like jitter, the difference being it operates on vocal fold cycle estimates
rather than F0 estimates of signal segments (typically of 10 ms duration). The F0related dysphonia measures include statistical descriptors of the F0 contour density
estimate, and quantify the F0 differences compared to age- and gender-matched
healthy controls.
The second group of dysphonia measures makes use of signal to noise ratio (SNR)
concepts. The rationale for these dysphonia measures is that due to vocal pathology
the vocal folds do not collide properly (incomplete vocal fold closure). This often
leads to the creation of vortices which result in increased acoustic noise. Harmonic to
Noise Ratio (HNR) [3], Detrended Fluctuation Analysis (DFA) [11], Glottal to Noise
Excitation (GNE) [13], Vocal Fold Excitation Ratio (VFER) [5], and Empirical Mode
Decomposition Excitation Ratio (EMD-ER) [5] are some of the algorithms that can be
categorized in this group. GNE and VFER analyze frequency ranges of sustained
vowel building on the premise that incomplete vocal fold closure leads to varying
excitation of different frequency ranges. EMD-ER is based on similar ideas and uses
components of the signal (extracted using the EMD transform [14]) to denote signal
and noise with energy and entropy concepts.
The dysphonia measures based on wavelet decomposition [15] is a more general
speech signal analysis tool aiming to decompose the estimated F0 contour at 10 levels, where the wavelet coefficients for the signal decomposition constitute the features. Often, it may be beneficial to focus on the log-transformed F0 contour, because
this power transformation normalizes the density estimate and hence might reveal
additional characteristics [16].
Another group of dysphonia measures is the Mel Frequency Cepstral Coefficients
(MFCCs): they have been widely used in speaker identification applications, and
lately have shown promise also in biomedical applications [5], [17], [18]. MFCCs
quantify differences which may be reflective of inability to adequately control the
articulators.
Overall, we calculated 445 dysphonia measures for each sustained vowel /a/ phonation, and obtained a design matrix of size 200×445. There were no missing entries in
the design matrix. Research has shown that gender differentiation may be critical
[19], [5], and for this reason we processed independently the data from males and
females, that is, we processed two design matrices of size 100×445 each.
6
ISBN: 84-695-8101-5
3.2
Feature selection
In the previous step we have extracted a large number (445) of acoustic characteristics for each sustained vowel phonation. It is practically impossible to adequately
populate the entire 445-dimensional feature space; this may lead to overfitting the
data due to the curse of dimensionality. Recent findings suggest that the predictive
performance of even the most powerful classifiers degrades in such settings [20]. It is
desirable to find a lower dimensional representation of the information present in the
extracted features because this will improve insight into the problem by inferring the
main characteristics conveyed by the reduced feature subset, and potentially may
improve the performance of the classifier [21]. For this reason, researchers typically
use feature selection (FS) algorithms to determine a parsimonious, information-rich
feature subset. Contrary to feature transformation algorithms (such as principal component analysis), which transform the original feature space into a new feature space
of reduced dimensionality, FS facilitates interpretation because we keep some of the
original features and hence retain domain expertise. In this study, we used the SIMBA
feature selection algorithm, an approach which is conceptually relying on margin
maximization algorithms, implicitly using the k-Nearest-Neighbor (kNN) classifier
[22]. Its aim is to select features that contribute to the separation of samples from
different classes, reweighting the feature space at each incremental step in order to
account for the information content explained by features already selected in previous
steps in a standard greedy sequential forward feature selection process.
The feature subsets were selected using a standard robust framework with perturbed versions of the original dataset described previously [6], [18]. Specifically, we
used 90% of the data to run the feature selection algorithm and select the most parsimonious feature subset, and repeated the process 10 times for statistical confidence.
Theoretically, the feature ranking should be identical for all repetitions (i.e. the same
features selected for all perturbed training sets), but in practice there are somewhat
different features which are selected for slightly perturbed design matrices. For this
reason, we decided on the final feature subsets using a voting methodology. In brief,
an empty set S was created which will contain the indices of the selected features.
Then we used a simple voting scheme, incrementally adding a feature index in S. For
each step K (K=1…M), where M corresponds to the number of features (in this study
445), we found the indices corresponding to the features selected in the 1…K search
steps. Then, the index j which appears most frequently amongst the N×K elements,
where N corresponds to the number of samples in the design matrix (here N=100),
which is not in S is included in the selected feature subset as the Kth selected feature.
The selected feature subset was then decided by choosing the top m features (m to be
decided by experimentation) in S.
3.3
Statistical mapping to differentiate normative and pathological voices
As indicated above, the aim of this study is to use the selected feature subset to determine whether the subject can be classified as normative or pathological (binary
response). That is, we need to build a functional relationship f(X)=y, which maps the
ISBN: 84-695-8101-5
7
dysphonia measures X to the response y. We used Random Forests (RF) [23], a powerful statistical machine learning algorithm which often outperforms competing approaches. Moreover, RF is fairly insensitive to the choice of its hyper-parameters and
has been endorsed as the best off the shelf mapping algorithm [20]; we used the default setting with 500 decision trees. In addition to a deterministic estimate, we can
obtain probabilistic outputs in order to report the confidence in the estimate that a
query sample belongs to either of the two classes investigated here (normative or
pathological). The larger the probability is for one of the two classes, the greater the
confidence that the query sample in fact belongs to that class.
3.4
Classifier validation and generalization performance
The generalization performance of the classifier is an estimate of the accuracy we
might expect on new query samples, assuming the query samples come from the same
joint distribution to the joint distribution of the data used to train the classifier. Because of the relatively limited data samples (100 samples for each of the two design
matrices), we used the simple leave-one-out scheme: we trained the classifier using N1 samples and test its performance at predicting the Nth sample which was left outside
the training process. This was repeated for all N samples and the results were averaged. We report both the general average misclassification of the classifier, and also
the true positive (TP) and true negative (TN) scores to test whether there is systematic
bias in favour of either class by the classifier.
4
Results
Figure 1 presents the out of sample accuracy as a function of the number of the selected features fed into the classifier: we tested the performance when feeding 1…30
features from the selected feature subset to Random Forests. In order to satisfy the
rather subjective need for parsimony, we decided to choose the model with the best
performance when using up to 30 features (arbitrarily chosen to be fairly low for simplicity, but also provide statistical accuracy). Table 1 summarizes our findings when
presenting all features, and when presenting feature subsets to the classifier.
Table 1. Summary of leave-one-sample out classification performance of Random Forests
Dysphonia measures subset
Standard jitter and shimmer variants
MFCCs
All 445 dysphonia measures
Optimal selected dysphonia measure
subset (see Fig. 1)
Predictive performance (%)
Males
Females
66, TP: 32, TN:34
74, TP: 37, TN:37
68, TP: 35, TN:33
83, TP: 41, TN:42
87, TP: 43, TN:44
91, TP: 44, TN:47
88, TP: 46, TN:42
95, TP: 47, TN:48
TP stands for true positive, and TN stands for true negative.
8
ISBN: 84-695-8101-5
Table 2 presents the feature subsets selected for males and females in descending
order of importance (for clarity we only present the top 15 features).
Table 2. Feature subsets selected using SIMBA
Males
Cover Losses mean
DFA
VFERmean
Rel. Max. Ampl. Time mean
7th delta-delta MFCC coef.
Rel. Start Flow Time mean
MWC Cepstral 5 mean
MW PSD 2nd Min. Pos. rel. std
MWC Cepstral 10 std
Abs. Norm. Jitter mean
Val. Permanent GAP mean
4th MFCC coef.
MWC Cepstral 2 mean
Body Losses Unbalance mean
Rel. Recov. 1 Ampl. Std
Females
MW PSD 1st Max. ABS mean
Cover Losses Unbalance std
DFA
GNENSR,TKEO
Cover Losses mean
Shimmer0th perturb
Muc./AvAc. Energy (MAE) mean
Rel. Stop Flow Time std
IMFNSR SEO
Abs. Norm. Min. Sharp. Std
2nd MFCC coef.
MW PSD 1st Max. ABS. std
Cover Losses Unbalance mean
3rd MFCC coef.
Rel. Recov. 1 Ampl. Mean
Male subset
85
80
75
70
65
60
0
5
10
15
20
Female subset
b
90
25
Number of features fed into the classifier
30
Out of sample classification performance (%)
Out of sample classification performance (%)
a
95
90
85
80
75
70
65
60
0
5
10
15
20
25
30
Number of features fed into the classifier
Fig. 1. Average leave one subject out performance of the Random Forests as a function of the
number of selected features fed into the classifier for (a) males, and (b) females.
5
Discussion
This study investigated the potential of a statistical machine learning tool to assist
clinicians in automatic diagnosis of pathological voices based on a single sustained
vowel /a/ phonation. We emphasize that this task is particularly difficult in practice
for the cohort studied, because all subjects with pathological voices were on very
early stages of disease onset. Our findings suggest we can differentiate healthy control
ISBN: 84-695-8101-5
9
subjects from subjects with an early voice disorder with about 95% overall accuracy
for females, and about 88% overall accuracy for males. Interestingly, we can differentiate pathological voices a little more accurately in females.
The male and female vocal production mechanisms have subtle physiological differences [3]; for example the most pronounced is that the average pitch in males is
120Hz whereas the average pitch in females is about 180Hz. Although in the past
some researchers did not focus on gender-specific voice performance analysis, recent
work suggests it may be necessary to study the two cohorts independently [19], [5].
The findings of this study corroborate this notion since the features selected for the
two cohorts are quite different (see Table 2). Nevertheless, some features such as the
„Cover losses mean‟, „DFA‟ and the closely related „VFER mean‟ and „GNENSR,TKEO‟
are selected in both genders. This indicates that they may reflect some general physiological properties in the voice of both genders.
A rather unexpected finding was that quite different feature subsets were selected
when using different feature selection algorithms, whereas the out of sample performance was very similar (results not shown). This may indicate the presence of multiple Markov boundaries (minimal number of features for which the response is conditionally independent of the remaining features in the dataset) in the dataset, that is,
different combinations of features lead to similar prediction accuracy. Physiologically, this may suggest that different combinations of pathophysiological characteristics
may jointly provide roughly the same clinical information for differentiating subjects
with pathological voices from subjects with healthy voices.
The findings reported in this study further endorse acoustic analysis of sustained
vowels as a particularly promising tool in the early detection of pathological voices.
These results build on evidence from many research groups across diverse applications where biomedical speech signal analysis provides accurate means towards differentiating subject cohorts with one or more voice disorders from healthy controls
[17], [18], [24], [25].
Despite the relatively limited number of samples available to this study, the results
appear compelling for the effectiveness of the suggested methodology. We envisage
this study being a first step towards the development of an automatic and accurate
decision support tool assisting diagnosis of early onset voice disorders which may
facilitate screening the population at large. A larger clinical trial recruiting considerably more subjects (ideally from diverse phonetic backgrounds) would be needed to
verify the generalization of the current findings, and further endorse the adaptation of
the proposed automated process in actual clinical settings.
Conflict of interest
We have no conflict of interest to declare. A. Tsanas was funded by the Engineering
and Physical Sciences Research Council (EPSRC) until March 2013; he is currently
funded by the Wellcome Trust. P. Gómez was funded by grants TEC2009-14123C04-03 and TEC2012-38630-C04-04, Ministry of Economic Affairs and Competitiveness, Spain.
10
ISBN: 84-695-8101-5
References
1. Roy, N., Merrill, R.N., Gray, S.D., & Smith, E.M.: Voice disorders in the general population: Prevalence, risk factors, and occupational impact. Laryngoscope, 115 (11): 19881995, (2005)
2. Baken R.J., Orlikoff R.F.: Clinical measurement of speech and voice, San Diego: Singular
Thomson Learning, 2nd ed., (2000)
3. Titze I.R.: Principles of Voice Production. National Center for Voice and Speech, Iowa
City, US, 2nd ed., (2000)
4. Gomez-Vilda P., Fernandez-Baillo R., Nieto A., Diaz F., Fernandez-Camacho F.J., Rodellar V., Alvarez A., Martinez R.: Evaluation of Voice Pathology Based on the Estimation of
Vocal Fold Biomechanical Parameters, Journal of Voice, Vol. 21 (4), pp. 450-476, (2007)
5. Tsanas A., Little M.A., McSharry P.E., Ramig L.O.: Nonlinear speech analysis algorithms
mapped to a standard metric achieve clinically useful quantification of average Parkinson‟s
disease symptom severity, Journal of the Royal Society Interface, Vol. 8, 842-855, (2011)
6. Tsanas A.: Accurate telemonitoring of Parkinson’s disease symptom severity using nonlinear speech signal processing and statistical machine learning, D.Phil. thesis, University of
Oxford, Oxford, UK, (2012)
7. Skodda S., Gronheit W., Schlegel U.: Impairment of vowel articulation as a possible
marker of disease progression in Parkinson‟s disease, Plos One, 7(2): e32132.
doi:10.1371/journal.pone.0032132, (2012)
8. Godino-Llorente, J.I., Sáenz-Lechón, N., Osma-Ruíz, V., Aguilera-Navarro, S., GómezVilda, P.: An integrated tool for the diagnosis of voice disorders, Medical Engineering and
Physics, Vol. 28 (3), pp. 276-289, (2006)
9. Camacho A., Harris J.G.: A sawtooth waveform inspired pitch estimator for speech and
music, Journal of the Acoustical Society of America, Vol. 124, pp. 1638-1652, (2008)
10. Tsanas A., Zañartu M., Little M.A., Fox C., Ramig L.O., Clifford G.D.: Robust fundamental frequency estimation in sustained vowels using information fusion with Kalman filtering, IEEE Transactions on Audio, Speech, and Language Processing, (under review)
11. Little M.A., McSharry P.E., Roberts S.J., Costello D., Moroz I.M.: Exploiting Nonlinear
Recurrence and Fractal Scaling Properties for Voice Disorder Detection, Biomedical Engineering Online, vol. 6 (23), (2007)
12. Little M.A., McSharry P.E., Hunter E.J., Spielman J., Ramig L.O.: Suitability of dysphonia
measurements for telemonitoring of Parkinson‟s disease, IEEE Transactions Biomedical
Engineering, Vol. 56 (4), pp. 1015-1022, (2009)
13. Michaelis D., Frohlich M., Strube H.W.: Glottal to noise excitation ratio - a new measure
for describing pathological voices, Acustica/acta acustica, Vol. 83, pp. 700–706, (1997)
14. Huang, N.E., Shen, Z., Long, S.R., Wu, M.C., Shih, H.H., Zheng, Q., Yen, N.C., Tung,
C.C., Liu, H.H. 1998 The empirical mode decomposition and the Hilbert spectrum for nonlinear and non stationary time series analysis, Proc. Royal Soc. London A, Vol. 454, pp.
903-995, (1998)
15. Tsanas A., Little M.A., McSharry P.E., Ramig L.O.: New nonlinear markers and insights
into speech signal degradation for effective tracking of Parkinson‟s disease symptom severity, International Symposium on Nonlinear Theory and its Applications (NOLTA), pp.
457-460, Krakow, Poland, 5-8 September (2010)
16. Tsanas A., Little M.A., McSharry P.E., Ramig L.O.: Enhanced classical dysphonia
measures and sparse regression for telemonitoring of Parkinson's disease progression,
IEEE Signal Processing Society, International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 594-597, Dallas, Texas, US, (2010)
ISBN: 84-695-8101-5
11
17. Godino-Llorente J.I., Gomez-Vilda P., Blanco-Velasco M.: Dimensionality Reduction of a
Pathological Voice Quality Assessment System Based on Gaussian Mixture Models and
Short-Term Cepstral Parameters, IEEE Transactions on Biomedical Engineering, Vol.
53,1943-1953, (2006)
18. Tsanas A., Little M.A., McSharry P.E., Spielman J., Ramig L.O.: Novel speech signal processing algorithms for high-accuracy classification of Parkinson‟s disease, IEEE Transactions on Biomedical Engineering, Vol. 59, pp. 1264-1271, (2012)
19. Fraile R., Saenz-Lechon N., Godino-Llorente J.I., Osma-Ruiz V., Fredouille C.: Automatic
detection of laryngeal pathologies in records of sustained vowels by means of melfrequency cepstral coefficient parameters and differentiation of patients by sex, Folia Phoniatrica et Logopaedica, Vol. 61, pp. 146-152, (2009)
20. Hastie T., Tibshirani R., Friedman J.: The elements of statistical learning: data mining, inference, and prediction, Springer, 2nd ed., (2009)
21. Guyon I., Gunn S., Nikravesh M., Zadeh L.A. (Eds.): Feature Extraction: Foundations
and Applications, Springer, (2006)
22. Gilad-Bachrach R., Navot A., Tishby N.: Margin based feature selection - theory and algorithms, International Conference on Machine learning (ICML), pp. 43-50, (2004)
23. Breiman L.: Random forests, Machine learning, Vol. 45, pp. 5-32, (2001)
24. Gomez-Vilda P., Fernandez-Baillo R., Rodellar V., Nieto Lluis V., Alvarez-Marquina A.
Mazaira-Fernandez L., Martinez-Olalla R., Godino-Llorente J.I..: Glottal source biometrical signature for voice pathology detection, Speech Communication, Vol. 51, pp. 759781, (2009)
25. Sapir S., Ramig L., Spielman J., Fox C.: Formant Centralization Ratio (FCR): A proposal
for a new acoustic measure of dysarthric speech, Journal of Speech Language and Hearing
Research, Vol. 53, pp. 114-25, (2010)
12
ISBN: 84-695-8101-5
Monitoring Treatment of Vocal Fold Paralysis by
Biomechanical Analysis of Voice
Pedro Gómez Vilda1, Ana Martínez de Arellano2, Víctor Nieto Lluis1, Victoria
Rodellar-Biarge1, Agustín Álvarez Marquina1, Luis M. Mazaira Fernández1
1
NeuVox Laboratory, Center for Biomedical Technology, Universidad Politécnica de Madrid,
Campus de Montegancedo, s/n, 28223 Pozuelo de Alarcón, Madrid, Spain
2
Phoniatrician, Avda. Navas de Tolosa, 25-1ºB, 31007 Pamplona, Spain
e-mail: [email protected]; [email protected]
Abstract. A case study of vocal fold paralysis treatment is described with the
help of the voice quality analysis application BioMet®Phon. The case
corresponds to a description of a 40-year old female patient who was diagnosed
of vocal fold paralysis following a cardio-pulmonar intervention which required
intubation for 8 days and posterior tracheotomy for 15 days. The patient
presented breathy and asthenic phonation, and dysphagia. Six main
examinations were conducted during a full year period that the treatment lasted
consisting in periodic reviews including video-endostroboscopy, voice analysis
and breathing function monitoring. The phoniatrician treatment included 20
sessions of vocal rehabilitation, followed by an intracordal infiltration with
Radiesse 8 months after the rehabilitation treatment started followed by 6
sessions of rehabilitation more. The videondoscopy and the voicing quality
analysis refer a substantial improvement in the vocal function with recovery in
all the measures estimated (jitter, shimmer, mucosal wave contents, glottal
closure, harmonic contents and biomechanical function analysis). The paper
refers the procedure followed and the results obtained by comparing the
longitudinal progression of the treatment, illustrating the utility of voice quality
analysis tools in speech therapy.
Keywords: vocal fold modeling, singing performance, voice production, vocal
effort.
1 Introduction
Voice pathologies are affecting more and more to a population making from speech,
singing and phonation an essential part of personal career, as actors, anchormen,
singers, professors, public servants, etc. The loss of voice quality is also a severe curb
to self-esteem even for common people. The treatments to correct and restore voice
after larynx surgery, secondary effects of iatrogenic etiology, or even after mechanical
or cardio-vascular incidents, are of most importance for speech therapists. Therefore
the voice rehabilitation process has become a most important part of the therapeutic
treatment of voice pathologies. It consists in the initial exploration of the patient, the
prescription and following of a series of physical exercises affecting the phonation
ISBN: 84-695-8101-5
13
and respiratory organs, and a periodic or quasi-periodic inspection of voice quality
improvements. Sometimes other interventions as minor surgery are required. The
inspection purpose is to evaluate the patient and the process. The surgical and
physical interventions have a corrective character. The inspection process in itself has
been based mainly on the ability of the speech therapist to subjectively evaluate
certain aspects of patient’s voicing, as (timbre, loudness, mucosal wave presence,
glottal closure, roughness, breathiness, grade of dysphonia, etc.), and produce a
graduation on a specific scale [1] for further use in comparing subsequent inspections
of patient’s voice production separated some weeks or even months. This
methodology is prone to statistical dispersion due to its strong dependency on the
specific circumstances affecting the speech therapist in the precise evaluation process
(stress, rush, awareness, etc.). The work presented here is an exploratory study
conducted to show the possibilities of using advanced signal processing tools to
extract important biomechanical information from the patient’s voicing, which may
provide objective indices to judge on the quality of voice and on the progress or
regress of corrective treatment and complementary rehabilitation techniques. A
longitudinal case of a patient having lost the phonation function as a collateral effect
following a cardio-vascular major surgery has been studied using biomechanical
indices to objectively evaluate voice restoration. Indices estimated using the tool
BioMet®Phon [2] as pitch, jitter, shimmer, noise-to-harmonic or mucosal wave
ratios, as well as vocal fold biomechanics and glottal closure during vowel phonation
allow depicting a colourful and highly semantic diagram of the rehabilitative process.
The paper is organized as follows: A brief overview of the technique fundamentals is
given in section 2. A description of the treatment methodology is given in section 3.
In section 4 results obtained from the study case are presented, and their potential use
discussed. Conclusions are presented in section 5.
2 Study Background
The signal processing methodology of voice quality analysis used in the present study
is adaptive vocal tract inversion to produce an estimate of the glottal source. Accurate
spectral domain techniques [3] allow the estimation of a set of biomechanical
parameters associated to a 2-mass model of the vocal folds [4]. More details of the
study may be found in a twin paper in these same proceedings [5]. The template (a)
shows the physiological structure of the vocal folds as a body composed by the
musculis vocalis, and a cover or lamina propria and the visco-elastic tissues in
Reinke’s space and the ligaments. The biomechanical model in (b) shows that the
masses of the cover and Reinke’s space have been included in the cover masses Mcl
and Mcr for the left (l) and right (r) vocal folds. Masses Mbl and Mbr account for the
body and ligaments. It must be kept in mind that these masses are not distributed, but
dynamic point-like ones. Visco-elastic parameters Kcl and Kcr explain the relations
between tissue compression and acting forces on the cover and Reinke’s space.
Parameters Kbl and Kbr are the same regarding the body and ligaments. Although the
tool in itself produces a wide range of parameters (jitter, shimmer, NHR,
mucosal/aaw, glottal source cepstral, spectral profile, biomechanical, OQ, CQ, RQ,
14
ISBN: 84-695-8101-5
glottal gap defects [3], tremor) the biomechanical parameters are by far the most
interesting set to assess the dysphonic conditions both in modal voice as well as in
singing voice. Having such description in mind, the subset of parameters used in the
study is composed of the following correlates:
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Parameter 1: Absolute Pitch evaluated by cycle clipping.
Parameter 2: Relative jitter evaluated as the pitch difference between neighbor
phonation cycles divided by their arithmetic average.
Parameter 3: Relative shimmer evaluated as the area difference between neighbor
glottal source cycles divided by their arithmetic average.
Parameter 5: Noise to harmonic ratio evaluated as the ratio between the turbulent
and harmonic contents of the glottal source cepstrum.
Parameter 6: Ratio between the energy of the Mucosal to the average acoustic
wave as defined by Titze [7], and described in [6].
Parameter 38: Unbalance of dynamic body mass per each two neighbor cycles.
Parameter 40: Unbalance of body stiffness per each two neighbor cycles.
Parameter 41: Dynamic mass associated to the cover averaged on the left and
right folds (Mcl and Mcr).
Parameter 43: Stiffness parameter associated to the cover averaged on the left and
right folds (Kcl and Kcr).
Parameter 44: Unbalance of dynamic cover masses per each two neighbor cycles.
Parameter 46: Unbalance of cover stiffness per each two neighbor cycles.
Parameter 60: Contact gap defect.
Parameter 61: Adduction gap defect.
Parameter 62: Permanent gap defect.
The estimation of the above parameters is carried out by inverting a 2-mass model the
spectral domain as described in [6]. Examples of estimates from biomechanical
parameters from a balanced database of 50 male and 50 female normative speakers
collected and evaluated by endoscopy at Hospital Universitario Gregorio Marañón are
given [5]. The irregular behavior of biomechanical or gap defect parameters bears a
clear semantics on the presence of dysphonia in modal as well as in singing voice.
3 Study Case: Materials and Methods
The study case selected for analysis corresponds to a 40 years old female subject who
suffered a work accident with cardiac and lung compromises requiring a transplant of
aortic arch. She required 8-day intubation and posterior tracheotomy which was
maintained during 2 weeks under sedative care. When she started talking after her
stay in the ICU her voice was very airy and asthenic. Another associate symptom was
dysphagia to liquid which improved shortly after. The rehabilitative process required
a series of inspections and actions to be carried out being described in Table 1.
ISBN: 84-695-8101-5
15
16
Date
2010.09.14
(pre)
Inspection
Videostroboscopy,
spirometry,
vowel
utterance
recording.
2010.11.02
(post1)
Videostroboscopy,
spirometry,
vowel
utterance
recording.
2011.02.22
(post2)
Videostroboscopy,
spirometry,
vowel
utterance
recording.
2011.05.03
(post3)
Videostroboscopy,
spirometry,
vowel
utterance
recording.
2011.06.21
(post4)
Videostroboscopy,
spirometry,
vowel
utterance
recording.
Table 1. Study case treatment description
Treatment
Observations
Rehabilitation:
Convex left vocal fold ridge; strong
8 sessions of longitudinal
hiatus;
motionless
left
postural, waist, arytenoid; small mucosal wave; estimated
shoulder
and pitch: C2 (138 Hz); frequency span C2-G3
neck exercises, (138-392 Hz); loudness span: 55-90 dB;
blow
control, GRBAS: voiceless, rough (1), breathy (3),
muscle toning.
strain
(1);
impression:
voiceless,
hypophonic, no glottal clap; air capacity:
1800 cm3; espiration time: 34 s; phonation
time: 3 s; airflow: 600 cm3/s.
Rehabilitation:
Slightly convex left vocal fold ridge;
8 sessions of important but reduced longitudinal hiatus;
postural, waist, motionless left arytenoid; little more
shoulder
and mucosal wave; estimated pitch: E2 (165 Hz);
neck exercises, frequency span: E2-E4 (165-659 Hz);
blow
control, loudness span: 55-100 dB; GRBAS: rough
muscle toning.
(1), breathy (2), strain; impression:
voiceless, monotonous, no glottal clap; air
capacity: 2400 cm3; espiration time: 25 s;
phonation time: 3 s; airflow: 800 cm3/s.
Rehabilitation:
Slightly convex left vocal fold ridge;
4 sessions of reduced longitudinal hiatus; motionless left
postural, waist, arytenoid; asymmetric and arrhythmic
shoulder
and mucosal wave; estimated pitch: F2 (175 Hz);
neck exercises, frequency span: C2-E4 (138-659 Hz);
blow
control, loudness span: 55-100 dB; GRBAS: grade
muscle toning.
(3-4); rough (2); breathy (2); strain; no
glottal clap; air capacity: 2700 cm3;
espiration time: 35 s; phonation time: 5 s;
airflow: 625 cm3/s.
Treatment:
Sligthly convex left vocal fold ridge; further
intra-cord shot reduced longitudinal hiatus; motionless left
of Radiesse
arytenoid; asymmetric and arrhythmic
mucosal wave; estimated pitch: E2 (165 Hz);
frequency span: C2-E4 (138-659 Hz);
loudness span: 55-100 dB; GRBAS: rough
(2); breathy (2); strain; no glottal clap; air
Rehabilitation:
Reports dyspnea during physical exercise;
6 sessions of straight reddish left vocal fold rigde; full
postural, waist, glottal closure; motionless left arytenoid; no
shoulder
and mucosal wave in left fold; estimated pitch:
neck exercises, E2 (165 Hz); C2-C4 (138-523 Hz); loudness
blow
control, span: 55-100 dB; GRBAS: grade (2); rough
muscle toning.
(1), breathy (1), strain; no glottal clap; air
ISBN: 84-695-8101-5
Date
2011.09.05
(post5)
Inspection
Videostroboscopy,
spirometry,
vowel
utterance
recording.
Treatment
Observations
Reports less dyspnea during physical
exercise; full glottal closure although short
contact phase, minimal longitudinal hiatus;
motionless left arytenoid; small mucosal
wave in left fold; estimated pitch: F2 (175
Hz); frequency span: D2-E4 (147-659 Hz);
loudness span: 53-104 dB; GRBAS: grade
(2), rough (1), breathy (2); no glottal clap;
air capacity: 2800 cm3; espiration time: 34 s;
Voice recordings were maintained vowel /a/ for as long as the patient could sustain
phonation at 44100 Hz and 16 bits using a condenser table-supported Shure
microphone and a SoundBlaster external sound card in the practitioner’s office.
Results of the longitudinal analysis of the recordings using BioMet®Phon are given
in the next section.
4 Results and Discussion
The analysis consisted in estimating the glottal source from voice after vocal tract
inversion. The power spectral density of the voice signal and the glottal source were
estimated subsequently. The results are shown in the set of templates in Fig. 1 to Fig.
6. In general it may be seen that the process of rehabilitation is able by itself of
restoring the glottal source, from a very irregular asymmetric cycle (Fig. 1) to a more
stable phonation although showing a large amount of inter-harmonics (Fig. 4). The
shot of Radiesse directly in the left vocal fold is responsible of an almost complete
restoration of the glottal source Liljencrants-Fant pattern [9], visible in Fig. 5, and
especially in Fig. 6, these last figures showing a better display of the harmonic
structure of voice, which is the last guarantee of timbre restoration.
Fig. 1 Evaluation dated 14.09.2010 (pre). Rough, asthenic and airy voicing. Top left:
prototype glottal cycle, showing strong irregular openings and closings. Bottom left: neighbor
irregular patterns showing strong asymmetric vibration. Top right: Power spectral density of
voice. Formants signaled by turbulent noise. Bottom right: Power spectral density of the glottal
source. Poor harmonic structure.
ISBN: 84-695-8101-5
17
Fig. 2 Evaluation dated 02.11.2010 (post1). Asthenic and airy voicing. Top left: prototype
glottal cycle, showing turbulent glottal source. Bottom left: more regular neighbor patterns
showing airy but less asymmetric vibration. Top right: Power spectral density of voice.
Formants signaled by turbulent noise. Bottom right: Power spectral density of the glottal
source. A very incipient harmonic structure is present.
Fig. 3 Evaluation dated 22.02.2011 (post2). Irregular cyclical voice pattern. Top left:
prototype glottal cycle, showing reverted glottal L-F cycle. Bottom left: neighbor patterns
showing low cyclical reverted patterns. Top right: Power spectral density of voice. Formants
signaled by harmonic structure. Bottom right: Power spectral density of the glottal source. A
well established harmonic structure is found up to 1800 Hz. Harmonic phonation is restored.
Fig. 4 Evaluation dated 03.05.2011 (post3). L-F cycle is restored. Top left: prototype glottal
cycle, showing an adduction gap defect and short open phase compatible with vocal fold
edema. Bottom left: more regular neighbor patterns. Top right: Power spectral density of voice.
18
ISBN: 84-695-8101-5
Spectrum indicates the presence of strong inter-harmonics. Bottom right: Power spectral
density of the glottal source. The harmonic structure is instable showing inter-harmonics.
Fig. 5 Evaluation dated 08.06.2011 (post4). L-F cycle shows unbalance to the return phase.
Top left: prototype glottal cycle, showing a better and fast return phase, but a contact gap
defect. Bottom left: regular neighbor patterns. Top right: Power spectral density of voice.
Spectrum indicates a clear expansion of the harmonic spectrum to 2500 Hz. Bottom right:
Power spectral density of the glottal source. The harmonic structure is well established.
Fig. 6 Evaluation dated 05.09.2011 (post5). Better contact phase with some turbulence. Top
left: prototype glottal cycle, showing a good return phase, the contact defect has been corrected.
Bottom left: very regular neighbor patterns. Top right: Power spectral density of voice.
Spectrum indicates an expansion of the harmonic spectrum to 3000 Hz but with a defect around
2200 Hz. Bottom right: Power spectral density of the glottal source. The harmonic structure is
well established but there is still presence of turbulent noise.
The restoration process may also be observed in the behaviour of glottal source
correlates: four perturbation parameters (jitter, shimmer, NHR, mucosal/aaw), four
biomechanical ones, their unbalances, the contact, adduction and permanent gap
defects, and pitch (totaling 16 estimates) evaluated for each recording taken at the 6
inspection sections given in Fig. 4. The parameters have been normalized to their
respective means from the general normative database of 50 female subjects already
mentioned [5]. It may be noticed that some parameters show almost no influence with
the tone change, as the Cover Mass (41), Cover Stiffness (43), Contact Gap Defect
(60) or Permanent Gap Defect (62) whereas others as the Body Mass Unbalance (38)
or Body Stiffness Unbalance (40) reflect important changes.
ISBN: 84-695-8101-5
19
Fig. 7 Estimates of pitch and 12 perturbation and biomechanical parameters on the tonal span.
Some of these parameters are summarized as well in Table 2. As it may be seen
Absolute Pitch (1) values follow the estimation of the practitioner given in Table 1,
except in the pre and post3 cases. The pre estimation of pitch by BioMet®Phon may
not be very accurate as the irregularity of the phonation pattern suggests that different
estimates for pitch could be produced, the strongest peak in the power spectral density
being possibly in better agreement with the practitioner’s estimate. The post3
disagreement may be attributed to a subjective estimation by the practitioner.
Table 2. Comparing voice quality parameters from successive inspections
Shimmer Body Mass Unb. Body Stiff. Unb.
Add.
Inspection Pitch (Hz) Jitter (%)
(%)
(mean, %)
(mean, %)
Gap (%)
pre
74.08
34.50
35.20
88.12
113.05
54.21
post1
157.63
4.75
12.74
8.50
17.57
28.34
post2
177.10
3.13
7.93
6.87
13.08
45.95
post3
193.29
8.19
12.34
51.56
67.00
15.29
post4
157.08
4.82
3.77
12.19
21.13
24.34
post5
177.41
0.86
2.52
0.21
1.89
2.18
20
ISBN: 84-695-8101-5
Important facts to be stressed are the sensitivity of Body Mass Unbalance and Body
Stiffness Unbalance to assess the dysphonic condition of the patient, relative to
traditional perturbation parameters as jitter or shimmer. It may be seen that these
parameters are highly correlated among themselves but Body Mass Unbalance
amplifies much better the dysphonic condition, and attributes a semantic nature to the
etiology of dysphonia, as when large it expresses that one of the vocal folds is much
more involved in phonation than the other, and when lower it means that both vocal
folds contribute similarly in the phonation cycle. The adduction gap has also a very
important meaning, as it attributes dysphonic behaviour to the imperfections in the
closing phase resulting from asymmetric vocal fold dynamics, therefore defects are
not to be found during the contact phase or by a permanent air escape.
5 Conclusions
The results of the study unveil some of the reasons for deficient vocal fold behaviour
in the recovery process, tracking quite carefully the rehabilitation process in
producing objective measurements of the restoration of the phonation function
performance based on the biomechanical description of the vocal folds. Due to the
limitations of the present study based in the description of a single patient, statistical
significance cannot be claimed. Nevertheless some interesting important findings may
be remarked:
•
•
•
•
Specific unbalance parameters as those associated to the vocal fold body
mass and stiffness are of a crucial role in monitoring vocal fold paralysis.
The sensitivity of these parameters to monitor the subjective observations of
the laryngologist seems to be larger than classical perturbation parameters.
The semantic value of these parameters is much larger than traditional
perturbation parameters, as they not only monitor the phonation restoration
process better, they but contribute as well to identifying possible causes of
explanatory nature, associating asymmetry to vocal fold body or cover.
Specific relevance should be attributed to glottal gap defects, with special
emphasis in the adduction defect in this case.
Many other estimates can be obtained and included in a biomechanical study of
singing voice, such as the distribution of the harmonic/noise factors, the open, close
and return quotients, or the parameters of tremor and vibrato [8]. These would be
especially relevant to investigate and characterize neurological disease leaving
correlates in phonation. The next steps to be covered are to extend the methodology to
a large database of organic pathologies to produce and test etiologic assessment and
validation.
Acknowledgments. This work is being funded by grants TEC2009-14123-C04-03
and TEC2012-38630-C04-04 from Plan Nacional de I+D+i, Ministry of Economic
Affairs and Competitiveness of Spain.
ISBN: 84-695-8101-5
21
References
1. Yamauchi, E. J., Imaizumi, S., Maruyama, H., & Haji, T. (2010). Perceptual evaluation of
pathological voice quality: A comparative analysis between the RASATI and GRBASI
scales. Logopedics Phoniatrics Vocology, 35(3), 121-128.
2. Gómez, P., Rodellar, V., Nieto, V., Martínez, R., Álvarez, A., Scola, B., Ramírez, C.,
Poletti, D., and Fernández, M.: BioMet®Phon: A System to Monitor Phonation Quality in
the Clinics. Proc. eTELEMED 2013: The Fifth Int. Conf. on e-Health, Telemedicine and
Social Medicine, Nice, France, 2013, 253-258.
3. Gómez, P., Nieto, V., Rodellar, V., Martínez, R., Muñoz, C., Álvarez, A., Mazaira, L. M.,
Scola, B., Ramírez, C. and Poletti, D.: Wavelet Description of the Glottal Gap. Proc. of the
18th DSP Int. Conf., Santorini, July 1-3, 2013 (to appear).
4. Berry, D. A., “Modal and nonmodal phonation”, J. Phonetics, (29) 2001, pp. 431-450.
5. Gómez, P., Belmonte, E., Nieto, V., Rodellar, V.: Vocal Fold Biomechanical Analysis of
the Singing Voice. Proc. of the 1st Multidisciplinary Conference of Users of Voice, Speech
and Singing (JVHV 2013). Las Palmas de Gran Canaria, 27-28 June, 2013.
6. Gómez, P., Fernández, R., Rodellar, V., Nieto, V., Álvarez, A., Mazaira, L. M., Martínez,
R, and Godino, J. I., “Glottal Source Biometrical Signature for Voice Pathology Detection”,
Speech Comm., (51) 2009, pp. 759-781.
7. Titze, I. R. Summary Statement. Workshop on Acoustic Voice Analysis, National Center
for Voice and Speech (1994).
8. Gómez-Vilda, P., Rodellar-Biarge, V., Nieto-Lluis, V., Muñoz-Mulas, C., MazairaFernández, L. M., Ramírez-Calvo, C., Fernández-Fernández, M. and Toribio-Díaz, E.:
Neurological Disease Detection and Monotoring from Voice Production. LNAI 7015
(2011) 1-8.
9. Fant, G., Liljencrants, J. and Lin, Q.: A four-parameter model of glottal flow, STL-QSPR 4
(1985) 1-13. Reprinted in: Speech Acoustics and Phonetics: Selected Writings, G. Fant,
Kluwer Academic Publishers, Dordrecht (2004) 95-108.
22
ISBN: 84-695-8101-5
Identificación de género para la
detección automática de patologı́as
Jorge Andrés Gómez Garcı́a2 , Juan Ignacio Godino Llorente2 , and Germán
Castellanos Domı́nguez1
1
Grupo de Control y Procesamiento Digital de Señales. Universidad Nacional de
Colombia Km. 7 vı́a al Magdalena, Manizales, Colombia
2
Grupo de Bioingenierı́a y Optoelectrónica (ByO). Universidad Politécnica de
Madrid. Km. 7 Ctra. de Valencia, 28031, Madrid, Spain.
Resumen La detección automática de patologı́as utilizando señales de
voz ha recibido recientemente gran atención, debido a las ventajas que
presenta en comparación con sistemas tradicionales de detección, tales
como la no invasividad y el bajo coste de implementación. Sin embargo, la eficacia de estos sistemas puede verse comprometida debido
a la gran variabilidad presente en la voz, siendo la debida a diferencias
entre géneros, especialmente problemática. Para hacer frente a ello, una
estratificación por género puede ser un método razonable para ajustar
los detectores de acuerdo a las caracterı́sticas especı́ficas de cada grupo
de análisis. Con esto en mente, el presente trabajo estudia la eficacia
de un sistema de reconocimiento automático de patologı́as dependiente
de género, y que emplea un detector de género antes de la detección de
patologı́as. La metodologı́a está basada en la caracterización por medio
de coeficientes cepstrales en frecuencia Mel y modelos de mezclas de
gaussianas para la clasificación. Adicionalmente el análisis se hace directamente sobre la voz, y sobre la descomposición de la voz en sus componentes glotales y su modelo del tracto vocal, tras aplicar filtrado inverso.
Los resultados obtenidos sugieren que la metodologı́a de estratificación
por género, puede mejorar los aciertos de clasificación comparado a un
sistema tradicional que no toma en cuenta esta información por género.
1
Introduction
La detección automática de patologı́as de voz permite una evaluación objetiva de
ciertos trastornos, reduciendo el tiempo de evaluación y mejorando el diagnóstico
clı́nico y el tratamiento dado a cada paciente [1]. Los enfoques tradicionales emplean caracterı́sticas lineales [2] o no lineales [3] para discriminar entre voces
normales y patológicas. Sin embargo, las diferencias entre voces masculinas y femeninas debido a factores fisiológicos, acústicos o psicofı́sicos [4] pueden alterar
el funcionamiento de los sistemas de detección automática. Esto ha sido evidenciado por ejemplo en [5], donde el género fue relevante para evaluar la presencia de
patologı́as ları́ngeas en grabaciones de vocales sostenidas. Con estos precedentes,
ISBN: 84-695-8101-5
23
podrı́a ser razonable el diseñar sistemas de reconocimiento que hagan frente, de
manera automática, a estas diferencias de voz entre género separadamente.
Por otra parte, la onda glotal constituye la fuente de excitación de la voz, y es
el origen de muchas caracterı́sticas vocales tales como la frecuencia fundamental,
y varias caracterı́sticas de calidad de voz [6]. Además, se han encontrado diferencias estadı́sticas en parámetros de la forma de onda glotal, comparando géneros
femenino y masculino [4]. Por tanto, el estudio de las componentes glotales podrı́a
ser de interés en labores de detección de género y detección automática de patologı́as de voz [7]. Tı́picamente estas componentes glotales son estimadas por
medio de técnicas de filtrado inverso, que descomponen la señal de voz en sus
contribuciones glotales y su modelo del tracto vocal.
Este trabajo preliminar pretende analizar la utilidad de un sistema de detección automática de patologı́as dependiente de género. La metodologı́a propuesta utilizará filtrado inverso para la extracción de componentes glotales y el
modelado del tracto vocal, a partir de señales de voz. Además empleará coeficientes cepstrales en frecuencia Mel (Mel Frequency Cepstral Coefficients MFCC) como caracterı́sticas y modelos de mezcla de gaussianas (Gaussian Mixture Models - GMM) como clasificadores. La metodologı́a se compone de una
fase de identificación de género, que alimenta a dos detectores de patologı́a entrenados para cada género. Los experimentos se realizarán sobre grabaciones de
vocales sostenidas, de la base de datos de trastornos de voz de la Universidad
de Saarbrücken.
2
2.1
Marco Teórico
Extracción de la onda glotal a partir de la señal de voz
Los métodos más comúnmente empleados para la extracción de la onda glotal
a partir de señales de voz, se basan en el principio fuente-filtro de Fant [8],
que establece que la onda de flujo glotal, es filtrado por el tracto vocal, siendo
convertida en una onda de flujo de aire en la boca. Posteriormente, este flujo de
aire se convierte en una onda de presión en los labios, y se propaga como una señal
de voz. Esto lleva a pensar que el flujo glotal y el tracto vocal son linealmente
separables [6]. Sin embargo, se hace necesario un proceso inverso al que produce
la voz, denominado filtrado inverso, para hallar el flujo glotal. Un algoritmo de
filtrado inverso que ha sido exitoso es el filtrado inverso iterativo propuesto en
[9]. Tal procedimiento se muestra en la Fig. 1 y se explica a continuación[9]:
1. Usando codificación predictiva lineal (Linear Predictive Coding - LPC) se
estima el efecto de la componente glotal sobre el espectro de voz.
2. La contribución glotal estimada se elimina mediante filtrado inverso.
3. Una primera estimación del tracto vocal se calcula mediante la aplicación de
análisis LPC a la salida del paso anterior.
4. El efecto del tracto vocal se elimina mediante filtrado inverso.
5. La primera estimación de la onda glotal se obtiene cancelando el efecto de
la radiación de labios mediante integración.
24
ISBN: 84-695-8101-5
Señal
1)LPC
(Orden 1)
2)Filtrado
inverso
3)Análisis
LPC
4)Filtrado
inverso
5)Integración
6)Análisis
LPC
7)Filtrado
inverso
8)Análisis
LPC
9)Filtrado
inverso
10)Integración
Flujo Glotal
Fig. 1: Esquema del algoritmo de filtrado inverso iterativo para la extracción de
componentes glotales a partir de señales de voz
6. Un nuevo estimado del efecto de la fuente glotal sobre el espectro de voz es
calculado.
7. La contribución glotal estimada es eliminada mediante filtrado inverso.
8. El modelo final del tracto vocal es obtenido al aplicar análisis LPC a la salida
del paso anterior.
9. El efecto del tracto vocal es eliminado de la señal de voz de entrada
10. El resultado final, las componentes glotales, son obtenidas al cancelar la
radiación en los labios por medio de integración.
3
3.1
Marco Experimental
Base de datos
La base de datos de voz Saarbruecken [10] contiene registros de voz grabados a 50
kHz, de más de 2000 hablantes alemanes, con patologı́as vocales y en condición de
normalidad. Las grabaciones contienen la fonación sostenida de las vocales /i/,
/a/, e /u/ producidas en tono normal, alto, bajo, y en un patrón de aumentodescenso de tono. Sin embargo, para este trabajo solo se considera la vocal /a/ en
tono normal. De este subconjunto de grabaciones, un experto médico selecciona
los mejores registros, escogiendo aquellos que no presenten ruido de fondo, que
tengan un buen rango dinámico, y que se encuentren dentro de un adecuado
rango de edades. Después de la selección, se tienen 737 grabaciones de pacientes
masculinos (229 normales y 508 patológicos) y 1011 pacientes femeninos (396
normales y 615 patológicos).
ISBN: 84-695-8101-5
25
3.2
Metodologı́a
La Fig. 2 muestra el esquema general del detector de patologı́as dependiente de
género propuesto en este documento.
Femenino
Señal
Detector
género
Masculino
Detector
patologı́as
femenino
Detector
patologı́as
masculino
Normal
Patológico
Normal
Patológico
Fig. 2: Esquema del detector de patologı́as dependiente de género
El objeto de la metodologı́a es la estratificación del problema según el género.
En este sentido la señal de voz pasa por el detector de género donde se clasificará
según su género (masculino/femenino). Dependiendo de la decisión tomada,
pasará a un detector de patologı́as femenino o masculino que tomará una decisión en si el registro es normal o patológico. Del esquema se definen por tanto
dos subsistemas:
1. El detector de género.
2. Los detectores de patologı́a (masculino y femenino).
Dado que ambos subsistemas son diseñados de la misma manera, la Fig. 3
ilustra su funcionamiento de un modo más explı́cito, mientras que cada una de
sus etapas es presentada a continuación:
Descomposición por filtrado inverso
Tracto
vocal
Señal
Preprocesado
Flujo
glotal
Caracterización
Entrenamiento
y validación
Fig. 3: Esquema metodológico de los detectores (tanto de género como de patologı́as) utilizados en el documento
Preprocesado Inicialmente, todas las señales de voz son remuestreadas a 25kHz.
Además, para conservar constante el rango dinámico, se aplica una normalización
[-1,1]. Luego, se utiliza análisis de tiempo corto con ventanas Hamming de 40ms,
traslapadas al 50%[2], de tal manera que la señal de voz se descomponga en
tramas.
Descomposición por filtrado inverso A partir de las tramas de voz resultantes, las componentes glotales y el modelo de tracto vocal son extraı́dos a
través de filtrado inverso, cuyos parámetros son elegidos de la siguiente manera:
26
ISBN: 84-695-8101-5
(Fs /1000) + 2 coeficientes para modelar el tracto vocal y 4 coeficientes para el
modelado de la componente glotal, donde Fs es la frecuencia de muestreo de la
grabación de voz.
Caracterización La onda glotal y la señal de voz son entradas de la etapa
de caracterización. Ambas señales son parametrizadas por medio de coeficientes
MFCC, variando su número en el intervalo [12 : 2 : 22]. Adicionalmente, el
modelo del tracto vocal se considera un vector de caracterı́sticas por si mismo.
Esta parametrización se lleva a cabo con ambos subsistemas (detector de género
y de patologı́as), definiendo también los siguientes tipos de experimentos:
– Parametrización de la señal de voz.
– Fusión de los parámetros extraı́dos de la componente glotal y del modelo del
tracto vocal.
– Fusión de los parámetros extraı́dos de la voz, de la componente glotal y del
modelo del tracto vocal.
Entrenamiento y validación Para medir el desempeño de la metodologı́a, se
emplea una estrategia de validación cruzada 7-fold, y se calcula el acierto
p en clasificación, α, en un intervalo de confianza q, al 95%, tal que q = ±1.96 α(1 − α)/N ,
donde N es el número total de patrones clasificados. Adicionalmente, son empleadas la especificidad (sp ), sensitividad (se ), curvas de la caracterı́stica operativa del receptor (Receiver-operating Characteristic Curves-ROC), y el área bajo
curvas ROC (AUC). Para labores de clasificación, se emplean GMM que son sintonizados separadamente para labores de detección de género y de detección de
patologı́as dependiente de género. Para el detector de género el número de gaussianas del GMM se varı́a de la siguiente manera: {3, 5, 7}. Del mismo modo, en
el detector de patologı́as dependiente de género se varı́a el número de gaussianas
de la siguiente manera: {14, 21, 28, 35, 42, 48}
4
Resultados
Los resultados del detector de género, obtenidos variando el número de gaussianas, se muestran en la Fig. 4b, mientras que la curva ROC correspondiente al
número de gaussianas que proporciona la mayor precisión se muestra en la Fig.
4a. El mejor punto de operación del detector de género se encuentra al utilizar
la fusión de 16 MFCC extraı́dos de la señal de voz con 22 MFCC extraı́dos de la
señal glotal, y un clasificador GMM con 7 gaussianas. Este punto de operación
será el que se utilizará para la continuación del experimento en el sistema de
detección de patologı́as dependiente de género.
Ahora bien, los resultados al variar el número de gaussianas, para el detector
de patologı́as de género masculino y femenino se muestran en las Fig. 5b y Fig.
5d respectivamente. Igualmente, las curvas ROC para las configuraciones que
ofrecen la mayor precisión se muestran en las Fig. 5a y Fig. 5c, para los modelos
masculinos y femeninos respectivamente.
ISBN: 84-695-8101-5
27
1
100
95
Accuraccy
True positive rate
0.8
0.6
0.4
0
0
85
AUC: 0.98
AUC: 0.98
AUC: 0.98
0.2
0.2
0.4
0.6
0.8
False positive rate
90
1
80
3
MFCC 16
MFCC 16+MFCC 20(Glottal)
5
Number of Gaussians
7
(a) Curva ROC del detector de(b) Acierto en clasificación del
género
detector de género
Fig. 4: Mejores aciertos y curvas ROC del detector de género.
Adicionalmente, y por motivos de comparación, se presentan en la Fig. 6
los resultados del detector de patologı́as sin tener en cuenta las diferencias de
género. Este será el sistema de lı́nea base.
5
Discusiones y conclusiones
Los resultados del detector de género, evidencian un buen desempeño en clasificación al usar las caracterı́sticas MFCC extraı́das solamente de la señal de voz.
Sin embargo, al fusionar los 16 MFCC extraı́dos de la señal de voz con los 22
MFCC extraı́dos de las componentes glotales se obtienen un sutil incremento en
clasificación (α = 94 ± 1.1%, y AU C = 0.98) tal como se muestra en la Fig. 4.
Por otra parte, en el sistema de detección de patologı́as para el género femenino, el mejor rendimiento en términos de AUC, se obtiene al utilizar 14
MFCC extraı́dos de la señal de voz y 14 MFCC extraı́dos de las componentes
glotales (α = 86.3 ± 0.9%, AU C = 0.80), tal como lo evidencia la Fig.5. Sin embargo, en términos absolutos de clasificación, los mejores resultados son dados
por los 20 MFCC extraı́dos de la voz.
De la misma manera, los mejores resultados, en términos de AUC, del detector de patologı́as para el género masculino (α = 89.45 ± 0.9%, AU C = 0.80), se
obtienen usando 18 MFCC de la señal de voz y 14 MFCC de las componentes
glotales. Sin embargo se presenta el mismo fenómeno que en el género femenino,
y son los 18 MFCC extraı́dos de la señal de voz los que proveen el mayor acierto
absoluto en clasificación.
Para el sistema de lı́nea base, el mejor rendimiento en términos de AUC
(85.23 ± 0.6, AU C = 0.8) fue obtenido al fusionar 22 MFCC extraı́dos de la
señal de voz y 16 MFCC extraı́dos de las componentes glotales. Igual a los casos
de análisis anteriores el mejor desempeño en términos de acierto absoluto se
obtiene solamente utilizando 20 MFCC extraı́dos de la voz.
La Tabla 1 resume los mejores resultados, en términos de AUC, de los experimentos realizados.
28
ISBN: 84-695-8101-5
1
100
95
0.6
Accuracy
True positive rate
0.8
MFCC 18
MFCC 20
MFCC 22
0.4
AUC: 0.77
AUC: 0.76
AUC: 0.76
AUC: 0.80
0.2
0
0
0.2
0.4
0.6
0.8
False positive rate
90
85
80
14
1
21
28
35
42
Number of Gaussians
48
(a) Curva ROC del detector de(b) Acierto del detector de
patologı́as para género masculino patologı́as para género masculino
1
100
MFCC 18
MFCC 20
MFCC 22
MFCC 14+MFCC 14 (Glottal)
95
Accuracy
True positive rate
0.8
0.6
AUC: 0.74
AUC: 0.72
AUC: 0.72
AUC: 0.80
0.4
0.2
0
0
0.2
0.4
0.6
0.8
False positive rate
90
85
1
80
14
21
28
35
42
Number of Gaussians
48
(c) Curva ROC del detector de(d) Acierto del detector de
patologı́as para género femenino
patologı́as para género femenino
Fig. 5: Desempeño del sistema de detección automático de patologı́as dependiente de género. Para el detector de patologı́as de género masculino, el acierto
se muestra en (b) y su correspondiente curva ROC (a). Similarmente, para el
detector de patologı́as de género femenino, el acierto se muestra en (d) y la curva
ROC en (c).
Tabla 1: Mejores resultados para el detector de patologı́as dependiente (masculino, femenino) e independiente de género (lı́nea base)
Sistema Conjunto de caracterı́sticas
Lı́nea base
Femenino
Masculino
ISBN: 84-695-8101-5
22(Voz) +16(Glotal)
14(Voz) +14(Glotal)
18(Voz) +14(Glotal)
α
AUC sp
se
85.23 ± 0.6 0.80 0.84 0.86
86.30 ± 0.9 0.80 0.87 0.83
89.45 ± 0.9 0.80 0.93 0.80
29
1
100
0.6
0.4
AUC: 0.76
AUC: 0.75
AUC: 0.75
AUC: 0.80
0.2
0
0
MFCC 16
MFCC 18
MFCC 20
95
Accuracy
True positive rate
0.8
0.2
0.4
0.6
0.8
False positive rate
90
85
1
(a) Curva ROC del sistema de lı́nea
base
80
14
21
28
35
42
48
Number of Gaussians
(b) Accuracy of baseline
Fig. 6: Acierto y curva ROC del detector de patologı́as independiente de género.
Sistema de lı́nea base.
Al comparar los resultados del sistema de detección automática de patologı́as
dependientes de género (Fig. 5), con el sistema de lı́nea base que no emplea
información por género (Fig. 6), se observa un leve incremento en rendimiento.
Esto es especialmente visible para el sistema de detección de patologı́as de género
masculino, donde mejorı́as de alrededor del 2%-3% en acierto de clasificación
fueron encontradas. Para el caso femenino las mejorı́as no fueron superiores al
1%. Un aspecto a resaltar, es que la descomposición de la señal de voz en sus
componentes glotales y de modelo de tracto vocal (y su posterior fusión con la
señal de voz cruda), no fue traducida siempre en un acierto en clasificación mayor
(aunque a veces si en un incremento en el AUC obtenido). Tal comportamiento
deberá ser estudiado más a fondo.
El presente trabajo ha investigado un detector automático de patologı́as dependiente de género. Se han utilizado señales de voz, ası́ como componentes
glotales y modelos del tracto vocal extraı́dos de la voz, extraı́dos usando filtrado
inverso iterativo. Adicionalmente, se han empleado coeficientes MFCC para la
caracterización, y GMM para la clasificación. Los experimentos se han llevado a
cabo en una base de datos de voz de transtornos de voz que contienen grabaciones
de vocales sostenidas.
En cuanto a la detección de género, el rendimiento logrado (hasta un 95%
en precisión) sugiere la utilidad del sistema propuesto para la identificación automática de género. En cuanto a la detección de patologı́as basadas en género
se han encontrado mejorı́as en acierto de clasificación en torno a 1% - 3% comparado al sistema que no han tomado en cuenta la información por género. Con
respecto a la descomposición de la señal de voz en sus componentes glotales o
de modelo del tracto vocal, no queda clara su ventaja respecto a la señal de voz
cruda, por lo que nueva experimentación es requerida. Se ha de resaltar también
que los resultados constituyen solamente una primera aproximación a la estratificación del problema por géneros, por lo que se deberá ampliar el número de
coeficientes MFCC, y el número de gaussianas del GMM, buscando los puntos de
30
ISBN: 84-695-8101-5
operación óptimos de cada problema bajo análisis. Además, la experimentación
con otras caracterı́sticas lineales y no lineales, ası́ como el análisis con técnicas
de extracción y selección permanecen como trabajo futuro.
Agradecimientos
Esta investigación se ha llevado a cabo gracias a: Ayudas para la realización
del doctorado (RR01/2011) de la Universidad Politécnica de Madrid, TEC200914123-C04 y TEC2012-38630-C04-01 del Ministerio de Educación de España.
References
1. J. I. Godino-Llorente, N. Sáenz-Lechón, V. Osma-Ruiz, S. Aguilera-Navarro, and
P. Gómez-Vilda, “An integrated tool for the diagnosis of voice disorders.” Medical
engineering & physics, vol. 28, no. 3, pp. 276–89, May 2006.
2. N. Sáenz-Lechón, J. Godino-Llorente, V. Osma-Ruiz, and P. Gómez-Vilda,
“Methodological issues in the development of automatic systems for voice pathology detection,” Biomedical Signal Processing and Control, vol. 1, no. 2, pp. 120–
128, 2006.
3. J. D. Arias-Londoño, J. I. Godino-Llorente, N. Sáenz-Lechón, V. Osma-Ruiz, and
G. Castellanos-Domı́nguez, “Automatic detection of pathological voices using complexity measures, noise parameters, and mel-cepstral coefficients.” IEEE transactions on bio-medical engineering, vol. 58, no. 2, pp. 370–9, Mar. 2011.
4. D. Childers and K. Wu, “Gender recognition from speech. part ii: Fine analysis,”
The Journal of the Acoustical society of America, vol. 90, p. 1841, 1991.
5. R. Fraile, N. Sáenz-Lechón, J. I. Godino-Llorente, V. Osma-Ruiz, and C. Fredouille, “Automatic detection of laryngeal pathologies in records of sustained vowels by means of mel-frequency cepstral coefficient parameters and differentiation of
patients by sex.” Folia phoniatrica et logopaedica, vol. 61, no. 3, pp. 146–52, 2009.
6. M. Airas, “TKK Aparat: an environment for voice inverse filtering and parameterization.” Logopedics, phoniatrics, vocology, vol. 33, no. 1, pp. 49–64, Jan. 2008.
7. J. Walker and P. Murphy, “A review of glottal waveform analysis,” Progress in
nonlinear speech processing, pp. 1–21, 2007.
8. G. Fant, J. Liljencrants, and Q. Lin, “A four-parameter model of glottal flow,”
STL-QPSR, vol. 4, no. 1985, pp. 1–13, 1985.
9. P. Alku, “Glottal wave analysis with Pitch Synchronous Iterative Adaptive Inverse
Filtering,” Speech Communication, vol. 11, no. 2-3, pp. 109–118, Jun. 1992.
10. “Saarbruecken
voice
database.”
[Online].
Available:
http://www.stimmdatenbank.coli.uni-saarland.de/index.php4
ISBN: 84-695-8101-5
31
Análisis de métodos de parametrización para la
simulación de un sistema de evaluación perceptual de
voces patológicas
Laureano Moro Velázquez (laureano.moro,@upm.es),
Juan Ignacio Godino Llorente ([email protected])
Universidad Politécnica de Madrid, EUIT de Telecomunicación, Ctra. de Valencia km. 7,
28031, Madrid
Resumen. Los procedimientos de evaluación de la calidad de la voz por parte
de un experto y basados en la valoración subjetiva de la percepción acústica están bastante extendidos. Entre ellos, el protocolo GRBAS es el más comúnmente utilizado en la rutina clínica. Sin embargo existen problemas asociados a este
tipo de estimaciones, como la necesidad de profesionales debidamente entrenados para su realización o la variabilidad inter-evaluador e intra-evaluador en los
juicios. Por estas razones se hace necesario el uso de parámetros objetivos que
permitan realizar una valoración de la calidad de la voz y la detección de diversas patologías. En este trabajo se compararla efectividad de diversas técnicas de
cálculo de parámetros representativos de la voz para su uso en la clasificación
automática de dos índices de la escala GRBAS: G y R. Algunos parámetros
analizados serán los coeficientes Mel-Frequency Cepstral Coefficients (MFCC),
las medidas de complejidad y las de ruido. Así mismo se introducirá un nuevo
conjunto de características extraídas del Espectro de Modulación (EM) denominadas Centroides del Espectro de Modulación (CEM). A lo largo de este documento se muestra cómo las características CEM proporcionan resultados similares a los de otras técnicas anteriormente utilizadas y propician en algún caso un
incremento en la efectividad de la clasificación cuando son combinados con
otros parámetros.
Palabras clave: Espectro de Modulación, Centroides, Mel-Frequency Cepstral
Coefficients, escala GRBAS, Support Vector Machines.
1
Introducción
1.1
Evaluación perceptual y análisis acústico
Debido a muy diversas causas, el aparato fonador de una persona puede no funcionar
correctamente o estar dañado, lo que en algunos casos interferiría en un proceso de
comunicación normal. Por estos motivos se hace necesaria la evaluación de las pato-
32
ISBN: 84-695-8101-5
logías de la voz al igual que su diagnóstico, para así poder aplicar un determinado
tratamiento.
El análisis acústico de la voz resulta ideal en la monitorización de la evolución de un
paciente tras diversos tratamientos. Esto es debido a la sencillez de obtención de la
señal y los recursos necesarios, generalmente asequibles desde puntos de vista económicos y de usabilidad.
Por otro lado, el análisis perceptual consiste en una evaluación de determinadas características de la voz por parte de un experto (foniatra u otorrinolaringólogo, por ejemplo). Se basa en la escucha de una vocal sostenida o de un fragmento de habla continua, tras lo cual se suele dictaminar un valor numérico relacionado con el grado de
perturbación existente en dicha voz. Una de las escalas más utilizada y extendida es la
escala GRBAS [1]. Esta se divide en cinco rasgos: G (grade), R (roughness), B
(breathiness), A (aesthenia) y S (strain). Cada uno de ellos puede tomar cuatro niveles, entre 0 y 3, en donde 0 corresponde a una voz normal, 1 a un ligero trastorno, 2 a
uno moderado y 3 a uno severo.
El problema del análisis perceptual de la calidad de la voz es su subjetividad y los
factores externos que lo influencian, como el estado de ánimo del evaluador, su entrenamiento previo, cansancio, estrés, su cultura, etc [2], [3]. Por eso se hace necesario
buscar un sistema automático de clasificación que sea capaz de emular el análisis
perceptual de un experto pero de una manera más objetiva y reproducible, reduciendo
la incertidumbre de las valoraciones realizadas.
1.2
Objetivos
El principal objetivo de este trabajo es analizar nuevos mecanismos de parametrización de las señales acústicas de la voz que permitan emular una valoración perceptual
de su calidad. Estos nuevos mecanismos podrían ser útiles como herramienta de apoyo en el diagnóstico y evaluación de patologías de la voz.
Para ello se utilizarán los centroides extraídos del Espectro de Modulación (EM), ya
utilizado en trabajos como [4], [5] para fines similares. Posteriormente se compararán
los resultados de eficiencia de clasificación con los de parámetros utilizados anteriormente por otros trabajos como son los coeficientes MFCC [5–8], medidas de complejidad [9], [10] y medidas de ruido [11], [12].
2
Metodología
Todos los registros de entrada son parametrizados de las cuatro formas indicadas
anteriormente. Adicionalmente se crean vectores de parámetros que fusionen los centroides del espectro de modulación (CEM) con el resto de características. Estos vectores entrenan un modelo SVM [13], [14] mediante la técnica de data suffling [15] para
realizar la validación cruzada. No se utilizan todas las tramas disponibles debido al
desbalance de clases existente, según se aprecia en la Tabla 2. Para cada entrenamiento se seleccionan aleatoriamente 600 tramas de cada clase. Para las clases más frecuentes se dispone de mayor número de locutores, por lo que al limitar el número de
ISBN: 84-695-8101-5
33
tramas, se espera obtener una mejor generalización para estas clases (normalmente 0 y
1) ya que existirán tramas de más locutores.
2.1
Parametrización basada en el Espectro de Modulación
El EM proporciona la información sobre la energía de las frecuencias moduladoras de
las portadoras de una señal, siendo una representación bidimensional sobre un eje
acústico y otro de modulación frecuencial. Este EM nos permite observar varias características de la voz de forma simultánea, como su naturaleza armónica, a la vez que
las modulaciones de la frecuencia fundamental y de alguno de estos armónicos.
El cálculo del EM se realiza mediante el paso de la señal por un banco de filtros implementado mediante sTFT (short-Time Fourier Transform), de cuyas salidas se detecta la amplitud y envolvente y se realiza un análisis frecuencial mediante sTFT [16].
Para el cálculo del espectro de modulación se utiliza la librería Modulation Toolbox
ver. 2.1 [17].
Este tipo de parametrización se utiliza en [4], [5] para la detección de voces patológicas, en [18–21] para la clasificación automática de algunas enfermedades y en [4]
para la obtención de parámetros objetivos que permitan cuantificar la calidad de la
voz.
Tras el cálculo del EM se debe extraer una determinada cantidad de información representativa de este para la etapa de clasificación. Se decide utilizar el cálculo de
centroides [22] como método de extracción de características del EM ya que además
de proporcionar un número reducido de datos, proporcionan una información muy
visual sobre las frecuencias en las que se distribuye la energía en el espectro.
2.2
Parametrización basada en Mel-Frequency Cepstral Coefficients (MFCC)
Estos coeficientes suelen ser utilizados en multitud de aplicaciones vinculadas con el
habla. Representan la energía distribuida en bandas sobre una escala frecuencial perceptual relacionada con el sistema auditivo humano denominada escala Mel [23]. De
este modo permiten identificar ciertos aspectos que tienen relación con la percepción
del habla, siendo altamente útiles en aplicaciones de reconocimiento de locutor o
detección de patologías.
Los coeficientes MFCC ya han sido utilizados en la clasificación de los rasgos
GRBAS en [6]. En este proyecto comprobaremos el efecto en la clasificación que
supone añadir los centroides del EM a estas características.
2.3
Parámetros de complejidad
Los parámetros de complejidad aportan información cuantitativa sobre la no linealidad en el funcionamiento de las cuerdas vocales y del aparato fonador en general. En
muchos casos resultan ser un buen indicador de la presencia de una determinada disfunción, lo cual ha sido objeto de estudio en [8], [24]. Este tipo de medidas han demostrado ser más eficaces en la detección y clasificación de voces patológicas con
importantes modulaciones y subarmónicos que las de jitter y shimmer [25].
34
ISBN: 84-695-8101-5
Los parámetros utilizados en este trabajo son: Largest Lyapunov Exponent (LLE)
[26], Correlation Dimension (CD) [27], Aproximate Entropy (AE) [28], [29], Sampled Entropy (SE) [30], Modified sampled entropy (MSE) [31], Gaussian Kernel
Aproximate Entropy (GKAE) [32], Fuzzy Entropy (FE) [33], Detrended Fluctuation
Analysis (DFA) [9] y Recurrence Period Density Entropy (RPDE) [34].
2.4
Parámetros de ruido
Debido a que en presencia de muchas patologías aparecen ciertas componentes no
armónicas en la señal de la voz, la medida de ruido es utilizada frecuentemente como
fuente de datos objetivos para caracterizar la calidad de la voz. Trabajos como [35–
37] utilizan estas medidas para detección de patologías.
Por lo tanto, como cuarto método de parametrización se utilizarán medidas de ruido
de la voz. Para cada trama se calcularán: Harmonics to Noise Ratio (HNR) [38],
Normaized Noise Energy (NNE) [12], Glottal to Noise Excitation Ratio (GNE) [39],
Voice Turbulence Index (VTI) [40], Soft Phonation Index (SPI) [40], Cepstrum based
Harmonics to Noise Ratio (CHNR) [41] y Noise to harmonics ratio (NHR) [42].
2.5
Base de datos
Partimos de la base de datos realizada en el Hospital Príncipe de Asturias de Alcalá de
Henares (PdA) de la que utilizaremos la grabación de la vocal /a/ sostenida de 76
voces normales y 185 patológicas. Todos los registros de audio son mono y tienen una
duración aproximada de 2s siendo registrados en las mismas condiciones y con el
mismo sistema de adquisición. En concreto, las grabaciones se realizaron con el sistema CLS 4300B de Kay Elemetrics, con frecuencia de muestreo de 50 kHz y 16 bits
de cuantificación si bien en este trabajo se realiza un submuestreo a 14 kHz. Para la
toma se utilizó un micrófono de condensador situado a 30 cm de la boca de los locutores y un ángulo de 50º sobre el plano horizontal. Todas las voces se captan en una
sala acústicamente aislada [43].
Cada uno de los registros de audio de esta base de datos ha sido etiquetado según la
escala GRBAS por el consenso de tres expertos en una única sesión. La Tabla 1
muestra la frecuencia de aparición de cada uno de los niveles de los rasgos G y R.
Frecuencia de aparición
Clase Rasgo G Rasgo R
0
80
83
1
117
102
2
61
71
3
3
5
Total
261
261
Tabla 1. Frecuencia de aparición de cada una de las clases
ISBN: 84-695-8101-5
35
Las edades de los locutores con voz normal oscilan entre los 13 y los 74 años siendo
la media 30,9 y la desviación típica 14,1. En el caso de las voces patológicas las edades oscilan entre los 9 y los 76 años, siendo la media de 38,1 y la desviación típica de
14,1. En la Tabla 2 se observan las distintas patologías presentes en el corpus utilizado.
Patología presente
Sulcus
Sulcus en estría
Quiste epidermoide
Adquiridas traumáticas iatrógenas sobre las cuerdas vocales
Laringitis crónica hiperplásica
Laringitis crónica hiperplásica con leucoplasia
Parálisis periféricas
Parálisis periféricas: Recurrente derecho
Parálisis periféricas: Recurrente izquierdo
Lesión de neurona motora superior
Alteraciones extrapiramidales
Nódulo bilateral
Pólipo pediculado
Edema de Reinke bilateral
Falta de cierre
Total
Número de casos
1
21
19
2
17
10
1
9
6
8
1
29
28
28
5
185
Tabla 2. Frecuencia de aparición de patologías en el corpus utilizado
3
Pruebas y resultados
Tras el pre-procesado de la base de datos de 261 registros de audio, se calculan los
centroides del EM para distintos valores de las variables de parametrización, obteniéndose los mejores resultados para una longitud de trama de 100 ms, solapamiento
del 50%, 26 centroides, 1024 líneas en el eje de frecuencia de modulación y 70 bandas acústicas. Igualmente, se parametrizan las tramas de 100 ms con solapamiento del
50% obteniéndose los valores de MFCC+Δ+ΔΔ (sobre 15 coeficientes), complejidad
y ruido. En la Tabla 4 se exponen los resultados eficiencia media de clasificación con
un modelo SVM para cada una de las parametrizaciones por separado y de la combinación de CEM con el resto.
36
ISBN: 84-695-8101-5
CEM
G
R
Niveles predichos
Niveles de entrada
0
1
2 3
0 12 10 0 2 16 7
1 0
27 5 0 7
20 3 0
2 0
11 6 1 2
16 3 0
3 0
1
0
0 0 1
MFCC+Δ+ΔΔ
Complejidad
G
G
R
2 3
1 8
24 2 1 6 23 1 0
2 3
9
6 0 0 16 3 2
3 1
0
0 0 0 0
1 0
0
MFCC+Δ+ΔΔ + CEM
R
0 14 8
2 3 0
1
0 21 3
2 3 0
2 3
0 0 13 9
2 0
1 8
20 7 0 8
18 4 0
2 1
8
9 0 1
11 9 0
3 0
0
0 1 0
0
1 0
0 1
2 3
2 0 15 6
3 0
1 10 23 2 0 12 12 6 0
2 2
9
7 0 3
8
9 1
3 0
1
0 0 0
1
0 0
0
R
1
2 3
2 3 0 1
2 3
0 8 16 0 0 6 17 1 0
1 4 31 0 0 6 23 1 0
2 0 12 6 0 0 16 3 2
3 0 0
1 0 0 0
1 0
Ruido + CEM
G
R
Niveles predichos
Niveles predichos
1
R
Niveles predichos
1
G
Niveles de entrada
1
G
Complejidad + CEM
Niveles predichos
0
R
Niveles de entrada
2 3 0 1
0 12 12 0 0 6 17 1 0
G
Ruido
1
2 3
0 14 10 0 0 13 10 1 0
1 2
29 4 0 8
18 4 0
2 0
8
9 1 2
10 9 0
3 0
0
1 0 0
0
1 0
0
Niveles de entrada
1
0 0
Niveles predichos
Niveles de entrada
0
Niveles de entrada
2 3 0
1 3
Niveles predichos
Niveles de entrada
1
1
2 3 0
1
2 3
0 10 14 0 0 19 4
1 0
1 4
31 0 0 7
16 7 0
2 2
11 5 0 6
10 5 0
3 0
0
0
1 0 0
1 0
Tabla 3. Matrices de confusión de las distintas parametrizaciones
ISBN: 84-695-8101-5
37
Rasgo
CEM
G
59
(7)
48
(5)
R
Correlación cruzada. Eficiencia media %
(varianza) %
MFCC MFCC
Complejidad Complejidad
+ CEM
+ CEM
51
55
60
59
(7)
(6)
(6)
(7)
48
49
53
53
(8)
(6)
(6)
(5)
Ruido
55
(10)
49
(7)
Ruido +
CEM
53
(8)
51
(6)
Tabla 4. Resultados de validación cruzada obtenidos para las distintas parametrizaciones
usando tramas de 100 ms y solapamiento del 50%.
4
Discusión
Como puede observarse en la Tabla 4, los resultados obtenidos con los centroides, a
pesar de su simplicidad, son ligeramente superiores a los que proporcionan los coeficientes MFCC para los dos rasgos estudiados. También superan a los proporcionados
por la parametrización del ruido para el rasgo G. A la vista de los resultados se puede
afirmar que con la base de datos utilizada el método de parametrización más efectivo
es el de los índices de complejidad.
Sin embargo, y debido a que la información proporcionada por los centroides acerca
del EM es muy simple, cabe esperar que una extracción de características de este más
completa produzca mejores resultados. Un posible nuevo parámetro basado en el EM
sería la relación entre la energía en torno a 0 Hz y el resto hasta 25 Hz para las primeras bandas acústicas (normalmente alrededor de la frecuencia fundamental). Se propone esta medida ya que se observa que la relación entre la energía a 0 Hz y el resto
de frecuencias de modulación es siempre menor en voces patológicas. También existe
la posibilidad de medir los valores de las frecuencias de modulación más representativas en la banda de la frecuencia fundamental y el ancho de banda de modulación para
cada una de ellas. La tercera posibilidad que se propone consiste en calcular la densidad espectral de potencia (Power Spectral Density - PSD) mediante el método Welch
y calcular su desviación Estándar en la banda que incluya todas las frecuencias de
interés. Esto nos daría una cierta información sobre los cambios en la dinámica del
EM.
Para el rasgo G, es destacable el hecho de que en todas las fusiones disminuye la
eficiencia media con respecto al uso de una única familia de de parámetros. Posiblemente esto se deba a que por un lado la complementariedad de las características no
es lo suficientemente relevante. Por otro lado, el aumento en el número de parámetros
complica el espacio multidimensional de los sistemas de clasificación SVM empobreciéndose la eficiencia media de clasificación. Muy probablemente esta segunda causa
sea la que tiene más peso. Por lo tanto, sería recomendable repetir en el futuro las
pruebas realizadas utilizando algún método de selección de las características más
importantes, como el de máxima relevancia [44].
38
ISBN: 84-695-8101-5
Algo distinto ocurre con el rasgo R. En todos los casos la fusión de características
iguala o aumenta la precisión media. Estos resultados sugieren que para R, la cantidad
de información complementaria de unas características respecto a otras sí es suficientemente relevante como para dar mejores resultados. Todo ello a pesar de que el aumento en el número de parámetros de entrada en el clasificador SVM pueda complicar el espacio de multidimensional. Igualmente, el uso de selección de características
de máxima relevancia podría aumentar la eficiencia.
Continuando con el análisis de los resultados, al observar las matrices de confusión de
la Tabla 3 se comprueba que por norma general todos los errores de clasificación
cometidos recaen en niveles adyacentes al nivel supuestamente real. Este comportamiento es bastante coherente con el hecho de que las etiquetas utilizadas provienen de
una evaluación subjetiva. Dicha subjetividad conlleva una cierta falta de consistencia
en el etiquetado, que podría hacer que dos registros de audio con características acústicas muy similares sean etiquetados, por parte de un mismo evaluador, con niveles
cercanos pero no idénticos.
En estas matrices también puede observarse que en los dos últimos niveles (especialmente en el nivel con valor 3) la eficiencia baja con respecto a los dos primeros. Esto
se debe al desbalance de clases presente en la base de datos. Sería aconsejable ampliar
la base de datos existente para incluir un número mayor de voces patológicas que
estén dentro de estos niveles. Si esto no fuese posible, en trabajos futuros se debería
plantear el uso de algoritmos de balance de clases [45].
A modo de ejemplo, a continuación se muestra la variabilidad inter-evaluador e intraevaluador del etiquetado del rasgo G de la base de datos de Kay Elemetrics [46] realizado por dos evaluadores distintos. Uno de los evaluadoresellos realizó el etiquetado
dos veces y el otro sólo una vez. Se exponen estos resultados en la tabla 5 como
muestra de un caso conocido de variabilidad sin implicar necesariamente que los valores obtenidos sean representativos del caso general.
Inter-evaluador
Intra-evaluador
Evaluador 2
Clases
0
1
2
3
0
1
2
3
78
1
0
0
5
21
19
0
0
0
18
20
0
0
0
59
Evaluador 1
Evaluación 1
Evaluación 2
Clases
0
1
2
3
0
1
2
3
30
2
1
0
44
7
8
10
9
13
26
30
0
0
2
39
Tabla 5. Matrices de confusión intra-evaluador e inter-evaluador
En este caso podemos considerar que la eficiencia intra-evaluador es del 79,6% y la
inter-evaluador disminuye al 46%.
Así pues, aun cuando los resultados de eficacia media obtenidos en este proyecto
pudieran parecer comedidos, se considera que los sistemas de clasificación obtenidos
se aproximan bastante al caso real.
ISBN: 84-695-8101-5
39
Cabe destacar que en el presente proyecto se busca analizar el comportamiento de los
sistemas de clasificación de niveles perceptuales frente a distintas parametrizaciones.
y Ees por eso que se dan los resultados obtenidos para los dos rasgos G y R para utilizando las mismas características y longitudes de trama. En el desarrollo de un detector de cada uno de los rasgos del GRBAS, deberían estudiarse todas las parametrizaciones y entrenamientos posibles por separado, pudiéndose obtener longitudes de
trama y número de parámetros distintos para cada uno de ellos. Esto es así debido a
que ambos cada rasgos están referidos a propiedades de la voz distintas y requerirán
requiere un desarrollo tratamiento distinto.
En cuanto a la metodología, estudios como [19], [47] apuntan a que el uso de una
base de datos en la que exista un solo género (masculino o femenino) podría proporcionar mejores resultados. En [47] se llega a obtener una eficiencia del 85 % si bien
no se puede establecer una comparación consistente con este proyecto ya que se utilizan bases de datos y evaluadores distintos. Igualmente, sería recomendable el estudio
de una posible segmentación de las bases de datos por edades de los locutores además
de por género, lo que podría tener consecuencias positivas.
Por otro lado, se ha de tener en cuenta que la evaluación GRBAS se realiza mediante
la escucha de una o más vocales sostenidas y de habla continua para poder así comprobar diversas características necesarias en la voz [1]. De este modo podría ser relevante añadir la parametrización del habla continua a la realizada en este proyecto
debido apor que proporciona información que es tenida en cuenta en la valoración
perceptual subjetiva.
5
Conclusiones
Los nuevos parámetros CEM proporcionan información representativa sobre el nivel
de afección presente en voces patológicas. El uso de CEM arroja valores de eficiencia
algo superiores al uso de MFCC en de simulaciones de evaluación perceptual automática y muy similares a los de las parametrizaciones basadas en complejidad. Una fusión de características entre los nuevos parámetros CEM y parámetros otros utilizados
anteriormente aumentan en algunos casos la efectividad media pero se recomienda el
estudio de técnicas de reducción de características en trabajos futuros.
Igualmente, se demuestra que los sistemas de clasificación SVM pueden ser válidos
para la simulación de evaluaciones perceptuales. Estos clasificadores habían sido
utilizados anteriormente en trabajos similares pero no en evaluación perceptual.
Los siguientes pasos para continuar con esta investigación consistirán en el desarrollo
de nuevos parámetros relacionados con el EM y la extracción de las características
más relevantes.
40
ISBN: 84-695-8101-5
Referencias
[1]
M. Hirano, Clinical examination of voice. Springer Verlag, 1981.
[2]
I. V. Bele, “Reliability in perceptual analysis of voice quality.,” Journal of
voice : official journal of the Voice Foundation, vol. 19, no. 4, pp. 555–73,
Dec. 2005.
[3]
M. S. De Bodt, F. L. Wuyts, P. H. Van de Heyning, and C. Croux, “Testretest study of the GRBAS scale: influence of experience and professional
background on perceptual rating of voice quality.,” Journal of voice : official
journal of the Voice Foundation, vol. 11, no. 1, pp. 74–80, Mar. 1997.
[4]
M. Markaki and Y. Stylianou, “Voice Pathology Detection and
Discrimination Based on Modulation Spectral Features,” Ieee Transactions
On Audio Speech And Language Processing, vol. 19, no. 7, pp. 1938–1948,
2011.
[5]
J. D. Arias-Londoño, J. I. Godino-Llorente, M. Markaki, and Y. Stylianou,
“On combining information from modulation spectra and mel-frequency
cepstral coefficients for automatic detection of pathological voices.,”
Logopedics, phoniatrics, vocology, vol. 36, no. 2, pp. 60–9, Jul. 2011.
[6]
N. Sáenz-Lechón, J. I. Godino-Llorente, V. Osma-Ruiz, M. Blanco-Velasco,
and F. Cruz-Roldán, “Automatic assessment of voice quality according to the
GRBAS scale.,” Annual International Conference of the IEEE Engineering in
Medicine and Biology Society. IEEE Engineering in Medicine and Biology
Society., vol. 1, pp. 2478–81, Jan. 2006.
[7]
J. I. Godino-Llorente and P. Gómez-Vilda, “Automatic detection of voice
impairments by means of short-term cepstral parameters and neural network
based detectors,” IEEE transactions on bio-medical engineering, vol. 51.
NO2, 2004.
[8]
J. J. Jiang, Y. Zhang, and C. McGilligan, “Chaos in voice, from modeling to
measurement.,” Journal of voice : official journal of the Voice Foundation,
vol. 20, no. 1, pp. 2–17, Mar. 2006.
[9]
M. a Little, P. E. McSharry, S. J. Roberts, D. a E. Costello, and I. M. Moroz,
“Exploiting nonlinear recurrence and fractal scaling properties for voice
disorder detection.,” Biomedical engineering online, vol. 6, p. 23, Jan. 2007.
ISBN: 84-695-8101-5
41
42
[10]
J. Alonso, J. de León, I. Alonso, and M. A. Ferrer, “Automatic detection of
pathologies in voice by HOS based parameters,” Journal on Applied Signal
Processing. EURASIP, 2001.
[11]
M. Wester, “Automatic classification of voice quality: Comparing regression
models and hidden markov models,” Proceedings of Voicedata ’98, Utretch,
The Netherlands, pp. 92–97, 1998.
[12]
H. Kasuya, “Normalized noise energy as an acoustic measure to evaluate
pathologic voice,” The Journal of the Acoustical Society of America, vol. 80,
no. 5, p. 1329, Nov. 1986.
[13]
V. N. Vapnik, “An overview of statistical learning theory.,” IEEE
transactions on neural networks/ IEEE Neural Networks Council, vol. 10, no.
5, pp. 988–99, Jan. 1999.
[14]
C. Cortes and V. Vapnik, “Support-vector networks,” Machine learning,
1995.
[15]
G. Toussaint, “Bibliography on estimation of misclassification,” IEEE
Transactions on Information Theory, 1974.
[16]
S. Schimmel, L. Atlas, and K. Nie, “Feasibility of single channel speaker
separation based on modulation frequency analysis,” EEE International
Conference in Acoustics, Speech and Signal Processing, 2007. ICASSP, vol.
4, 2007.
[17]
“Les Atlas, Pascal Clark and Steven Schimmel, Modulation Toolbox Version
2.1 for MATLAB, http://isdl.ee.washington.edu/projects/modulationtoolbox/,
University of Washington, September 2010.” .
[18]
G. Pouchoulin, C. Fredouille, J. Bonastre, A. Ghio, and J. Revis,
“CHARACTERIZATION OF THE PATHOLOGICAL VOICES (
DYSPHONIA ) IN THE FREQUENCY SPACE,” Proceedings of
International Congress of Phonetic Sciences (ICPhS), no. August, pp. 1993–
1996, 2007.
[19]
G. Pouchoulin, C. Fredouille, J. Bonastre, A. Ghio, A. Giovanni, A. France,
P. France, and M. France, “Frequency Study for the Characterization of the
Dysphonic Voices,” Interspeech 2007. ISCA, pp. 1198–1201, 2007.
[20]
T. F. Q. Nicolas Malyska, “Automatic dysphonia recognition using
biologically inspired amplitude-modulation features,” Proc. ICASSP, vol. 1,
pp. 873–876.
ISBN: 84-695-8101-5
[21]
M. Markaki and Y. Stylianou, “Modulation Spectral Features for Objective
Voice Quality Assessment: The Breathiness Case,” Sixth International
Workshop on Models and Analysis of Vocal Emissions for Biomedical
Applications., 2009.
[22]
B. Gajic and K. K. Paliwal, “Robust speech recognition in noisy
environments based on subband spectral centroid histograms,” IEEE
Transactions on Audio, Speech and Language Processing, vol. 14, no. 2, pp.
600–608, Mar. 2006.
[23]
L. Rabiner and B.-H. Juang, Fundamentals of Speech Recognition. Prentice
Hall, 1993.
[24]
G. Arias-Londono, J. D., Godino-Llorente, J. I., Sáenz-Lechón, N., OsmaRuiz, V., & Castellanos-Dominguez, “Automatic detection of pathological
voices using complexity measures, noise parameters, and mel-cepstral
coefficients,” IEEE Transactions on Biomedical Engineering, pp. 370–379,
2011.
[25]
Y. Zhang, J. J. Jiang, L. Biazzo, and M. Jorgensen, “Perturbation and
nonlinear dynamic analyses of voices from patients with unilateral laryngeal
paralysis.,” Journal of voice : official journal of the Voice Foundation, vol.
19, no. 4, pp. 519–28, Dec. 2005.
[26]
A. Giovanni, M. Ouaknine, and J. Triglia, “Determination of largest
Lyapunov exponents of vocal signal: application to unilateral laryngeal
paralysis,” Journal of Voice, 1999.
[27]
H. Kantz and T. Schreiber, “Nonlinear time series analysis,” Cambridge
University Press, vol. 7, 2003.
[28]
S. Pincus, “Approximate entropy as a measure of system complexity,”
Proceedings of the National Academy of Sciences, vol. 88(7), pp. 2297–2301,
1991.
[29]
I. Rezek and S. Roberts, “Stochastic complexity measures for physiological
signal analysis,” Transactions on Biomedical Engineering, IEEE., vol. 45 (9),
pp. 1186–1191, 1998.
[30]
J. Richman and J. Moorman, “Physiological time-series analysis using
approximate entropy and sample entropy,” American Journal of PhysiologyHeart and Circualtory Physiology, vol. 278(6), pp. H2039–H2049, 2000.
ISBN: 84-695-8101-5
43
44
[31]
H.-B. Xie, W.-X. He, and H. Liu, “Measuring time series regularity using
nonlinear similarity-based sample entropy,” Physics Letters A, vol. 372, no.
48, pp. 7140–7146, Dec. 2008.
[32]
L. Xu, K. Wang, and L. Wang, “Gaussian kernel approximate entropy
algorithm for analyzing irregularity of time-series,” Proceedings of 2005
International Conference on Machine Learning and Cybernetics, vol. 9, pp.
5605–5608, 2005.
[33]
B. Kosko, “Fuzzy entropy and conditioning,” Information sciences, 1986.
[34]
M. Little, D. Costello, and M. Harries, “Objective dysphonia quantification in
vocal fold paralysis: comparing nonlinear with classical measures,” Journal of
Voice, 2011.
[35]
P. Yu, J. Revis, F. L. Wuyts, M. Zanaret, and A. Giovanni, “Correlation of
Instrumental Voice Evaluation with Perceptual Voice Analysis Using a
Modified Visual Analog Scale,” Folia Phoniatr Logop, 2002.
[36]
A. Schindler, F. Palonta, G. Preti, F. Ottaviani, O. Schindler, and A. L.
Cavalot, “Voice quality after carbon dioxide laser and conventional surgery
for T1A glottic carcinoma.,” Journal of voice : official journal of the Voice
Foundation, vol. 18, no. 4, pp. 545–50, Dec. 2004.
[37]
V. Parsa and D. G. Jamieson, “Identification of Pathological Voices Using
Glottal Noise Measures,” J Speech Lang Hear Res, vol. 43, no. 2, pp. 469–
485, Apr. 2000.
[38]
E. Yumoto, “The quantitative evaluation of hoarseness: A new harmonics to
noise ratio method,” Archives of Otolaryngology—Head & Neck Surgery,
1983.
[39]
D. Michaelis, “Glottal-to-noise excitation ratio a new measure for describing
pathological voices,” Acta Acustica united with Acustica, vol. 83, no. 4, pp.
700–706, 1997.
[40]
D. Deliyski, “Acoustic model and evaluation of pathological voice
production,” Proceedings of Eurospeech, 1993.
[41]
G. Krom, “A cepstrum-based technique for determining a harmonics-to-noise
ratio in speech signals,” Journal of Speech, Language and Hearing Research,
1993.
[42]
G. Jotz, O. Cervantes, and M. Abrahão, “Noise-to-harmonics ratio as an
acoustic measure of voice disorders in boys,” Journal of voice, 2002.
ISBN: 84-695-8101-5
[43]
J. I. Godino-Llorente, V. Osma-Ruiz, N. Sáenz-Lechón, I. Cobeta-Marco, R.
González-Herranz, and C. Ramírez-Calvo, “Acoustic analysis of voice using
WPCVox: a comparative study with Multi Dimensional Voice Program.,”
European archives of oto-rhino-laryngology : official journal of the European
Federation of Oto-Rhino-Laryngological Societies (EUFOS) : affiliated with
the German Society for Oto-Rhino-Laryngology - Head and Neck Surgery,
vol. 265, no. 4, pp. 465–76, Apr. 2008.
[44]
H. Peng, F. Long, and C. Ding, “Feature selection based on mutual
information criteria of max-dependency, max-relevance, and minredundancy,” IEEE Transactions on Pattern Analysis and Machine
Intelligence, pp. 1226–1238, 2005.
[45]
E. A. Garcia, “Learning from Imbalanced Data,” IEEE Transactions on
Knowledge and Data Engineering, vol. 21, no. 9, pp. 1263–1284, Sep. 2009.
[46]
“Voice Disorders Database.” Massachusetts Eye and Ear Infirmary, 1994.
[47]
G. Pouchoulin, C. Fredouille, J. Bonastre, A. Ghio, and A. Giovanni,
“Dysphonic Voices and the 0-3000Hz Frequency Band,” Interspeech 2008.
ISCA, pp. 2214–2217, 2008.
ISBN: 84-695-8101-5
45
Proyecto e-VOICE:
Sistema de Evaluación Remota del Sistema Fonador
Jesús B. Alonso1,2, Josué Cabrera1, José de León2, Miguel A. Ferrer,1,2, Carlos M. Travieso, 1,2, David Sánchez1,2, Patricia Henríquez1,
Aythami Morales1, Juan Francisco Rivero2, Francisco Ayudarte2 , Santiago Tomás1, Fidel Cabrera4, Juan Manuel Caballero4
1
Instituto para el Desarrollo Tecnológico y la Innovación en Comunicaciones
Campus de Tafira
35017 - Las Palmas (Spain)
2
3
Departamento de Telemática
4
Departamento de Señales y Comunicaciones
[email protected]
Abstract. La necesidad de valorar la información acústica que nos llega del paciente ha desarrollado progresivamente métodos de análisis de la señal de voz
que van desde la valoración subjetiva mediante determinado protocolos
(GRAB, ….) que permiten homogeneizar las características perceptuales de la
voz, hasta el desarrollo de sistemas informáticos que a partir de la señal acústica
establecen medidas de parámetros característicos que han de permitir evaluar de
manera objetiva la señal de voz y documentarla de una forma clara y eficaz. En
este trabajo una herramienta web para la evaluación acústica que valora de forma objetiva una señal de voz mediante la grabación de una vocal sostenida. Este software implementa un protocolo que se basa en cuantificar cuatro aspectos
de la calidad de la voz: la estabilidad de la voz, la riqueza espectral, la presencia de ruido y las irregularidades en las masas. Para ello asigna el valor de
una medida a cada una de los diferentes aspectos que caracterizan la calidad de
la voz, obteniéndose una correlación entre el valor numérico de la medida y el
fenómeno físico que cuantifica, y en la que cualquier alteración de la calidad de
la voz normal sufre una desviación respecto al patrón de normalidad de al menos una de las cuatro características. Consideramos que este protocolo y las
medidas que identifica suponen una mejora significativa en cuanto a eficiencia
46
ISBN: 84-695-8101-5
y posibilidades de aplicación clínica que ofrece, frente a otras herramientas ya
existentes que desarrollan protocolos de mayor dificultad en su aplicación
práctica diaria. Además, su formato web permite su utilización de forma remota
pudiendo ser utilizado en campos como la telemedicina o la medicina preventiva.
Palabras Claves: sistema fonador, calidad de la voz, evaluación acústica
1
Introducción
Las técnicas basadas en métodos de inspección visual son las que clásicamente se han
utilizado para el diagnóstico de los trastornos de voz. Sin embargo estas técnicas
presentan ciertos inconvenientes como son, al tratarse de técnicas de exploración
visual, la necesidad de un adecuado adiestramiento y la incomodidad que ello conlleva en muchas ocasiones para el paciente. Así mismo, estos métodos de diagnóstico
aportan considerables datos sobre el aspecto morfológico de la laringe y los procesos
patológicos que le afectan, pero muy pocos sobre la valoración acústica de la voz, a la
vez que han de ser realizadas exclusivamente por profesionales del ámbito médico
especializado. Actualmente, no siempre se dispone de los medios humanos y materiales adecuados para esta valoración, y resulta de interés disponer de técnicas de evaluación objetivas de la calidad de la voz, que pudieran utilizarse por ejemplo para
realizar el primer screenning en centros de atención primaria, sin olvidarnos de la
importancia documental que permiten este tipo de herramientas en el ámbito especializado, y que hasta hora se vienen desarrollando con métodos más o menos estandarizados pero basados siempre en la evaluación subjetiva-perceptual de la calidad de la
voz.
En este sentido podemos encontrar en la literatura diferentes estrategias para documentar la calidad de la voz o señalar la presencia de una disfonía, y su intensidad.
Una de las estrategias desarrolladas, como comentamos previamente, es realizar una
descripción del estado de la voz indicando niveles predefinido de anormalidad a partir
de una valoración acústica perceptual, esto es, se pretende alcanzar una medida objetiva a partir de una valoración subjetiva. En esta línea, el Comité para las Pruebas de
la Función Fonatoria de la Sociedad Otorrinolaringológica Japonesa propuso un sistema de valoración acústica subjetiva que se conoce con el nombre del acrónimo escala GRABS [1], que corresponde a las palabras: G (Grade), R (Roughness), A (Asthenicity), B (Breathiness) y S (Strain). Cada uno de los apartados se valora en una
escala de 4 puntos (0 = normal, 1 = ligero, 2 = moderado, 3 = extremo). El atributo G
indica el grado general de afectación de la voz; el 0 correspondería a una voz normal;
el 3 correspondería a una voz muy patológica. El atributo R indica si la voz es rasposa, ronca o con rozamiento. Se emplea para expresar la irregularidad o defecto de la
vibración (rozamiento), e incluso la ausencia de vibración. El atributo A sería el grado
de astenia o fatiga y debilidad de la voz. El atributo B correspondería a la sensación
ISBN: 84-695-8101-5
47
de aire en la voz, voz aérea o voz soplada, que se produce por escape de aire entre las
cuerdas vocales. Si por alguna circunstancia no hay cierre glótico adecuado, parte del
aire espirado se pierde de forma turbulenta entre las cuerdas, lo cual percibimos como
voz aérea. El atributo S lo tienen las voces constreñidas, tensas o duras. Esta interpretación psicoacústica corresponde al fenómeno de la hiperfonación o tensión excesiva
de la laringe. Existen ligeras modificaciones de la escala GRABS como el formulario extendido el cual ha sido desarrollado y aplicado en Europa [2]. También en Suecia se ha trabajado en otro juego de descriptores clínicos de la voz referentes a la percepción [3] u otros trabajos [4] en los que se introducen un conjunto de características fonéticas que intenta agregar información del tracto vocal en la medida de la calidad de la voz. Además, han surgido propuestas alternativas a la escala GRABS como
la escala RHB (Roughness, Breathiness y Hoarseness) [5], con cuatro niveles de
cuantificación en su uso clínico. Otra alternativa, ha sido clasificar la voz en distintos
tipos de fonación [6] (Modal, Breathy Voice , Creaky Voice, Harsh voice, Tense o
Strained voice) donde además, apuntan los autores, que estos tipos de voces generan
nuevos tipos fruto de la combinación de los tipos iniciales.
Otro tipo de estrategias presente en la literatura, son sin embargo aquellas basadas
en medir la calidad de la voz, obtenida mediante una grabación, a partir de una serie
de medidas objetivas calculadas por medio de un sistema informático diseñado a tal
efecto. Existen diferentes trabajos clínicos en los que se utilizan las medidas de la
calidad de la voz como herramientas para su evaluación objetiva.
Cualquiera de los diferentes fenómenos físicos que se ponen de manifiesto en un
trastorno de la voz, se pueden estudiar en diferentes dominios de representación: dominio temporal, dominio espectral, dominio cepstral, etc. Sin embargo, generalmente
cada uno de los fenómenos físicos se manifiesta de forma preferencial en uno de los
diferentes dominios de representación. Resulta de interés identificar el dominio preferencial en el que se manifiesta cada uno de los distintos fenómenos, permitiendo aumentar la capacidad de cuantificar dicho fenómeno y por lo tanto dar lugar a la posibilidad de cuantificar la calidad de la voz de forma más efectiva.
No existe un único fenómeno que permita diferenciar entre las distintas calidades
de voz, y por tanto se hace necesario tener en cuenta un conjunto de fenómenos físicos. En este trabajo se han identificado cuatro fenómenos físicos que permiten realizar
una medición objetiva de la calidad de la voz:



48
Estabilidad de la voz. Este fenómeno caracteriza el flujo de aire que es exhalado por los pulmones y que da lugar al movimiento vibratorio de las
cuerdas vocales (movimientos de apertura y cierre). Para evaluar este fenómeno se analiza la capacidad de un locutor para producir, durante la fonación
de un sonido sonoro sostenido, un flujo de aire con una intensidad constante.
Presencia de ruido: Este fenómeno caracteriza el contacto de ambas cuerdas
durante la fonación. En el caso de no existir un correcto cierre de las mismas
se identifica la presencia de ruido en la señal de voz.
Riqueza espectral: La estructura armónica de la señal de voz viene determinada por el ritmo y la fuerza del golpeo (el impacto entre las cuerdas vocales). La existencia de un ritmo irregular pone de manifiesto la presencia de
determinadas patologías. Igualmente, si el golpeo no se produce con la sufi-
ISBN: 84-695-8101-5

ciente intensidad, la voz producida presentará una pobre y anormal sonoridad.
Irregularidades en las masas. Para realizar un correcto golpeo de las cuerdas
resulta necesario que ambas cuerdas realicen de forma sincronizada las diferentes fases del movimiento vibratorio necesario que da lugar a la sucesiva
apertura y cierre de las cuerdas. Este fenómeno cuantifica la descoordinación
de las diferentes fases del movimiento entre cuerdas cuando estas presentan
irregularidades. Además, cuantifica el deterioro de las propiedades viscoelásticas de la mucosa que recubre las cuerdas vocales.
Este último fenómeno físico cuantificable, Irregularidades en las masas, resulta
una aportación novedosa dentro de los sistemas convencionales de evaluación de la
calidad de la voz.
Surge por tanto, como medio de objetivar estas medidas de valoración acústicas,
las distintas estrategias que se basan en la estimación de medidas objetivas que cuantifican numéricamente y de forma automática la calidad de la voz a partir de una grabación de audio. Sin embargo no existe un protocolo claro, y es difícil extraer información clínicamente relevante en lo referente a una interpretación de los valores numéricos.
Frente a esta situación, en este trabajo se propone un herramienta para su utilización vía web, de evaluación de la calidad voz que evalúa de forma objetiva una grabación de la fonación sostenida. Este protocolo mide, de forma objetiva, cuatro aspectos de la calidad de la voz: la estabilidad de la voz, la riqueza espectral, la presencia
de ruido y las irregularidades en las masas. Para ello asigna el valor de una determinada medida a cada una de los diferentes aspectos que caracterizan la calidad de la
voz, donde además se han identificado los rangos de normalidad.
2
La herramienta web: e-VOICE
A continuación se presenta una herramienta web, en su versión de prototipo, para su
utilización en la evaluación de la calidad voz que evalúa de forma objetiva una grabación de la fonación sostenida. Es posible acceder a dicha herramienta web en la siguiente dirección: http://evoice.ulpgc.es/.
2.1
Método de grabación
Las características del proceso de grabación son las siguientes:
 La grabación consiste en la fonación de forma sostenida de la vocal “a”
de forma sostenida, durante 5 segundos. Ha de ser una fonación no susurrada.
 La grabación de audio se realiza con un PC de propósito general equipado con una tarjeta de sonido convencional. La grabación se realiza con una
frecuencia de muestreo de 22050 muestras por segundo y una resolución de
16 bits por muestra.
ISBN: 84-695-8101-5
49
 Se utiliza un micrófono convencional de sobremesa, con al menos un ancho de banda sin distorsión de 11 KHz. Se recomienda que el micrófono esté
a una distancia de 15 centímetros del locutor.
2.2
Medidas de Calidad de la Voz
En el protocolo de cuantificación de la calidad de la voz, se indica la necesidad de
medir cuatro características de la voz: estabilidad de la voz, riqueza espectral, presencia de ruido e irregularidades en las masas. Cada una de las diferentes características de la voz es cuantificada por una única medida. En la Tabla 1 se indican las
medias utilizadas para cuantificar cada una de las cuatro características.
Tabla 1. Medidas para cuantificar los distintos fenómenos físicos implicados en la medida de la
calidad de la voz.
Fenómeno Físico
Estabilidad de la Voz
Riqueza Espectral
Presencia de Ruido
Irregularidades en las Masas
Medida
Cociente de perturbación de amplitud (APQ)[7-11]
Valor promedio del primer pico cepstral de los cepstrum
derivados espacialmente [12]
Promedio de la relación sub-armónico armónico [13]
Promedio del aérea inferior del índice de bicoherencia integrado [12]
Una voz de calidad anormal presenta al menos uno de los valores correspondientes
a la cuantificación de los cuatro fenómenos físicos fuera de los rangos de normalidad.
Este protocolo de evaluación cuantifica la calidad de la voz permitiendo identificar
calidades de voz anómalas de diferentes orígenes. A medida que la calidad de la voz
de un locutor empeora, aumentará el número de fenómenos físicos y la desviación de
los valores de la cuantificación de dichos fenómenos respecto a los valores de normalidad.
Se ha estimado los rangos preliminares de normalidad de las cuatro medidas de calidad de la voz, utilizando la base de datos del estudio y tomando el 95% central de
los valores de la población de muestras sanas. En la Tabla 2 se muestran los rangos de
normalidad de cada una de las medidas.
Tabla 2. Rangos de normalidad de las diferentes medidas de la calidad de la voz
Medida de Calidad de la Voz
Estabilidad de la Voz
Ritmo de Golpeo
Problemas de Cierre
Irregularidades en las Masas
50
Rango de Normalidad
0.002 … 0.136
0.919 … 1.761
0.189 … 0.561
0.531 … 0.755
ISBN: 84-695-8101-5
2.3
Sistemas Temático
El sistema telemático implementado es un sistema cliente-servidor que utiliza tecnologías y lenguajes de programación estándar frecuentemente utilizado en la informática y las comunicaciones, como HTTP, HTML, CSS, FLASH y Java.
A grandes rasgos la comunicación sigue los siguientes pasos:
1. El usuario a través de cualquier navegador de escritorio realiza una petición HTTP de la web http://evoice.ulpgc.es
2. La petición es recibida por el servidor web del proyecto e-VOICE, que corre en servidor web de código abierto Apache, y devuelve al usuario los
archivos (HTML,CSS,Flash,…) que componen la página web del Proyecto e-VOICE.
3. Recibida la págna web el usuario puede ejecutar la aplicación flash siguiendo unos sencillos pasos para grabar su voz. Tras la grabación, la
aplicación se realiza una conexión socket automáticamente con el servidor
de procesado del Proyecto e-VOICE en servicio.
4. El servidor de procesado, implementado en lenguaje Java, realiza las
comprobaciones de seguridad pertinentes y aceptada la conexión recibe y
realiza el procesado de la señal de voz grabada previamente por el usuario
desde su navegador web. Procesada la señal de voz, el servidor Java envía
los resultados obtenidos a la aplicación flash contenida en el navegador
del usuario, mostrándose en pantalla.
2.4
Entorno Web
El entorno web se ha diseñado y programando siguiendo estándares HTML y CSS
del World Wide Web Consortium (W3C) que aseguran las buenas prácticas de diseño
web y una mejor experiencia para el usuario.
El entorno web es sencillo, claro, intuitivo y asistido mediante mensajes sonoros y
textuales que guían al usuario en todo el proceso de evaluación acústica del sistema
fonador.
ISBN: 84-695-8101-5
51
Conectándose a través de internet a http://evoice.ulpgc.es desde cualquier navegador
de escritorio el usuario accede a la página inicial del sistema e-VOICE (Fig. 1), donde
se un mensaje sonoro da la bienvenida al usuario.
Fig. 1. Página inicial del sistema e-VOICE
Una vez el usuario inicia la aplicación del proyecto a través del botón comenzar, se
accede al entorno de grabación, donde una serie de pantallas guiadas sonora y textualmente, conllevan a que el usuario realice una sencilla grabación de la vocal „a‟ de
forma sostenida durante 5 segudos. (Fig 2.)
Fig. 2. Entorno de grabación de la herramienta e-VOICE
52
ISBN: 84-695-8101-5
Realizada la grabación el entorno de grabación se conecta de forma autómatica al servidor de
procesamiento,e indica al usuario que se está llevando a cabo las labores de conexión al
servidor y procesado. Tras unos pocos minutos, el usuario recibe en pantalla los resultados
obtenidos de su evaluación del sistema fonador. (Fig. 3 – 4).
Fig. 3. Muestra del resultado de la evaluación de una muestra de voz sana
La pantalla de resultados muestra al usuario de forma cuantificable y gráfica el estado de su voz
para los 4 valores analizados. De manera gráfica se muestra al usuario los limites sanos (zona
verde) y patológicos (zona roja) de la voz, advirtiéndole mediante una alarma luminosa de
aquellos que están fuera de los rangos normales.
Fig. 4. Muestra del resultado de la evaluación de una muestra de voz patológica
El entorno cuenta con un botón de impresión de los resultados con los que el usuario puede imprimir en cualquier formato admisible los resultados de sus evaluaciones
y poder llevar una evolución cronológica de su voz.
ISBN: 84-695-8101-5
53
3
Discusión
Es posible identificar un determinado grupo de aplicaciones informáticas que permiten registrar la señal de voz y posteriormente permiten realizar una evaluación tanto
cualitativa por medio de diferentes representaciones de la señal de voz como cuantitativa por medio de una serie de medidas. Un primer ejemplo de este tipo de aplicaciones es el SoundScope [14] el cual es un software compatible únicamente con equipos
Macintosh diseñado para el análisis de señales sonoras. Además de un profundo análisis de la señal, permite su grabación, editado y el cálculo de estadísticas de valores
tomados a partir del estudio de la señal. Algunas de las características más reseñables
son: realiza espectrogramas, calcula la frecuencia fundamental de la señal (pitch), su
perturbación (jitter), la perturbación en amplitud de la señal (shimmer), realiza en
análisis espectral de la señal mediante FFT y LPC y proporciona estadísticas sobre
algunas características de la señal, como pueden ser el porcentaje se sonidos sonoros
y sordos. Otro interesante ejemplo es el PRAAT [15] [16] el cual es un programa de
libre distribución para el análisis fonético y la edición de sonidos. Permite la grabación y reproducción de señales sonoras. Aplicado a señales de voz permite realizar un
análisis espectral de la señal: realiza el espectrograma, la FFT de la señal, y estima los
formantes. PRRAT también es capaz de calcular y analizar el pitch de la señal. Por
último un tercer ejemplo de este grupo de aplicaciones es el CSRE (léase „César‟) el
cual es un software que permite la grabación, reproducción, análisis y sintetizado de
señales sonoras, especialmente desarrollado para el tratamiento de señales de voz. El
programa ha sido desarrollado por Azaaz Innovations. Contiene un potente editor de
señales sonoras, además permite realizar análisis del pitch de la señal mediante dos
métodos diferentes. Una vez calculado el pitch, obtiene parámetros de las variaciones
en el tiempo que sufre (jitter y shimmer). Es posible realizar un análisis espectral y
del espectrograma de la señal de voz mediante el software CSRE, en el que se puede
incluir: análisis de la FFT y análisis LPC. Haciendo uso de los LPC es capaz de extraer información de los formantes (amplitud, frecuencia, anchos de banda,…).
Otras aplicaciones informáticas además incluyen utilidades orientadas a la educación y entrenamiento articulatorio. Un buen ejemplo es el sistema desarrollado por
Speech Technology Research (STR) Ltd. el cual consiste en una serie de herramientas
para la captura y el análisis de la señal de voz. Dispone tanto de soluciones software
como de aplicaciones que conjugan elementos software y hardware. De entre todos
sus productos, destaca el Computerized Speech Lab (CSL) [17], desarrollado conjuntamente con Kay Elemetrics Corporation. CSL es la herramienta de referencia en
ámbitos que van desde la acústica forense hasta el estudio acústico de patologías de la
voz. Esto se debe a sus altas prestaciones, utilización de hardware de alta gama y a la
amplia base de datos que lo acompaña. Su utilización es muy sencilla y aporta grandes posibilidades para la grabación y análisis de señales de voz. El CSL proporciona
información de múltiples características de la voz, extrayendo parámetros de cualidades temporales, de energía y de la frecuencia fundamental. La evolución de estos
parámetros puede ser estudiada en tiempo real mientras se realiza la grabación de la
voz del locutor. El CSL puede completarse con diferentes módulos de extensión des-
54
ISBN: 84-695-8101-5
arrollados para dar mayores prestaciones en distintos ámbitos del procesado y análisis
de la señal de voz. Algunos de estos módulos son el Multidimensional Voice Program
(MDVP) el cual es un paquete orientado al análisis de la calidad de la voz a través del
cálculo de 22 parámetros de un sonido vocálico, el Voice Range Profile (Fonetografía) el cual permite representar el margen dinámico de la voz tanto en amplitud como
en frecuencia, el Sona-Match diseñado para la educación y entrenamiento articulatorio o el Palatometer diseñado para la visualización del contacto linguopalativo.
También es posible encontrar aplicaciones informáticas dirigidas a pacientes que
tengan trastornos de audición, del lenguaje y del habla con en el caso de SpeechViewer [18] el cual es especialmente útil para personas que deseen modificar su inflexión, pronunciación y calidad vocal. El programa permite conocer y ejercitar las
características de la voz (tono, intensidad, duración y sonoridad) mediante una retroalimentación visual y auditiva de las producciones verbales. Asimismo, contiene ejercicios cuyo objeto es la reeducación fonológica y la prosodia. El programa se compone de los ejercicios: presencia de sonido, gama de intensidad, presencia de voz, ataque
vocal, duración de la voz, escala de tonos, control de tono, precisión de fonemas,
encadenamiento de varios fonemas, contraste de dos fonemas, contraste de cuatro
fonemas, estructuración de tono e intensidad y estructuración de espectros. Además,
SpeechViewer III facilita el seguimiento de los pacientes, a través de una base de
documentación en la que es posible establecer listas de pacientes de los terapeutas,
almacenar notas, resultados de los ejercicios y patrones de habla de los pacientes.
Existe sistemas informáticos más completos que incluyen todos los aspecto descritos como los desarrollados por la división UCL Speech Hearing and Phonetic Science
[19], de la University College London, la cual es reconocida internacionalmente por
su investigación de excelencia en la percepción y producción del habla. En su web
dispone de múltiples aplicaciones de libre distribución las cuales permite un sencillo
pero completo estudio de la señal de voz. Por medio de estas herramientas es posible
realizar la grabación de señales de voz, el estudio cualitativo de la señales por medio
de representaciones temporales, espectrales (espectro y espectrograma) y cepstrales.
Es posible identificar los formantes y estimar las frecuencias de vibraciones de las
cuerdas vocales. Es posible visualizar en tiempo real el espectrograma, periodograma
y el pitch. Además permite calcular las principales medidas de la señales de voz como
jitter y shimmer. También existen herramientas para la simulación dinámica del comportamiento del sistema fonador y del oído. Otro ejemplo es VISHA [20] el cual es
un sistema desarrollado en la Universidad Politécnica de Madrid. Consta de un conjunto de componentes hardware que deben instalarse en el ordenador, y un conjunto
de programas de software que permiten el análisis de los parámetros del habla, la
síntesis y codificación visual de la señal acústica y el reconocimiento de los sonidos.
Es un sistema orientado a la logopedia en los procesos de rehabilitación y al estudio
del habla. El software incluye diferentes programas como el PCVOX el cual permite
almacenar la voz para su posterior estudio mediante la representación visual de sus
parámetros más representativos, el ISOTON que permite visualizar en tiempo real las
características de la emisión sonora mediante los parámetros de intensidad, tono y
sonoridad, también incluye una serie de juegos orientados a la rehabilitación logopé-
ISBN: 84-695-8101-5
55
dica en los que se trabaja la entonación, el ritmo, las pausas, la intensidad, etc., el
SAS el cual es un programa concebido para el entrenamiento articulatorio de las vocales en personas que presentan trastornos del habla y el PC AUDIOMETRIAS mediante el cual se pueden realizar audiometrías.
Por último existen sistemas más complejos en el que además de lo ya visto añaden
otro tipo de señales como pueden ser la electroglotografía e imágenes laringoscópicas.
Un buen ejemplo es Dr Speech [21], desarrollado por Tiger Electronic, y orientado al
análisis y rehabilitación de voces patológicas. El software ha sido desarrollado principalmente para ser utilizado en entornos profesionales, especialmente en el sector sanitario. Dr. Speech da la posibilidad de realizar un estudio continuado de la evolución
de la voz patológica. Contiene un sencillo entorno de trabajo de manera que el especialista pueda anotar cada una de sus impresiones sobre el paciente, quedando su historial almacenado en una base de datos de pacientes. Dr. Speech parametriza la voz de
manera que se puedan comparar distintas voces o se pueda evaluar la evolución a lo
largo del tiempo. Permite analizar el pitch mediante visualizaciones del espectrograma. También da la posibilidad de realizar un análisis electroglotográfico. El programa
se completa con ejercicios para la rehabilitación vocal y con un generador de ondas y
un sintetizador vocal. Dr. Speech también permite la adquisición, tratamiento y análisis clínico de desordenes en la resonancia nasal, esto es posible mediante la herramienta Nasal View, integrada en Dr. Speech. El análisis se facilita realizando medidas
y gráficos que muestran la hipernasabilidad y las emisiones nasales. Igualmente otro
ejemplo es MediVoz [22], desarrollado en la Universidad Politécnica de Madrid, y
orientado a facilitar el trabajo de médicos especialistas en el área de la detección y
tratamiento de las patologías laríngeas. MediVoz aúna en un sólo producto el estudio
de las tres técnicas normalmente empleadas para el diagnostico de este tipo de patologías: observación de las cuerdas vocales mediante laringoscopio, audición del paciente y análisis acústico de la voz. MediVoz permite la grabación simultánea de la
señal de voz del paciente, de la señal de electroglotografía (EGG), y del registro de
vídeo tomado con técnicas de endoscopia [23][24]. Igualmente permite editar conjuntamente estas tres señales para seleccionar los segmentos del registro más útiles para
el diagnóstico. Toda la información multimedia (voz, vídeo y EGG) de cada paciente
es almacenada en una base de datos relacional junto con la información de anamnesis
del paciente.
En este trabajo se propone una alternativa a los sistemas informáticos descritos. Se
presenta un sistema informático que evalúa vía web de forma objetiva la calidad clínica de la voz de un locutor a partir de la grabación de una fonación sostenida de una
vocal. Este sistema mide, de forma objetiva, cuatro aspectos de la calidad de la voz: la
estabilidad de la voz, la riqueza espectral, la presencia de ruido y las irregularidades
en las masas. Para ello asigna un valor a cada una de los diferentes aspectos que caracterizan la calidad de la voz, donde además se han identificado los rangos de normalidad.
56
ISBN: 84-695-8101-5
4
Conclusiones
En este trabajo hemos presentando, en el contexto de la evaluación clínica de la voz a
partir de una grabación, las diferentes herramientas software que permiten evaluar la
calidad de la voz de forma cualitativa. Sin embargo, esta tarea no está exenta de interpretación y de la necesidad de un conocimiento amplio de las características de la
señal de voz en los diferentes dominios de representación. Como alternativa se presenta una simple y robusta herramienta web que permite documentar la calidad de
voz, cuantificando objetivamente y de forma automática cuatro fenómenos físicos
que permiten realizar una medición de la calidad de la voz. Como resultado, es posible obtener una correlación entre el valor numérico de la medida y el fenómeno físico
que cuantifica, permitiendo detectar desviaciones respecto de sus márgenes de normalidad, donde cualquier voz de calidad anormal presenta una desviación respecto al
patrón de normalidad de al menos una de las cuatro características.
Un prototipo de esta herramienta ha sido evaluado en un estudio clínico, obteniéndose como resultado una alta correlación entre la presencia de una patología laríngea
y el etiquetado de al menos de una de los cuatro fenómenos físicos cuantificables
fuera del rango de normalidad. En trabajos de laboratorio anteriores hemos demostrado que la herramienta es estadísticamente significativa en la discriminación entre
muestras de voces sanas y con patologías laríngeas, y con el estudio clínico hemos
demostrado que la herramienta es clínicamente relevante en la evaluación y documentación de pacientes con patologías laríngeas.
La cuantificación objetiva de la calidad de la voz permite realizar funciones de
screening de disfonías que pueden mostrarse útiles en atención primaria, incluso en
situaciones en las que el locutor no se encuentra presente como es el caso de la telemedicina, así como valorar resultados del tratamiento de las mismas en el entorno
especializado.
5
Referencias
1. Hirano, M.; Clinical Examination of Voice. New York, Springer-Verlag, 1981
2. Dejonckere, P. H.; Remacle, M.; Fresnel-Elbaz, E.; Woisard, V.; Crevier-Buchman, L.;
Millet, B.; “Differentiated perceptual evaluation of pathological voice quality: reliability
and correlations with acoustic measurements”. Revue de Laryngologie Otologie Rhinologie, 1996; 117 (2):219-224.
3. Hammarberg, B.; Gauffin, J.; ”Perceptual and acoustic characteristics of quality differences in pathological voices as related to physiological aspects”, O. Fujimura & M.Hirano
(eds.), Vocal Fold Physiology, 1995; 283-303.
4. Laver, J.; The Gift of Speech. Edinburgh University Press, 1991
5. The National Center for Voice and Speech.Disponible en: www.ncvs.org
6. Elisabeth Zetterholm, “Auditory and Acoustic Analysis of Voice Quality Variations in
Normal Voices”, Proceedings of the XIVth International Congress of Phonetic Sciences,
ICPhS-99, 1999; 973-976.
7. Kay Elemetrics Corporation.. Disorder Voice Database Model 4337. Massachusetts Eye
and Ear Infirmary Voice and Speech Lab, Boston, MA. 1994
ISBN: 84-695-8101-5
57
8. Godino-Llorente, J.; "On the selection of meaningful speech parameters used by a pathologic/non pathologic voice register classifier". Sixth European Conference on Speech
Communication and Technology (EUROSPEECH'99). 1999;563-566.
9. Godino-Llorente, J.I.; Aguilera-Navarro, S.; Gomez-Vilda, P.;. "Non supervised neural net
applied to the detection of voice impairment". Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP '00. 2000; 6:3594-3597.
10. Godino-Llorente, J.; Aguilera-Navarro, S.; Gómez-Vilda, P.; "Automatic detection of
voice impairments due to vocal misuse by means of gaussian mixture models". Procedings
of the 23rd Annual EMBS International conference. 2001; 1723-1726.
11. Jo, C.; Kim, K.; Kim, D.; Wang, S.; "Screening of Pathological Voice from ARS using
Neural Network". International Workshop on MAVEBA. 2001; 13-15.
12. Alonso, J.B.;de León ,J.; Alonso, I.; Ferrer, M.A.; "Automatic Detection of pathologies in
the voice by Hos based parameters". Eurasip journal on Applied signal processing. 2001;
2001( 4):275-284.
13. Sun, X.; "Pitch determination and voice quality analysis using subharmonic-to-harmonic
ratio". IEEE International Conference on Acoustics, Speech, and Signal Processing. 2002;
1: 333-336
14. GW Instruments, Inc., http://www.gwinst.com/macsftwr/html/sos_summary.html, [visitado 17/06/2012].
15. Paul Boersma and David Weenink, Capacity Group Linguistics, Department of Language
and
Literature,
Faculty
of
Humanities,
University
of
Amsterdam,
http://www.fon.hum.uva.nl/praat/, [visitado 17/06/2012].
16. Paul Boersma and David Weenink; “Praat, a system for doing phonetics by computer, version 3.4.”, Institute of Phonetic Sciences of the University of Amsterdam, Report 132,
(1996) pp1- 182
17. KayPENTAX, http://www.kayelemetrics.com, [visitado 17/06/2012].
18. IBM Corporation,
ftp://service.boulder.ibm.com/sns/spv3/spv3supt.htm, [visitado
17/06/2012].
19. UCL Speech Hearing and Phonetic Science, University College London,
http://www.phon.ucl.ac.uk/resource/software.php, [visitado 17/06/2012].
20. Aguilera, S.; Pescador F.; Godino J.I.; Novillo, A.; “Improvement of a Spanish Speech
Processing System”, Advancement of Assistive Technology, G. Anogianakis et al., IOS
Press, 1997
21. Dr. Speech home page, http://www.drspeech.com, [visitado 17/06/2012].
22. MediVoz web, http://www.byo.ics.upm.es/medivoz, [visitado 17/06/2012].
23. Godino-Llorente, J.I.; Sáenz-Lechón, N.; Osma-Ruiz, V.; Aguilera-Navarro, S.; “An integrated tool for the diagnosis of voice disorders”, Medical Engineering & Physics 28,
(2006) 276-289
24. Godino-Llorente, J.I.; Osma-Ruiz, V.; Sáenz-Lechón, N.; Cobeta-Marco, I.; GonzalezHerranz, R.; Ramirez-Calvo, C.; “Acoustic Analysis of voice using WPCVox: a comparative stydy with Multi Dimensional Voice Program”, European Archives of Oto-RhinoLaryngology, 265:4 (2008), 465-476
58
ISBN: 84-695-8101-5
Neurological Disorders Analysis Using the Speech Signal
Processing
Jiri Mekyska
Signal Processing Laboratory (SPLab)
Department of Telecommunications
Faculty of Electrical Engineering and Communication
Brno University of Technology
Technicka 12, 612 00 Brno
Czech Republic
Abstract. Speech signal processing is one of the popular non-invasive techniques of neurological disorders analysis. People with diseases like Parkinson’s
disease, Alzheimer’s disease or schizophrenia have different speech dysfunctions. A possibility to objectively quantify these dysfunctions is a step for a better and more efficient diagnosis. The aim of this lecture is to describe the whole
process of neurological disorders analysis using speech signal processing. There
will be described the most common speech dysfunctions, suitable speech tasks,
local speech features (basic features, non-linear dynamic features, features
based on empirical mode decomposition EMD), global speech features (description of tongue movement), high-level speech features (some statistics), different approaches of feature selection and possible applications of these techniques in a medical and pharmaceutical industry.
ISBN: 84-695-8101-5
59
Analysis of Spontaneous Speech and Emotional Response
oriented to Alzheimer's Disease Diagnosis
K. Lopez-de-Ipiña1, J.B. Alonso2, J. Solé-Casals3, N.Barroso1, P.Henriquez2, M.
Faundez-Zanuy4, C. Travieso2, M. Ecay-Torres5, P.Martinez-Lage5, U. Martinez-deLizardui1, H. Egiraun1 5, A. Ezeiza1
1
System Engineering and Automation Department, University of the Basque Country, Donostia
20008, Spain,
{karmele.ipina, nora.barroso, unai.martinezdelizarduy, harkaiz.egiraun, aitzol.ezeiza}@ehu.es
2
Universidad de Las Palmas de Gran Canaria, IDeTIC,
{jalonso,ctravieso,phernandez}@dsc.ulpgc.es
3
4
Digital Technologies Group. University of Vic,
[email protected]
Escola Universitaria Politècnica de Mataró (UPC), Tecnocampus ,
[email protected]
5
Research Center for Experimental Marine Biology and Biotechnology,
Plentzia Marine Station, University of the Basque Country, Plentzia, Spain
Abstract. Alzheimer’s disease is the most prevalent form of progressive degenerative dementia; it has a high socio-economic impact in Western countries.
Therefore it is one of the most active research areas today. Alzheimer's is sometimes diagnosed by excluding other dementias, and definitive confirmation is
only obtained through a post-mortem study of the brain tissue of the patient.
The work presented here is part of a larger study that aims to identify novel
technologies and biomarkers for early Alzheimer disease detection, and it focuses on evaluating the suitability of a new approach for early diagnosis of Alzheimer’s disease by non-invasive methods. The purpose is to examine, in a pilot
study, the potential of applying Machine Learning algorithms to speech features
obtained from suspected Alzheimer sufferers in order help diagnose this disease. Two human capabilities relevant in communication have been analyzed
for feature selection: Spontaneous Speech and Emotional Response. A novel
parameter is used Emotional Temperature. The experimental results obtained
were very satisfactory and promising for the early diagnosis and classification
of Alzheimer’s disease patients.
60
ISBN: 84-695-8101-5
Characterization of Speech in Amyotrophic Lateral Sclerosis by
Neuromorphic Processing
Pedro Gómez-Vilda1, Ana Rita M. Londral2, Mamede de Carvalho2, José Manuel Ferrández-Vicente3,
Victoria Rodellar-Biarge1
1
NeuVox Laboratory, Center for Biomedical Technology, Universidad Politécnica de Madrid, Campus de
Montegancedo, s/n, 28223 Pozuelo de Alarcón, Madrid, Spain
2
Instituto de Medicina Molecular, Faculty of Medicine, University of Lisbon, Lisbon, Portugal
3
Universidad Politécnica de Cartagena, Campus Universitario Muralla del Mar, Pza. Hospital 1, 30202 Cartagena,
Spain
e-mail: [email protected]
Abstract. Amyotrophic Lateral Sclerosis is a severe disease, which dramatically reduces the speech
communication skills of patients as disease progresses. The present study is devoted to define
accurate and objective estimates to characterize the loss of communication skills, to help clinicians
and therapists in monitoring disease progression and in deciding on rehabilitation interventions. The
methodology proposed is based on the perceptual (neuromorphic) definition of speech dynamics,
concentrated in vowel sounds in character and duration. We present the results from a longitudinal
study carried out in an ALS patient during one year. Discussion addresses future actions.
Keywords: Neuromorphic speech processing, amyotrophic lateral sclerosis, speech production,
speech perception.
1 Introduction
The detection and characterization of vowel spaces is of most importance in many applications, as in
pathological characterization of speech, accordingly the present work will investigate inter-vowel space
detection and characterization in amyotrophic lateral sclerosis (ALS) by neuromorphic methods. ALS is
a very severe and rapidly progressive neuromuscular disease of unclear origin [1] and with treatment
able to halt progression. This disorder is characterized by degeneration of upper and lower motor neurons,
causing generalized muscle weakness and atrophy, with death occurring, in general, between 2-5 years
after disease onset, due to complications related to respiratory muscles involvement. One of the most
dramatic symptoms is the progressive limitation of speech production, resulting from deterioration of the
complex neuromuscular system involved in respiration, phonation, swallowing and lingual and oro-facial
muscle function. This process degenerates in a specific kind of dysarthria characterized by hypernasality,
reduced speech rhythm, vowel intelligibility degradation, loss of consonantal dynamics, reduced and
prolonged number of inter-phonation intervals and pitch dysprosody. The patient experiences a loss of
oral communication capability, usually characterized by a reduction of intelligibility and speech rate [2],
which may lead to social isolation and depression. The present paper is intended to explore some of the
most perceivable features among the ones described above, with the aim of helping the early detection of
speech limitation, as well as to provide the speech therapist with objective tools to evaluate patients over
disease progression in order to optimize exercising techniques to manage patients. Among the different
numbers of speech changes mentioned above, the paper concentrates in the description of vowel colour
and count as possible markers of ALS dysarthria, as well on the number and duration of inter-phonation
intervals. In doing so, an important definition has to be established, which is the nature and characteristics
of vowel sounds. This is not a trivial task as vowels may be defined under the acoustic-phonetic or
phonologic point of view [3]. In such task, perceptual concepts of vowel production and perception may
be of great help. In this study, vowels will be characterized by the following descriptors: phonation must
be present (i.e. a glottal source excitation of the vocal tract must be detected), strong and narrow formant
descriptors must be evident, stability in the formants has to be maintained under a certain criterion, and a
mapping in the vowel triangle of the patient may be attributed to a certain phonologic attractor or vowel
representation space. The paper is organized as follows: A neuromorphic description of the phonation and
articulation processes is given in section 2, to easy the understanding of the underlying neuromotor
mechanisms involved; a brief description of vowel nature, based in formant characteristics and dynamics,
ISBN: 84-695-8101-5
61
is given in section 3; in section 4, the metrics used to characterize the articulation in dysarthria is
presented, and the case study is described; section 5 presents the results, which are illustrated graphically
and briefly discussed; finally, conclusions are presented in section 6.
2 Neuro-Physiological Speech and Phonation Model
Speech production is planned and instantiated in the linguistic neuromotor cortex (see Fig. 1). The
neuromotor activation sequence involved in speech production is transmitted to the pharynx (2), tongue
(3), larynx (4), chest and diaphragm (5) through the brainstem motor neuons. Fine muscular control is
provided by a sophisticated feedback control system (6). A large number of cranial nerves are involved in
motor controls of relevant muscles, including the facial, hypoglossus, glosopharyngeal and vagus nerves,
innervating the facial muscles, the tongue and, in particular, the following muscles: levator veli palatini,
palatoglosus and palatopharyngeous (2), which are critical for the naso-pharyngeal switch. These latter
structures play a most relevant role in nasalization (hyper-, hypo- and modal). The superior, middle and
inferior pharyngeal constrictors, and stylopharyngeous (3) muscles found in the mid-pharynx, are
responsible for the swallowing function as well as of changes in the vocal tract during speech articulation.
The cricothyroid, transverse and oblique arytenoid, as well as the posterior cricoarytenoid (4) muscles in
the larynx are responsible for vocal fold stretching, adduction and abduction by acting on the
cricoarytenoid joint as well as in raising and lowering the cricothyroid cartilage. The vagus nerve (5) is
responsible for filling and depleting the lung cavity with air by contraction and relaxation of the crural
diaphragm. Most of the muscles in the tongue, responsible of articulation gestures are innervated by the
hypoglosal nerve (CN XII). Other muscle-nerve systems of interest in speech are the buccal and mental
nerves, derived from the facial nerves. Any alteration in the functionality of these structures will produce
perturbations in respiration, phonation and articulation, giving place to specific dysarthrias [4, 5] which
may be characterized by the F2 vs. F1 positions in time [3].
Fig. 1
Simplified view of main neural pathways involved in the production of phonation and speech articulation.
N: nasal cavity, V: velum, P: palate, A: alveoli, L: lips, T: teeth, G: tongue.
3 Neuromorphic characterization of speech
Vowels may be formally defined as applications between the space of acoustic representations at the
cortical level to the set of perceptual symbols defined as vowels at the phonologic or linguistic level [3].
The acoustic-phonetic nature of these patterns is based on the association of the two first resonances of
62
ISBN: 84-695-8101-5
the Vocal Tract, which are referred to as 'formants', and described as F1 and F2. F1 in the range of 200-800
Hz is the lowest, F2 sweeps a wider range, from 500 to 3000 Hz. Under this point of view the nature of
vowels may be described by formant stability during a time interval larger than 30 ms, and relative
position in the F2 vs F1 space, in which is called the 'Vowel Triangle' (see Fig. 2). The characterization of
vowels by neuromorphic speech processing requires the identification of formants as the basic
instantiations to develop further knowledge. Formants are specific resonances of the articulation organs
(vocal and nasal tracts, and pharyngeal cavities). Neuromorphic processing refers to processing methods
directly inspired in neuronal activity (Hebbian structures) [6, 7]. The main processes mimicking the
neuronal activity are lateral inhibition formant profiling, tonotopic frequency band tracking, vowel
representation space grouping by space-frequency neuromorphic density functions, vowel assignment by
mutual exclusion, and vowel temporal clipping, among others.
Fig. 2
Reference Vowel Triangle used in the present study. The vowel set {i, e, a, o, u} in full circles is referred as
the cardinal set. The vowel set in dash circles may have different phonological assignments in different
languages.
A full description of these processes can be found in [3]. The specific procedures implemented in this
study are the following:
1.
2.
3.
4.
5.
6.
7.
8.
The speech trace is processed by an adaptive lattice gradient filter to obtain the inverse vocal
tract transfer function.
A spectrogram is evaluated from the coefficients of the inverse vocal tract transfer function.
Formants are estimated from the maxima of the spectrogram by lateral inhibition.
Speech activity and phonation activity are estimated by the umbralization of speech and glottal
residual energy.
The first two formants are tracked using space-frequency density functions.
Vowel representation spaces are used in detecting vowel presence by formant pair associations.
Vowel assignments by mutual exclusion determine the most probable vowel uttered.
Vowel limits in time are delimited by characteristic-frequency overlapping.
Speech may be described as a time-running acoustic succession of events (or phonetic sequence, see Fig.
3.a) [8]. Each event is associated with an oversimplified phonation paradigm composed of vowels, and
non-vowels. Non-vowel sounds are characterized by unstable formants (dynamic), by not having a
representation inside the vowel triangle, or by lacking a neat F2 vs. F1 pattern. The International Phonetic
Alphabet (IPA) [9] has been used, with symbols between square brackets [a] and bars /a/ are phonemes
(acoustic representations) and phonologic representations, respectively. Formants are characterized in this
spectrogram (middle template) by darker energy envelope peaks. What can be observed in the figure is
that the vowels and vowel-like sounds correspond to stable positions of the formants.
ISBN: 84-695-8101-5
63
a)
b)
c)
d)
Fig. 3
a) time series of the utterance in Portuguese "tudo vale a pena quando a alma não é pequena"
([tʊδʊɥɑɭɐ_pInæ˜_kwændʊaaɭmɐnɐ˜ε˜_pkenæ˜]) uttered by a female control speaker. b) Adaptive Lineal
Prediction Spectrogram (grey background) and first two formants (superimposed in color). The color dots
mark the positions of each pair {F1,F2} from green (the oldest) to red (the most recent). The approximate
phonetic labeling is given as a reference. c) Formant plot of F2 vs F1. d) Same plot as a Formant Chart
commonly used in Linguistics. The blue triangle and circles give the limit positions of the five cardinal
vowels {/i/, /e/, /a/, /o/, /u/} (for a typical male speaker in blue, female in melba). These plots show the
formant trajectories of the utterance. There is color correspondence between the bottom and middle
templates to track formant trajectories on the time axis.
4 Materials and Methods
The present study has a marked exploratory nature. Early work on formant descriptions in ALS related
dysarthria has a long history [10]. Nevertheless, objective characterization of these articulation
abnormalities by using objective representations on the vowel triangle is not frequently found. The study
will concentrate in producing sequences of positions on the vowel triangle F2 vs. F1 corresponding to
pairs {F1(n), F2(n)}, where n is the discrete time index, as given in Fig. 3 (c and d). The more stable a
vowel will be the more points will be found in a given area of the vowel triangle in time. A measurement
of the vowel triangle extension covered by a given sentence or utterance may be produced in terms of the
distribution of pairs {F1, F2} in that specific area. Therefore the following landmarks of the vowel triangle
will be defined
{
}
θ
θ
VLL = {q1 , q2 };
VMR = {q1θ , qθ2 };
CMM = {q1θ , qθ2 }
VUL = q1θ1 , qθ2 3 ;
1
1
3
2
2
(1)
2
where VUL, VLL, VMR and VMM are respectively the uper left, lower left and mid right vertices of the vowel
triangle, and CMM is the median centre of the triangle, defined in terms of the generic quantiles
 ∞


 ∫ γ i (ν )dν }
θ
ν = q i

θ
<θ
qi = arg ∞
 γ (ν )dν }


 −∫∞ i


64
(2)
ISBN: 84-695-8101-5
where γi(ν) is the probability distribution of the formant i in frequency ν, and θ is the specific quantile
threshold (for instance θ=0.03 would correspond to a 3% quantile). In the present study the following
definitions apply: θ1=0.03, θ2=0.5 and θ3=0.97. Using these definitions the virtual centroid of the vowel
triangle would be defined as
 qθ1 + q1θ 3 qθ21 + qθ2 3 
Cv =  1
,

2
2


(3)
whereas the median centroid of the vowel triangle would be
{
C m = q1θ 2 , qθ2 2
}
(4)
The asymmetry coefficient would be the difference between the median and the virtual centroids, which
may be expressed in module and argument as
2
2
 2q θ 2
 
  2q θ2 2
1
M A =  θ
− 1 
− 1 +  θ
 
  q 1 + q θ3
 q 1 + q θ 3

 

1
1
2
2

 2q θ 2 − q θ21 + q θ2 3 

ϕ A = arctan θ2
 2q 2 − q θ1 + q θ 3 
 1
1
1 
12
(5)
Given the exploratory character of the present study, a case study of a woman affected with ALS has been
used in contrast to a control healthy woman. The case study consisted in five recordings from the patient
taken at specific 3-month intervals, these being referred to as HA_T0 (November 2011), HA_T1 (January
2012), HA_T2 (March 2012), HA_T3 (July 2012) and HA_T4 (October 2012). HA_T2 had to be rejected
after voice quality analysis later and was not used in the present acoustic study. In all cases the recordings
contained utterances of the sentence /tudo vale a pena quando a alma não é pequena/ in Portuguese.
Baseline data (HA_T0) was recorded in initial stage of disease progression, when clinical evaluation
(ALSFRS [10]) indicated a high score in bulbar related functions. The results of the study conducted on
these recordings are given in the next section.
The descriptions of the vowel triangle for each utterance produced were obtained and compared. For the
sake of brevity only the first and last plots compared against the control subject are given in Fig. 4. It may
be seen that the distribution of the control subject stresses the main patterns and trajectories of the target
sentence. The first utterance of the ALS patient (HA_T0) stresses the differences in the vocalic space
between [ʊ] and [a], but fails in weighting the respective distribution of each vowel group. The last
utterance (HA_T4) is clearly unbalanced towards [a], with most of the vowels improperly articulated as
[æ]. The plots in Fig. 5 help in establishing a better comparison among the different vowel triangles and
to derive resolving conclusions.
ISBN: 84-695-8101-5
65
a)
[a]
[ʊ]
b)
[ʊ]
Fig. 4
[æ]
c)
[a]
Positions of f1 vs f2 on the vowel triangle. The 3% quartiles are given in red circles. The median centre is
given as a red diamond. a) Control female. The main vowel positions are for [ʊ] (in melba) and [a] (in
green). The formant trajectories are well organized and separate. The frequency span is large both for f1
and f2. b) HA_T0. The vowel space is much more confuse, there are not clear vowel trajectories, but the [ʊ]
and [a] are still differentiated . The frequency span is still wide, but it shrinks in f2. The median centre is
slightly tilted to the left. c) HA_T4.
VT Evolution
Second Formant F2 (Hz)
3000
2500
2000
ContFemale
1500
HA_T0
1000
HA_T1
HA_T3
500
HA_T4
0
0
200
400
600
800
1000
1200
First Formant F1 (Hz)
Fig. 5
The approximate vowel triangles derived from the utterances from the control subject (ContFemale), and
the ALS patient in four different sessions chronologically ordered from less severity to most severity
(HA_T0, HA_T1, HA_T3 and HA_T4) are compared among themselves. It may be seen that the vowel
triangle for HA_T0 is slightly narrower in f2 but larger in f1 than the control one. HA_T1 shrinks clearly
with respect to HA_T0. The same happens with HA_T3 and HA_T4 with respect to HA_T1, although there
is not a clear change between themselves.
The progressive degradation of the vowel triangle can be clearly perceived, with strong differences
between the results for HA_T0 (still comparable with the control subject) and the three last utterances.
This indicates that a strong decay in articulatory ability of the patient took place from November 2011 to
January 2012. These results are summarized in Table 1.
66
ISBN: 84-695-8101-5
Table 1. Asymmetry measurements for the vowel triangles studied
Cv1 (Hz) Cv2 (Hz) Cm1 (Hz) Cm2 (Hz)
MaleRef
445
1578
406
1507
FemaleRef
570
1828
523
1656
ContFemale
601
2000
695
1555
HA_T0
640
1734
539
1523
HA_T1
586
1578
578
1531
HA_T3
640
1578
648
1539
HA_T4
578
1656
664
1726
MA
φA (deg.)
0,099
-152.9
0,125
-131.1
0,272
-55.0
0,200
-142.3
0,033
-113.4
0,027
-63.4
0,154
15.7
VSA
FCR
141910
1,15
240230
1,07
456300
0,93
361240
1.02
147190
1.29
90637
1.42
105740
1.43
The most interesting fact to be stressed is that the angle of the normalized asymmetry coefficient swings
from the third to the first quadrant in a progressive succession. This means that the orientation of the
vowel median centroids is evolving from a more balanced situation to a tendency marked by vowel [æ].
The two last columns in the table give the Vowel Space Area (VSA) and the Formant Centralization Ratio
(FCR) evaluated following [12, 13] as a further reference. It may be seen that the FCR gives also an
indication of the anomalous articulation function. The respective values of the asymmetry modulus and
phase (Relative Centre Displacement) are given also in Fig. 6. It may be seen from the plot that the cases
show a progression from the third quadrant to the first one, with a transit through the fourth quadrant.
This is an objective measurement expressing the migration of the articulation center of gravity towards
the position of an open mid vowel as [æ].
Asymmetry Coefficient
0,06
Vertical Asymmetry
0,04
-0,2
0,02
-0,15
-0,1
0
-0,05 -0,02 0
0,05
0,1
0,15
0,2
HA_T0
-0,04
HA_T1
-0,06
HA_T3
-0,08
-0,1
HA_T4
-0,12
-0,14
Horizontal Asymmetry
Fig. 6
The asymmetry coefficient is the normalized distance between the triangle base and height midpoint
intersection and the median center. This relative displacement is plotted in module and angle for four
progressive ALS stages from the same patient (HA_T0, HA_T1, HA_T2 and HA_T3).
The last part of the results presented is the study of vowel and stop interval durations. To produce such
results vowels are detected using a coincidence function between the first and second formant CF neuron
firings [3], as these units are activated when a formant is relatively unchanged for a certain interval.
Coinciding quasi-stable formants are an indication of vowel presence, independently of its nature. The
results for the target sentence from the control and the first and last ALS patient utterances are given in
Fig. 7.
ISBN: 84-695-8101-5
67
a)
b)
c)
Fig. 7
Vowel-Consonant Dynamics. The green line delimits vowel intervals corresponding to the high level,
whereas the low level corresponds to silence or unstable formants (consonant patterns). The long intervals
are associated to vowel patterns, the short intervals correspond to brief and unstable vowels near
consonantal groups. a) Control female. Stable vowel groups are 200-300 ms long. Short unstable vowels
around 50 ms may be observed near plosive groups [p-] and [kw-]. Vowel formants take different
configurations. b). HA_T0. The number of long vowel groups is smaller, the number of short vowel groups
is larger. Formant patterns deteriorate. c) HA_T4. Larger vowel groups may be appreciated again for the
first part of the sentence, but formant patterns are much deteriorated pointing to the positions for [æ]. The
number of silences is shorter and larger, the length of the sentence is more than twice longer than in (a).
The presence of vowel groups are divided in three categories: larger than 150 ms, between 50 and 150
ms, and smaller than 50 ms. Classically regular vowels would be included in the second category. The
first category may be associated with an impaired articulation. The presence of the third category is
associated with dynamic transitions between stable vowel positions, and its reduction can be also
associated with impaired articulation. Silences can be also classified according to the same principles.
Intervals longer than 150 ms can be associated with phrase splits, less than 150 ms with plosive
consonants. The account of the different vowel and silence intervals for the three cases presented in Fig. 7
are listed in Table 2.
Table 2. Vowel group duration and stop and silence intervals
ContFemale
HA_T0
HA_T4
Long Vowels
(L > 150 ms)
4
5
6
Short Vowels
(50<L<150 ms)
3
4
5
Short Dyn Groups
(L<50 ms)
6
12
5
Stops
(50<L<150 ms)
2
3
1
Silences
(L > 150 ms)
4
4
2
In general it may be observed that the number of longer vowel groups is larger in pathological speech
than in normal speech. It may be seen also that the duration of the utterance is much larger as pathology
expresses its severity.
68
ISBN: 84-695-8101-5
6 Conclusions
The results of the study avail some of the preliminary goals formulated in section 1, consisting in
producing objective measurements of speech degradation phenomena which may be perceived by the
expert listener or the speech therapist: increased hypernasality, reduced speech rhythm, reduction of
vowel intelligibility, loss of consonantal dynamics, reduced and prolonged number of inter-phonation
intervals and pitch dysprosody, among others. Due to the limitations of the present study only rhythm,
duration and intelligibility of vowels have been studied using neuromorphic detection of formant
dynamics to establish the presence and nature of produced vowels. The most important findings
established in this sense as illness progresses are the following:
•
•
•
•
•
•
The utterance of the same sentence is produced in a longer interval.
The duration of vowels in syllabic nuclei are also extended.
The number of inter-phrasal intervals is reduced, but its duration is extended.
The number of pre-stop silence intervals is reduced. As a consequence stop consonants are lost.
The vowel triangle shrinks, especially in F2.
The vowel triangle centroids evolve towards [æ].
This last finding needs a further explanation. It is well known from literature [14] that F1 is very much
related to the degree of opening of the vocal tract ([i] and [u] corresponding to the more closed extremes,
whereas [a] gives the more open extreme), whereas F2 is more related to the articulation position (where
[u] is considered a back vowel whereas [i] is a frontal, and [a] would be a middle vowel). Thus forcing
frontal or rear vowels would imply the operation of the hypoglossal and facial (mental) neuromotor
systems which need not be active in the neutral mid position open vowel given by [æ]. Under severely
impaired neuromuscular activity this would be the only articulatory position and the relative colouring of
the different vowels would be fused towards this final position. Other vowels nearby the lower vertex of
Fig. 2 could also be plausible solutions to an impaired articulatory situation. There are other aspects of
ALS dysarthric speech which have not been checked in the present study, as estimating the degree of
hypernasality due to the failure of the levator veli palatini, palatoglosus and palatopharyngeous
neuromuscular structures acting on the naso-pharyngeal switch, as these would require a spectral detector
to model the zeroes in the vocal and nasal tract anti-resonances. Consonantal dynamics could also be
traced using neuromorphic speech processing [7]. Dysprosody could also be characterized using wellknown pitch tracking methods. These tasks are left for future research. Another important task to be
accomplished is the estimation of the biomechanical parameters of phonation in ALS patients, in a similar
way used in other neurological pathologies [15], which has not been conducted in this case due to the
limitations of the study. Another important task to fulfil in the near future is the collection of a large
database containing longitudinal studies as the one described to extend the statistical significance of the
findings produced in this study.
Acknowledgments. This work is being funded by grants TEC2009-14123-C04-03 and TEC2012-38630C04-04 from Plan Nacional de I+D+i, Ministry of Science and Technology of Spain.
References
1. Núñez-Batalla, F., Díaz-Molina, J. P., Costales-Marcos, M., Moreno-Galindo, C., Suárez-Nieto, C.:
Neurolaryngology. Acta Otorrinol. Esp. 63 (2012) 132-140.
2. Ball, L. J., Beukelman, D.R. and Pattee, G.L., Timing of speech deterioration in people with amyotrophic lateral
sclerosis, Journal of Medical Speech-Language Pathology, 10 (4) (2002), 231–235.
3. Gómez-Vilda, P., Ferrández-Vicente, J. M., and Rodellar-Biarge, V.: Simulating the Phonological Auditory
Cortex: From Vowel Representation Spaces to Categories. Neurocomputing (in press, 2012). DOI:
http://dx.doi.org/10.1016/j.neucom.2012.07.036
4. Yunusova, Y.: Articulatory Movements During Vowels in Speakers With Dysarthria and Healthy Controls. J.
Speech, Lang. and Hear. Res. 51 (2008) 596-611.
5. Bongioanni, P.: Communication Impairment in ALS Patients: Assessment and Treatment. In : Amyotrophic
Lateral Sclerosis, Ed.: M. Maurer (2012). Available from:
http://www.intechopen.com/books/amyotrophic-lateral-sclerosis
6. Gómez, P., Ferrández, J. M., Rodellar, V., Fernández, R.: Time-frequency Representations in Speech Perception,
Neurocomputing 72 (2009) 820-830.
ISBN: 84-695-8101-5
69
7. Gómez, P., Ferrández, J. M., Rodellar, V., Álvarez, A., Mazaira, L. M., Olalla, R., Muñoz, C.: Neuromorphic
detection of speech dynamics, Neurocomputing 74 (2011) 1191-1202.
8. Greenberg, S., Ainsworth, W. H.: Speech processing in the auditory system: an overview, in: W.A.S. Greenberg
(Ed.), Speech Processing in the Auditory System (Springer, New York, 2004) 1–62.
9. Available from http://www.arts.gla.ac.uk/IPA/ipachart.html
10. Cedarbaum, J. M., Stambler, N., Malta, E., Fuller, C., Hilt, D., Thurmond, B. and Nakanishi, A.: The ALSFRS-R:
a revised ALS functional rating scale that incorporates assessments of respiratory function, BDNF ALS Study
Group (Phase III). J Neurol Sci. 169(1-2) (1999) 13-21.
11. Weismer, G., Martin, R., Kent, R. D. and Kent, J. F.: Formant trajectory characteristics of males with
amyotrophic lateral sclerosis. J. Acoust. Soc. Am. 91 (1992) 1085-1098.
12. Sapir, S., Ramig, L. O., Spielman, J., Fox, C.: Acoustic Metrics of Vowel Articulation in Parkinson’s Disease:
Vowel Space Area (VSA) vs. Vowel Articulation Index (VAI). In: Proc. of MAVEBA11 (Manfredi, C., Ed.).
Florence University Press; (2011) 173-175.
13. Sapir, S., Ramig, L. O. and Fox, C.: Formant Centralization Ratio: A proposal for a New Acoustic Measure of
Dysarthric Speech. J. Speech, Lang. and Hear. Res. 53 (2010) 114-125.
14. Dromey, C., Jang, G-O. and Hollis, K.: Assessing correlations between lingual movements and formants. Speech
Comm. 55 (2013) 315-328.
15. Gómez-Vilda, P., Rodellar-Biarge, V., Nieto-Lluis, V., Muñoz-Mulas, C., Mazaira-Fernández, L. M., RamírezCalvo, C., Fernández-Fernández, M. and Toribio-Díaz, E.: Neurological Disease Detection and Monotoring from
Voice Production. LNAI 7015 (2011) 1-8.
70
ISBN: 84-695-8101-5
Herramienta de creación de base de datos de habla espontanea de
pacientes con diagnóstico de Enfermedad de Alzheimer
Cayetano Cabrera, Jesús. B. Alonso, Carlos M. Travieso, Miguel A. Ferrer.
Instituto para el Desarrollo Tecnológico y la Innovación en Comunicaciones (IDeTIC)
Campus de Tafira, 35017, Las Palmas de Gran Canaria, España
{ jalonso, ctravieso,
mferrer}@dsc.ulpgc.es,
[email protected]
Abstract. Una herramienta simple y eficaz para crear bases de datos de habla
espontanea de sujetos con Enfermedad de Alzheimer es presentada. Las bases de
datos actuales incluyen grabaciones de fonaciones sostenidas de vocales, lectura de
textos de test y entrevistas dirigidas por un entrevistador. Esta nueva herramienta
propone una solución para crear bases de datos que permitirán un estudio de la
enfermedad mejor y con un coste computacional bajo. La ventaja que presenta esta
herramienta es su independencia del texto a leer, ya que pide al paciente que recuerde
y describa sucesos que han ocurrido recientemente, así como su independencia con
respecto al entrevistador, por lo que la obtención de datos depende del paciente y no
de la capacidad del entrevistador para obtener los mismos.El uso de esta herramienta
abre la puerta a utilizar sistemas automáticos de evaluación, offline y online, de
pacientes que presenten esta enfermedad.
ISBN: 84-695-8101-5
71
1. INTRODUCCIÓN.
Para entender mejor la enfermedad del Alzheimer, se hará un pequeño resumen
de la neurología y las patologías asociadas más comunes que se dan en esos casos.
Según la asociación española de neurología [1], la neurología (del griego clásico
neuron, "nervio" y del sufijo logia, "estudio de”) es la especialidad médica que trata
los trastornos del sistema nervioso. Específicamente, un neurólogo se ocupa de la
prevención, diagnóstico, tratamiento y rehabilitación de todas las enfermedades que
involucran al sistema nervioso central, el sistema nervioso periférico y el sistema
nervioso autónomo, incluyendo sus envolturas (hueso), vasos sanguíneos y tejidos
como los músculos.
Las patologías neurológicas pueden clasificarse como: patologías vasculares
(apoplejías o hemorragias cerebrales), enfermedades musculares y de la unión
neuromuscular (distrofia muscular), polineuropatias, trastornos de los nervios, de las
raíces y de los plexos nerviosos (paralisis de Bell, entre otras), trastornos episódicos
y paroxísticos (epilepsia, cefalea..), enfermedades desmielinizantes (esclerosis
multiple), trastornos extrapiramidales y del movimiento (enfermedad de Parkinson),
atrofias sistémicas con afección primaria del sistema (enfermedad de Huntington,
ataxia de Friedrich), enfermedades inflamatorias del sistema nervioso central
(meningitis, encefalitis), y demencias (enfermedad de Alzheimer, deterioro
cognitivo leve(del inglés, mild cognitive impairment, MCI)).
Constituyen un conjunto de enfermedades muy frecuentes que afectan tanto a
las personas jóvenes como, y de forma muy especial, a las de edad avanzada.
Además, pueden llegar a mermar de forma muy grave muchas de nuestras
capacidades (el movimiento, la memoria y el pensamiento, el lenguaje, etc.) por lo
que sus consecuencias llegan a impedir a muchos de los enfermos realizar incluso
las actividades más básicas de la vida diaria: ocasionan muy frecuentemente
discapacidad y dependencia.
Dentro de las patologías neurológicas, este trabajo se centrará en las demencias,
y dentro de ellas, específicamente en la enfermedad de Alzheimer. Según la
definición de la Librería Nacional de Medicina (NLM) estadounidense, la
enfermedad de Alzheimer (EA, o del inglés, Alzheimer´s Disease, AD) es la forma
más común de demencia entre las personas mayores. La demencia es un trastorno
cerebral que afecta gravemente la capacidad de una persona de llevar a cabo sus
actividades cotidianas [2]. La AD comienza lentamente, afectando primero las
partes del cerebro que controlan el pensamiento, la memoria y el lenguaje.
Suele comenzar después de los 60 años. El riesgo aumenta a medida que la
persona envejece, siendo este mayor si hay antecedentes familiares que han padecido
la enfermedad. Ningún tratamiento puede detener la enfermedad. Sin embargo,
algunos fármacos pueden ayudar a impedir por un tiempo limitado que los síntomas
empeoren.
Los síntomas que presenta esta enfermedad suelen ser: Dificultad para recordar
sucesos recientes, dificultad para mantener una conversación o repetir las mismas
historias una y otra vez, cambios de humor y de personalidad, comportamiento social
inadecuado y tener problemas para entender imágenes visuales, entre otras.
72
ISBN: 84-695-8101-5
Hasta hace poco, la forma más eficiente de diagnóstico de enfermedad de
Alzheimer es realizando una autopsia al paciente fallecido. Hoy en dia, es posible
realizar un diagnóstico de enfermedad de Alzheimer a los pacientes que lo sufren
mediante dos pruebas: exámenes neurológicos e imágenes neurológicas.
Los exámenes neurológicos son básicos a la hora de detectar y crear el
diagnóstico diferencial de la enfermedad de Alzheimer, así como de las entrevistas
a familiares y cuidadores. Además, pruebas adicionales como el análisis de sangre
(que sirve para detectar si las causas de la demencia se deben a AD u otras causas) o
exámenes ayudan al diagnóstico de la misma.
Las imágenes neurológicas, tales como el TAC (Tomografía axial
computarizada), RMN (Resonancia magnética nuclear) o TEP (tomografía por
emisión de positrones) pueden mostrar signos de la existencia de una demencia, que
junto a los anteriores exámenes y la ausencia de un diagnostico alternativo, permiten
dar un diagnóstico de AD.
El análisis acústico es una técnica no invasiva basada en el procesado digital del
habla, que se presenta como una herramienta eficiente de apoyo para el diagnóstico
efectivo de trastornos vocales, monitorización de enfermedades vocales y de voz,
alteración de las funciones vocales y la evaluación de tratamientos quirúrgicos asi
como farmacológicos y rehabilitación.
Otra gran ventaja de esta técnica es que puede ser utilizada sin necesidad de
tener unos conocimientos especializados elevados, en los entornos habituales de los
pacientes sin alterar ni bloquear sus habilidades. El paciente no percibe este tipo de
examen como una prueba estresante, y además no se requiere el uso de una gran
infraestructura o equipos médicos, por lo que se puede obtener la información del
paciente de forma fácil, rápida y barata.
El principal problema que se presenta en el caso del estudio por voz de
enfermedad de Alzheimer radica en que las bases de datos de las que disponen los
investigadores son limitadas y en la mayoría de los casos no se corresponden a
pruebas que permitan observar el posible deterioro en la memoria del paciente, como
pueda ser una breve conversación o pedir al paciente que recuerde algún suceso
reciente.
La inhabilidad que el paciente presenta para recordar y describir sucesos o
memorias pueden dar lugar a cambios emocionales en el paciente, que pueden ser
analizados mediante técnicas de respuesta emocional o ERA (del inglés, Emotional
Response Analysis). Por ejemplo, estudios recientes basados en este tipo de análisis,
como el presentado por [14], en el que se estudia la temperatura emocional de los
datos del paciente, presentan unos porcentajes de acierto elevados.
En la literatura, prácticamente todos los acercamientos a la hora de realizar
estudios mediante voz de pacientes con EA utilizan la base de datos desarrollada por
el Massachusetts Eye and Ear Infirmary Voice and Speechs Lab (MEII) y
comercializada por KayElemetrics Disordered Voice Database and Program, Model
4337 [3]. Esta base de datos está formada por más de 1400 muestras (fonaciones
sostenidas de la vocal “a”, y 12 segundos de lectura de un texto) de aproximadamente
700 pacientes. Las muestras se obtuvieron en un entorno controlado. La frecuencia
de muestreo de las grabaciones fue de 25-50 KHz, con una resolución en las mismas
de 16 bits.
ISBN: 84-695-8101-5
73
De esta forma, los autores [4]-[10] utilizan subconjuntos de la base de datos
anteriormente mencionada, con rangos de frecuencia de muestreo entre los 25 y 50
KHz. Otros autores utilizan bases de datos propias. Por ejemplo, en [11] la base de
datos la conforman 168 muestras( 100 de control y 68 patológicas), muestreadas a
22.05 KHz y con una precisión de 16 bits; en [12] los autores crearon una base de
datos de fonaciones sostenidas de 1200 muestras (900 patologicos, 300 de control)
en las que las muestras se tomaron con un frecuencia de muestreo de 16 KHZ y
resolución de 16 bits; o el caso de [14], cuya base de datos está compuesta por
grabaciones de video de pacientes con AD (20 sujetos, 8 horas) y sujetos de control
(50 sujetos, 12 horas). La base de datos de [13] la componen fonaciones sostenidas
muestreadas a 8 Khz y remuestreadas a 16 KHz. Tanto en el caso de [13] como de
[14], los autores no indicaban datos de resolución ni de tamaño de la base de datos.
La herramienta que a continuación se propone permitirá crear una base de datos
de grabaciones de habla espontanea de pacientes que presenten síntomas ó la
enfermedad de Alzheimer, lo que ayudará a la creación de herramientas de
diagnóstico de AD menos dependientes de factores externos, como puede ser la
figura del entrevistador, entornos controlados, etc...
2. Método y herramienta.
Como se ha visto anteriormente, las bases de datos publicas disponibles son o
bien de fonaciones sostenidas o de lectura de textos específicos. Por eso se propone
el uso de una herramienta que permita obtener grabaciones de habla espontanea de
los pacientes.
Una de las posibles herramientas es la que se propone: Una herramienta semiautomatizada que permite que el sujeto patológico pueda comunicarse sin que haya
un nivel alto de estrés, y que no depende de la capacidad del entrevistador en el
momento de la entrevista.
La herramienta se dice semi-automatizada puesto que es necesario introducir los
datos del paciente por parte del cuidador o médico del paciente, tras lo cual no se
necesita mayor participación del cuidador hasta que la herramienta no termine o se
produzca algún fallo durante el proceso (el micrófono no funciona, el paciente habla
muy lejos o muy cerca del micrófono, etc…).
Los pasos que se utilizan en la herramienta son los siguientes: tras la pantalla de
presentación de la herramienta, el cuidador/medico introduce los datos del paciente
en la herramienta. Una vez hecho esto, la herramienta se pone en marcha y explica
al paciente en que va a consistir la prueba, mediante la reproducción de un video que
describe en que va a consistir la prueba que el paciente va a realizar utilizando un
lenguaje claro e informal, que ayudará a que el paciente se sienta cómodo y se relaje
el tiempo en el que se va a realizar la prueba. Esto es importante, ya que si el paciente
percibiera este test como frustrante o incomodo, la realización de la prueba podría
resultar tediosa, tanto para el paciente como para el cuidador/medico, lo que daría
lugar a la obtención de grabaciones que no nos proporcionarían tanta información
como si el paciente estuviese relajado.
Acto seguido, el sistema carga un video, y al terminar la reproducción del
mismo, pide de forma automática al paciente que describa lo que acaba de ver en el
video mediante un mensaje de refuerzo, en el que se pide al paciente su opinión ó
74
ISBN: 84-695-8101-5
una descripción del mismo, realizando acto seguido la grabación de la descripción
del video del paciente. Este control conversacional que se lleva a cabo usando
mensajes de refuerzo intermedios es importante para que el paciente mantenga el
interés durante la prueba y que el paciente se encuentre relajado en todo momento.
Cada grabación tiene una duración de 1 minuto, con frecuencia de muestreo de
22050 Hz y resolución de 16 bits. Los videos que se usan tienen una duración de,
como máximo, 2 minutos. El sistema repite el proceso un mínimo de tres veces hasta
obtener 3 grabaciones del paciente. Si el sistema detectase que han ocurrido
problemas durante alguna de las grabaciones, muestra un mensaje de error al
paciente, explicándole que fallo ha podido pasar, y le pide que vea un nuevo video
y que lo describa. Los casos de error que el sistema contempla son:
-
-
No ha habido actividad de voz. Durante la grabación del paciente el
sistema no ha detectado que el paciente ha hablado. Puede sucederse
debido a problemas en el micrófono o porque el paciente no haya
hablado durante la grabación. Si es la primera vez que pasa, el sistema
manda un mensaje de refuerzo al paciente y le pide que lo vuelva a
intentar. Si no, se pasa a hacer un análisis técnico.
El nivel de intensidad de la señal es bajo. Ocurre si el micrófono está
muy alejado del paciente durante la grabación, o si el micrófono está
desconectado.
Además, tras cada correcta grabación del fichero, vuelven a aparecer mensajes
de refuerzo que animan al paciente y le relajan, siguiendo las sugerencias indicadas
en estudios de control conversacional y en programación neurolingüística.
Para poder guardar las grabaciones de los pacientes, se rellenan los campos de
la ficha del paciente, donde:
Ilustración 1.Plantilla para cumplimentar la información del paciente.
ISBN: 84-695-8101-5
75
Name, Surname, Second Surname.- Se toman las iniciales de nombre y
apellidos (Ejemplo: Alberto López Pérez -> FPL)
Age.- La edad del paciente
Sex.- Se indica el sexo del paciente mediante M (Male, hombre) ó F
(Female, mujer)
Stage.- Etapa de la enfermedad en la que se encuentra el paciente. Se indica
mediante cuatro opciones: MCI (mild cognitive impairment, o deterioro cognitivo
leve), AD1 (Alzheimer´s Disease stage 1), AD2 (Alzheimer´s Disease stage 2) y
AD3 (Alzheimer´s Disease stage 3).
Fecha en la que se realizaron las grabaciones.
Con esto, las grabaciones del paciente quedan almacenadas en una carpeta que
mantiene la intimidad y protege los datos del paciente. El ejemplo anterior quedaría
“NS1S2AASSTADD-MM_AAAA” (N=Nombre, S1=Apellido 1, S2=Apellido 2,
AA=Edad, S=Sexo, STA=Etapa de la enfermedad, DD=Dia, MM=Mes, YYYY=
Año). En el ejemplo propuesto, el nombre de la carpeta que incluiría los ficheros de
las grabaciones del paciente seria:
ALP70HDCL28-May-2013
A continuación se detalla el funcionamiento de la herramienta y del análisis
técnico mediante diagramas de flujo:
76
ISBN: 84-695-8101-5
Ilustración 2.Diagrama de flujo de la herramienta.
ISBN: 84-695-8101-5
77
Ilustración 3.Diagrama de flujo del análisis técnico.
.
3. Discusión.
El principal problema que presentan las bases de datos para estudio de la
enfermedad de Alzheimer mediante voz actuales es que, salvo algunas excepciones,
consisten en fonaciones sostenidas de vocales, más concretamente de la vocal “a”, o
en la grabación del paciente leyendo un texto o frases preestablecidas. Ambos tipos
de grabaciones han demostrado ser bastante robustos y sencillos a la hora de trabajar
con ellos y estudiar sus características, dando lugar a estudios sobre diagnóstico de
Alzheimer por voz con porcentajes de acierto elevados.
Otro problema que se deriva de este tipo de bases de datos es que, tanto en las
que se da un texto a leer por el paciente como en las fonaciones, se hace en entornos
controlados, lo que el paciente percibe como intrusivo, lo que no permite al mismo
relajarse durante la entrevista.
Además, existe el problema de no conocer si las bases de datos disponibles son
de pacientes con AD, o de pacientes con enfermedad de Parkinson, o de alguna otra
demencia, o una amalgama de demencias.
La ventaja de la herramienta presentada es que prácticamente elimina la
necesidad del entrevistador (medico, cuidador, etc...), siendo este necesario a la hora
de rellenar la ficha del paciente. Esto permite que la descripción que realiza el
paciente en las grabaciones no dependa del estado de ánimo de terceros a la hora de
obtener información del paciente. Otra ventaja es que permitiría tener una base de
datos de pacientes con AD rigurosa, es decir, que tendríamos la certeza de que todos
los pacientes que conforman la base de datos poseen AD.
78
ISBN: 84-695-8101-5
4. Conclusiones.
Como se ha visto, se ha propuesto el uso de una herramienta propia creada en
Matlab, que mediante el uso de video, hace posible el construir una base de datos de
voces de sujetos que presentan enfermedad de Alzheimer en distintos grados. Dicha
base de datos estará formada por las grabaciones de habla espontanea (al contrario
que las opciones que están disponibles públicamente, como son la lectura de textos
predeterminados o fonaciones sostenidas de vocales) de los sujetos que presentan
dicha patología, lo que facilitara el diagnóstico de la enfermedad y su tratamiento.
Además, aplicando algunas modificaciones, esta herramienta podría utilizarse para
la creación de bases de datos para otro tipo de enfermedades neurodegenerativas,
como por ejemplo la enfermedad de Parkinson.
ISBN: 84-695-8101-5
79
Referencias.
[1] ¿Qué es la Neurologia? - www.sen.es/pdf/2010/que_es_la_neurologia.pdf
[2] Early Alzheimer´s: Are you worried about memory loss? alzheimer´s disease
- http://www.nlm.nih.gov/medlineplus/alzheimersdisease.html
[3] Disordered Voice Database and Program, Model 4337 http://www.kayelemetrics.com/index.php?option=com_product&Itemid=3&control
ler=product&task=learn_more&cid[]=52
[4] J. Godino-Llorente, P. Gómez-Vilda, N. Sáenz-Lechón, M. Blanco-Velasco,
F. Cruz-Roldán, and M. A. Ferrer, "Discriminative methods for the detection of
voice disorders," in Proceedings of International Conference on Non-Linear Speech
Processing (NOLISP '05), Barcelona, Spain, April 2005.
[5] Little, M.A.; McSharry, P.E.; Hunter, E.J.; Spielman, J.; Ramig, L.O.,
"Suitability of Dysphonia Measurements for Telemonitoring of Parkinson's
Disease," Biomedical Engineering, IEEE Transactions on , vol.56, no.4,
pp.1015,1022, April 2009
[6] Godino-Llorente, J.I.; Gomez-Vilda, P.; Blanco-Velasco, M.,
"Dimensionality Reduction of a Pathological Voice Quality Assessment System
Based on Gaussian Mixture Models and Short-Term Cepstral Parameters,"
Biomedical Engineering, IEEE Transactions on , vol.53, no.10, pp.1943,1953, Oct.
2006
[7] Kaleem, Muhammad; Ghoraani, Behnaz; Guergachi, Aziz; Krishnan,
Sridhar; “Pathological speech signal analysis and classification using empirical
mode decomposition”, http://dx.doi.org/10.1007/s11517-013-1051-8
[8] Dibazar, A.A.; Narayanan, S.; Berger, T.W., "Feature analysis for automatic
detection of pathological speech," Engineering in Medicine and Biology, 2002. 24th
Annual Conference and the Annual Fall Meeting of the Biomedical Engineering
Society EMBS/BMES Conference, 2002. Proceedings of the Second Joint , vol.1,
no., pp.182,183 vol.1, 2002
[9] Wenxi Chen; Ce Peng; Zhu, Xin; Baikun Wan; Daming Wei, "SVM-based
Identification of Pathological Voices," Engineering in Medicine and Biology
Society, 2007. EMBS 2007. 29th Annual International Conference of the IEEE , vol.,
no., pp.3786,3789, 22-26 Aug. 2007
[10] Jianglin Wang; Cheolwoo Jo, "Vocal Folds Disorder Detection using
Pattern Recognition Methods," Engineering in Medicine and Biology Society, 2007.
EMBS 2007. 29th Annual International Conference of the IEEE , vol., no.,
pp.3253,3256, 22-26 Aug. 2007
[11] Jesus B. Alonso , José de Leon , Itziar Alonso , Miguel A. Ferrer, Automatic
detection of pathologies in the voice by HOS based parameters, EURASIP Journal
on Applied Signal Processing, v.2001 n.4, p.275-284, December 2001
[12] Boyanov, B. and Hadjitodorov, S. 1997. Acoustic analysis of pathological
voices. A voice analysis system for the screening of laryngeal diseases. IEEE
Engineering in Medicine & Biology Magazine 16:74-82.
[13] Martinez, C.E.; Rufiner, H.L., "Acoustic analysis of speech for detection
of laryngeal pathologies," Engineering in Medicine and Biology Society, 2000.
Proceedings of the 22nd Annual International Conference of the IEEE , vol.3, no.,
pp.2369,2372 vol.3, 2000
[14] López-de-Ipiña, K.; Alonso, J.-B.; Travieso, C.M.; Solé-Casals, J.;
Egiraun, H.; Faundez-Zanuy, M.; Ezeiza, A.; Barroso, N.; Ecay-Torres, M.;
Martinez-Lage, P.; Lizardui, U.M. On the Selection of Non-Invasive Methods Based
on Speech Analysis Oriented to Automatic Alzheimer Disease Diagnosis. Sensors
2013, 13, 6730-6745.
80
ISBN: 84-695-8101-5
Aplicaciones en Rehabilitación: Trastornos de la Voz y su Reeducación
Maria Soledad García Acosta
Médico Rehabilitador y Foniatra
Centro ICOT en Gran Canaria
Centro Volcano en Lanzarote
[email protected]
Abstract. Con esta ponencia se pretende plantear una perspectiva integradora y global de las disfonías funcionales principalmente. La voz no es un ente
aislado, y si está alterado, puede ser como consecuencia de un desequilibrio
del normal funcionamiento de nuestro cuerpo, especialmente, en lo referente a la postura, a la actitud corporal y comunicativa, que tiene que ver mucho
con nuestra estática raquídea y donde también interviene factores psíquicos,
mentales y emocionales de cada persona. Por este motivo, el enfoque metodológico derivado de una concepción holística del las disfonías , difiere del enfoque sólo centrado en la modificación de conductas “ mejorables”. El enfoque
holístico tiene como objetivo lograr la restauración de una emisión vocal saludable a través de la implicación de todo el cuerpo. ( desarrollar mayor grado
de propioceptividad ), y para el Médico Foniatra , el reto de aprender más de
nuestras estructuras corporales , no solo del aparato fonador.
ISBN: 84-695-8101-5
81
Análisis biométrico aplicado en la evaluación y
tratamiento en patología vocal
Marcelo J. Rodríguez-Cruz, Amalia Sánchez-López, María Teresa Schüller-Moreno,
Pilar Revilla-Rodríguez
Centro de Rehabilitación del Lenguaje, Av. De los Toreros. 10,
28028 Madrid, España
Resumen. Parece necesario que el logopeda disponga de un procedimiento no
invasivo para el análisis de la eficacia del tratamiento aplicado. Los objetivos de
este estudio se orientan, primero a comprobar la validez del software
BioMet®Phon como herramienta no invasiva de diagnóstico para la
exploración de los trastornos de la voz y segundo a valorar la eficacia del
tratamiento logopédico mediante el análisis objetivo de los cambios en la huella
biométrica de la onda.
Keywords: parámetros biométricos, onda mucosa, evaluación no invasiva de la
voz, medidas de eficiencia terapéutica.
1. Introducción
El interés por evidenciar la validez (eficiencia) de la terapia vocal ha generado la
necesidad de evaluar los cambios producidos en la vibración de los pliegues vocales y
en la calidad de la voz, después de aplicar la terapia como medida restaurativa de la
función fonatoria. [2][5]. Si bien, la efectividad de herramientas como la
laringoestroboscopia y la nasofibroslaringoscopia quedan sobradamente probadas y
son imprescindibles para el diagnóstico de los trastornos de la voz [3][4], parece
necesario que el logopeda pueda contar con un procedimiento no invasivo, como la
Técnica de la Dinámica de la Onda Mucosa [7] para el análisis de la eficacia del
tratamiento aplicado. Esta técnica, al analizar la onda glótica, permite orientar una
hipótesis diagnóstica acertada, mediante un material de fácil aplicación en la sesión
terapéutica y sin molestia alguna para el paciente.
Los objetivos de este estudio se orientan, primero a comprobar la validez del
software BioMet®Phon como herramienta no invasiva de diagnóstico para la
exploración de los trastornos de la voz y segundo, a valorar la eficacia del
tratamiento logopédico mediante el análisis objetivo de los cambios en la huella
biométrica de la onda.
82
ISBN: 84-695-8101-5
2. Materiales y Método
Se estudian tres casos de disfonía, en mujeres. Los tres por lesión benigna de
pliegue vocal: dos de ellas por nódulos y una por edema. El rango de edad se sitúa
entre los 20 y los 47 años; edad media: 34 años y 4 meses, con una desviación
estándar de 13 años y 7 meses. Todas ellas fueron derivadas al CRL por diferentes
hospitales del Servicio Madrileño de Salud. A su ingreso en este centro se realizó
exploración mediante nasofibroscopia por los Servicios de ORL y de Foniatría y un
estudio funcional de la voz que incluyó: la obtención de parámetros
fonorrespiratorios, la valoración perceptiva de la calidad de la voz mediante GRABS,
el análisis acústico digital y la estimación biométrica del pliegue vocal.
Tras recibir el tratamiento de rehabilitación, cada sujeto fue reevaluado aplicando
el mismo protocolo inicial. Con los resultados obtenidos, en base a los archivos de
grabación de voz, se realizó un análisis comparativo de las variables biométricas y
acústicas.
El estudio utiliza la herramienta BioMet®Phon para la comparación interna de los
parámetros vocales más susceptibles de orientar hacia una hipótesis diagnóstica,
según las recomendaciones de Gómez Vilda [8]: parámetro 35: masa dinámica
asociada al cuerpo; parámetro 37: parámetro de rigidez asociada al cuerpo promedio;
parámetro 38: desequilibrio de masa dinámica corporal por cada dos ciclos vecinos;
parámetro 40: desequilibrio de rigidez del cuerpo por cada dos ciclos vecinos;
parámetro 41: masa dinámica asociada a la cubierta promedio entre los pliegues
vocales; parámetro 43: rigidez asociada a la cubierta promedio de pliegues; parámetro
44 desequilibrio de masas dinámicas de la cubierta por cada dos ciclos vecinos; y
parámetro 46: desequilibrio de la rigidez de la cubierta por cada dos ciclos vecinos.
Los objetivos finales del tratamiento propuesto para todos los casos consistieron
en:
-
Eliminar la lesión.
Conseguir una buena calidad de voz.
Obtener una voz funcional para la demanda fonatoria del paciente.
El procedimiento terapéutico incluyó diferentes enfoques de la terapia vocal:
técnicas indirectas de control de pautas de higiene vocal, que se fueron revisando
periódicamente mediante registros durante el tratamiento. Se utilizaron, también,
técnicas directas propias del enfoque fisiológico: sonidos facilitadores y técnicas de
tracto vocal semiocluído (TVSO) [9][10][12]. Otras técnicas aplicadas fueron la
masoterapia para eliminar tensiones en la musculatura perioral, perilaringea y de
cintura escapular. De igual manera, se utilizaron técnicas específicas para eliminar el
ataque vocal duro, y para lograr una coordinación neumofónica adecuada. Los
programas de ordenador Isoton y Dr. Speech[11] fueron los principales apoyos de
biofeedback. Finalmente se aplicaron técnicas propias del enfoque psicológico para el
reconocimiento y toma de conciencia del problema fonatorio, y la generalización en la
vida cotidiana de los patrones vocales aprendidos.
ISBN: 84-695-8101-5
83
3. Resultados
Caso 1. Nódulos (PGJ pre). Mujer. 20 años.
El estudio ORL mostraba nódulos en tercio anterior de cuerdas vocales. Ataque
vocal duro con acabalgamiento de aritenoides derecho sobre el izquierdo. Defecto de
cierre posterior. Constricción supraglótica en graves y agudos.
Fig. 1
Diagrama de huella de fuente glótica y flujo aéreo (PGJ pre).
Fuente glótica: La fase de retorno (tR1) es muy breve y deficiente. La fase de
contacto (0-tO2) es igualmente breve e irregular. El punto de apertura (O) está muy
adelantado y la fase de abducción es muy larga y llena de irregularidades. La fase de
inicio de cierre (cl) se encuentra cercana a la norma.
Fig. 2
Densidad espectral de voz y función de transferencia (PGJ pre).
Densidad espectral: los armónicos se observan hasta 1500Hz aproximadamente.
Llama la atención la presencia de ruido interarmónico.
84
ISBN: 84-695-8101-5
Fig. 3
Valores de calidad de fuente glótica.
Comentario al análisis cualitativo de la fuente glótica: Voz de gama aguda (271
Hz) llama la atención un Jitter, Shimmer y ruido interarmónico aumentados. Los
desbalance de la masa y rigidez de la cubierta, y además la rigidez del cuerpo
aparecen con valores alterados.
PGJ recibió 26 sesiones de tratamiento de una hora con una periodicidad de dos
días alternos a la semana. Su asistencia al tratamiento fue regular.
Los objetivos de tratamiento fueron:
-
Adquirir un patrón respiratorio costo-abdominal.
Eliminar el habla en espiración mediante una coordinación neumofónica
adecuada.
Corregir la postura inadecuada de cuello.
Eliminar la contracción de la musculatura supra e inflaglótica. Maseteros
y Pterigoideos.
Lograr una frecuencia habitual dentro de los parámetros normales.
Eliminar el ataque vocal duro.
Eliminar la contractura anteroposterior para agudos y graves.
Incrementar el número y la intensidad de los armónicos.
Eliminar situaciones de mal uso y abuso vocal.
Caso 1. Nódulos (PGJ post).
El estudio ORL muestra un esbozo o mínima lesión. Ha desaparecido la tensión
del cierre y el encabalgamiento. Constricción leve en grave y agudos.
ISBN: 84-695-8101-5
85
Fig. 4
Diagrama de huella de fuente glótica y flujo aéreo (PGJ post).
Fuente glótica: La fase (tR1) es un poco más amplia y más mantenida con menos
irregularidades. La fase de contacto (0-tO) igualmente es mas amplia. En general toda
la fase se encuentra más próxima a la línea de equilibrio. La fase de apertura (O)
continúa adelantada y ha disminuido su duración e irregularidad.
Fig. 5
Densidad espectral de voz y función de transferencia (PGJ post).
Densidad espectral: se evidencian armónicos hasta 4000 Hz.
Fig. 6
86
Valores de calidad de fuente glótica.
ISBN: 84-695-8101-5
El análisis de la calidad de fuente glótica muestra unos valores más cercanos a los
norma en frecuencia, y dentro de la norma en: Jitter, Shimmer,.y HNR. Los
desbalances de la cubierta y de la rigidez del cuerpo se mantienen elevados, aunque
han disminuido el grado de alteración.
Fig. 7
Diagrama de respuesta al tratamiento de PGJ respecto a un conjunto de normado.
El tratamiento ha resultado eficaz. Aunque no ha logrado suprimir totalmente la
lesión, sí ha conseguido mejorar significativamente la calidad de la voz eliminando el
índice de discapacidad vocal
Caso 2. (SSA pre). (Nódulos) Mujer. 36 años.
La exploración ORL mostró nódulos en comisura anterior.
Fig. 8
ISBN: 84-695-8101-5
Diagrama de huella de fuente glótica y flujo aéreo (SSA pre).
87
Fuente glótica: La fase de retorno (R) es dinámica, insuficiente y sin
irregularidades. La fase de contacto (tO-tR) es muy breve existiendo un gap
permanente. La fase de apertura máxima (tM) igualmente es breve y abrupta sin
incremento adecuado de flujo aéreo (O-tM). La fase de abducción puede estar dentro
de los parámetros normativos.
Fig. 9
Densidad espectral de voz y función de transferencia (SSA pre).
Densidad espectral: Pérdida de intensidad en los armónicos a partir de 2000 Hz
con presencia de un armónico de intensidad difusa alrededor de los 2900 Hz.
Fig. 10 Valores de calidad de fuente glótica.
Los valores que destacan relacionados con la calidad de fuente glótica por su
distancia a los límites de normalidad son shimmer, jitter, masa y tensión del cuerpo, y
muy significativamente los parámetros de desbalances en cubierta.
SSA recibió 15 sesiones de una hora de duración dos días alternos por semana.
Los objetivos de tratamiento fueron:
-
Mejorar el control del soplo espiratorio.
Lograr una correcta coordinación neumofónica.
Mejorar el apoyo respiratorio en la fonación.
Adquirir patrón respiratorio costo-diafragmático.
Lograr la eutonía en la musculatura del cuello.
Eliminar el ataque duro.
Disminuir la tasa de habla.
Caso 2. (SSA post). (Nódulos) Mujer. 36 años.
La exploración ORL mostró cuerdas vocales sin lesiones.
88
ISBN: 84-695-8101-5
Fig. 11 Diagrama de huella de fuente glótica y flujo aéreo (SSA post).
Fuente glótica: se puede observar fase de recuperación muy rápida. La fase de
contacto presenta un inicio anteriorizado con ausencia de gap permanente, pero con
presencia de gap en la fase de contacto. La fase de apertura máxima se ha suavizado y
aunque persisten irregularidades con intentos de cierre en la fase descendente el flujo
aéreo se incrementa desde el comienzo de esta fase.
Fig. 12 Densidad espectral de voz y función de transferencia (SSA post).
Hz.
Densidad espectral: Los armónicos han aumentado hasta observarse en los 4000
ISBN: 84-695-8101-5
89
Los valores de jitter y shimer se han normalizado. Destaca la mejora de la masa
de la cubierta.
Fig. 14 Diagrama de respuesta al tratamiento de SSA respecto a un conjunto de normado.
Analizando los resultados del análisis de la muestra completa se confirma la
evolución. Hay que destacar la normalización de todos los parámetros espacialmente
el Shimmer, los desbalances de masa y rigidez del cuerpo, e igualmente aparecen
mejoras notorias en los desbalances en las cubiertas.
Caso 3. Nódulos (AJG pre). Mujer. 47 años.
El estudio ORL mostraba Edema. Defecto de cierre longitudinal y constricción
supraglótica en graves y agudos intensa.
Fig. 15 Diagrama de huella de fuente glótica y flujo aéreo (AJG pre).
90
ISBN: 84-695-8101-5
Fuente glótica: La fase de retorno (tR1) es muy dinámica pero poco eficaz. La fase
de contacto (0-tO2) es amplia destacando un gap de contacto con varias falsas
aperturas. Igualmente existen intentos de cierres posteriores y gran turbulencia debido
al escape aéreo. La fase de apertura tiene irregularidades e intentos de cierre.
Fig. 16 Densidad espectral de voz y función de transferencia (AJG pre).
Densidad espectral: los armónicos se observan hasta 2900 Hz aproximadamente.
Llama la atención la presencia de ruido interarmónico.
Comentario al análisis cualitativo de la fuente glótica: destaca los valores
alterados de jitter y desbalance de la tensión en cubierta.
AJG recibió 20 sesiones de tratamiento de una hora con una periodicidad de dos
días alternos a la semana. Su asistencia al tratamiento fue regular.
Los objetivos de tratamiento propuestos fueron:
-
Adquirir un patrón respiratorio costo-abdominal.
Eliminar el ataque vocal duro
Aumentar la presión subglótica a través del apoyo respiratorio.
Disminuir la tensión de la musculatura perioral.
Mejorar la fuerza de la musculatura laringea y la resistencia glótica.
Caso 3. Nódulos (AJG post).
El estudio ORL muestra cuerdas vocales sin lesión.
ISBN: 84-695-8101-5
91
Fig. 18 Diagrama de huella de fuente glótica y flujo aéreo (AJG post).
Fuente glótica: La fase de retorno (tR1) es muy dinámica. La fase de contacto (0tO) igualmente es más amplia y disminuyen las irregularidades. Apareciendo un
cierre defectuoso tipo gap transitorio alrededor de los 2 msg. En general toda la fase
se encuentra más próxima a la línea de equilibrio.
La fase de abducción (o-tM) es pronunciada.
Fig. 19 Densidad espectral de voz y función de transferencia (AJG post).
Densidad espectral: se evidencian una mejoría muy significativa en el incremento
de armónicos y su intensidad hasta 5000 Hz.
92
ISBN: 84-695-8101-5
El análisis de la calidad de fuente glótica muestra unos valores normalizados por
completo.
Fig. 21 Diagrama de respuesta al tratamiento de AJG respecto a un conjunto de normado.
El tratamiento ha resultado eficaz. Se han conseguido en la regularidad de la
amplitud de los armónicos como demuestra el espectrograma. Han desaparecido los
desbalances, y las amplitudes de onda glótica son más uniformes ciclo a ciclo.
4. Conclusiones
Se observa de manera general que el programa BioMet®Phon permite demostrar
con parámetros objetivos la mejoría de los pacientes tras el tratamiento logofoniátrico.
En todos los casos estudiados se ha observado un incremento y mayor regularidad
en la amplitud de los ciclos glóticos.
ISBN: 84-695-8101-5
93
De igual manera, se observa una mejor función de transferencia del tracto vocal
visible por la presencia de mayor número de armónicos enriquecidos en intensidad.
En los casos descritos, al eliminar la lesión, han desaparecido los desbalances en
el cuerpo y la cobertura.
Con los casos analizados parece que los parámetros que ofrece BioMet®Phon
podrían proporcionar información válida al terapeuta sobre la dinámica del ciclo
glótico, pero sería necesario ampliar la muestra del estudio para llegar a establecer
regularidades y relacionar las alteraciones estructurales y funcionales con la dinámica
de la fuente glótica.
Agradecimientos. Este proyecto se ha podido llevar a cabo gracias al apoyo recibido
desde el Laboratorio de Procesado Neuromórfico de la Voz del Centro de Tecnología
Biomédica, y en especial a D. Pedro Gómez-Vilda.
References
1. Gartner-Schmidt, J. L., Roth, D. F., Zullo, T. G., & Rosen, C. A. (2013). Quantifying
Component Parts of Indirect and Direct Voice Therapy Related to Different Voice
Disorders. Journal of Voice.
2. Patel, R. R., Pickering, J., Stemple, J., & Donohue, K. D. (2012). A Case Report in
Changes in Phonatory Physiology Following Voice Therapy: Application of High-Speed
Imaging. Journal of Voice.
3. Halawa, W. E., Muñoz, I. V., & Perez, S. S. (2013). Effectiveness of Laryngostroboscopy
for Monitoring the Evolution of Functional Dysphonia after Rehabilitator Treatment. Indian
Journal of Otolaryngology and Head & Neck Surgery, 1-5.
4. Halawa, W. E., García, A. C., & Pérez, S. S. (2012). Effectiveness of laryngostroboscopy
for monitoring the evolution of vocal nodules after rehabilitator treatment. Auris Nasus
Larynx.
5. Mehta, D., Paul, D., & Hillman, R. (2012). Evidence-based clinical voice assessment: A
systematic review. American Journal of Speech-Language Pathology November 26, 2012
6. Mehta, D. D., & Hillman, R. E. (2012). Current role of stroboscopy in laryngeal imaging.
Current Opinion in Otolaryngology & Head and Neck Surgery, 20(6), 429-436.
7. Krausert, C. R., Olszewski, A. E., Taylor, L. N., McMurray, J. S., Dailey, S. H., & Jiang, J.
J. (2011). Mucosal wave measurement and visualization techniques. Journal of Voice,
25(4), 395-405.
8. Gómez, P., Rodellar, V., Nieto, V., Martínez, R., Alvarez, A., Scola, B., & Fernández, M.
(2013, February). BioMet®Phon: A System to Monitor Phonation Quality in the Clinics. In
eTELEMED 2013, 5th Int. Conf. on eHealth, Telemed., and Social Medicine (pp. 253-258).
9. Guzman N. M. (2012) Terapia con tracto vocal semi-ocluido: un studio de caso. Revista
chilena de fonoaudiología. Vol. 11, 2012
10. Bonet,M. y Bonet, N. (2008) Lax vox: Método de rehabilitación vocal finlandés.
Comunicación oral. Congreso Sociedad Médica de Foniatría Española. León, 2008
11. Campillos LLanos, L. (2010), “Tecnologías del habla y análisis de la voz. Aplicaciones en
la enseñanza de la lengua”, en Diálogo de la Lengua, II, 1-41
12. Behlau, M "Rehabilitación vocal" pp 339-354. En: García-Tapia, R. y Cobeta, I. (1996)
Diagnóstico y tratamiento de los trastornos de la voz.Garsi: Madrid.
94
ISBN: 84-695-8101-5
Una nueva dimensión en la enseñanza musical:
el procesado digital de señales
Oscar Juan Domínguez Jaén1, Mª Zulema Santana López1
1
Conservatorio Profesional de Música de las Palmas de Gran Canaria
C/ Maninidra 1
35002 Las Palmas de Gran Canaria, España
[email protected]
Abstract. Se ha normalizado la idea de que el aprendizaje de un instrumento
musical implica largas horas de práctica en soledad y que la supervisión del
profesor especialista se realice con una cadencia a la semana de dos horas para
las enseñanzas elementales y de una para las enseñanzas profesionales. A este
contexto hay que añadir la poca ayuda que normalmente y por desconocimiento
pueden recibir los estudiantes en casa, el uso tradicional de una metodología de
enseñanza basada en la ejecución ejemplar con el instrumento por parte del profesor y/con la intención de que el alumno reproduzca lo escuchado y visto, la
imposibilidad, en algunas disciplinas (canto, trombón, trompa, etc.) de una observación directa, sistemática y focalizada de gran parte de los elementos que
entran en funcionamiento para lograr la producción del sonido y la falta de una
verbalización clara y específica de los procedimientos a seguir producto, en
gran parte, de una tradición de enseñanza- aprendizaje que no ha tenido en
cuenta la atención a la diversidad favoreciendo así a unos pocos. El resultado de
todo esto es que nuestros niños músicos, además de tener una sobrecarga lectiva, han de estar haciendo el esfuerzo, muchas veces en vano, de recordar para
adivinar, o intuir y recomponer en su mente lo escuchado, lo que hace posible
que suene el instrumento, y esa tarea es grande, ingrata, se dilata en el tiempo y
no garantiza una base sólida que permita abordar estudios avanzados. En la actualidad los avances en todas las vertientes de la ciencia y especialmente en el
procesado digital de las señales nos permiten convertir el sonido en un objeto de
estudio que podemos oír, ver y modificar, en tiempo real o en diferido y proporcionan unas nuevas herramientas que no solo nos ayudan a objetivar y unificar criterios sino que nos permiten integrar el potencial de la imagen como
fuente de información para la transmisión de los conocimientos y ayuda en el
estudio instrumental. La investigación en el procesado digital de las señales entre equipos interdisciplinares de músicos e ingenieros abre un futuro esperanzador para que la tarea del estudio instrumental se torne amena, no se dilate tanto
en el tiempo y proporcione un estudio significativo.
ISBN: 84-695-8101-5
95
Vocal Fold Biomechanical Analysis for the Singing Voice
Pedro Gómez Vilda1, Elisa Belmonte-Useros2, Víctor Nieto Lluis1, Victoria RodellarBiarge1, Agustín Álvarez Marquina1, Luis M. Mazaira Fernández1
1
Campus de Montegancedo, s/n, 28223 Pozuelo de Alarcón, Madrid
2
Escuela Superior de Canto, C/ San Bernardo 44, 28015, Madrid
Abstract. Teaching the adequate use of the singing voice conveys a lot of
knowledge in musical performance as well as in objective estimation techniques
involving the use of air, muscles, room and body acoustics, and the tuning of a
fine instrument as the human voice. Although subjective evaluation and training
is a very delicate task to be carried out only by expert singers, biomedical
engineering may help contributing with well-funded methodologies developed
for the study of voice pathology. The present study is a preliminary study of
exploratory character describing the performance of a student singer in a regular
classroom under the point of view of vocal fold biomechanics. Estimates of
biomechanical parameters obtained from singing voice are given and their use
in the classroom is discussed.
Keywords: vocal fold modeling, singing performance, voice production, vocal
effort.
1 Introduction
The singing voice is one of the most beautiful and natural musical instruments in
nature. It must be seen also as a very ancient and emotional way of expression of
human nature and culture. Although much has been studied about the singing voice
since the pioneering work of Sundberg [1], much more is still pending of
introspective analysis using the traditional acoustic theories hybridized with the
modern signal processing tools based on powerful and ubiquitous computing. The
work presented here is an exploratory study motivated by the need of objectively
estimating what has been always the spirit of singing expressed subjectively. The
ultimate goal being the study of the 'stage fright' of singers, a fruitful collaboration
between the NeuVox Lab and the Superior School of Singing in Madrid allowed the
recording of real performances from students and professors of the school both at the
study room and at the stage. The use of BioMet®Phon [2] in the estimation of aspects
as tone, loudness, vocal fold biomechanics and glottal closure during different scales,
has allowed to depict a colourful yet highly semantic picture of what is the singing
voice. The needs derived from the study have deeply reformed the tool, initially
conceived to analyze voice quality in the clinics to transform it to a new device:
BioMet®Sing. Estimations of real recordings and their preliminary statistical results
96
ISBN: 84-695-8101-5
are being presented and discussed. This study must be seen as a due sequel of early
works conducted in the NeuVox Lab some years ago [3, 4]. The ultimate goal of the
study is to provide a methodology for the objective analysis of the singing voice with
different intentions: graduate the vocal effort of the singer, produce estimates of the
performance of the interpreter in real time to be used in learning singing techniques,
and evaluate the emotional overload (stage fright), among others. The paper is
organized as follows: A brief description of vocal fold biomechanics is given in
section 2 to help understanding the parameters being used. A summary of the
methodology used in the recordings is given in section 3. In section 4 results obtained
from the analysis of a single performance by a singing student are presented, and their
potential use discussed. Conclusions are presented in section 5.
2 Fundamentals
The key technique used for the analysis of voice quality in BioMet®Sing is adaptive
vocal tract inversion to produce an estimate of the glottal source. Accurate spectral
domain techniques [5] allow the estimation of a set of biomechanical parameters
associated to a 2-mass model of the vocal folds [6] as the one depicted in Fig. 1.
Fig. 1 Vocal fold 2-mass biomechanical model assumed in the study. a) Structural description
of vocal folds. b) Model equivalent in masses and viscoelasticities.
The template (a) shows the physiological structure of the vocal folds as a body
composed by the musculis vocalis, and a cover or lamina propria and the visco-elastic
tissues in Reinke’s space and the ligaments. The biomechanical model in (b) shows
that the masses of the cover and Reinke’s space have been included in the cover
masses Mcl and Mcr for the left (l) and right (r) vocal folds. Masses Mbl and Mbr
account for the body and ligaments. It must be kept in mind that these masses are not
distributed, but dynamic point-like ones. Visco-elastic parameters Kcl and Kcr explain
the relations between tissue compression and acting forces on the cover and Reinke’s
space. Parameters Kbl and Kbr are the same regarding the body and ligaments.
Although the tool in itself produces a wide range of parameters (jitter, shimmer, NHR,
mucosal/aaw, glottal source cepstral, spectral profile, biomechanical, OQ, CQ, RQ,
glottal gap defects, tremor) the biomechanical parameters are by far the most
ISBN: 84-695-8101-5
97
interesting set to assess the dysphonic conditions both in modal voice as well as in
singing voice. Having this description in mind, the subset of biomechanical
parameters is composed of the following correlates:
•
•
•
•
•
•
•
•
Parameter 35: Dynamic mass associated to the body, given as an average of Mbl
and Mbr.
Parameter 37: Stiffness parameter associated to the body averaged on the left and
right folds (Kbl and Kbr).
Parameter 38: Unbalance of dynamic body mass per each two neighbor cycles.
Parameter 40: Unbalance of body stiffness per each two neighbor cycles.
Parameter 41: Dynamic mass associated to the cover averaged on the left and
right folds (Mcl and Mcr).
Parameter 43: Stiffness parameter associated to the cover averaged on the left and
right folds (Kcl and Kcr).
Parameter 44: Unbalance of dynamic cover masses per each two neighbor cycles.
Parameter 46: Unbalance of cover stiffness per each two neighbor cycles.
The estimation of the above parameters is carried out by inverting the 2-mass model
in Fig. 1 in the spectral domain as described in [5]. Examples of estimates from each
parameter on a balanced database of 50 male and 50 female normative speakers
collected and evaluated by endoscopy at Hospital Universitario Gregorio Marañón de
Madrid (Spain) are given in Fig. 2 and Fig. 3.
Fig. 2 Histograms of the biomechanical parameters (dynamic masses and stiffness) for
normative male and female datasets. In abscisae masses are given in g, stiffness given in g.s-2
(mili-N/m). Ordinates give number of subjects.
98
ISBN: 84-695-8101-5
Fig. 3 Histograms of the biomechanical parameter unbalance for normative male and female
datasets (given in rel. values). Abscisae give unbalance relative to unity (0.01 is 1%). Ordinates
give number of subjects per bin.
It may be seen that parameter 35 (body mass) is differentially distributed for males
and for females, being larger for males, as expected. Parameter 37 (body stiffness) is
distributed differentially but reciprocally (larger for females than for males), as well
as parameter 43 (cover stiffness). On the other hand, cover masses (parameter 41) do
not show gender differences. Regarding unbalance parameters (38, 40, 44 and 46) all
the distributions concentrate towards low values with a few exceptions (outliers). This
means that large unbalance may be an indication of dysphonic or pathological
behavior. The irregularities found in these parameters bear a clear semantics on the
presence of dysphonia in modal as well as in singing voice.
Recordings of singing voice were taken in two different scenarios: at the classroom
during the singing lessons, where the performer had to produce different scales
accordingly with his/her vocal characteristics, and in the performing stage before an
audience composed by the grading jury and general public attending the performance.
To ensure proper quality of voice and reduce interference from piano guidance,
ambient noise or reverberation effects highly directional wireless chest microphones
were used (Sennheiser ME4 clip-on condenser cardioid). Recording was carried out at
a sampling frequency of 96,000 Hz in 32 bits. Posterior signal processing did not alter
ISBN: 84-695-8101-5
99
these standards. Special care had to be taken with signal levels to avoid saturation
clipping, fixing gains low in the recording card (MOTU Traveller Firewire Audio
Interface Recording System). Later analysis showed irrelevant levels of ambient noise
or reverberation in the classroom, and minor interference from piano guidance, with
levels of the singing voice at least 60 dB over piano notes. The situation in the theatre
stage was a bit worse, with piano guidance below 50 dB, ensuring a safe margin to
grant enough accuracy to parameter estimation methods. Classrooms were around
120-150 m3, carpeted floor and paper walls, no special isolation. The neoclassic
theatre room had a capacity for 300 persons, high ceilings and long backstage. Of
course, the recording conditions differed from those in a sound-proof chamber, but it
was decided to have the performers acting in their own media, either in the classroom
or in the stage to reproduce better the environs where the singer is supposed to
perform, avoiding an artificial situation for the exploratory study which does not show
a correspondence with real life activity. Satisfactorily, the recordings show that signal
quality is more than enough to produce valid and reliable results. The performers
were students of the Superior School of Singing, with ages ranging from 20-32 years,
7 men and 4 women, showing different voice characteristics (2 bass, 3 baritones 2
tenors, mezzo, 4 sopranos). In the classroom they were asked to produce different
natural scales following the pattern of a fifth followed by an octave, articulating the
five cardinal vowels in a vowel shift phrase as /ye-e-e-e-e-e-e-e-e-a-a-a-a-a-a-a-a-a-aa-a-a-a-a/, or similar, combining the different target vowels. In stage auditions they
choose a classical masterwork fragment at their will. The materials used in the present
exploratory longitudinal study [7] are from a soprano student to show how
biomechanical parameters grade singing effort and performance.
An estimation of four perturbation parameters (jitter, shimmer, NHR, mucosal/aaw),
the four biomechanical ones, their unbalances and pitch (totaling 13 estimates)
evaluated over the fifth/octave span is given in Fig. 4. The parameters have been
normalized to their respective means from the general normative database of 50
female subjects already mentioned. It may be noticed that some parameters show
almost no influence with the tone change, as the Body Mass (35), whereas others as
the Body Mass Unbalance (38) show important changes. As it may be seen in the first
column to the left Absolute Pitch (1) follows closely the expected evolution, first
raising, then sloping down during the fifth, and repeating the same pattern on a larger
span for the octave (a ninth, indeed). But the question is how precise the estimation of
pitch can be. In the case of the pitch frequency estimation provided by BioMet®Phon,
based on cycle-synchronous detection, this accuracy can be estimated approximately
as (f0)2/fs, where f0 is the pitch and fs the sampling frequency. This means that for the
larger tone displayed in the test (D5, f0=1174.66 Hz) the accuracy would be around
14.37 Hz, whereas for the lowest tone (C4, f0=523.25 Hz) the accuracy would be
around 2.85 Hz. In the worst case the accuracy of the estimate would be equivalent of
one eight of tone. With these figures in mind the question would be how accurate the
tuning of the singing voice has been. The answer to this question is plotted in Fig. 5.
100
ISBN: 84-695-8101-5
Fifth/Ninth - Normalized Perturbation & Biomechanical Parameters
30
25
20
15
10
5
0
Do (C)
Sol (G)
Do (C)
Sol (G)
Re (D)
Sol (G)
Re (D4)
Fa (F)
Re (D)
La (A)
Do (C)
Fa (F)
Mi (E)
Mi (E)
Mi (E)
Si (B)
Si (B)
Mi (E)
Fa (F)
Re (D)
Fa (F)
Do (C)
La (A)
Re (D)
Fig. 4 Estimates of pitch and 12 perturbation and biomechanical parameters on the tonal span.
Actual pitch freq. vs theoretical tone (Hz)
1300
1200
Theoretical Pitch
1100
Actual Pitch Ave.
1000
Ave. - Std.
Ave. + Std.
900
800
700
600
500
Do (C4)
Re (D4)
Mi (E4)
Fa (F4)
Sol (G4)
Fa (F4)
Mi (E4)
Re (D4)
Do (C4)
Re (D4)
Mi (E4)
Fa (F4)
Sol (G4)
La (A4)
Si (B4)
Do (C5)
Re (D5)
Do (C5)
Si (B4)
La (A4)
Sol (G4)
Fa (F4)
Mi (E4)
Re (D4)
Do (C4)
Do# (C#4)
Do (C4)
Do# (C#4)
400
Fig. 5 Theoretical and actual pitch frequency for each tone in the scale (fine tuning).
ISBN: 84-695-8101-5
101
The expected pitch frequency according to the theoretical tonal scale (mathematically
fk+1=fk.2-12) is given in blue, and the actual frequency estimated by BioMet®Sing is
plotted in red. Average estimations are in circles, whereas diamonds mark the limit of
one standard deviation around the average. In general it may be seen that tuning is
better for the larger scale than for the smaller, this fact which is observed in other
voice quality factors to be presented in brief. Another important quality factor is vocal
effort, defined as the loudness vs. pitch for each tone in the scale. This factor is
presented in Fig. 6, using the amplitude of the first harmonic as a reference of tone
loudness. The quality factor is plotted vs. the actual pitch estimated by BioMet®Sing
(in red) and the theoretically expected one (in blue). This merit factor may be of
strong importance to teach the production of high pitch at lower or higher loudness.
0
-5 500
Vocal Effort (Loudness vs Pitch: dB-Hz)
600
700
800
900
1000
1100
1200
-10
-15
-20
-25
-30
Loudness vs. Theor. Freq.
Loudness vs. Actual Freq.
-35
-40
-45
Fig. 6 Loudness as a function of pitch (vocal effort).
The biomechanical parameters of the vocal fold body are of strong interest for the
study. The dynamic body mass vs. tone is plotted in Fig. 7. The average estimate is
plotted in blue circles, the statistical dispersion (one standard deviation, average±std.
dev.) is given by red diamonds. Some tones are produced neatly whereas some others
show large dispersion, marking voicing instabilities.
0.007
0.006
0.005
0.004
Body Mass vs Tone (g)
Body Mass Ave.
Ave. + Std.
Ave. - Std.
0.003
0.002
0.001
Do (C4)
Re (D4)
Mi (E4)
Fa (F4)
Sol (G4)
Fa (F4)
Mi (E4)
Re (D4)
Do (C4)
Re (D4)
Mi (E4)
Fa (F4)
Sol (G4)
La (A4)
Si (B4)
Do (C5)
Re (D5)
Do (C5)
Si (B4)
La (A4)
Sol (G4)
Fa (F4)
Mi (E4)
Re (D4)
Do (C4)
Do# (C#4)
Do (C4)
Do# (C#4)
0
Fig. 7 Vocal fold body mass (dynamic) for each tone in the scale.
102
ISBN: 84-695-8101-5
In general, the higher the pitch the larger the loudness, as to raise the pitch the
performer has to increase vocal fold tension mainly, as it may be seen in Fig. 8. It can
be appreciated that the dispersion of stiffness is stronger in certain tones (more
weakly produced, as F4 in the fifth ascending scale).
Body Stiffness vs Tone (mN/m)
140000
120000
100000
Body Stiffness Ave.
Ave. + Std.
Ave. - Std.
80000
60000
40000
20000
Do (C4)
Re (D4)
Mi (E4)
Fa (F4)
Sol (G4)
Fa (F4)
Mi (E4)
Re (D4)
Do (C4)
Re (D4)
Mi (E4)
Fa (F4)
Sol (G4)
La (A4)
Si (B4)
Do (C5)
Re (D5)
Do (C5)
Si (B4)
La (A4)
Sol (G4)
Fa (F4)
Mi (E4)
Re (D4)
Do (C4)
Do# (C#4)
Do (C4)
Do# (C#4)
0
Fig. 8 Vocal fold body stiffness (lateralized tenseness) for each tone in the scale.
Other important quality factors are biomechanical unbalances, as expressed by the
difference between neighbor cycles relative to their average. The instability may be
associated to an asymmetric vibration pattern of each vocal fold, and in grading
organic pathology is a clear mark of dysphonic behavior. Its relevance in the singing
voice may be as high or even higher, giving a hint of poor performance, signaling
weaknesses in voicing to be corrected by voice education techniques. The unbalances
of body mass and stiffness are given in Fig. 9. Again F4 in the fifth ascending scale
and C4 in the ligature between both scales are the most unstable tones.
0.14
0.12
0.1
0.08
Body Mass & Stiffness Unb (%) vs Tone
Body Mass Unb.
Body Stiffness Unb.
0.06
0.04
0.02
Do (C4)
Re (D4)
Mi (E4)
Fa (F4)
Sol (G4)
Fa (F4)
Mi (E4)
Re (D4)
Do (C4)
Re (D4)
Mi (E4)
Fa (F4)
Sol (G4)
La (A4)
Si (B4)
Do (C5)
Re (D5)
Do (C5)
Si (B4)
La (A4)
Sol (G4)
Fa (F4)
Mi (E4)
Re (D4)
Do (C4)
Do# (C#4)
Do (C4)
Do# (C#4)
0
Fig. 9 Body mass and stiffness unbalances for each tone in the scale.
Finally another merit factor is that of glottal gap defects, defined as the improper
opening found where the larynx is supposed closed (contact gap defect), the lack of
complete closure all over the phonation cycle (permanent gap defect), and the
improper fluctuations during the closing phase, showing a marked tendency to
retrocede to opening where the folds are supposed to progress to contact and closure
ISBN: 84-695-8101-5
103
(adduction gap defect). These three gap defects were evaluated using advanced signal
processing techniques [8] and are plotted for each tone in Fig. 10.
0.7
Contact Gap
0.6
Adduction Gap
0.5
Permanent Gap
Gaps (%) vs Tone
0.4
0.3
0.2
0.1
Do (C4)
Re (D4)
Mi (E4)
Fa (F4)
Sol (G4)
Fa (F4)
Mi (E4)
Re (D4)
Do (C4)
Re (D4)
Mi (E4)
Fa (F4)
Sol (G4)
La (A4)
Si (B4)
Do (C5)
Re (D5)
Do (C5)
Si (B4)
La (A4)
Sol (G4)
Fa (F4)
Mi (E4)
Re (D4)
Do (C4)
Do# (C#4)
Do (C4)
Do# (C#4)
0
Fig. 10 Glottal gap defects for each tone in the scale.
Glottal gap defects are to be interpreted differently. Contact gap is associated to
inadequate closure, and maybe more relevant in male than in female voice. In fact it
remains very low for each tone. Adduction gaps are associated to the asymmetry in
vocal fold dynamics, and the difficulty in approaching to closure. Permanent gap
maybe the more relevant one for singing voice, as it measures the amount of constant
opening found in the larynx, thus giving an estimation of air use efficiency. The larger
the permanent gap the larger the permanent air escape and the lower the air use
efficiency. It may be seen that permanent gap is especially large for certain tones as
C5 and E4 in the descending ninth.
5 Conclusions
The results of the study avail some of the preliminary goals formulated in section 1,
consisting in producing objective measurements of singing voice performance based
on the biomechanical description of the vocal folds. Due to the limitations of the
present study based in the description of a single performer, statistical significance
cannot be claimed. Nevertheless some interesting important findings may be
remarked:
•
•
•
•
104
A close following of the performance tuning can be estimated and presented
to the student and professor during the classroom session in real time
granting tonality accuracy.
Measures of vocal effort can be provided under the same basis.
Estimates of vocal fold mass and especially stiffness may provide a clear
hint to voicing performance, particularly as statistical dispersion is
concerned.
Biomechanical unbalances, especially those affecting stiffness could be
eventually used to marks to voicing deficiencies to be corrected using
classical voicing techniques in singing.
ISBN: 84-695-8101-5
•
Specific relevance should be attributed to glottal gap defects, with special
emphasis in the permanent defect, as a mark of improper air usage.
Many other estimates can be obtained and included in a biomechanical study of
singing voice, such as the distribution of the harmonic/noise factors, the open, close
and return quotients, or the parameters of tremor and vibrato [9]. These would be
especially relevant to investigate and characterize the stage fright, one of the
ambitious objectives of a study being already conducted. The next steps to be covered
are to extend the methodology to the group of singers already been recruited in the
database to evaluate the statistical significance of this approach.
Acknowledgments. This work is being funded by grants TEC2009-14123-C04-03
and TEC2012-38630-C04-04 from Plan Nacional de I+D+i, Ministry of Economic
Affairs and Competitiveness of Spain. Special thanks are due to the direction of
Escuela Superior del Canto for facilitating the recordings and the access to their
beautiful stage. The results shown in the study come from recordings contributed by
the Erasmus Student Adeline Le Mer from the Conservatoire de Rennes, France, who
enthusiastically collaborated in providing her most beautiful gift: her voice.
References
1. Sundberg, J.: The Science of the Singing Voice. Dekalb, IL: Northern Illinois Univ. Press
(1987)
3. Gómez, P.: Biomechanical Evaluation of Vocal Fold Performance in Singing Voice,
Lecture at The Voice Foundation's 37th Annual Symposium 2008: Care of the Professional
Voice - The Westin, Philadelphia, PA, May 28 - June 1 (2008)
4. Murphy, K.: Digital signal processing techniques for application in the analysis of
pathological voice and normophonic singing voice. PhD. Thesis, Universidad Politécnica
de Madrid, 2008 (download: http://oa.upm.es/1079/1/KATHARINE_MURPHY.pdf).
R, and Godino, J. I.: Glottal Source Biometrical Signature for Voice Pathology Detection.
Speech Comm., (51) 2009, pp. 759-781.
6. Berry, D. A.: Modal and nonmodal phonation. J. Phonetics, (29) 2001, pp. 431-450.
7. Mürbe, D., Pabst, F., Hofmann, G., & Sundberg, J.: Effects of a professional solo singer
education on auditory and kinesthetic feedback—a longitudinal study of singers' pitch
control. Journal of Voice, 18-2 , (2004) 236-241.
8. Gómez, P., Nieto, V., Rodellar, V., Martínez, R., Muñoz, C., Álvarez, A., Mazaira, L. M.,
Scola, B., Ramírez, C. and Poletti, D.: Wavelet Description of the Glottal Gap. Proc. of the
18th DSP Int. Conf., Santorini, July 1-3, 2013 (to appear).
9. Gómez-Vilda, P., Rodellar-Biarge, V., Nieto-Lluis, V., Muñoz-Mulas, C., MazairaFernández, L. M., Ramírez-Calvo, C., Fernández-Fernández, M. and Toribio-Díaz, E.:
Neurological Disease Detection and Monotoring from Voice Production. LNAI 7015
(2011) 1-8.
ISBN: 84-695-8101-5
105
Diseño y desarrollo de una propuesta metodológica para
la reeducación de la voz: Método Cimardi “Pantalla de
Celofán”
Mª Zulema Santana López1, Jesús B. Alonso2, Fidel Cabrera3,
Oscar Juan Domínguez1, Dionisio Rodriguez3, Carlos M. Travieso2
1
Conservatorio Profesional de Música de las Palmas de Gran Canaria
C/ Maninidra 1
35002 Las Palmas de Gran Canaria, España
2
Instituto para el Desarrollo Tecnológico y la Innovación en Comunicaciones (IDeTIC)
3
[email protected]
Abstract. Las patologías de la voz tienen una gran incidencia, cada vez más frecuente en la población, como consecuencia de los esfuerzos sostenidos de la
voz por motivos profesionales (cantante, orador, educador, animador, vendedor etc.) ya sean distonías, nódulos, afonías u otros, o simplemente que su
emisión de voz no es la más adecuada, produciendo cansancio y el consiguiente forzamiento vocal.
La voz es el resultado de una compleja mecánica en la que cada elemento posee una función e intervienen una multitud de fenómenos que interaccionan
en la laringe. Es bien sabido que aprender a controlar y verificar todos los movimientos que hacen falta para producir un buen sonido es bastante difícil,
porque el cantante percibe unas sensaciones internas, que no son siempre
iguales y que varían dependiendo de la técnica vocal que se emplée
La propuesta metodológica para la reeducación de la voz “Pantalla de celofán”,
tanto en el habla como en el canto, tiene como objetivo proporcionar una
herramienta sencilla y práctica a todas aquellas personas que necesiten mejorar su emisión vocal.
106
ISBN: 84-695-8101-5
1
Introducción
La voz es sin duda el instrumento de expresión y comunicación de trabajo más difundido en la vida moderna. Todas las personas utilizan la
voz a diario, es el vehículo y condicionante del trabajo en nuestra vida,
en casi todas las manifestaciones. Para algunas profesiones el uso de
la voz es fundamental para el desempeño laboral, como actores, cantantes, locutores, oradores, telefonistas, docentes y otros.
En la actualidad, nos encontramos con que una gran parte de la
población presenta trastornos vocales como consecuencia de sobreesfuerzos del instrumento, ya sean distonías, nódulos, afonías u otros, o
simplemente que su emisión de voz no es la más adecuada, produciendo cansancio y el consiguiente forzamiento vocal.
Entre la población docente existe un alto porcentaje de profesores
que utilizan mal la voz y realizan esfuerzos musculares para obtener
los sonidos con intensidad y amplificados, para así poder ser escuchados. Hay una estrecha correlación entre éstos y los niños. Es muy frecuente encontrar a niños con dificultades en la fonación, pero vemos
que donde realmente radica el problema es en los modelos vocales, o
sea, en sus padres, familia o en las personas que más horas pasan con
ellos, que son sus maestros.
Es también habitual, tanto en adultos y en niños, y sobre todo en
la etapa de la adolescencia, ver que no se sienten identificados con su
voz, no les gusta y buscan patrones de conducta vocal cercanos a sus
deseos, tendiendo a hacer el tono de voz más grave buscando resonancias más profundas, oscuras y atractivas, adaptando su voz a patrones erróneos y como consecuencia a un mal funcionamiento de su
órgano vocal.
En la transmisión de comunicación en el canto es bastante frecuente utilizar el ejemplo directo del maestro. Es habitual que el maestro interprete y el discípulo ejecute, lo que resulta muy difícil aprender a controlar y verificar todos los movimientos que hacen falta para
tener una buena emisión vocal, ya que las sensaciones no son iguales
ISBN: 84-695-8101-5
107
en todas las personas y tienen que aprender a investigar sobre ellos
mismos.
En el estudio del canto, los alumnos se hacen siempre la misma
pregunta “¿Cómo sé si es correcto lo que estoy haciendo?”. Realmente no saben a ciencia cierta si lo están haciendo bien o no. Tienen la
sensación que, sin la ayuda de su profesor poco o nada pueden hacer
por ellos mismos y no tienen nada tangible a lo que aferrarse. El control de la voz por el propio oído les resulta muy difícil porque carecen
de una referencia clara para cerciorarse de que están emitiendo un
sonido correcto, por lo tanto, el estudio y la práctica en casa se les
hace mucho más engorroso. Es bastante ingrato repetir y repetir sin
tener la certeza de que están trabajando adecuadamente, y sólo les
queda esperar una semana, hasta la próxima clase, para que su profesor les verifique si han realizado bien los ejercicios.
Actualmente existen diferentes métodos para reeducar la voz, los
cuales se describen a continuación:
 Método de Voice Ctraft: se basa en la fisiología y la anatomía del
cuerpo. El método consiste en dividir el proceso de producir sonidos en 13 ejercicios o Figuras Obligatorias, que aíslan las estructuras independientes en el mecanismo vocal. Esto permite al cantante escoger qué “ingredientes” combinan en la “receta” de cualquier
sonido particular que desee hacer.
 Método Speech Level: Creado por Seth Riggs, es una técnica de
entrenamiento vocal que consiste en mezclar resonancias entre pecho y cabeza. Esta mezcla es gradual al pasar de registro. Cantar
con los músculos internos de la laringe no con los externos, por lo
que se necesita menos esfuerzo para producir el sonido. Se desarrolla un sonido parejo y consistente sin discrepancias al cambiar de
un registro a otro.
 Método Rabine: creado por Eugene Rabine, junto al profesor Peters Jacoby, se dedicó a investigar y comprender las bases anatomo- fisiológicas del canto. El fundamento del Método Rabine consiste en la habilidad del maestro en desarrollar el oído, la visión y la
empatía funcional. Su base está apoyada en dos teorías, una acerca
de la función vocal y la otra acerca del aprendizaje senso- motor.
108
ISBN: 84-695-8101-5
 Método Linklater: fue diseñado por Kristin Linklater, su enfoque se
caracteriza que no desenraiza la voz de la persona “Escuchamos la
persona, no escuchamos su voz”. Consiste en una progresión de
ejercicios al servicio de la libertad de expresión y cuya meta es la libertad de la voz natural.
 Complete Vocal Technique: creado por Cathrine Sadolin, según su
método protege anatomía y el uso de la voz mediante cuatro modos vocales (neutral, retenido/frenado, directo, extremo), los colores del sonido y la asistencia urgente; opta por una manera sana de
hacer efectos vocales.
 Método Vocal Power: creado por Elisabeth Howard, es un método
“step- by step” de entrenamiento vocal que permite un mejor control de la voz y una mayor libertad expresiva.
 Método Proel: método propioceptivo elástico energético basado
en los conceptos fisiológicos de la voz aplicados al canto: La viscoelasticidad y la lubricación de la laringe, la dinámica del velo del paladar, de la lengua y de la musculatura facial para abrir el tracto vocal.
2
Método Cimardi. “Pantalla de celofán”
La propuesta metodológica para la reeducación de la voz “Pantalla de
celofán” responde a una necesidad que se plantea habitualmente en
la docencia de cómo hacer que los estudiantes de canto consigan discernir cuándo un sonido está bien emitido, entendiendo por ello estabilidad de la voz, riqueza espectral, riqueza de armónicos y facilidad en
la emisión, sin tensiones.
Este trabajo propone una técnica de entrenamiento vocal y la información de cómo usarla. La técnica de voz llamada “Pantalla de celofán” sirve para que la práctica vocal no sólo sea por imitación y por
vía auditiva, sino por sensaciones internas que puedan fijar a través de
la utilización con la “Pantalla de celofán”. El objetivo es proporcionar
una herramienta sencilla y práctica a todas aquellas personas que necesiten mejorar su emisión vocal.
ISBN: 84-695-8101-5
109
La técnica “Pantalla de celofán” consiste en hacer vibrar un papel de
celofán transparente de bajo gramaje, aproximadamente de 20 gr/m2,
colocado sobre los labios y sosteniéndolo con una o ambas manos.
Fig. 1. Pantalla de Celofán
El papel de celofán debe tener aproximadamente 20 cm de ancho y 15
cm de alto, lo suficiente para que se pueda sostener con las manos sin
problema, procurando que los hombros estén relajados y los orificios
nasales no estén tapados. El papel de celofán no debe estar tenso,
cada persona elegirá cuál es el grado de tensión que necesita para
hacerlo vibrar. Hay quienes necesitarán taparse prácticamente la boca
para vibrar, y otros simplemente rozando delicadamente los labios.
Algo importante es la colocación de los labios, por experiencia el resultado óptimo es cuando se coloca la boca en forma de <U>.
110
ISBN: 84-695-8101-5
Fig. 2. Uso de la pantalla de celofán.
Se ha desarrollado un trabajo de investigación sobre la incidencia
en el resultado sonoro con la utilización de la “Pantalla de celofán”,
para ello, se ha hecho una evaluación preliminar para ver las condiciones de partida y posteriormente efectuado el registro de la voz.
Se les ha explicado a los participantes qué es la “Pantalla de celofán” y cómo usarla, también cuál va a ser la dinámica para tomar las
muestras necesarias y los instrumentos de recogida de datos, así como
el tiempo que le dedicaremos a la práctica.
Se han trabajado sonidos sostenidos, arpegios y práctica de sonidos
onomatopéyicos. Se ha adiestrado a los participantes en el uso, alternando con la “Pantalla de celofán “ y sin ella. Y finalmente, se han realizado los registros de voz antes y después de finalizar el programa. El
análisis acústico se ha realizado con el programa de libre distribución
SFS/ESection.
ISBN: 84-695-8101-5
111
Aunque el tiempo necesario que se empleará en cada sesión dependerá de las necesidades de cada individuo, en el caso que nos ocupa no ha sido más de 35’.
2.1
Fase Previa: entrenamiento
Para hacerlo sonar se emite un sonido, haciendo vibrar el papel de
celofán. Resulta más conveniente dar la nota <La4> o <Si4>, depende
también del tipo de voz que sea, si es hombre, mujer o niño, o simplemente la nota en la que se encuentren más cómodo.
La punta de la lengua debe estar contra las encías o contra los
dientes, y los bordes deben contactar con las encías o con las arcadas
dentales superiores. La cara superior de la lengua puede ahuecarse
más o menos hasta formar un canal mediante el enrollamiento lateral
de sus bordes.
Una vez que se ha conseguido hacer vibrar el papel de celofán se
harán ejercicios de vocalización (canto sin texto). Su finalidad es colocar el aparato fonador en las máximas condiciones de flexibilidad y
funcionamiento para obtener una correcta emisión de la voz.
Se debe empezar con una vocal que más espontáneamente produzca las cualidades vocales de la persona, aunque se recomienda para este trabajo comenzar a vocalizar con la <U>, porque es más sencillo hacer vibrar el papel de celofán, facilita la emisión y sirve como referencia y punto de partida para las demás vocales.
Cuando hay dificultades en hacer vibrar el papel de celofán se
pueden hacer varios ejercicios:
 Con una mano se sostiene el papel sobre los labios y con la otra mano se alterna el dedo índice y mediano dando golpecitos al papel a
un ritmo rápido, y cantando la vocal <u>. También pueden colocar la
palma de la mano de manera cóncava para aquellas personas que
no les sale con los dedos alternados
 Otra manera de hacerlo vibrar es pronunciar el vocablo <pr> y mantener el sonido onomatopéyico del motor de un coche <rrrrr>
112
ISBN: 84-695-8101-5
 Imitar el sonido de la sirena de una ambulancia también da muy
buenos resultados.
 Para aquellas personas que tengan una voz débil resulta muy apropiado imitar a un perro con un ladrido fino y chillón < gua gua gua>
o también a una gallina (co co co co)
2.2
Fase Final: La percepción
Primero se practicará haciendo sonidos onomatopéyicos, aquellos de
los que hemos hablado anteriormente y que resulten más adecuados
para el alumno. Una vez se haya conseguido hacer vibrar el papel con
soltura, se comenzará a practicar con sonidos sostenidos sobre una
nota. Se debe iniciar los ejercicios comenzando de notas agudas a graves, manteniendo la misma posición y la energía espiratoria, para pasar a hacer ejercicios de extensión gradual hacia los extremos de la
voz, y así con todas las vocales.
Una vez que el alumno ha conseguido hacerlo vibrar con desenvoltura y haya podido hacer los ejercicios correspondientes, se le pedirá que retire el papel manteniendo la misma posición y la misma
sensación que tenía cuando lo hacía con el papel, de esta manera logrará una emisión fácil y correcta sin necesidad de buscar dónde debe
colocar el sonido, se trata de hacer exactamente lo mismo que cuando
se canta con el papel.
Ya una vez que se ha entendido y practicado con vocales, se hará
lo mismo con consonantes hasta que pueda cantar una canción con el
papel de celofán, de igual manera se haría para la voz hablada.
3
Resultados
Se han estudiado 3 casos diferentes. Para cada caso se ha analizado
una grabación de la vocal /a/ de forma sostenida tanto antes como
después del tratamiento. El análisis ha consistido en la representación
de la señal en el dominio temporal, del espectrograma de banda estrecha, la excitación glótica y una representación en el dominio cepstral. Para obtener las representaciones ha sido utilizado el software de
libre distribución ESection.
ISBN: 84-695-8101-5
113
Caso 1
Descripción: Es una voz de una señora de 74 años. Cantante en coros
desde su juventud, presenta problemas de emisión: voz tremolante y
gutural, sin saber dónde debe emplazar el sonido.
Fig. 3. Señal de voz antes de aplicar el Método Cimardi (caso 1)
Fig. 4. Señal de voz después de aplicar el Método Cimardi (caso 1)
114
ISBN: 84-695-8101-5
Caso2
Descripción: Adolescente de 17 años, aspirante a estudiar canto. Presenta problemas de ronquera y de fatiga vocal debido al nulo conocimiento de cómo o qué se debe hacer para emitir un sonido correcto
ISBN: 84-695-8101-5
115
Caso 3
Descripción: Varón de 57 años, sin estudios de canto, presenta problemas de debilidad e irregularidad en la voz.
116
ISBN: 84-695-8101-5
4
Discusión
Tras el análisis acústico pueden identificarse ciertos patrones comunes
en los diferentes casos, tanto para las voces antes del tratamiento
como para las voces después del tratamiento.
Las voces antes del tratamiento se caracterizan por voces aéreas, especialmente caracterizadas por la presencia de ruido en altas frecuencias.
Las voces después del tratamiento se caracterizan por una mayor definición de los armónicos, mayor rango de armónicos y una mayor definición de los formantes.
5
Conclusiones
Ha habido cambios significativos en la calidad de la voz que han sido
medidos con técnicas de procesado digital. “La Pantalla de celofán”
creemos que les ha servido para unificar la impostación de todas las
vocales, este molde estable no es fácil de conseguir y requiere mucho
tiempo, con este trabajo han minimizado los esfuerzos necesarios
para conseguirlo.
La relación entre la audición y la fonación es íntima, la realización de
un sonido está estrechamente ligada a la imagen auditiva del mismo.
Si el sujeto no percibe las impresiones sonoras o las percibe deformadas, es incapaz de controlar su voz. “La Pantalla de celofán” consideramos que les ha ayudado porque no tienen que estar pendientes de
lo que oyen sino sólo de hacerlo vibrar.
En cuanto a la aceptabilidad de los usuarios, la práctica de “La “Pantalla de celofán” según su opinión, les ha favorecido a desarrollar la
memoria auditiva y muscular necesaria para tener una buena emisión.
Así mismo consideran que el estudio en casa les ha sido más productivo, no han necesitado estar tan pendientes de una percepción auditiva, ni depender tanto de su maestro, ya que en muchas ocasiones la
ISBN: 84-695-8101-5
117
emisión de un sonido dado por un profesor puede estar sujeta a fluctuaciones. La referencia ha sido “La Pantalla de celofán”.
6
Referencias bibliográficas
1. LE HUCHE, F. Y ALLALI, A. (2003): Terapéutica de los trastornos vocales (Tomo 4). Paris:
Masson
2. DR. PERELLÓ, J. CABALLÉ, M. Y GUITART, E. (1982): Canto-dicción. Barcelona: Editorial
científico
3. CANUYT, G. (1958): La voz. Buenos Aires: Hachette
4. JESÚS B. ALONSO HERNÁNDEZ, CARLOS M. TRAVIESO, MIGUEL A. FERRER BALLESTER,
JOSÉ DE LEÓN, JUAN I. GODINO,(2008) Evaluación Acústica del Sistema Fonador. Ed.
Universidad de Las Palmas de Gran Canaria, ISBN 978-84-96971-74-5
118
ISBN: 84-695-8101-5
Entrenamiento vocal en la práctica
Ulrika Törnros
Educación Musical Ulrika, S.L.U.
[email protected]
La educación vocal se considera como una disciplina musical compleja, y entendemos que el profesor de esta materia, el educador, el vocal coach, requiere de una formación amplia, profunda y muy específica, en varias materias, para lograr tener el éxito que desea en su vida laboral y, de este modo, sentirse
capaz de ayudar a quién acude a su estudio.
El papel del profesor de canto está cambiando con la sociedad, y en la actualidad, no se considera suficiente que los profesores de voz, exclusivamente,
dominen un único género, el clásico, sino que, se considera fundamental, que
tenga los conocimientos básicos para poder ayudar al alumno que desee evolucionar, además, su voz en otros estilos. Nos preguntamos en dónde está la
diferencia, y hemos visto que los resultados de investigaciones recientes nos
explican en qué se diferencia el cantar en un estilo u otro, y creemos que el
entrenamiento puede tener muchos patrones en común. La respiración, como
generador de energía que pasa por los pliegues vocales y se convierte en sonido requiere entrenamiento específico y constante, independiente del estilo
que se quiera cantar.
La fuente de la voz, donde se crea el sonido, en la apertura glotal, la glotis,
entre los dos pliegues vocales, requiere su entrenamiento muscular para poder responder al aire que viene de los pulmones. Este entrenamiento, la resistencia glotal, también se puede realizar independientemente del estilo que se
quiera cantar.
La diferencia fundamental está en el resonador, en nuestro amplificador interno, o si utilizamos la nomenclatura de la tecnología, nuestra mesa de mezcla personal. Allí, en el tracto vocal, el sonido puro empieza a “trabajar” para
amplificarse y convertirse en un sonido apto para un estilo o para otro. Creemos que el entrenamiento vocal consiste en entender el cómo se puede modificar el resonador para conseguir una calidad vocal cantada/hablada u otra.
ISBN: 84-695-8101-5
119
La elección de la resonancia la consideramos como una elección individual,
personal y artística de cada cantante. La historia y la cultura general nos aportan los conocimientos básicos sobre qué ha sido lo “correcto” en cada época,
pero eso forma parte de los conocimientos complementarios del cantante, y
por supuesto, deben ir en aumento con la educación vocal en su totalidad.
Creemos que si logramos enseñar a los alumnos a diferenciar, modificar y auto-evaluar su voz y la elección de resonancia, lo tendrán más fácil a la hora de
conseguir un trabajo como cantante, porque serán capaces de dar al director
lo que él/ella desea en cada obra. Sin embargo, si al contrario, solamente saben cantar con una calidad vocal, se limitarán sus expectativas laborales como
cantantes.
En el taller la ponente compartirá su experiencia como entrenadora vocal y,
con la ayuda de un powerpoint, expondrá los ejercicios y elementos fundamentales para el entrenamiento vocal bajo su punto de vista y experiencia laboral. Será un taller práctico donde se invitará a practicar el comienzo del tono, el control sobre los pliegues verdaderos y falsos junto a algunos ejercicios
para la obtención del control sobre la laringe y su musculatura y conexión con
el cuerpo.
Estos ejercicios musculares se pueden realizar incluso en silencio, lo cual nos
resulta muy gratificante ya que muchos de nuestros clientes acuden por sobreesfuerzo vocal y necesitan herramientas y estrategias de entrenamiento alternativos para poder avanzar con su voz.
Además se demostrará unos ejercicios de estiramiento para incluir en la
práctica diaria del usuario profesional de la voz.
¡Bienvenido al taller de entrenamiento vocal en la práctica!
120
ISBN: 84-695-8101-5
Introducción a la Biometría de Voz
Identificación de Locutor
Miguel Ángel Ferrer
Instituto Universitario para el Desarrollo Tecnológico y la Innovación en Comunicaciones
Spain
Resumen. Al tratarse las Jornadas Multidisciplinares de Usuarios de la Voz, el
Habla y el Canto de un foro multidisplinar que engloba expertos en ingeniería
de la voz, profesionales de la salud y canto, la presente ponencia pretende presentar los conceptos y terminología básica propia de la biometría, centrándose
en la identificación de locutor. Se introducirá el paradigma biométrico y una introducción a los sistemas biométricos automáticos así como la evaluación de su
rendimiento. Previo a la presentación de la biometría de locutor, se expondrán
las principales aplicaciones y mercados así como algunas consideraciones y limitaciones de la biometría. Se continuará con la presentación de las principales
técnicas de identificación de locutor a diferentes niveles, su arquitectura y aplicaciones a salud y seguridad.
ISBN: 84-695-8101-5
121
Classical vs. Biometric Features in the 2013 Speaker
Recognition Evaluation in Mobile Environments
Luis Miguel Mazaira-Fernández, Agustín Álvarez Marquina, Pedro Gómez Vilda,
Rafael Martínez-Olalla, Cristina Muñoz-Mulas
Grupo de Informática Aplicada al Procesado de Señal e Imagen (GIAPSI) Facultad de Informática, Universidad Politécnica de Madrid, Campus de Montegancedo, s/n, 28660 Boadilla del
Monte, Madrid – SPAIN.
e-mail:[email protected]
Abstract. MFCC coefficients extracted from the power spectral density of
speech as a whole, seems to have become the de facto standard in the area of
speaker recognition, as demonstrated by its use in almost all systems submitted
to the 2013 Speaker Recognition Evaluation (SRE) in Mobile Environment [1],
thus relegating to background this component of the recognition systems. However, in this article we will show that selecting the adequate speaker characterization system is as important as the selection of the classifier. To accomplish
this we will compare the recognition rates achieved by different recognition
systems that relies on the same classifier (GMM-UBM) but connected with different feature extraction systems (based on both classical and biometric parameters). As a result we will show that a gender dependent biometric parameterization with a simple recognition system based on GMM-UBM paradigm provides
very competitive or even better recognition rates when compared to more complex classification systems based on classical features.
Keywords: Speaker Characterization, Speaker Recognition, GMM-UBM,
Source-Tract separation, MOBIO database.
1
Introduction
Although been an area that has been active at least since early 70s [2], Automatic
Speaker Recognition (ASR) keeps on been an active research area. As a result of this
interest, some institutions have provided a common framework to test the advances in
this area. For instance, the National Institute of Standards and Technology (NIST 1)
have been organizing the NIST SRE on a regular basis since 1996. The main objective pursued in these evaluations is to measure the state-of-the-art in text-independent
speaker recognition subject to high variability covering different aspects, such as:
varying length recordings (both in train and test), vocal effort variability, different
1
www.nist.gov
adfa, p. 1, 2011.
© Springer-Verlag Berlin Heidelberg 2011
122
ISBN: 84-695-8101-5
communication channels, etc. A more novel evaluation, (the second one taking place
on 2013) is the one proposed by the Biometric Group at the Idiap Research Institute,
which is based on the MOBIO database [3].The aim of this competition is mainly the
same as the one of NIST SRE, i.e. determine whether a specified target speaker is
present or not in a given segment of speech. The main difference with respect to NIST
SRE is that this competition is restricted to speech recorded in mobile environments,
and more important the average speech duration of MOBIO recordings are significantly lower (around 8s ) than those in NIST databases.
To meet the challenges of these evaluations different classification methods [4]
(UBM-GMM, total variability spaces, Gaussian Supervectors, etc.) have been proposed combined with normalization post-processing steps such as LDA, WCCN, or
NAP. However, regarding the front-end that feeds those classification systems, gender-independent MFCC coefficients extracted from the power spectral density of
speech as a whole, seems to be the only choice, as demonstrated by the fact that all
systems participating on the 2013 SRE on Mobile Environments used them [1].
Given that none of the presented evaluations performs cross-gender trials and that
as is well known male and female voices present different characteristics (the clearest
case is for example in pitch values), the present work defends the idea that a gender
dependent parameterization that takes into account spectral characteristics of vocal
tract (acoustic-phonetic) and glottal (phonation-gesture) estimates of voicing speech ,
as well as classical MFCC, will provide a better characterization of speakers and thus
help to increase recognition rates.
The paper is organized as follows: section 2 briefly describes both the MOBIO database as well as the 2013 SRE in Mobile Environments. Section 3 presents both the
biometric gender-dependent front-end as well as the whole recognition system build
to participate in the SRE. Section 4 evaluates the performance of the presented system
and compares it with the other systems. Finally, some conclusions will be exposed in
section 5.
2
The MOBIO database and the 2013 SRE in Mobile
Environments
The MOBIO database is a bi-modal database that consists of faces and voice information, captured on mobile devices (actually using a NOKIA 93i mobile phone
with a sampling rate of 16 kHz). The database contains a total of 152 speakers (100
male and 52 female) that have been recorded in 2 different phases, with 6 different
sessions in each phase, in 6 different sites. Regarding the audio data, all data was
collected in English, though English may not always be the native language of the
speakers. Additionally, as it was captured using a mobile device (not placed in a fixed
position), it contains high variability in terms of quality and acquisition environments
(which means real noise background).A deep description of the MOBIO database can
be found in [3].
ISBN: 84-695-8101-5
123
Regarding the competition, the main objective, as in NIST SRE, is to determine
whether a specified target speaker is present or not in a given segment of speech. In
order to provide a common framework for all systems taking part in the evaluation,
the speakers (and thus its recordings) included in the MOBIO database, are split into
three different subsets as follows:
• Background training set.- this subset me be only used to learn the background parameters of the algorithm (UBM, subspaces, etc.) or for normalization purposes.
• Development set.- The data assigned to this set is split into two subsets: enrolment
and test. The first one is used to create a model of each of the target speakers included. The second one contains a list of audio samples that must be tested against
all the target speakers. The data on this set is supposed to be used to tune metaparameters of the algorithm (e.g. number of Gaussians, dimension of subspaces,
etc.). The recognition rate, regarding EER, achieved with this development set is
used to define a score threshold that will be used to evaluate the performance of the
recognition systems.
• Evaluation set.- the final evaluation performance is analysed using this set, which
has a similar structure as the development set. A score must be provided for each
trial, for instance in the form of log-likelihood, representing how accurately the test
segment is classified as containing, or not, speech for the target speaker against
which is confronted.
The performance of the systems is evaluated on terms of EER in two different
ways. Using the development set, a score threshold, θdev, is defined which provides
the EER of that set. The threshold, θdev, will provide the Half Total Error Rate (HTER)
that can be defined as:
𝐻𝑇𝐸𝑅 =
𝐹𝐴𝑅𝑒𝑣𝑎𝑙 (𝜃𝑑𝑒𝑣 )+𝐹𝑅𝑅𝑒𝑣𝑎𝑙 (𝜃𝑑𝑒𝑣 )
2
(1)
where FAReval is the False Acceptance Rate obtained using threshold θdev, on the evaluation set, and FRReval represents the False Rejection Rate achieved using threshold
θdev on the evaluation set.
3
Gender-dependent biometric front-end and Recognition
System Description.
A complete speaker recognition system has been design to participate in the 2013
SRE on Mobile Environments. This system can be divided into different blocks:
3.1
Feature extraction.
In order to evaluate the influence of what we have called biometric parameters, an
additional system (baseline front-end) was developed, also connected to the same
modeling and scoring system. This baseline front-end performs a classical feature
extraction, providing gender independent speaker features based on MFCC + ∆.
124
ISBN: 84-695-8101-5
Fig. 1. Classical MFFC+∆ feature extraction process.
Alternatively to the feature set based on classical MFCC parameters where both
male and female speakers are parameterized using the same set up, we propose an
extended parameterization which integrates classical cepstral information with cepstral coefficients derived from vocal tract and glottal source estimates (biometric parameters) in a single feature vector. Moreover, as we have already pointed out, not
only classical MFCC parameters are computed using a different set up depending on
the gender, but also the MFCC parameters extracted from vocal tract and glottal
source estimates are parameterized differently depending on the gender.
Fig. 2. Separation algorithm with lip radiation compensation using first order prediction lattice
ISBN: 84-695-8101-5
125
The methodology used to separate vocal tract and glottal estimate of voice from
continuous speech is based on the uncorrelation hypothesis between them and is carried out using Joint Process Estimation (JPE) algorithm. Fig.2 shows the block diagram of the separation algorithm, while a comprehensive description of it can be
found in [5].
Additionally to these new set of parameters, we have also investigated the used of
other common parameters such as frame energy, delta energy, pitch and, formant 3
estimate.
The configuration finally sent to the SRE consisted of the following parameters:
o Female Speakers (54-dim FV):
 24MFCC+∆MFCC (34mel-spaced filter bank)
 4MFCC (extracted from the glottal estimate)
 F0 estimate
 F3 estimate
o Male Speakers (69-dim FV):
 28MFCC+∆MFCC (38mel-spaced filter bank)
 10MFCC (extracted from the glottal estimate)
 ∆Energy
 F0 estimate
 F3 estimate
3.2
Voice activity detection
An adaptive VAD algorithm based on energy detection has been implemented and
computed over a 32ms-long window with 8ms overlap. Additionally, a built-in heuristic has been incorporated that removes or includes signal segments shorter than 56ms,
depending on its relative location to longer voice segments. The algorithm has been
tested on the MOBIO development dataset, providing accurate voice activity detection
3.3
Feature Normalization
It is necessary to perform a noise reduction preprocessing step, as we are dealing
with telephone conversations. In this case, a variation of the Ephraim-Malah spectral
subtraction algorithm in a single channel is applied [6]
Once the set of MFCC feature vectors have been computed for the whole speech
signal, the cepstral mean subtraction (CMS) [7] algorithm is applied. This algorithm
mainly consists on computing the mean of each cepstral coefficient over the length of
the current utterance, then the mean value is subtracted from the original cepstral
coefficient, thus removing the channel induced effects as well as any other stationary
speech component. Additionally, feature warping [8] has been applied to transform
the original cepstral coefficients so that they follow a specific target distribution, for
instance a normal distribution, over a window of speech frames, typically 3 seconds
126
ISBN: 84-695-8101-5
window. It provides a set of features that are supposed to be robust to channel mismatch, additive noise and nonlinear effects attributed to handset transducers. Finally,
RASTA filtering [9] has been implemented in order to remove the spectral components that changes at different rate than the one present in speech, i.e. tries to remove
convolutional and additive noise.
3.4
Classifier and model
Regarding the speaker modeling technique, we have applied the UBM-GMM
(Universal Background Model – Gaussian Mixture Model) paradigm. The selection of
this approach is twofold. First of all, GMM is a probabilistic model which has become
the de facto reference method in text-independent speaker recognition. Second, the
limited amount of data available on the MOBIO database (regarding both the number
of speakers and channel variability) discourage the use of more complex recognition
systems
Specifically, we have used a standard mixture classifier with diagonal covariance
matrix. Each speaker is represented by a GMM, λspeaker-k, which has been adapted
from a gender-dependent UBM using the MAP algorithm [10] in which only the distribution means have been adapted. The UBM is also represented as a GMM, λUBM,
which has been trained on the MOBIO training set via the EM-algorithm. The number
of Gaussians as well as the relevance factor used on the MAP-algorithm is in the case
of female speakers 256 and 28 respectively; while for male speakers are 512 and 28.
Log-likelihood ratio (LLR) has been the score used to take a decision on whether a
test audio segment is likely to be spoken by a specific speaker represented by a model
λs.
LLR=logP(X|λS)-log P(X| λUBM)
3.5
(2)
Score Normalization.
Znorm [11], Tnorm [12] and ZTnorm have been tested using gender dependent cohorts, extracted from the MOBIO training set. However, only ZT norm score normalization, applied to male speakers, have provided some improvement on development
test in terms of EER
4
Performance Results
A battery of test has been conducted on the development set, in order to find the
best configuration, in terms of number of MFCC, using the baseline front-end, which
minimizes the EER for both genres. As expected, the results achieved, in terms of
EER, with a gender independent configuration (GIC) are slightly worse than the ones
obtained using a gender dependent characterization (GDC) even in the case of using
just MFCC coefficients extracted from the power spectral density of speech as whole.
ISBN: 84-695-8101-5
127
Additionally, we have introduce some alternative parameters (but also typically used
in speaker recognition) that are added to the feature vector either alone or combined,
to the GDC. Specifically, we have tested Energy, ∆Energy, Pitch (F0) and formant
F3. Finally, we have evaluated the performance of the gender-dependent biometric
front-end. The approach that has been followed consists on incorporating the biometric coefficients (GDBP) into the best gender dependent configuration achieved so
far (as presented in section 3.1).
The bests results achieved, on development set, are shown in table 1 (male) and table 2 (female), as well as the relative reduction in terms of EER if compare to the
GIC. It must be noted that despite receiving the same name GDC and GDBP are different configurations depending on the gender. Additionally DET curves are presented in Fig.3.
Table 1. EER achieved for different configurations on development set, for male speakers,
applying ZT Norm or no score normalization. Best results highlighted in bold.
EER
MALE
Parameters
GIC
GDC
GDC+ ∆E+ F0 + F3
GDBP
ZT Norm
10.31%
9.70%
9.16%
8.12%
No Norm
11.58%
10.97%
10.47%
8.91%
Relative
Reduction
ZT Norm
No Norm
5.92%
5.26%
11.15%
9,58%
21,24%
23.05%
Table 2. EER achieved for different configurations on development set, for female speakers,
applying ZT Norm or no score normalization. Best results highlighted in bold.
EER
FEMALE
Parameters
GIC
GDC
GDC+ F0 + F3
GDBP
ZT Norm
11.59%
11.25%
11.57%
10.79%
No Norm
12.16%
11.64%
11.20%
10.44%
Relative
Reduction
ZT Norm
No Norm
2.93%
4.28%
0.17%
7.89%
6.90%
14,14%
After these test carried out on the MOBIO database, and specifically in the development set, we can draw the following conclusions. First of all, a gender dependent
characterization provides a clear improvement in the recognition rates. The use of
additional parameters such as Pitch and formant F3 (and ∆Energy in male speakers)
also causes a decrease of the EER especially in the case of male speakers. Moreover,
incorporating what we have called biometric parameters, results in a clear improvement of recognition rates. Finally, ZT Norm does not appear to provide a clear improvement in recognition rates for female speakers, unlike in the case of male speakers. This may be due, to the limited number of female speakers in the training set.
128
ISBN: 84-695-8101-5
Fig. 3. Male (right) and female (left), applying ZT Norm (up) and no score normalization
(down) DET curves on MOBIO development set.
Finally, table 3 summarizes the results obtained in the SRE by different systems in
both development and evaluation set. Systems marked with *, are actually fusion of
different systems, while systems marked with + are those who used external/additional training data. It must be noted that, despite having developed a simple
recognition system (based on the UBM-GMM paradigm), the fact of having achieved
a better speaker’s characterization based on gender-dependent biometric parameters,
allows us to get very competitive results. Moreover, the systems that improve the
recognition rates of our system are only those that either performed a fusion of multiple systems or used additional data for training.
ISBN: 84-695-8101-5
129
Table 3. EER % on the development (DEV) set and half total error rate (HTER %) on
the evaluation (EVAL) set for the systems participating in 2013 SRE in Mobile Environments (from [1]).
System
Alpineon*
ATVS+
CPqD*
CDTA
GIAPSI 2
GIAPSI 3
EHU
IDIAP
L2F*
L2F-EHU*
Mines-Telecom+
Phonexia+
RUN+
5
FEMALE
DEV
EVAL
7.982%
10.678%
16.836%
17.858%
14.348%
15.987%
19.471%
22.640%
11.590%
12.813%
10.440%
13.115%
17.937%
19.511%
12.011%
14.269%
13.484%
22.140%
11.005%
17.266%
11.429%
11.633%
8.364%
14.181%
25.405%
23.112%
MALE
DEV
EVAL
5.040%
7.076%
14.881%
15.429%
11.824%
10.214%
12.738%
19.404%
9.683%
8.865%
8.125%
8.854%
11.310%
10.058%
9.960%
10.032%
10.599%
11.129%
7.889%
8.191%
10.198%
9.109%
9.601%
10.779%
24.643%
22.524%
Conclusions
In order to test the importance of an accurate front-end to better characterize
speakers, a complete system has been developed to participate in an international
evaluation contest, 2013 SRE in Mobile Environments. It has been shown that the use
of a gender-dependent biometric representation provides a more accurate description
of the speakers than the one based on classical gender-independent MFCC. Thus confirming conclusions achieved in previous works [13][14]with different databases.
Additionally, as we are dealing with text-independent trials, it seems that including
information, as MFCC parameters, from the vocal tract estimate provides no additional benefit. This may be mainly due to the fact that this component, in which voice can
be split, is more related to the message carried out by voice rather than to the biometry of the speaker as is the glottal source estimate.
Although the developed system meets the state-of-art requirements is probably the
simplest presented system, but at the same time achieves very competitive results
thanks to incorporate enhanced description of speakers. Moreover, according to the
published results [1] our system gets the best simple system performance on male.
However, results seem to be still far away for the best results that can be achieved
fusing all the presented systems (male eval. HEER=6.986%, female eval.
HEER=4.767), providing still some room for improvement by using the presented
gender-dependent biometric front-end combined with more promising classifiers such
as GSV or i-vectors.
2
3
130
Original results.
Results achieved after post-processing.
ISBN: 84-695-8101-5
6
Acknowledgement
This work is being funded by grant
I+D+I, Ministry of Science
(http.//www.proyecto-hesperia.org)
Desarrollo Tecnológico Industrial,
TEC2012-38630-C04-04.
TEC2009-14123-C04-03 from Plan Nacional de
and Innovation; by project HESPERIA
from the Program CENIT, Centro para el
Ministry of Industry, Spain, and by project
References
1. E. Khoury et al, “The 2013 Speaker Recognition Evaluation in Mobile Environments”. In
the Proceedings of 6th IAPR International Conference on Biometrics (ICB 2013), 2013 (to
be published)
2. A. Rosenberg, “Automatic speaker verification: A review”. In Proc. IEEE, vol. 64, pp. 475–
487, Apr. 1976.
3. Chris McCool, Sébastien Marcel, Abdenour Hadid, Matti Pietikäinen, Pavel Matějka, Jan
Černocký, Norman Poh, Josef Kittler, Anthony Larcher, Christophe Lévy, Driss Matrouf,
Jean-François Bonastre, Phil Tresadern, and Timothy Cootes. “Bi-Modal Person Recognition on a Mobile Phone: using mobile phone data”,Iin IEEE ICME Workshop on Hot Topics in Mobile Mutlimedia, 2012
4. Kinnunen, T., Li, H. “An overview of text-independent speaker recognition: From features
to supervectors”. Speech Communication, Vol.52, Issue 1, pp.12-40, 2010.
5. Gómez, P. et al, “A Hybrid Parameterization Technique for Speaker Identification”, In the
16th European Signal Processing Conference, 2008
6. Y. Ephraim and D. Malah, “Speech Enhancement Using a Minimum Mean-Square Error
Short-Time Spectral Amplitude Estimator”. IEEE Trans. Acoustics, Speech Signal Proc.,
vol.32, pp. 1109-1121.1984.
7. S.Furui, “Cepstral analysis technique for automatic speaker verification”. In IEEE Transactions on Acoustic, Speech and Signal Processing, vol. 29, pp. 254-272, 1981.
8. J. Pelecanos, S. Sridharan, “Feature Warping for Robust Speech Verification”. In 2001: A
speaker Odyssey – The Speaker Recognition Workshop, pp. 213-218, 2001
9. Hermansky,H., Morgan, N.”RASTA processing of speech”. In IEEE Transactions on
Speech and Audio Processing, vol. 2, pp. 578-589, 1994
10. Reynolds, D.A., Quatieri, T.F., Dunn, R.B.: Speaker Verification Using Adapted Gaussian
Mixture Models. Digital Signal Processing, (2000)
11. Li, K.-P., Porter, J.E: “Normalizations and selection of speech segments for speaker recognition scoring”. Proc. of the International Conference on Acoustics, Speech and Signal
Processing (ICASSP’88), vol. 1, pp 595-598, 1988.
12. Auckenthaler, R., Carey, M. & Lloyd-Thomas, H.: "Score Normalization for TextIndependent Speaker Verification Systems", Digital Signal Processing, vol. 10, no.1-3, pp.
42-54, 2000.
13. Mazaira L.M. et al. “Glottal Source Cepstrum Coefficients Applied to NIST SRE 2010”,
In Proc. Of the V Jornadas de Reconocimiento Biométrico de Personas, 2010
14. Mazaira L.M. et al. “Improving Speaker Recognition rates using alternative genderdependent MFC Coefficients”, In Proceedings of the VI Jornadas de Reconocimiento
Biométrico de Personas, JRBP 12, 2012.
ISBN: 84-695-8101-5
131
Voice Biometrical Match of Twin and non-Twin Siblings
Eugenia SanSegundo1, Pedro Gómez-Vilda2
1
Phonetics Lab., Inst. of Lang. Lit. and Anthrop., Spanish National Research Council (CSIC)
C/ Albasanz 26-28, 28037 Madrid, Spain
1
Campus de Montegancedo, s/n, 28223 Pozuelo de Alarcón, Madrid
2
Escuela Superior de Canto, C/ San Bernardo 44, 28015, Madrid
e-mails: [email protected],[email protected]
Abstract. The similarity in twins’ voice has been always an intriguing issue in
forensic speech matching, but has become a serious matter of research only
recently. The present work is a preliminary study of exploratory character
describing the similarities of monozygotic and dizygotic phonation under the
point of view of vocal fold biomechanics, in contrast to other siblings’ speech
and unrelated speakers. Estimates of biomechanical parameters obtained from
vowel fillers are used to produce bilateral matches between MZ and DZ twins
and siblings, and unrelated speakers. These results show interesting
relationships regarding genetic load and ambient factors in the adoption of
phonation styles.
Keywords: voice production, forensic pattern matching, phonation styles,
glottal source features.
1 Introduction
Recent studies in voice quality are conducted towards the evaluation of phonation
performance in relation to either professional voice care, or in meta-acoustic
knowledge (neurological deterioration, emotion detection, etc.) These fields of study
are becoming more and more demanded nowadays. The aim of the present work is to
study the similarities and differences of phonation characteristics in twins’ voices,
including monozygotic (MZ) as well as dizygotic (DZ) twins. A reference to previous
work on twin voice quality analysis and vocal performance of interest for this
research is that of Van Lierde et al. [1]. The quality measurements used were
perceptual GRBAS, breathing performance, fundamental frequency, jitter and
shimmer, and the Dysphonia Severity Index (linear combination of highest pitch,
lowest loudness, max. phonation time and rel. jitter). However, the study focused only
on monozygotic siblings (MZ). Another relevant reference is that of Cielo et al. [2].
Although the twin sample used is quite small (2 MZ pairs, one per gender) their
analysis is interesting as far as they tackle some features not been considered in twins’
voice studies before, namely vocal onset and harmonic characterization. While the
results for maximum phonation time showed significant differences between twins, no
such differentiation was found regarding vocal onset, fundamental frequency or
132
ISBN: 84-695-8101-5
intensity. The work of Fuchs et al. [3] found that the voices of MZ twins showed
more similarity among themselves than those of non-similar speakers regarding vocal
range, highest and lowest fundamental frequency, prosodic pitch line, maximum
intensity, number of overtones and intensity vibrato. The present work is intended to
include biomechanical marks of relevance in the biometrical description of phonation
[4]. The working hypothesis is that phonation cycle quotients and biomechanics may
offer differentiation capabilities among MZ, DZ and control speakers not explored
already. The paper is organized as follows: A brief description of the materials and
methods used in the study is given in section 2. In section 3 results obtained from the
bilateral tests and matches of 16 male speakers are given discussed. Conclusions are
presented in section 4.
Recordings from 16 male subjects of spontaneous free discourse in Spanish were
taken at a sampling rate of 44,100 Hz and 16 bits using HQ microphones in an
isolated room. The distribution of speakers was the following: 2 pairs of MZ, 2 pairs
of DZ, 2 pairs of non-twin siblings and 2 pairs of controls (non-relatives).
Spontaneous fillers (long vowels maintained for more than 200 ms around vowel [ε]
produced inadvertently by speakers of Spanish in words like “que”, “de”, or in
hesitation marks like “eeh...” etc.) were used in the study. Each speaker was recorded
twice (2 sessions) separated by a 3-week interval. Speech recordings were around 10
min long. An average of 8-10 fillers was extracted from each recording. A set of
biomechanical parameters as body and cover dynamic mass and stiffness was
estimated from the spectral description of the glottal source reconstructed by inverse
filtering. The inter-cycle unbalances of these parameters were also estimated. Open,
Close and Return Quotients were added to the parameter set as well as Contact,
Adduction and Permanent Gap Defects. The parameter set was completed with jitter,
shimmer, NHR and Mucosal Wave ratio to produce a feature vector of 65 parameters.
A set of pair-wise parameter matching experiments was carried out by likelihood ratio
contrasts used in forensic voice matching [6]. The test is based on two-hypothesis
contrasts: that the conditional probability between voice samples Za and Zb (from to
the subjects under test) is larger than the conditional probability of each subject to a
Universal Speaker’s Model ZU in terms of logarithmic likelihood ratios


p( Z b | Z a )
LLR = log 
;
 p( Z a | ZU ) p( Z b | ZU ) 
p( Z b | Z a ) = Γa ( Z b ); p( Z a | ZU ) = ΓU ( Z a );
(1)
p( Z b | ZU ) = ΓU ( Z b )
where conditional probabilities have been evaluated using Gaussian Mixture Models
(Γa, Γb, ΓU) from each vector subset. Intra-speaker tests used recordings from different
sessions. A priori expectations assume that MZ will show the largest LLR's, followed
by DZ, then by non-twin siblings; non-related speakers expected to show the lowest
LLR's.
ISBN: 84-695-8101-5
133
Three main types of results are expected: a) those LLR (log-likelihood ratios)
consistent with a priori expectations; b) a group of results which are not in agreement
with a priori expectations; c) and probably the most important group being those
allowing insightful discussion concerning the influence of genetic endowment and
environmental factors in the type of speakers analyzed. Regarding the first group, all
intra-speaker comparisons yielded positive and relatively large LLRs (from 5.2 to
50.1), except one (-14.5). As far as the inter-speaker comparisons are concerned, all
LLRs (discarding the twin- and non-twin sibling comparisons, which are referred in a
section apart) yielded negative values, except in one speaker (LLR= 3.5).
Consequently the unexpected case of intra-speaker comparison and the unexpected
case of inter-speaker comparison already mentioned above are found in the second
group of results. Looking at the third group of results, for which no a priori
assumptions were formulated since it is the first time that these biometrical
parameters are used to test this kind of speakers, the following values have been
obtained: For the two MZ pairs, as well as for the two DZ pairs, the LLRs are positive
(57.3, 7.1, 34.9, 41.1, respectively), while the comparisons for non-twin siblings
yielded different results depending on the pair under consideration: one pair yields an
LLR of 19.1 while the other gives -32.4. Something similar happens in the
comparison of unrelated speakers. In one case a strong mismatch is produced (LLR of
-45.9) while in the other a weak match is obtained (LLR=3.5). These results are
depicted in Fig. 1 and summarized in Table 1.
134
ISBN: 84-695-8101-5
Bilateral Matching
200.00
MZ05
MZ06
DZ15
150.00
DZ16
B21
100.00
B22
U27
50.00
U28
MZ41
MZ42
-50.00
MZ05
MZ06
DZ15
DZ16
B21
B22
U27
U28
MZ41
MZ42
DZ45
DZ46
B47
B48
U53
U54
MZ05
MZ06
DZ15
DZ16
B21
B22
U27
U28
MZ41
MZ42
DZ45
DZ46
B47
B48
U53
U54
0.00
DZ45
DZ46
B47
B48
U53
U54
Fig. 1 Summary of the results for the different tests. MZ: Monozygotics; DZ: Dizygotics; B:
Related Siblings (Brothers); U: Unrelated Speakers;
Table 1. Summary of the results for the different tests. MZ: Monozygotics; DZ: Dizygotics;
RS: Related Siblings; US: Unrelated Speakers; (I): intra-speaker tests; (O): inter-speaker tests.
Divided columns are used for each pair member.
Match/Case
MZ (I) MZ(O) DZ(I) DZ(O) RS(I) RS(O) US(I) US(O)
LLR
50.1 48.4
57.3 44.5 16.3
34.9 -18.8 10.7
19.1 11.1 50.2
3.5
Match/Mismatch High High High High High High High High High High High Low
LLR
24 24.6
7.1 -14.5 11.8
41.1 154.6 5.2 -32.4 26.5 13.5 -45.9
Match/Mismatch High High Low High High High High Low High High High High
4 Conclusions
The most interesting finding is that there is a consistency in the results obtained
within pairs in the case of both MZ twins and DZ twins: the results for pairs 1 (MZ)
and 2 (MZ) show large positive matches, and the same occurs in the case of DZ twins:
pairs 3 (DZ) and 4 (DZ) produce also large positive matches. Although at first sight,
these results it might contrary-to-the-fact (i.e. the system produces large matches from
ISBN: 84-695-8101-5
135
two different speakers), they must be interpreted in a different way. We suggest that
the parameters that have been used in such comparisons show a great influence of
both genetic and environmental factors. If only the comparisons of MZ twin pairs had
yielded large matches, the only explanation possible would be genetic influence.
However, the fact that similar values are obtained for MZ and DZ twins cannot lead
to that conclusion. The impact of external factors (like a similar living and
educational environment, same age, etc.) must be more relevant than it may be
thought a priori in this kind of voice studies. This reflection may be reinforced by the
fact that opposing trends are observed for the non-twin sibling pairs. The comparison
results from one of them looks more similar to the values obtained from non-related
pairs, while the results from the other sibling pair is closer to the trend followed
systematically by MZ and DZ twins. Further research would be necessary especially
in order to study the role of the specific parameters (out of the 65 possible features)
intervening in the results from each comparison. Likewise, it seems vital to consider a
reanalysis with more speakers.
Acknowledgments. This work is being supported by an FPU grant from the Ministry
of Education, a grant from the International Association for Forensic Phonetics and
Acoustics, and by research grants TEC2009-14123-C04-03 and TEC2012-38630C04-04 from Plan Nacional de I+D+i, Ministry of Economy and Competitiveness of
Spain.
References
1. Van Lierde, K. M., Vinck, B., De Ley, S., Clement, G., and Van Cauwenberge, P.
“Genetics of vocal quality characteristics in monozygotic twins: a multiparameter
approach”, Journal of Voice, 19 (4), 2005, pp. 511-518.
2. Cielo, C. A., Agustini, R. and Finger, L. S., “Características vocais de gêmeos
monozigóticos”, Revista CEFAC, 14 (6), 2012, pp. 1234-1241 (in Portuguese, summary in
English).
3. Fuchs, M., Oeken, J., Hotopp, T., Täschner, R., Hentschel, B. and Behrendt, W., “Die
Ähnlichkeit monozygoter Zwillinge hinsichtlich Stimmleistungen und akustischer
Merkmale und ihre mögliche klinische Bedeutung”, HNO, 48 (6), 2000, pp. 462-469.
R, and Godino, J. I.: Glottal Source Biometrical Signature for Voice Pathology Detection.
Speech Comm., (51) 2009, pp. 759-781.
6. González, J., Rose, P., Ramos, D., Toledano, D. T. and Ortega, J., “Emulating DNA:
Rigurous Quantification of Evidential Weight in Transparent and Testable Forensic
Speaker Recognition”, IEEE Trans. On Audio, Speech and Lang. Proc., 15 (7), 2007, pp.
2104-2115.
136
ISBN: 84-695-8101-5
Modelado ARMA con resolución perceptual sobre fases
glóticas para clasificación de voz patológica
Pedro Quintana Morales, Juan L. Navarro Mesa, Antonio Ravelo García, Iván Guerra
Moreno, Eduardo Hernández Pérez
Universidad de Las Palmas de Gran Canaria. España.
[email protected]
Abstract. Las patologías de la voz, entre las que se encuentran las disartrias, dislalias,
disglosias, etc, manifestadas a través de perturbaciones en el habla, afectan de manera
importante al proceso de comunicación. En el desarrollo de herramientas de ayuda a personas
con estos tipos de discapacidades orales nos encontramos con entornos de entrenamiento para
la mejora de la pronunciación que necesitan de la clasificación de la voz y en los que los
sistemas de reconocimiento automático del habla (RAH) son la base de ellos. Las técnicas de
RAH han alcanzado tasas de reconocimiento muy altas para los sistemas basados en modelos
ocultos de Markov (HMM), mayores al 95%. Lo que no ha recibido tanta atención es la
aplicación de estas técnicas para el caso particular de personas con problemas en la
comunicación oral. En este escenario y dentro del bloque de extracción de características del
sistema de RAH, vamos a proponer el análisis localizado sobre las fases glóticas con la
incorporación de información perceptual sobre los parámetros de predicción lineal. La
información fonética que caracteriza la voz puede ser representada de manera muy detallada si
se toma en intervalos de pitch o menores, como puedan ser las fases cerradas y abiertas de las
cuerdas vocales en los tramos sonoros, lo que serían las fases glóticas. Las señales en estos
intervalos contienen información relativa al proceso de producción de voz y en consecuencia
reflejarían la existencia o no de problemas en dicho proceso. Esto nos lleva a plantear en este
trabajo una parametrización específica para cada fase y síncrona con los periodos de cierre
glótico (ICG). Adicionalmente la inclusión de la información perceptual puede realizarse
sustituyendo las unidades de retardo con células paso-todo de primer orden, consiguiendo una
resolución perceptual ajustable. Proponemos por tanto un modelado de voz paramétrico
ARMA por fase, con resolución perceptual aproximada a la escala mel, síncrono con el ICG,
con polos comunes a varios periodos consecutivos, para conseguir que sea fiable y consistente,
para emplearlo en un sistema de reconocimiento de palabras con y sin patologías, basado en
HMM continuos. Los experimentos se realizaron con una base de datos que contiene un código
fonológico inducido de 57 palabras, con voces normales y patológicas. Los experimentos
mostraron que nuestro modelo es superior al LPC clásico y al MFCC, obteniendo tasas de
acierto del 97’59% para voz normal y del 98’23% para voz patológica.
ISBN: 84-695-8101-5
137
Generación de una base de datos y análisis de señales del
lenguaje silbado de La Gomera
Juan L. Navarro Mesa, Pedro Quintana Morales, Antonio Ravelo García, Iván Guerra
Moreno, Eduardo Hernández Pérez
Universidad de Las Palmas de Gran Canaria. España.
[email protected]
Abstract. El lenguaje silbado de la isla de la Gomera es antiguo y de origen poco conocido. Actualmente se enseña en las escuelas de la isla y el interés que
despierta en diversos ámbitos profesionales abarca desde lingüistas a filólogos y
profesores de silbo. Desde el punto de vista del análisis de la señal presenta
gran interés para investigadores en el campo de la tecnología del habla con la
que guarda gran parentesco. En la actualidad el silbo gomero tiene múltiples
conexiones con la lengua castellana a la que sustituye cuando el silbador se comunica. Como lenguaje con personalidad propia tiene sus propios fonemas,
sílabas, y construcciones léxicas y gramaticales. Las señales que se generan son
bien conocidas y en ellas se observa la predominancia de tonos muy limpios
con evolución temporal específica y una cierta complejidad espectral marcada
por la acción de la cavidad bucal como resonador, las vibraciones que se producen y la fuerza de silbado. En este artículo presentamos una base de datos grabada y etiquetada donde se recogen grabaciones de 22 silbadores de los que 9
son expertos silbadores adultos y 13 son niños en edad escolar. En la base se recogen 32 unidades básicas de tipo silábico que se obtienen a partir de las 4 vocales y 4 consonantes que, en sí, representan las unidades más elementales de
silbo. Presentaremos un estudio acústico-fonético en el que se podrán apreciar
las cualidades temporales-frecuenciales de las señales en diferentes contextos
de silbado. El análisis, que se ha realizado mediante programas en Matlab, tiene
un doble enfoque. En primer lugar, analizamos las cualidades de las señales y
estudiamos cómo es el contenido en tiempo-frecuencia, y vemos una serie de
pautas para poder hacer un etiquetado de la base atendiendo al conocimiento
léxico que nos proporcionan los lingüistas. Y en segundo lugar, hemos discutido la posibilidad de aplicar técnicas de extracción automáticas de características
y su posterior uso en reconocimiento automático y síntesis artificial.
138
ISBN: 84-695-8101-5
L1 Spanish interferences in the acquisition of tonality and
tone in L2 English prosody. Results from perception and
production.
Mercedes Cabrera Abreu1, Francisco Vizcaíno Ortega1,
Carmen Nieves Hernández Flores2
1
Dept. Filología Moderna,
2
Dept. Informática y Matemáticas;
[email protected]
[email protected]
[email protected]
Learners of English as a foreign language either neglect prosody, or
they transfer their L1 prosody into the prosody of L2, something which
results in abnormal effects and also communication failure (Ramírez
Verdugo 2006). When teaching and learning English prosody (if any),
traditionally, too much attention is paid to a list of different prosodic
patterns which are associated loosely with a set of communicative
effects or meanings, at the expense of giving an opportunity to the
learner to understand the system underlying such patterns. In order to
improve and better understand the acquisition process of L2 English
prosody, we undertake a series of experiments which evaluate
individually to what extent the perception and production of the
parameters tonality and tone (Brazil et al. 1980) improve in the
student’s performance. The stimuli for the perception tests consist of
recordings of t-shirt slogans of the type This land is your land. They are
recorded twice so that one rendition is produced with a natural
intonation pattern, and the other shows an unnatural intonation pattern.
Subjects are asked to judge the degree of naturalness of the renditions
ISBN: 84-695-8101-5
139
on a two point scale (1= natural; 0 = unnatural). In the production tests,
subjects are asked to record their own rendition of t-shirt slogans. Such
recordings are then judged by a trained phonetician. In the case of tone,
the experimental design integrates prosody and pragmatic effects
(Prieto and Roseano 2010), as it incorporates brief contextual
descriptions which set the frame for understanding the intended
meaning (House 2006, Wells 2006). In the case of tonality, however,
no context was provided. The subjects involved in the experiments are
sixteen B2-level (Common European Framework of Reference)
learners of English who take the same perception and production tests
before and after being instructed as to tonality and tone. For tonality,
each subject listened to a total number of 28 paired stimuli and
produced a total number of 20 recordings. For tone, the number of
paired stimuli presented was 10, and subjects produced 10 recordings.
The results for tonality turn out to be inconclusive as to whether
or not there is an improvement in perception and production in the
post-test condition (0-1 in the left panel of figure 1) (McNemar’s chisquared = 2.4, df = 1, p-value = 0.1213 for perception, and McNemar’s
chi-squared = 1.125, df = 1, p-value = 0.2888 for production). This may
be due either to the small size of subjects participating in the
experiment, or to the fact that tonality stands as a parameter which
shares common characteristics between English and Spanish, and
consequently, needs no instruction; to what extent this might be true or
not is further investigated in this paper. As for tone, the distribution 0-1
observed in the right panel of figure 1 for perception (McNemar’s chisquared = 7.5625, df = 1, p-value = 0.00596) and production
(McNemar’s chi-squared = 8.6429, df = 1, p-value = 0.003283)
indicates a significant improvement in the post- instruction condition.
Furthermore, there seems to be a greater improvement in perception
than production, although this still remains to be confirmed statistically.
In general, these results confirm that the pre- and postmethodology used contributes to a gain in the acquisition of tone in L2
English prosody, and that while the improvement in perception seems
to reach a higher level, production stays at a more conservative level.
Finally, an analysis of incorrect responses in both the tonality and tone
production experiments point in the following direction: 1) the tonality
used by subjects exhibits a clear
interference of the typical
140
ISBN: 84-695-8101-5
theme/rheme (rising-falling tune) organization found in their L1; 2) L2
falling tones produced by subjects exhibit a compressed pitch range,
and L2 falling-rising tones show a low rise configuration. A detailed
analysis of these findings is also further investigated in the present
paper.
Left panel
Right panel
Fig. 1. Distribution of student’s knowledge before and after instruction on tonality and tone (10 = pre-test with knowledge and post-test without knowledge; 0-0 pre-test without knowledge
and post-test without knowledge; 1-1 pre-test with knowledge and post-test with knowledge; 01 pre-test without knowledge and post-test with knowledge).
ISBN: 84-695-8101-5
141
References:
Brazil, D., Coulthard, M. and Johns, C. 1980. Discourse, Intonation and Language
Teaching. London: Longman.
R Core Team (2013). R: A language and environment for statistical computing. R
Foundation for Statistical Computing. Vienna, Austria. URL http://www.R-project.org/.
House, J. 2006. Constructing a context with intonation. Journal of Pragmatics. 38, 15421558.
Prieto, P., and Roseano, P. 2010. Transcription of Intonation of the Spanish Language.
Munich: Lincom Europa.
Ramírez Verdugo, D. 2006. A Study of Intonation Awareness and Learning in Non-native
speakers of English. Language Awareness, 15:3, 141-159.
Wells, J. 2006. English Intonation. An Introduction. Cambridge: Cambridge University
Press.
142
ISBN: 84-695-8101-5
Seguimiento automático de la apertura glotal a
partir de imágenes digitales de alta velocidad
usando correlación cruzada adaptiva.
Gustavo Andrade-Miranda, Juan Ignacio Godino-Llorente
Universidad Politécnica de Madrid, Ctra. Valencia, Km. 7, 28031 Madrid, España
{gxandrade,igodino}@ics.upm.es
Resumen El presente trabajo describe un nuevo procedimiento para el
seguimiento automático de la zona glotal a partir de imágenes digitales de
alta velocidad de la laringe. Este enfoque comprende tres pasos: Primero,
se localiza de manera automática la trama con la apertura glótica máxima, la cual corresponderá a la trama en que la suma de las intensidades
de los pı́xeles sea mı́nima. Segundo, un algoritmo de segmentación basado
en contornos activos es utilizado para detectar el espacio glotal y construir la plantilla inicial. Por último, se usa la correlación cruzada para
encontrar la mejor correspondencia entre la plantilla inicial y la trama
siguiente. El área de la gráfica de superficie de la correlación cruzada
representará tanto al espacio glotal como a la nueva plantilla. El procedimiento mencionado se realiza iterativamente hasta alcanzar el último
fotograma de la secuencia. El rendimiento, la eficacia y la validación del
enfoque son demostrados en grabaciones de altas velocidades en las cuales
las imágenes presentan un cierre inapropiado de las cuerdas vocales.
Términos claves: apertura glotal, fotogramas claves, correlación cruzada normalizada, HSDI, plantilla.
1.
Introducción
Las imágenes ları́ngeas juegan un rol importante para el preciso, rápido, y
confiable diagnóstico de los patrones vibratorios de las cuerdas vocales, además
proveen valiosa información visual que no puede ser adquirida mediante medición
acústica. Las imágenes ları́ngeas son grabadas utilizando técnicas endoscópicas
tales como [1]: video de baja velocidad (estroboscopia) y videos de alta velocidad
(HSDI). Los videos de alta velocidad pueden grabar imágenes de la laringe a
una velocidad tı́pica de 2000 cuadros/segundo, mientras que la tasa obtenida en
baja velocidad es sólo de 25 a 50 fotogramas por segundo. Los videos de alta
velocidad usan luz continua mientras que los videos de baja velocidad utilizan
luz estroboscópica para mostrar el movimiento de los pliegues vocales. Una clara
ventaja de los videos de alta velocidad con respecto a los de baja radica en que
los primeros no presentan imágenes borrosas e incorrectamente iluminadas. Sin
embargo, por la naturaleza invasiva de ambos métodos se presentan otros tipos de
ISBN: 84-695-8101-5
143
inconvenientes tales como: rotaciones, movimientos laterales de la laringoscopio,
y movimientos del paciente, originando deslocalización de los pliegues vocales
y de la apertura glotal, lo cual complica de sobremanera el uso de técnicas
automáticas para el correcto seguimiento del espacio glotal.
La precisa detección del espacio glotal y su seguimiento a lo largo del tiempo
es necesaria para la caracterización objetiva de los patrones de vibración de las
cuerdas vocales. Dicha caracterización se obtiene a partir de distintos tipos de
representaciones tales como; perfiles de vibración [2], formas de onda glotal [3],
quimogramas [4], a esto hay que añadirle ciertos parámetros cuantitativos como
por ejemplo; relación de amplitud de vibración, relación de periodos de vibración,
etc [5]. Cabe mencionar que todos los parámetros mencionados con anterioridad
guardan una correlación con la calidad de voz y con las patologı́as que afectan a
esta [6], ayudando a los especialistas a evaluar el proceso de fonación de manera
objetiva.
Debido al gran avance computacional y a la mejora continua de los algoritmos empleados para el procesamiento de imágenes, la compleja tarea de la
segmentación automática del espacio glotal ha logrado un dramático avance. A
pesar de esto, mucho de los algoritmos encontrados en el estado del arte presentan aún muchas deficiencias, tornándolos poco prácticos en un ambiente clı́nico
real, en el cual la automatización y la confiabilidad son caracterı́sticas fundamentales. Las técnicas más comunes encontradas en la literatura para la detección
del espacio glottal son basadas en histogramas [7], crecimiento de regiones [8],
transformación divisoria (watershed) [9], y contornos activos [10].
Los algoritmos basados en histogramas utilizan la umbralización, donde el
umbral se determina a partir de la información proporcionada por el histograma
de cada imagen. Para el caso de las imágenes ları́ngeas, la glotis tiene un nivel
de intensidad menor que el presentado por los tejidos de las cuerdas vocales, por
tanto un umbral puede ser utilizado para diferenciar entre la glotis y las cuerdas
vocales. Sin embargo, las imágenes ları́ngeas a menudo presentan bajo contraste
y perfiles heterogéneos, con lo cual la selección de un umbral global resultarı́a
en una errónea delimitación de la abertura glotal durante la fase de cierre de
las cuerdas vocales, ya que en este momento la glotis y el fondo de la imagen
tendrı́an prácticamente el mismo nivel de intensidad.
El método basado en regiones evalúa los pixeles vecinos de un grupo inicial
de pixeles llamados semillas, y determina si estos vecinos deben ser añadidos a
la región formada por las semillas. Uno de los inconvenientes de este método
es que requiere un sólido criterio y bordes relativamente bien delimitados para
converger dentro del espacio glotal; otro inconveniente se origina cuando las
cuerdas vocales presentan problemas de cierre, en estos casos la glotis suele
dividirse en dos partes, lo que ocasionarı́a que una de las partes correspondientes
a la glotis sea rechazada.
La transformación divisoria (watershed) simula el proceso de lluvia sobre una
imagen, donde los distintos niveles de grises representan una altitud diferente.
Una gota de agua que cae sobre la imagen fluye a lo largo de un camino para
finalmente llegar a un mı́nimo local; intuitivamente, la divisoria de un relieve cor-
144
ISBN: 84-695-8101-5
responde a los lı́mites de las cuencas hidrográficas adyacentes. Las cuencas de
recepción asociadas con cada mı́nimo local serán etiquetadas con el mismo valor.
El resultado final de este método producirá miles de cuencas de recepción (sobre segmentación), por tal razón es necesario incluir una etapa de pre-procesado
para reducir el nivel de ruido de la imagen. Para el caso de imágenes ları́ngeas, la
transformación divisora no elimina todos los objetos que no pertenezcan a la glotis [9], por lo tanto es necesario incluir una etapa de post procesado, originando
en algunos casos perdida de información glotal.
Por último, encontramos los algoritmos de contornos activos o snakes los
cuales se han tornado muy populares en el tratamiento de imágenes médicas,
ya que estas se pueden acoplar de manera apropiada a contornos no rı́gidos
o amorfos. A pesar de todos los beneficios proporcionados por los contornos
activos su efectividad en el procesamiento de miles de imágenes se ve limitado
a los grandes tiempos computacionales que estos generan. Adicionalmente, para
el caso de imágenes ları́ngeas durante la fase de cierre glottal, la snake tiene una
gran probabilidad de converger en algún punto erróneo de la imagen.
Los algoritmos mencionados anteriormente, no toman en consideración la
dimensión temporal del problema, cada trama se trata individualmente sin emplear información obtenida de tramas anteriores. Por lo tanto, nuevos métodos
se requieren para superar con precisión y eficacia las limitaciones expuestas con
anterioridad, prestando una especial atención en el seguimiento de las cuerdas
vocales a lo largo del tiempo. La finalidad de este documento no es resolver
por completo el problema del seguimiento de la glotis, sino proveer una nueva
herramienta que podrı́a ser usada para refinar técnicas ya existente, o a su vez
ser empleada como inicialización de algoritmos de segmentación más elaborados, como por ejemplo; contornos activos o transformación divisoria. El método
propuesto utiliza para la primera detección de la glotis información temporal
obtenida a partir de la secuencia de video, con la finalidad de reducir el número
de falsas detecciones e iterativamente actualiza la información en cada trama
basándose en una correlación cruzada adaptiva. Entre las ventajas del método
propuesto tenemos; alto grado de adaptabilidad con técnicas existentes en el
estado del arte, fácil implementación, y posibilidad de poder distinguir entre las
cuerdas vocales y la glotis.
El resto del trabajo se organiza de la siguiente manera: Sección 2, resumen introductorio de algunos conceptos básicos. Sección 3, desarrollo de la metodologı́a
implementada para el seguimiento de la glotis. Sección 4 evalúa los resultados
obtenidos usando el nuevo enfoque y por último en la sección 5 se presentan
algunas conclusiones.
2.
Metodologı́a
El esquema del método propuesto se presenta en la Figura 1. La función de
cada bloque se detalla a continuación:
ISBN: 84-695-8101-5
145
Figura 1. Esquema del algoritmo propuesto
2.1.
Detección de fotogramas clave y primera segmentación
El primer paso es encontrar información útil acerca los ciclos glotales, utilizando las tramas de la secuencia con la apertura glotal máxima. Estas tramas
se pueden detectar como aquellas para cual la suma de las intensidades de los
pı́xeles es mı́nima, ya que en esos momentos la glotis está abierta y la cantidad de pı́xeles oscuros es máxima. Estos son los llamados fotogramas clave. Los
fotogramas claves representan los estados de máxima apertura del ciclo glotal
dentro de la secuencia bajo consideración. El mismo enfoque también ha sido
utilizado en [11] para la búsqueda de las tramas con máxima apertura glotal.
!
XX
Fotogramas claves(p) = argmin
Ii (x, y)
(1)
i=1..k
x
y
El siguiente paso es elegir uno de los p fotogramas claves como punto inicial del algoritmo. En nuestro caso por simplificación, se selecciona la primera
trama de los fotogramas claves p. Por último, es necesario obtener la primera
segmentación de la glotis y propagar está a través del vı́deo. Para ello, se utiliza
un sistema de segmentación automático basado en contornos activos [12]. La
figura 2 muestra el primer fotograma clave y la plantilla inicial.
Las plantillas están compuestas por la superposición del área de la glotis
obtenida a partir de la trama anterior con un fondo negro. El fondo negro actúa
como un potenciador del borde con el fin de resaltar el contorno de la glotis.
Por razones computacionales y de localización no es necesario procesar toda la
imagen, ya que la región de interés cubre sólo una parte de esta. Por tal motivo,
se incluye el uso de una ventana de búsqueda dinámica, basándonos únicamente
en la información extraı́da de las plantillas de la trama anterior. El término
dinámico es debido a que la ventana es capaz de cambiar su posición de acuerdo
con la nueva posición de la plantilla. La ventana dinámica para la nueva iteración
se construye tomando en consideración la posición de la glotis obtenida de la
146
ISBN: 84-695-8101-5
Figura 2. Primer Fotograma clave y primera plantilla
trama anterior creando la nueva ventana de búsqueda para la trama siguiente.
Las dimensiones de la ventana de búsqueda son variables e indican la tolerancia
a los movimientos bruscos, por ejemplo, cuando se aumenta el área de búsqueda,
la tolerancia al movimiento y a las falsas coincidencias aumenta. Por otro lado,
cuando la ventana de búsqueda disminuye su área, la precisión del seguimiento
disminuye y la probabilidad de perder el blanco (glotis) aumenta. En nuestro
caso la dimensión se ha seleccionado con la finalidad de obtener una visualización
completa de los objetos de interés. Una ventana de búsqueda permite reducir el
número de picos generados por la correlación cruzada, de esta manera se evita el
uso de transformaciones tediosas en el dominio de la frecuencia, las mismas que
son utilizadas normalmente para eliminar los picos no representativos [13]. El uso
de información temporal aumenta la tolerancia a los movimientos involuntarios
de la cámara. La figura 3 muestra un claro ejemplo de una trama y su respectiva
ventana de búsqueda.
Figura 3. Trama siguiente con su respectiva ventana de búsqueda
2.2.
Correlación cruzada adaptiva
Una forma de hacer el método más robusto ante los problemas de rotación y
cambio de escala es el uso de plantillas variables. Por tal razón hemos optado por
el uso de una correlación adaptiva para el seguimiento de la variación del espacio
glottal. La NCC es representada mediante el uso de una matriz con intervalos de
[−1, 1]. Los valores más cercanos a 1 indican más similitudes entre la plantilla
y la ventana de búsqueda, de lo contrario, si los valores están más cerca de −1
significa que la plantilla no está correlacionada con la ventana de búsqueda.
ISBN: 84-695-8101-5
147
Figura 4. Gráfica de superficie de la correlación
El resultado de la correlación (figura 4) es una versión mejorada de la imagen
original, en el que la información relativa al espacio glotal y las cuerdas vocales se
distinguen con gran claridad. La glotis en la figura 5 es la región roja rodeada por
los pliegues vocales (azul oscuro). Por lo tanto, utilizando únicamente técnicas
basadas en umbrales o gradientes, es posible evaluarlos por separado y obtener
información de sus respectivas posiciones, formas y áreas. Esta información se
actualiza iterativamente mediante la inclusión de la nueva plantilla y la nueva
ventana de búsqueda. Este procedimiento se repite hasta que se alcanza la última
trama. Adicionalmente es necesario incluir un búfer que almacene información
de las plantillas anteriores durante cada nueva iteración. Esto se debe a que en
el instante de tiempo entre una apertura y cierre de las cuerdas vocales, la nueva
plantilla corresponderá a una matriz formada por ceros causando una correlación
cruzada indeterminada. El búfer es utilizado para sustituir la matriz de ceros, y
el procedimiento normal sigue su curso, esto se realizara cada vez que la plantilla
sea una matriz de ceros.
Figura 5. Vista superior de la gráfica de correlación
3.
Resultados
La metodologı́a descrita en la sección anterior ha sido probado con secuencias HSDI tomados de la base de datos del Dr. Erkki Bianco yGillesDegottex. La
resolución de los videos es de 256x256 pı́xeles y la velocidad de muestreo es de
148
ISBN: 84-695-8101-5
4000 cuadros/segundo. La Figura 6 muestra tres diferentes tramas y su respectiva correlación. En estas imágenes es fácil notar como el uso de una ventana de
búsqueda elimina un gran número de picos erróneos. Sin embargo, hay algunos
pequeños picos que permanecen en las esquinas superior e inferior del gráfico de
superficie de la correlación, pero los mismos pueden ser eliminados fácilmente
utilizando umbralización o un criterio gradiente. Los picos más significativos representan a las cuerdas vocales y a la glotis. La correlación claramente muestra
las grandes diferencias entre ellos: mientras que uno tiende a ser más positiva
(glotis), el otro tiende a ser más negativo (Cuerdas vocales), este comportamiento se mantiene constante para todos los fotogramas de la secuencia de vı́deo.
Otra caracterı́stica importante se produce en la segunda imagen, en la que la
glotis se cierra parcialmente. En este caso el problema no es solo la variación
de escala de la glotis, sino también una variación de su forma. La correlación
adaptiva tiene la capacidad de lidiar con las pequeñas variaciones en la forma
entre tramas consecutivas. Finalmente, el último cuadro muestra uno de los escenarios más exigentes durante la detección de la glotis, y sucede cuando la glotis
se divide en dos o más secciones. En ese escenario, el algoritmo propuesto tiene
un gran rendimiento y es capaz de distinguir perfectamente entre las regiones
que pertenecen a la glotis y las regiones que serı́an las cuerdas vocales.
Figura 6. Resultados; La primera columna corresponde a la imagen original, la segunda
columna corresponde al resultado obtenido después de aplicar la correlación adaptiva y
la ultima columna corresponde a la segmentación final usando [14].
ISBN: 84-695-8101-5
149
El algoritmo presentado se puso a prueba como una inicialización para el
algoritmo [14]. La segmentación final en cada trama se comparó con una segmentación semiautomática [15] utilizando el ı́ndice de Pratt [16]. Pratt calcula
una figura de mérito que mide la similitud entre los contornos obtenidos de manera automática y semiautomática, donde el 1 indica que los dos contornos son
iguales y 0 que no hay similitud. La Figura 7 resume los resultados obtenidos
a partir de 2 secuencias de alta velocidad en las que se analiza la calidad de la
segmentación basados en una escala que mide el porcentaje de similitud entre
los contornos.
Figura 7. Evaluación subjetiva de la segmentación realizada a 60 tramas en una escala
de 5 puntos.
4.
Conclusiones y discusiones
En el trabajo presentado se ha desarrollado un método de correlación adaptivo. El cual realiza periódicamente una actualización de la plantilla de la glotis con
la finalidad de ajustarse a los cambios en la secuencia del video. Por su parte la
ventana de búsqueda dinámica resuelve los problemas introducidos por cambios
bruscos de la posición de la cámara. La NCC a pesar de ser un método simple es
muy eficaz para medir la similitud entre dos imágenes, además de que no se ve
afectado por la variación de intensidad y de contraste. Su fácil implementación
lo torna muy práctico para aplicaciones en tiempo real. La motivación de este
trabajo es explorar técnicas que aun siendo tradicionales para el seguimiento de
vı́deos no se han considerado previamente en el estado del arte para la detección y el seguimiento de la glotis. La experimentación ha demostrado que su uso
proporciona información valiosa, no sólo para detectar y realizar el seguimiento
del espacio glotal sino también para localizar las cuerdas vocales. Los resultados
obtenidos son muy prometedores, aún más si consideramos combinarlo con otras
150
ISBN: 84-695-8101-5
técnicas ya existentes en el estado del arte, sin embargo el algoritmo necesita ser
probado en diferentes condiciones para asegurar su generalización.
5.
Agradecimiento
El siguiente trabajo se realizo gracias a los proyectos: TEC2009-14123- C04
y TEC2012-38630-C04-01 del ministerio de educación de España Los autores
quisieran agradecer tambien a los Dr. Erkki Bianco y Gilles Degottex por proveernos la base de datos.
Referencias
1. R. Baken and R. F. Orlikoff, Clinical Measurement of Speech and Voice, 2nd ed.
United States of America: Singular Publishing Group, 2000.
2. C. Palm, T. Lehmann, S. N.-R. Bredno, Klajman, and K. Spitzer, “Automated
analysis of stroboscopic image sequences by vibration profile diagrams,” in 5th International Workshop on Advances in Quantitative Laryngology, Voice and Speech
Research, 2001.
3. P. Woo, “Quantification of videostrobolaryngoscopic findings-measurements of the
normal glottal cycle,” The Laryngoscope, vol. 106, no. S79, pp. 1–27, 1996.
4. J. G. Ŝvec and H. K. Schutte, “Videokymography: High-speed line scanning of
vocal fold vibration,” Journal of Voice, vol. 10, no. 2, pp. 201 – 205, 1996.
5. V. Osma, “Contribución al procesado digital de imágenes para la caracterización
de patologı́as ları́ngeas,” Ph.D. dissertation, Universidad Politécnica de Madrid,
2010.
6. K. Ahmad, Y. Yan, and D. Bless, “Vocal fold vibratory characteristics in normal
female speakers from high-speed digital imaging,” Journal of Voice, vol. 26, no. 2,
pp. 239–253, 2012.
7. D. D. Mehta, D. D. Deliyski, T. F. Quatieri, and R. E. Hillman, “Automated
measurement of vocal fold vibratory asymmetry from high-speed videoendoscopy
recordings,” Speech, Language and Hearing Research, vol. 54, no. 1, pp. 47 – 54,
2011.
8. J. Lohscheller, H. Toy, F. Rosanowski, U. Eysholdt, and M. Dollinger, “Clinically
evaluated procedure for the reconstruction of vocal fold vibrations from endoscopic
digital high-speed videos,” Medical Image Analysis, vol. 11, no. 4, pp. 400 – 413,
2007.
9. V. Osma-Ruı́z, J. I. Godino-Llorente, N. Sáenz-Lechón, and R. Fraile, “Segmentation of the glottal space from laryngeal images using the watershed transform,”
Computerized Medical Imaging and Graphics, vol. 32, no. 3, pp. 193 – 201, 2008.
10. B. Marendic, N. Galatsanos, and D. Bless, “New active contour algorithm for
tracking vibrating vocal folds,” in Image Processing, 2001. Proceedings. 2001 International Conference on, vol. 1, 2001, pp. 397–400.
11. S.-Z. Karakozoglou, N. Henrich, C. d?Alessandro, and Y. Stylianou, “Automatic
glottal segmentation using local-based active contours and application to glottovibrography,” Speech Communication, vol. 54, no. 5, pp. 641 –654, 2012.
12. G. Andrade, N. Sáenz-Lechón, V. Osma-Ruı́z, and J. I. Godino-Llorente, “A new
approach for the glottis segmentation using snakes,” in 6th International Joint
Conference on Biomedical Engineering Systems and Technologies. INSTICC, 2013,
p. 34.
ISBN: 84-695-8101-5
151
13. A. Mendez, E. Ismaili Alaoui, B. Garcia, E. Ibn-Elhaj, and I. Ruiz, “Glottal
space segmentation from motion estimation and gabor filtering,” in Engineering
in Medicine and Biology Society, 2009. EMBC 2009. Annual International Conference of the IEEE, 2009, pp. 5756–5759.
14. S. Lankton and A. Tannenbaum, “A localizing region-based active contours,” IEEE
Trans. on Image Processing, pp. 2029–2039, 2008.
15. V. Vezhnevets and V. Konouchine, “”growcut interactive multi-label nd image segmentation by cellular automata,” in international conference on Computer Graphics and Vision.
16. I. E. Abdou and W. K. Pratt, “Quantitative design and evaluation of enhancement/thresholding edge detectors,” Proceedings of The IEEE, vol. 67, pp. 753–763,
1979.
152
ISBN: 84-695-8101-5
Consideraciones acústicas durante el proceso de
grabación de audio
Manuel Medina Molina, Juan Manuel Caballero, Fidel Cabrera Quintero
Consultores Acústicos
Campus de Tafira,
35017 – Las Palmas
[email protected]
Abstract. Es una tarea común en la actividad de cantantes, locutores, lingüistas,
foniatras, logopedas e ingenieros, entre otros, realizar grabaciones de audio para
su posterior análisis. En esta tarea el equipamiento, su disposición respecto de
la fuente y el entorno donde se realiza la toma de sonido juegan un papel fundamental que, en muchas ocasiones, no se tiene en cuenta. En definitiva, el control de las condiciones de grabación de audio es fundamental. Prueba de ello es
que en muchas tomas de sonido realizadas por personal no especializado se comete errores típicos como no considerar el ruido del ambiente, no tener en
cuenta las condiciones acústicas del recinto, no considerar la utilización adecuada de micrófonos y, muchas veces, no utilizar la configuración de grabación
adecuada del equipo. En esta ponencia proponemos seguir un protocolo de actuación en el que se tenga en cuenta evitar las malas prácticas durante el proceso de la grabación sonora que siempre es susceptible de ser mejorada mediante
actuaciones de fácil ejecución. Siguiendo el protocolo que se propondrá conseguimos mejorar la relación señal a ruido y la inteligibilidad de la toma de señal.
Finalmente esto repercutirá en la calidad y validez debido a que tenemos bajo
control las condiciones de grabación.
ISBN: 84-695-8101-5
153
La digitalización: ¿Qué software utilizo?
Fidel Cabrera Quintero, Manuel Medina Molina, Juan Manuel Caballero Suárez
Consultores Acústicos
Campus de Tafira,
35017 – Las Palmas
[email protected]
Abstract. En la tarea de grabación de sonidos entran en juegos diferentes aspectos que
resultan fundamentales considerar para la correcta ejecución. Además de otras consideraciones como la acústica, microfonía y niveles de ruido, destaca la correcta ejecución del proceso
de digitalización en aspectos como la frecuencia de muestreo y bits de cuantificación. De igual
forma resulta una decisión importante la elección del software a utilizar ya que condicionará
la agilidad y el tiempo empleado, debiendo seleccionarse el mismo en función del proceso y
del producto final que se desee obtener. También, la elección del software de grabación condicionará el adiestramiento de la persona responsable de supervisar dichas grabaciones. Esta
ponencia está focalizada en el proceso de la digitalización y analizará diferentes software de
grabación y edición de audio existentes, algunos de ellos de libre distribución.
154
ISBN: 84-695-8101-5
Patrocinadores
TEC2012-38630-C04
TEC2012‐38630‐C04

JVHC 2013 - Proyecto e-VOICE - Universidad de Las Palmas de

Transcripción

Documentos relacionados

BERTÍN OSBORNE E HIPERDINO FIRMAN UN ACUERDO DE