JVHC 2013 - Proyecto e-VOICE - Universidad de Las Palmas de
Transcripción
JVHC 2013 - Proyecto e-VOICE - Universidad de Las Palmas de
TEC2012‐38630‐C04 JVHC 2013 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria - 27-28 de junio 2013 Editores: Jesús B. Alonso Hernández Carlos M. Travieso Gonzalez Pedro Gómez Vilda Libro de Actas de las I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria - 27-28 de enero 2013 ISBN: 84-695-8101-5 Editores: Jesús B. Alonso Hernández Carlos M. Travieso González Pedro Gómez Vilda Editores: Jesús B. Alonso Hernández Carlos M. Travieso González Pedro Gómez Vilda © Todos los derechos sobre cada uno de los trabajos pertenecen a los autores. ISBN-10: 84-695-8101-5 ISBN-13: 978-84-695-8101-8 INSTITUTO UNIVERSITARIO PARA EL DESARROLLO TECNOLÓGICO Y LA INNOVACIÓN EN COMUNICACIONES (IDETIC) Universidad de Las Palmas de Gran Canaria Despacho 102, Pabellón B, Edificios de Electrónica y Telecomunicación Campus Universitario de Tafira 35017 – Las Palmas (Spain) Impreso por La Universidad de Las Palmas de Gran Canaria Las Palmas de Gran Canaria Primera Edición Junio 2013 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Prologo Las I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto (JVHC’13) están organizadas por la División de Procesado Digital de Señales del Instituto para el Desarrollo Tecnológico y la Innovación en Comunicaciones (IDeTIC) de la Universidad de la Universidad de Las Palmas de Gran Canaria (ULPGC) y por el Laboratorio de Comunicación Oral "Robert Wayne Newcomb" de la Facultad de Informática de la Universidad Politécnica de Madrid (UPM). JVHC son unas jornadas en las que investigadores y profesionales de múltiples disciplinas muestran mediante comunicaciones originales, su trabajo y experiencias en el ámbito de la utilización de la voz, el habla y el canto. Además, las JVHC pretenden ser un foro de encuentro en el que investigadores y profesionales de diferentes disciplinas puedan encontrar sinergias para colaboraciones futuras. Las diferentes áreas temáticas de la JVHC son las siguientes: 1. 2. 3. 4. 5. 6. 7. 8. Estudio de patologías laríngeas y del sistema fonador Estudio de patologías neurodegenerativas Aplicaciones en Rehabilitación: foniatría y logopedia Aplicaciones en fonética y lingüística Aplicaciones forenses y en el ámbito de la seguridad Aplicaciones en música y canto Soporte electroacústico Aplicaciones en procesado de video Por último, quisiéramos agradecer los apoyos económicos que han obtenido las JVHC’13 por parte de la Cátedra Telefónica-ULPGC, en el marco del proyecto Sistema de Evaluación Remota del Sistema Fonador (e-VOICE), y del Ministerio de Ciencia e Innovación de España (MICINN), en el marco del proyecto de investigación Síntesis de Muestras Biométricas para Aplicaciones en Salud y Seguridad (TEC2012-38630-C04). En Las Palmas de Gran Canaria 27 de junio de 2013 Jesús Bernardino Alonso Hernández Carlos Manuel Travieso Gonzalez Pedro Gómez Vilda Presidentes del Las I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto i ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Comité Organizador Presidentes Jesús B. Alonso Hernández (ULPGC) Carlos M. Travieso González (ULPGC) Pedro Gómez Vilda (UPM) Secretario Miguel A. Ferrer Ballester (ULPGC) Vocales: Nicolás Sáenz Lechón (UPM) Aythami Morales Moreno (ULPGC) Patricia Henríquez Rodríguez (ULPGC) Santiago Pérez Suarez (ULPGC) David Sánchez Rodríguez (ULPGC) Agustín Álvarez Marquina (UPM) Rafael Martínez Olalla (UPM) Moisés Díaz Cabrera (ULPGC) Comité Técnico-Científico Estudio de patologías laríngeas y del sistema fonador Jesús B. Alonso Hernández (ULPGC) José de León y de Juan (Serv. ORL. HGGC) Aplicaciones forenses y en el ámbito de la seguridad. Miguel A. Ferrer Ballester (ULPGC) Agustín Álvarez Marquina (UPM) Aplicaciones en música y canto. Zulema Santana López (CPM LP) Oscar Dominguez Jaén (CPM LP) Soporte electroacústico Manuel Medina Molina (ULPGC) Fidel Cabrera Quintero (ULPGC) Aplicaciones en procesado de video Juan Ignacio Godino (UPM) Carlos M. Travieso González (ULPGC) Instituciones patrocinadoras Ministerio de Ciencia e Innovación de España Cátedra Telefónica-ULPGC Estudio de patologías neurodegenerativas Pedro Gómez Vilda (UPM) Marcos Faundez (UPMt) Aplicaciones en Rehabilitación: foniatría y logopedia. Marisol Soledad García Acosta (Serv. FON. HGGC) Ulrika Törnos Aplicaciones en fonética y lingüística Mercedes Cabrera Abreu (ULPGC) Karmele López de Ipina (EHU) Francisco Vizcaíno Ortega (ULPGC) iii ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Programa Técnico Sesión 1: Estudio de patologías laríngeas y del sistema fonador José de León y de Juan “Aproximación a la Anatomo-Fisiología de la produción vocal” .......................................... 1 Felipe Jungjohann Jofre “Disfonías funcionales. Lesiones benignas de cuerdas vocales” .......................................... 2 Athanasios Tsanas, Pedro Gómez-Vilda “Novel robust decision support tool assisting early diagnosis of pathological voices using acoustic analysis of sustained vowels”............................................................ 3 Pedro Gómez Vilda, Ana Martínez de Arellano, Víctor Nieto Lluis, Victoria Rodellar-Biarge, Agustín Álvarez Marquina, Luis M. Mazaira Fernández “Monitoring Treatment of Vocal Fold Paralysis by Biomechanical Analysis of Voice”............................................................................................................................. 13 Jorge Andrés Gómez García, Juan Ignacio Godino Llorente, Germán Castellanos Domínguez “Identificación de género para la detección automática de patologías” ............................ 23 Laureano Moro Velázquez, Juan Ignacio Godino Llorente “Análisis de métodos de parametrización para la simulación de un sistema de evaluación perceptual de voces patológicas” ................................................................... 31 Jesús B. Alonso, Josué Cabrera, José de León, Miguel A. Ferrer, Carlos M. Travieso, David Sánchez, Patricia Henríquez, Aythami Morales, Juan Francisco Rivero, Francisco Ayudarte, Santiago Tomás, Fidel Cabrera, Juan Manuel Caballero “Proyecto e-VOICE: Sistema de Evaluación Remota del Sistema Fonador” ........................ 46 Sesión 2: Estudio de patologías neurodegenerativas Jiri Mekyska “Neurological Disorders Analysis Using the Speech Signal Processing” .............................. 59 K. Lopez-de-Ipiña, J.B. Alonso, J. Solé-Casals, N.Barroso, P.Henriquez, M. Faundez-Zanuy, C. Travieso, M. Ecay-Torres, P.Martinez-Lage, U. Martinez-de-Lizardui, H. Egiraun, A. Ezeiza “Analysis of Spontaneous Speech and Emotional Response oriented to Alzheimer's Disease Diagnosis” ............................................................................................... 60 Pedro Gómez-Vilda, Ana Rita M. Londral, Mamede de Carvalho, José Manuel FerrándezVicente, Victoria Rodellar-Biarge “Characterization of Speech in Amyotrophic Lateral Sclerosis by Neuromorphic Processing” ..................................................................................................................... 61 Cayetano Cabrera, Jesús. B. Alonso, Carlos M. Travieso, Miguel A. Ferrer v ISBN: 84-695-8101-5 VI Jornadas de Reconocimiento Biométrico de Personas Las Palmas de Gran Canaria - 26-27 de enero 2012 “Herramienta de creación de base de datos de habla espontanea de pacientes con diagnóstico de Enfermedad de Alzheimer” ................................................................ 71 Sesión 3: Aplicaciones en Rehabilitación: foniatría y logopedia Maria Soledad García Acosta “Aplicaciones en Rehabilitación: Trastornos de la Voz y su Reeducación” ......................... 81 Marcelo J. Rodríguez-Cruz, Amalia Sánchez-López, María Teresa Schüller-Moreno, Pilar RevillaRodríguez “ Análisis biométrico aplicado en la evaluación y tratamiento en patología vocal” ............................................................................................................................. 82 Sesión 4: Aplicaciones en música y canto. Oscar Juan Domínguez Jaén, Mª Zulema Santana López “Una nueva dimensión en la enseñanza musical: el procesado digital de señales” .......................................................................................................................... 95 Pedro Gómez Vilda, Elisa Belmonte-Useros, Víctor Nieto Lluis, Victoria Rodellar-Biarge, Agustín Álvarez Marquina, Luis M. Mazaira Fernández “Vocal Fold Biomechanical Analysis for the Singing Voice” ............................................... 96 Mª Zulema Santana López, Jesús B. Alonso, Fidel Cabrera, Oscar Juan Domínguez, Dionisio Rodriguez, Carlos M. Travieso “Diseño y desarrollo de una propuesta metodológica para la reeducación de la voz: Método Cimardi “Pantalla de Celofán””.................................................................. 106 Ulrika Törnros “Entrenamiento vocal en la práctica”............................................................................. 119 Sesión 5: Aplicaciones forenses y en el ámbito de la seguridad. Miguel Ángel Ferrer “Introducción a la Biometría de Voz : Identificación de Locutor“..................................... 121 Luis Miguel Mazaira-Fernández, Agustín Álvarez Marquina, Pedro Gómez Vilda, Rafael Martínez-Olalla, Cristina Muñoz-Mulas “Classical vs. Biometric Features in the 2013 Speaker Recognition Evaluation in Mobile Environments” .................................................................................................. 122 Eugenia SanSegundo, Pedro Gómez-Vilda “Voice Biometrical Match of Twin and non-Twin Siblings”.............................................. 132 Pedro Quintana Morales, Juan L. Navarro Mesa, Antonio Ravelo García, Iván Guerra, Moreno, Eduardo Hernández Pérez “Modelado ARMA con resolución perceptual sobre fases glóticas para clasificación de voz patológica” ..................................................................................... 137 Juan L. Navarro Mesa, Pedro Quintana Morales, Antonio Ravelo García, Iván Guerra Moreno, Eduardo Hernández Pérez ISBN: 978-84-695-0695-0 vi I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 “Generación de una base de datos y análisis de señales del lenguaje silbado de La Gomera”................................................................................................................... 138 Sesión 6: Aplicaciones en fonética y lingüística Mercedes Cabrera Abreu, Francisco Vizcaíno Ortega, Carmen Nieves Hernández Flores “L1 Spanish interferences in the acquisition of tonality and tone in L2 English prosody. Results from perception and production” ........................................................ 139 Sesión 7: Aplicaciones en procesado de video Gustavo Andrade-Miranda, Juan Ignacio Godino-Llorente “Seguimiento automático de la apertura glotal a partir de imágenes digitales de alta velocidad usando correlación cruzada adaptiva” ................................................ 143 Sesión 8: Soporte electroacústico Manuel Medina Molina, Juan Manuel Caballero, Fidel Cabrera Quintero “Consideraciones acústicas durante el proceso de grabación de audio” .......................... 153 Fidel Cabrera Quintero, Manuel Medina Molina, Juan Manuel Caballero Suárez “La digitalización: ¿Qué software utilizo?” ..................................................................... 154 vii ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Aproximación a la Anatomo-Fisiología de la produción vocal José de León y de Juan1 1 Servicio de Otorrinolaringología Hospital de Gran Canaria Dr. Negrín Barranco de la Ballena, s/n Las Palmas de Gran Canaria 35010 – Las Palmas (Spain) Abstract. En esta ponencia se describirá brevemente la anatomía de las estructuras del aparato fonatorio con especial mención de la laringe y su sistema musculo membranoso. Así mismo se describen los conceptos fundamentales sobre las caracteristicas acústicas de la voz y su mecanismo de producción: Voz hablada y Voz cantada. ISBN: 84-695-8101-5 1 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Disfonías funcionales. Lesiones benignas de cuerdas vocales Felipe Jungjohann Jofre1 1 Servicio de Otorrinolaringología Hospital de Gran Canaria Dr. Negrín Barranco de la Ballena, s/n Las Palmas de Gran Canaria 35010 – Las Palmas (Spain) Abstract. En esta ponencia se describen las causas más frecuentes de disfonía y además el concepto y clasisficación de las disfonías funcionales. De igual forma se describen las lesiones benignas de cuerdas vocales, prestando especial atención a la descripción de las lesiones más representativas. 2 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Novel robust decision support tool assisting early diagnosis of pathological voices using acoustic analysis of sustained vowels Athanasios Tsanas1,2,*, Pedro Gómez-Vilda3 1 Oxford Centre for Industrial and Applied Mathematics, University of Oxford, UK Institute of Biomedical Engineering, Department of Engineering Science, University of Oxford, UK 3 Facultad de Informática, Universidad Politécnica de Madrid, Campus de Montegancedo, s/n 28660 Boadilla del Monte, Madrid, Spain *Asterisk indicates corresponding author 2 (A. Tsanas) [email protected] (P. Gómez-Vilda) [email protected] Abstract. Effective vocal communication is critical in daily life, and 30% of the general population may suffer from a voice disorder at some point in their lives. Early diagnosis of voice pathologies facilitates mitigating symptoms and optimizing treatment for expedient recovery. Here, we studied the potential of an automated clinical decision support tool to differentiate subjects with early onset voice disorders from healthy controls simply on the basis of a single sustained vowel phonation. We characterized 200 phonations from 200 subjects with 445 speech signal processing algorithms, extracting clinically useful properties of the phonations in order to differentiate healthy and pathological cases. We selected parsimonious gender-dependent feature subsets and demonstrated that we can automatically differentiate healthy and pathological subject cohorts with approximately 91% overall accuracy. These compelling findings endorse the use of the proposed methodology towards assisting speech experts in vocal performance assessment and diagnosis of early onset voice disorders. Keywords: Acoustic analysis, clinical decision support tool, dysphonia measures, nonlinear speech signal processing, sustained vowels 1 Introduction Effective communication through efficient vocal expression in daily life is critical and is often taken for granted. Although epidemiological studies for voice disorders are fairly scarce, the lifetime prevalence of a voice disorder is believed to be almost 30% for the general adult population [1]. Voice disorders are characterized by the malfunction of one or more parts involved in vocal production (predominantly the vocal folds), resulting in reduced perceived vocal quality. Characteristic symptoms Multidisciplinary Conference of Users of Voice, Speech and Singing (JVHC 13) 2013 © Springer-Verlag Berlin Heidelberg 2013 ISBN: 84-695-8101-5 3 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 may include reduced/increased loudness, increased vocal tremor, and breathiness (noise) depending on the pathology [2]. Vocal impairment is clinically assessed by speech experts using sustained vowel phonations, and/or conversational speech. Although some of the vocal deficiencies in conversational speech might not be detectable when assessing sustained vowels, conversational speech is considerably more complex to analyze due to articulatory and other linguistic confounds [3]. Therefore, in clinical practice speech experts typically rely on the use of sustained vowels: the subject is asked to produce a sustain phonation for as long as possible attempting to maintain steady frequency and amplitude. The sustained vowel “ahh…” (often written /a/ in the speech signal processing discipline) has been shown to be sufficient for many voice assessment applications [3]. It is often practically impossible to perceptually detect subtle differences resulting in vocal performance degradation during early voice disorder onset. However, early diagnosis of voice pathologies would facilitate mitigating symptoms and optimizing treatment for quick recovery of vocal performance. Although it may be possible to have accurate diagnosis by speech experts, it would be beneficial and cost-effective to develop a tool that would perform accurately this assessment, prompting individuals to seek specialized help. There is considerable research on the topic of developing clinical decision support tools using speech signals, for example see [3], [4], [5], [6], [7]. The automatic objective study of voice disorders relies on speech signal processing algorithms (better known as dysphonia measures), which attempt to extract clinically distinct characteristics of the phonations [3], [6]. Here, the aim is to use these signal characteristics to differentiate subjects with pathological voices from subjects with healthy voices. We envisage the proposed methodology being a useful step towards the development of an automatic and accurate decision support tool for clinical diagnosis of early onset voice disorders which may facilitate screening the population at large. 2 Data We recorded 200 sustained vowel /a/ phonations from 200 individuals: 50 males (age 32±12) with normative voice, 50 males (age 35±11) with pathological voice, 50 females (age 30±10) with normative voice, and 50 females (age 33±12) with pathological voice. All pathological cases were early stage voice performance degradation, and were not distinguishable from the healthy phonations to a non-specialist in this domain. The clinical voice assessment was conducted by experts in the ear, nose, and throat (ENT) services of Hospital Principe de Asturias. The subjects‟ enrolment in this study and all recruiting materials were approved by an independent Institutional Review Board in the Faculty of Medicine, University of Alcalá de Henares. The sustained vowel /a/ phonations were recorded in a double-walled, soundattenuated room using a head-mounted microphone positioned 5 cm from the subject‟s lips. The voice signals were sampled at 44.1 kHz with 16 bits of resolution, and were recorded using the MedivozCaptura software package [8]. Manual inspection did not reveal any problematic recordings, so all 200 data samples were used in the subsequent analysis. 4 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 3 Methods The aim of this study is to automatically assess whether a person has a healthy or pathological voice simply on the basis of a sustained vowel /a/ phonation. We apply a three step methodology towards this aim: (1) speech signal processing algorithms to characterize the sustained vowel phonations (feature calculation), (2) select a parsimonious feature subset which provides maximal clinical information to predict the response i.e. normative versus pathological phonation (feature selection), (3) use a powerful machine learning classifier to map the selected feature subset to the response (feature mapping). 3.1 Feature calculation We applied 445 dysphonia measures which were used to acoustically characterize each phonation, combining the efforts of two different research teams. Specifically, we used 136 dysphonia measures used by the research team lead by Gómez-Vilda. These dysphonia measures include power spectral density measures, cepstral coefficients, body mass, body loss, body stiffness, body imbalance, cover mass, cover loss, cover stiffness, and their corresponding imbalances. Other parameters considered were open, close and return quotients, glottal gaps, and some classical perturbation parameters: jitter, shimmer, NHR and mucosal/average amplitude ratio. In each case, we characterized the signals on a phonation-cycle synchronous basis over segments from 50-200 ms, extracting vectors to describe the local signal properties, and computed the mean and standard deviations to provide a succinct descriptor of the signal properties. In addition, we used an array of 309 dysphonia measures originally developed to study Parkinsonian phonations, which was described in detail previously by Tsanas [6]. Here, we briefly describe these algorithmic tools and refer to the detailed references below for the rationale and actual implementation of the specific algorithms. For those dysphonia measures where fundamental frequency (F0) is a pre-requisite, we used the Sawtooth Waveform Inspired Pitch Estimator (SWIPE) F0 estimation algorithm [9], because it was recently shown to outperform, on average, alternative single F0 estimators in the context of sustained vowel /a/ phonations [10]. For presentation purposes we classify the dysphonia measures in groups to summarize the characteristics of the sustained vowels they aim to characterize. The first group of dysphonia measures aims to quantify departure from periodicity: this builds on physiological evidence that pathological voices exhibit increased aperiodic vibration of the vocal folds, resulting in large amplitude and F0 variation [3]. Although physiological voices have certain variation during sustained phonation (vibrato), subjects with pathological voices exhibit exacerbated variation of F0 and amplitude compared to age- and gender-matched healthy controls. The most wellknown dysphonia measures in this category are jitter and shimmer and are considered the standard reference algorithms for biomedical speech signal analysis [3], [6]. They are effectively classical perturbation schemes: jitter quantifies F0 variation, and shimmer quantifies amplitude variation. Although jitter and shimmer refer to a con- ISBN: 84-695-8101-5 5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 ceptually simple property of speech, there is no unique algorithmic expression widely acceptable; we investigated many jitter variants and shimmer variants, to refer to algorithmic expressions which quantify departure in periodicity for both F0 and amplitude [5], [6]. Related, but somewhat more complicated algorithmic expressions of the same basic idea include the Recurrence Period Density Entropy (RPDE) [11], the Pitch Period Entropy (PPE) [12], the Glottal Quotient (GQ) [5], and other F0-related measures such as statistical descriptors of the F0 density estimate [5]. RPDE quantifies the uncertainty in vocal fold cycle estimates using the entropy concept; PPE quantifies impaired control in keeping F0 stable over and above normal vibrato; GQ is essentially like jitter, the difference being it operates on vocal fold cycle estimates rather than F0 estimates of signal segments (typically of 10 ms duration). The F0related dysphonia measures include statistical descriptors of the F0 contour density estimate, and quantify the F0 differences compared to age- and gender-matched healthy controls. The second group of dysphonia measures makes use of signal to noise ratio (SNR) concepts. The rationale for these dysphonia measures is that due to vocal pathology the vocal folds do not collide properly (incomplete vocal fold closure). This often leads to the creation of vortices which result in increased acoustic noise. Harmonic to Noise Ratio (HNR) [3], Detrended Fluctuation Analysis (DFA) [11], Glottal to Noise Excitation (GNE) [13], Vocal Fold Excitation Ratio (VFER) [5], and Empirical Mode Decomposition Excitation Ratio (EMD-ER) [5] are some of the algorithms that can be categorized in this group. GNE and VFER analyze frequency ranges of sustained vowel building on the premise that incomplete vocal fold closure leads to varying excitation of different frequency ranges. EMD-ER is based on similar ideas and uses components of the signal (extracted using the EMD transform [14]) to denote signal and noise with energy and entropy concepts. The dysphonia measures based on wavelet decomposition [15] is a more general speech signal analysis tool aiming to decompose the estimated F0 contour at 10 levels, where the wavelet coefficients for the signal decomposition constitute the features. Often, it may be beneficial to focus on the log-transformed F0 contour, because this power transformation normalizes the density estimate and hence might reveal additional characteristics [16]. Another group of dysphonia measures is the Mel Frequency Cepstral Coefficients (MFCCs): they have been widely used in speaker identification applications, and lately have shown promise also in biomedical applications [5], [17], [18]. MFCCs quantify differences which may be reflective of inability to adequately control the articulators. Overall, we calculated 445 dysphonia measures for each sustained vowel /a/ phonation, and obtained a design matrix of size 200×445. There were no missing entries in the design matrix. Research has shown that gender differentiation may be critical [19], [5], and for this reason we processed independently the data from males and females, that is, we processed two design matrices of size 100×445 each. 6 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 3.2 Feature selection In the previous step we have extracted a large number (445) of acoustic characteristics for each sustained vowel phonation. It is practically impossible to adequately populate the entire 445-dimensional feature space; this may lead to overfitting the data due to the curse of dimensionality. Recent findings suggest that the predictive performance of even the most powerful classifiers degrades in such settings [20]. It is desirable to find a lower dimensional representation of the information present in the extracted features because this will improve insight into the problem by inferring the main characteristics conveyed by the reduced feature subset, and potentially may improve the performance of the classifier [21]. For this reason, researchers typically use feature selection (FS) algorithms to determine a parsimonious, information-rich feature subset. Contrary to feature transformation algorithms (such as principal component analysis), which transform the original feature space into a new feature space of reduced dimensionality, FS facilitates interpretation because we keep some of the original features and hence retain domain expertise. In this study, we used the SIMBA feature selection algorithm, an approach which is conceptually relying on margin maximization algorithms, implicitly using the k-Nearest-Neighbor (kNN) classifier [22]. Its aim is to select features that contribute to the separation of samples from different classes, reweighting the feature space at each incremental step in order to account for the information content explained by features already selected in previous steps in a standard greedy sequential forward feature selection process. The feature subsets were selected using a standard robust framework with perturbed versions of the original dataset described previously [6], [18]. Specifically, we used 90% of the data to run the feature selection algorithm and select the most parsimonious feature subset, and repeated the process 10 times for statistical confidence. Theoretically, the feature ranking should be identical for all repetitions (i.e. the same features selected for all perturbed training sets), but in practice there are somewhat different features which are selected for slightly perturbed design matrices. For this reason, we decided on the final feature subsets using a voting methodology. In brief, an empty set S was created which will contain the indices of the selected features. Then we used a simple voting scheme, incrementally adding a feature index in S. For each step K (K=1…M), where M corresponds to the number of features (in this study 445), we found the indices corresponding to the features selected in the 1…K search steps. Then, the index j which appears most frequently amongst the N×K elements, where N corresponds to the number of samples in the design matrix (here N=100), which is not in S is included in the selected feature subset as the Kth selected feature. The selected feature subset was then decided by choosing the top m features (m to be decided by experimentation) in S. 3.3 Statistical mapping to differentiate normative and pathological voices As indicated above, the aim of this study is to use the selected feature subset to determine whether the subject can be classified as normative or pathological (binary response). That is, we need to build a functional relationship f(X)=y, which maps the ISBN: 84-695-8101-5 7 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 dysphonia measures X to the response y. We used Random Forests (RF) [23], a powerful statistical machine learning algorithm which often outperforms competing approaches. Moreover, RF is fairly insensitive to the choice of its hyper-parameters and has been endorsed as the best off the shelf mapping algorithm [20]; we used the default setting with 500 decision trees. In addition to a deterministic estimate, we can obtain probabilistic outputs in order to report the confidence in the estimate that a query sample belongs to either of the two classes investigated here (normative or pathological). The larger the probability is for one of the two classes, the greater the confidence that the query sample in fact belongs to that class. 3.4 Classifier validation and generalization performance The generalization performance of the classifier is an estimate of the accuracy we might expect on new query samples, assuming the query samples come from the same joint distribution to the joint distribution of the data used to train the classifier. Because of the relatively limited data samples (100 samples for each of the two design matrices), we used the simple leave-one-out scheme: we trained the classifier using N1 samples and test its performance at predicting the Nth sample which was left outside the training process. This was repeated for all N samples and the results were averaged. We report both the general average misclassification of the classifier, and also the true positive (TP) and true negative (TN) scores to test whether there is systematic bias in favour of either class by the classifier. 4 Results Figure 1 presents the out of sample accuracy as a function of the number of the selected features fed into the classifier: we tested the performance when feeding 1…30 features from the selected feature subset to Random Forests. In order to satisfy the rather subjective need for parsimony, we decided to choose the model with the best performance when using up to 30 features (arbitrarily chosen to be fairly low for simplicity, but also provide statistical accuracy). Table 1 summarizes our findings when presenting all features, and when presenting feature subsets to the classifier. Table 1. Summary of leave-one-sample out classification performance of Random Forests Dysphonia measures subset Standard jitter and shimmer variants MFCCs All 445 dysphonia measures Optimal selected dysphonia measure subset (see Fig. 1) Predictive performance (%) Males Females 66, TP: 32, TN:34 74, TP: 37, TN:37 68, TP: 35, TN:33 83, TP: 41, TN:42 87, TP: 43, TN:44 91, TP: 44, TN:47 88, TP: 46, TN:42 95, TP: 47, TN:48 TP stands for true positive, and TN stands for true negative. 8 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Table 2 presents the feature subsets selected for males and females in descending order of importance (for clarity we only present the top 15 features). Table 2. Feature subsets selected using SIMBA Males Cover Losses mean DFA VFERmean Rel. Max. Ampl. Time mean 7th delta-delta MFCC coef. Rel. Start Flow Time mean MWC Cepstral 5 mean MW PSD 2nd Min. Pos. rel. std MWC Cepstral 10 std Abs. Norm. Jitter mean Val. Permanent GAP mean 4th MFCC coef. MWC Cepstral 2 mean Body Losses Unbalance mean Rel. Recov. 1 Ampl. Std Females MW PSD 1st Max. ABS mean Cover Losses Unbalance std DFA GNENSR,TKEO Cover Losses mean Shimmer0th perturb Muc./AvAc. Energy (MAE) mean Rel. Stop Flow Time std IMFNSR SEO Abs. Norm. Min. Sharp. Std 2nd MFCC coef. MW PSD 1st Max. ABS. std Cover Losses Unbalance mean 3rd MFCC coef. Rel. Recov. 1 Ampl. Mean Male subset 85 80 75 70 65 60 0 5 10 15 20 Female subset b 90 25 Number of features fed into the classifier 30 Out of sample classification performance (%) Out of sample classification performance (%) a 95 90 85 80 75 70 65 60 0 5 10 15 20 25 30 Number of features fed into the classifier Fig. 1. Average leave one subject out performance of the Random Forests as a function of the number of selected features fed into the classifier for (a) males, and (b) females. 5 Discussion This study investigated the potential of a statistical machine learning tool to assist clinicians in automatic diagnosis of pathological voices based on a single sustained vowel /a/ phonation. We emphasize that this task is particularly difficult in practice for the cohort studied, because all subjects with pathological voices were on very early stages of disease onset. Our findings suggest we can differentiate healthy control ISBN: 84-695-8101-5 9 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 subjects from subjects with an early voice disorder with about 95% overall accuracy for females, and about 88% overall accuracy for males. Interestingly, we can differentiate pathological voices a little more accurately in females. The male and female vocal production mechanisms have subtle physiological differences [3]; for example the most pronounced is that the average pitch in males is 120Hz whereas the average pitch in females is about 180Hz. Although in the past some researchers did not focus on gender-specific voice performance analysis, recent work suggests it may be necessary to study the two cohorts independently [19], [5]. The findings of this study corroborate this notion since the features selected for the two cohorts are quite different (see Table 2). Nevertheless, some features such as the „Cover losses mean‟, „DFA‟ and the closely related „VFER mean‟ and „GNENSR,TKEO‟ are selected in both genders. This indicates that they may reflect some general physiological properties in the voice of both genders. A rather unexpected finding was that quite different feature subsets were selected when using different feature selection algorithms, whereas the out of sample performance was very similar (results not shown). This may indicate the presence of multiple Markov boundaries (minimal number of features for which the response is conditionally independent of the remaining features in the dataset) in the dataset, that is, different combinations of features lead to similar prediction accuracy. Physiologically, this may suggest that different combinations of pathophysiological characteristics may jointly provide roughly the same clinical information for differentiating subjects with pathological voices from subjects with healthy voices. The findings reported in this study further endorse acoustic analysis of sustained vowels as a particularly promising tool in the early detection of pathological voices. These results build on evidence from many research groups across diverse applications where biomedical speech signal analysis provides accurate means towards differentiating subject cohorts with one or more voice disorders from healthy controls [17], [18], [24], [25]. Despite the relatively limited number of samples available to this study, the results appear compelling for the effectiveness of the suggested methodology. We envisage this study being a first step towards the development of an automatic and accurate decision support tool assisting diagnosis of early onset voice disorders which may facilitate screening the population at large. A larger clinical trial recruiting considerably more subjects (ideally from diverse phonetic backgrounds) would be needed to verify the generalization of the current findings, and further endorse the adaptation of the proposed automated process in actual clinical settings. Conflict of interest We have no conflict of interest to declare. A. Tsanas was funded by the Engineering and Physical Sciences Research Council (EPSRC) until March 2013; he is currently funded by the Wellcome Trust. P. Gómez was funded by grants TEC2009-14123C04-03 and TEC2012-38630-C04-04, Ministry of Economic Affairs and Competitiveness, Spain. 10 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 References 1. Roy, N., Merrill, R.N., Gray, S.D., & Smith, E.M.: Voice disorders in the general population: Prevalence, risk factors, and occupational impact. Laryngoscope, 115 (11): 19881995, (2005) 2. Baken R.J., Orlikoff R.F.: Clinical measurement of speech and voice, San Diego: Singular Thomson Learning, 2nd ed., (2000) 3. Titze I.R.: Principles of Voice Production. National Center for Voice and Speech, Iowa City, US, 2nd ed., (2000) 4. Gomez-Vilda P., Fernandez-Baillo R., Nieto A., Diaz F., Fernandez-Camacho F.J., Rodellar V., Alvarez A., Martinez R.: Evaluation of Voice Pathology Based on the Estimation of Vocal Fold Biomechanical Parameters, Journal of Voice, Vol. 21 (4), pp. 450-476, (2007) 5. Tsanas A., Little M.A., McSharry P.E., Ramig L.O.: Nonlinear speech analysis algorithms mapped to a standard metric achieve clinically useful quantification of average Parkinson‟s disease symptom severity, Journal of the Royal Society Interface, Vol. 8, 842-855, (2011) 6. Tsanas A.: Accurate telemonitoring of Parkinson’s disease symptom severity using nonlinear speech signal processing and statistical machine learning, D.Phil. thesis, University of Oxford, Oxford, UK, (2012) 7. Skodda S., Gronheit W., Schlegel U.: Impairment of vowel articulation as a possible marker of disease progression in Parkinson‟s disease, Plos One, 7(2): e32132. doi:10.1371/journal.pone.0032132, (2012) 8. Godino-Llorente, J.I., Sáenz-Lechón, N., Osma-Ruíz, V., Aguilera-Navarro, S., GómezVilda, P.: An integrated tool for the diagnosis of voice disorders, Medical Engineering and Physics, Vol. 28 (3), pp. 276-289, (2006) 9. Camacho A., Harris J.G.: A sawtooth waveform inspired pitch estimator for speech and music, Journal of the Acoustical Society of America, Vol. 124, pp. 1638-1652, (2008) 10. Tsanas A., Zañartu M., Little M.A., Fox C., Ramig L.O., Clifford G.D.: Robust fundamental frequency estimation in sustained vowels using information fusion with Kalman filtering, IEEE Transactions on Audio, Speech, and Language Processing, (under review) 11. Little M.A., McSharry P.E., Roberts S.J., Costello D., Moroz I.M.: Exploiting Nonlinear Recurrence and Fractal Scaling Properties for Voice Disorder Detection, Biomedical Engineering Online, vol. 6 (23), (2007) 12. Little M.A., McSharry P.E., Hunter E.J., Spielman J., Ramig L.O.: Suitability of dysphonia measurements for telemonitoring of Parkinson‟s disease, IEEE Transactions Biomedical Engineering, Vol. 56 (4), pp. 1015-1022, (2009) 13. Michaelis D., Frohlich M., Strube H.W.: Glottal to noise excitation ratio - a new measure for describing pathological voices, Acustica/acta acustica, Vol. 83, pp. 700–706, (1997) 14. Huang, N.E., Shen, Z., Long, S.R., Wu, M.C., Shih, H.H., Zheng, Q., Yen, N.C., Tung, C.C., Liu, H.H. 1998 The empirical mode decomposition and the Hilbert spectrum for nonlinear and non stationary time series analysis, Proc. Royal Soc. London A, Vol. 454, pp. 903-995, (1998) 15. Tsanas A., Little M.A., McSharry P.E., Ramig L.O.: New nonlinear markers and insights into speech signal degradation for effective tracking of Parkinson‟s disease symptom severity, International Symposium on Nonlinear Theory and its Applications (NOLTA), pp. 457-460, Krakow, Poland, 5-8 September (2010) 16. Tsanas A., Little M.A., McSharry P.E., Ramig L.O.: Enhanced classical dysphonia measures and sparse regression for telemonitoring of Parkinson's disease progression, IEEE Signal Processing Society, International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 594-597, Dallas, Texas, US, (2010) ISBN: 84-695-8101-5 11 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 17. Godino-Llorente J.I., Gomez-Vilda P., Blanco-Velasco M.: Dimensionality Reduction of a Pathological Voice Quality Assessment System Based on Gaussian Mixture Models and Short-Term Cepstral Parameters, IEEE Transactions on Biomedical Engineering, Vol. 53,1943-1953, (2006) 18. Tsanas A., Little M.A., McSharry P.E., Spielman J., Ramig L.O.: Novel speech signal processing algorithms for high-accuracy classification of Parkinson‟s disease, IEEE Transactions on Biomedical Engineering, Vol. 59, pp. 1264-1271, (2012) 19. Fraile R., Saenz-Lechon N., Godino-Llorente J.I., Osma-Ruiz V., Fredouille C.: Automatic detection of laryngeal pathologies in records of sustained vowels by means of melfrequency cepstral coefficient parameters and differentiation of patients by sex, Folia Phoniatrica et Logopaedica, Vol. 61, pp. 146-152, (2009) 20. Hastie T., Tibshirani R., Friedman J.: The elements of statistical learning: data mining, inference, and prediction, Springer, 2nd ed., (2009) 21. Guyon I., Gunn S., Nikravesh M., Zadeh L.A. (Eds.): Feature Extraction: Foundations and Applications, Springer, (2006) 22. Gilad-Bachrach R., Navot A., Tishby N.: Margin based feature selection - theory and algorithms, International Conference on Machine learning (ICML), pp. 43-50, (2004) 23. Breiman L.: Random forests, Machine learning, Vol. 45, pp. 5-32, (2001) 24. Gomez-Vilda P., Fernandez-Baillo R., Rodellar V., Nieto Lluis V., Alvarez-Marquina A. Mazaira-Fernandez L., Martinez-Olalla R., Godino-Llorente J.I..: Glottal source biometrical signature for voice pathology detection, Speech Communication, Vol. 51, pp. 759781, (2009) 25. Sapir S., Ramig L., Spielman J., Fox C.: Formant Centralization Ratio (FCR): A proposal for a new acoustic measure of dysarthric speech, Journal of Speech Language and Hearing Research, Vol. 53, pp. 114-25, (2010) 12 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Monitoring Treatment of Vocal Fold Paralysis by Biomechanical Analysis of Voice Pedro Gómez Vilda1, Ana Martínez de Arellano2, Víctor Nieto Lluis1, Victoria Rodellar-Biarge1, Agustín Álvarez Marquina1, Luis M. Mazaira Fernández1 1 NeuVox Laboratory, Center for Biomedical Technology, Universidad Politécnica de Madrid, Campus de Montegancedo, s/n, 28223 Pozuelo de Alarcón, Madrid, Spain 2 Phoniatrician, Avda. Navas de Tolosa, 25-1ºB, 31007 Pamplona, Spain e-mail: [email protected]; [email protected] Abstract. A case study of vocal fold paralysis treatment is described with the help of the voice quality analysis application BioMet®Phon. The case corresponds to a description of a 40-year old female patient who was diagnosed of vocal fold paralysis following a cardio-pulmonar intervention which required intubation for 8 days and posterior tracheotomy for 15 days. The patient presented breathy and asthenic phonation, and dysphagia. Six main examinations were conducted during a full year period that the treatment lasted consisting in periodic reviews including video-endostroboscopy, voice analysis and breathing function monitoring. The phoniatrician treatment included 20 sessions of vocal rehabilitation, followed by an intracordal infiltration with Radiesse 8 months after the rehabilitation treatment started followed by 6 sessions of rehabilitation more. The videondoscopy and the voicing quality analysis refer a substantial improvement in the vocal function with recovery in all the measures estimated (jitter, shimmer, mucosal wave contents, glottal closure, harmonic contents and biomechanical function analysis). The paper refers the procedure followed and the results obtained by comparing the longitudinal progression of the treatment, illustrating the utility of voice quality analysis tools in speech therapy. Keywords: vocal fold modeling, singing performance, voice production, vocal effort. 1 Introduction Voice pathologies are affecting more and more to a population making from speech, singing and phonation an essential part of personal career, as actors, anchormen, singers, professors, public servants, etc. The loss of voice quality is also a severe curb to self-esteem even for common people. The treatments to correct and restore voice after larynx surgery, secondary effects of iatrogenic etiology, or even after mechanical or cardio-vascular incidents, are of most importance for speech therapists. Therefore the voice rehabilitation process has become a most important part of the therapeutic treatment of voice pathologies. It consists in the initial exploration of the patient, the prescription and following of a series of physical exercises affecting the phonation ISBN: 84-695-8101-5 13 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 and respiratory organs, and a periodic or quasi-periodic inspection of voice quality improvements. Sometimes other interventions as minor surgery are required. The inspection purpose is to evaluate the patient and the process. The surgical and physical interventions have a corrective character. The inspection process in itself has been based mainly on the ability of the speech therapist to subjectively evaluate certain aspects of patient’s voicing, as (timbre, loudness, mucosal wave presence, glottal closure, roughness, breathiness, grade of dysphonia, etc.), and produce a graduation on a specific scale [1] for further use in comparing subsequent inspections of patient’s voice production separated some weeks or even months. This methodology is prone to statistical dispersion due to its strong dependency on the specific circumstances affecting the speech therapist in the precise evaluation process (stress, rush, awareness, etc.). The work presented here is an exploratory study conducted to show the possibilities of using advanced signal processing tools to extract important biomechanical information from the patient’s voicing, which may provide objective indices to judge on the quality of voice and on the progress or regress of corrective treatment and complementary rehabilitation techniques. A longitudinal case of a patient having lost the phonation function as a collateral effect following a cardio-vascular major surgery has been studied using biomechanical indices to objectively evaluate voice restoration. Indices estimated using the tool BioMet®Phon [2] as pitch, jitter, shimmer, noise-to-harmonic or mucosal wave ratios, as well as vocal fold biomechanics and glottal closure during vowel phonation allow depicting a colourful and highly semantic diagram of the rehabilitative process. The paper is organized as follows: A brief overview of the technique fundamentals is given in section 2. A description of the treatment methodology is given in section 3. In section 4 results obtained from the study case are presented, and their potential use discussed. Conclusions are presented in section 5. 2 Study Background The signal processing methodology of voice quality analysis used in the present study is adaptive vocal tract inversion to produce an estimate of the glottal source. Accurate spectral domain techniques [3] allow the estimation of a set of biomechanical parameters associated to a 2-mass model of the vocal folds [4]. More details of the study may be found in a twin paper in these same proceedings [5]. The template (a) shows the physiological structure of the vocal folds as a body composed by the musculis vocalis, and a cover or lamina propria and the visco-elastic tissues in Reinke’s space and the ligaments. The biomechanical model in (b) shows that the masses of the cover and Reinke’s space have been included in the cover masses Mcl and Mcr for the left (l) and right (r) vocal folds. Masses Mbl and Mbr account for the body and ligaments. It must be kept in mind that these masses are not distributed, but dynamic point-like ones. Visco-elastic parameters Kcl and Kcr explain the relations between tissue compression and acting forces on the cover and Reinke’s space. Parameters Kbl and Kbr are the same regarding the body and ligaments. Although the tool in itself produces a wide range of parameters (jitter, shimmer, NHR, mucosal/aaw, glottal source cepstral, spectral profile, biomechanical, OQ, CQ, RQ, 14 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 glottal gap defects [3], tremor) the biomechanical parameters are by far the most interesting set to assess the dysphonic conditions both in modal voice as well as in singing voice. Having such description in mind, the subset of parameters used in the study is composed of the following correlates: • • • • • • • • • • • • • • Parameter 1: Absolute Pitch evaluated by cycle clipping. Parameter 2: Relative jitter evaluated as the pitch difference between neighbor phonation cycles divided by their arithmetic average. Parameter 3: Relative shimmer evaluated as the area difference between neighbor glottal source cycles divided by their arithmetic average. Parameter 5: Noise to harmonic ratio evaluated as the ratio between the turbulent and harmonic contents of the glottal source cepstrum. Parameter 6: Ratio between the energy of the Mucosal to the average acoustic wave as defined by Titze [7], and described in [6]. Parameter 38: Unbalance of dynamic body mass per each two neighbor cycles. Parameter 40: Unbalance of body stiffness per each two neighbor cycles. Parameter 41: Dynamic mass associated to the cover averaged on the left and right folds (Mcl and Mcr). Parameter 43: Stiffness parameter associated to the cover averaged on the left and right folds (Kcl and Kcr). Parameter 44: Unbalance of dynamic cover masses per each two neighbor cycles. Parameter 46: Unbalance of cover stiffness per each two neighbor cycles. Parameter 60: Contact gap defect. Parameter 61: Adduction gap defect. Parameter 62: Permanent gap defect. The estimation of the above parameters is carried out by inverting a 2-mass model the spectral domain as described in [6]. Examples of estimates from biomechanical parameters from a balanced database of 50 male and 50 female normative speakers collected and evaluated by endoscopy at Hospital Universitario Gregorio Marañón are given [5]. The irregular behavior of biomechanical or gap defect parameters bears a clear semantics on the presence of dysphonia in modal as well as in singing voice. 3 Study Case: Materials and Methods The study case selected for analysis corresponds to a 40 years old female subject who suffered a work accident with cardiac and lung compromises requiring a transplant of aortic arch. She required 8-day intubation and posterior tracheotomy which was maintained during 2 weeks under sedative care. When she started talking after her stay in the ICU her voice was very airy and asthenic. Another associate symptom was dysphagia to liquid which improved shortly after. The rehabilitative process required a series of inspections and actions to be carried out being described in Table 1. ISBN: 84-695-8101-5 15 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 16 Date 2010.09.14 (pre) Inspection Videostroboscopy, spirometry, vowel utterance recording. 2010.11.02 (post1) Videostroboscopy, spirometry, vowel utterance recording. 2011.02.22 (post2) Videostroboscopy, spirometry, vowel utterance recording. 2011.05.03 (post3) Videostroboscopy, spirometry, vowel utterance recording. 2011.06.21 (post4) Videostroboscopy, spirometry, vowel utterance recording. Table 1. Study case treatment description Treatment Observations Rehabilitation: Convex left vocal fold ridge; strong 8 sessions of longitudinal hiatus; motionless left postural, waist, arytenoid; small mucosal wave; estimated shoulder and pitch: C2 (138 Hz); frequency span C2-G3 neck exercises, (138-392 Hz); loudness span: 55-90 dB; blow control, GRBAS: voiceless, rough (1), breathy (3), muscle toning. strain (1); impression: voiceless, hypophonic, no glottal clap; air capacity: 1800 cm3; espiration time: 34 s; phonation time: 3 s; airflow: 600 cm3/s. Rehabilitation: Slightly convex left vocal fold ridge; 8 sessions of important but reduced longitudinal hiatus; postural, waist, motionless left arytenoid; little more shoulder and mucosal wave; estimated pitch: E2 (165 Hz); neck exercises, frequency span: E2-E4 (165-659 Hz); blow control, loudness span: 55-100 dB; GRBAS: rough muscle toning. (1), breathy (2), strain; impression: voiceless, monotonous, no glottal clap; air capacity: 2400 cm3; espiration time: 25 s; phonation time: 3 s; airflow: 800 cm3/s. Rehabilitation: Slightly convex left vocal fold ridge; 4 sessions of reduced longitudinal hiatus; motionless left postural, waist, arytenoid; asymmetric and arrhythmic shoulder and mucosal wave; estimated pitch: F2 (175 Hz); neck exercises, frequency span: C2-E4 (138-659 Hz); blow control, loudness span: 55-100 dB; GRBAS: grade muscle toning. (3-4); rough (2); breathy (2); strain; no glottal clap; air capacity: 2700 cm3; espiration time: 35 s; phonation time: 5 s; airflow: 625 cm3/s. Treatment: Sligthly convex left vocal fold ridge; further intra-cord shot reduced longitudinal hiatus; motionless left of Radiesse arytenoid; asymmetric and arrhythmic mucosal wave; estimated pitch: E2 (165 Hz); frequency span: C2-E4 (138-659 Hz); loudness span: 55-100 dB; GRBAS: rough (2); breathy (2); strain; no glottal clap; air capacity: 2700 cm3; espiration time: 40 s; phonation time: 5 s; airflow: 625 cm3/s. Rehabilitation: Reports dyspnea during physical exercise; 6 sessions of straight reddish left vocal fold rigde; full postural, waist, glottal closure; motionless left arytenoid; no shoulder and mucosal wave in left fold; estimated pitch: neck exercises, E2 (165 Hz); C2-C4 (138-523 Hz); loudness blow control, span: 55-100 dB; GRBAS: grade (2); rough muscle toning. (1), breathy (1), strain; no glottal clap; air capacity: 2700 cm3; espiration time: 34 s; phonation time: 10 s; airflow: 270 cm3/s. ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Date 2011.09.05 (post5) Inspection Videostroboscopy, spirometry, vowel utterance recording. Treatment Observations Reports less dyspnea during physical exercise; full glottal closure although short contact phase, minimal longitudinal hiatus; motionless left arytenoid; small mucosal wave in left fold; estimated pitch: F2 (175 Hz); frequency span: D2-E4 (147-659 Hz); loudness span: 53-104 dB; GRBAS: grade (2), rough (1), breathy (2); no glottal clap; air capacity: 2800 cm3; espiration time: 34 s; phonation time: 10 s; airflow: 280 cm3/s. Voice recordings were maintained vowel /a/ for as long as the patient could sustain phonation at 44100 Hz and 16 bits using a condenser table-supported Shure microphone and a SoundBlaster external sound card in the practitioner’s office. Results of the longitudinal analysis of the recordings using BioMet®Phon are given in the next section. 4 Results and Discussion The analysis consisted in estimating the glottal source from voice after vocal tract inversion. The power spectral density of the voice signal and the glottal source were estimated subsequently. The results are shown in the set of templates in Fig. 1 to Fig. 6. In general it may be seen that the process of rehabilitation is able by itself of restoring the glottal source, from a very irregular asymmetric cycle (Fig. 1) to a more stable phonation although showing a large amount of inter-harmonics (Fig. 4). The shot of Radiesse directly in the left vocal fold is responsible of an almost complete restoration of the glottal source Liljencrants-Fant pattern [9], visible in Fig. 5, and especially in Fig. 6, these last figures showing a better display of the harmonic structure of voice, which is the last guarantee of timbre restoration. Fig. 1 Evaluation dated 14.09.2010 (pre). Rough, asthenic and airy voicing. Top left: prototype glottal cycle, showing strong irregular openings and closings. Bottom left: neighbor irregular patterns showing strong asymmetric vibration. Top right: Power spectral density of voice. Formants signaled by turbulent noise. Bottom right: Power spectral density of the glottal source. Poor harmonic structure. ISBN: 84-695-8101-5 17 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fig. 2 Evaluation dated 02.11.2010 (post1). Asthenic and airy voicing. Top left: prototype glottal cycle, showing turbulent glottal source. Bottom left: more regular neighbor patterns showing airy but less asymmetric vibration. Top right: Power spectral density of voice. Formants signaled by turbulent noise. Bottom right: Power spectral density of the glottal source. A very incipient harmonic structure is present. Fig. 3 Evaluation dated 22.02.2011 (post2). Irregular cyclical voice pattern. Top left: prototype glottal cycle, showing reverted glottal L-F cycle. Bottom left: neighbor patterns showing low cyclical reverted patterns. Top right: Power spectral density of voice. Formants signaled by harmonic structure. Bottom right: Power spectral density of the glottal source. A well established harmonic structure is found up to 1800 Hz. Harmonic phonation is restored. Fig. 4 Evaluation dated 03.05.2011 (post3). L-F cycle is restored. Top left: prototype glottal cycle, showing an adduction gap defect and short open phase compatible with vocal fold edema. Bottom left: more regular neighbor patterns. Top right: Power spectral density of voice. 18 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Spectrum indicates the presence of strong inter-harmonics. Bottom right: Power spectral density of the glottal source. The harmonic structure is instable showing inter-harmonics. Fig. 5 Evaluation dated 08.06.2011 (post4). L-F cycle shows unbalance to the return phase. Top left: prototype glottal cycle, showing a better and fast return phase, but a contact gap defect. Bottom left: regular neighbor patterns. Top right: Power spectral density of voice. Spectrum indicates a clear expansion of the harmonic spectrum to 2500 Hz. Bottom right: Power spectral density of the glottal source. The harmonic structure is well established. Fig. 6 Evaluation dated 05.09.2011 (post5). Better contact phase with some turbulence. Top left: prototype glottal cycle, showing a good return phase, the contact defect has been corrected. Bottom left: very regular neighbor patterns. Top right: Power spectral density of voice. Spectrum indicates an expansion of the harmonic spectrum to 3000 Hz but with a defect around 2200 Hz. Bottom right: Power spectral density of the glottal source. The harmonic structure is well established but there is still presence of turbulent noise. The restoration process may also be observed in the behaviour of glottal source correlates: four perturbation parameters (jitter, shimmer, NHR, mucosal/aaw), four biomechanical ones, their unbalances, the contact, adduction and permanent gap defects, and pitch (totaling 16 estimates) evaluated for each recording taken at the 6 inspection sections given in Fig. 4. The parameters have been normalized to their respective means from the general normative database of 50 female subjects already mentioned [5]. It may be noticed that some parameters show almost no influence with the tone change, as the Cover Mass (41), Cover Stiffness (43), Contact Gap Defect (60) or Permanent Gap Defect (62) whereas others as the Body Mass Unbalance (38) or Body Stiffness Unbalance (40) reflect important changes. ISBN: 84-695-8101-5 19 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fig. 7 Estimates of pitch and 12 perturbation and biomechanical parameters on the tonal span. Some of these parameters are summarized as well in Table 2. As it may be seen Absolute Pitch (1) values follow the estimation of the practitioner given in Table 1, except in the pre and post3 cases. The pre estimation of pitch by BioMet®Phon may not be very accurate as the irregularity of the phonation pattern suggests that different estimates for pitch could be produced, the strongest peak in the power spectral density being possibly in better agreement with the practitioner’s estimate. The post3 disagreement may be attributed to a subjective estimation by the practitioner. Table 2. Comparing voice quality parameters from successive inspections Shimmer Body Mass Unb. Body Stiff. Unb. Add. Inspection Pitch (Hz) Jitter (%) (%) (mean, %) (mean, %) Gap (%) pre 74.08 34.50 35.20 88.12 113.05 54.21 post1 157.63 4.75 12.74 8.50 17.57 28.34 post2 177.10 3.13 7.93 6.87 13.08 45.95 post3 193.29 8.19 12.34 51.56 67.00 15.29 post4 157.08 4.82 3.77 12.19 21.13 24.34 post5 177.41 0.86 2.52 0.21 1.89 2.18 20 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Important facts to be stressed are the sensitivity of Body Mass Unbalance and Body Stiffness Unbalance to assess the dysphonic condition of the patient, relative to traditional perturbation parameters as jitter or shimmer. It may be seen that these parameters are highly correlated among themselves but Body Mass Unbalance amplifies much better the dysphonic condition, and attributes a semantic nature to the etiology of dysphonia, as when large it expresses that one of the vocal folds is much more involved in phonation than the other, and when lower it means that both vocal folds contribute similarly in the phonation cycle. The adduction gap has also a very important meaning, as it attributes dysphonic behaviour to the imperfections in the closing phase resulting from asymmetric vocal fold dynamics, therefore defects are not to be found during the contact phase or by a permanent air escape. 5 Conclusions The results of the study unveil some of the reasons for deficient vocal fold behaviour in the recovery process, tracking quite carefully the rehabilitation process in producing objective measurements of the restoration of the phonation function performance based on the biomechanical description of the vocal folds. Due to the limitations of the present study based in the description of a single patient, statistical significance cannot be claimed. Nevertheless some interesting important findings may be remarked: • • • • Specific unbalance parameters as those associated to the vocal fold body mass and stiffness are of a crucial role in monitoring vocal fold paralysis. The sensitivity of these parameters to monitor the subjective observations of the laryngologist seems to be larger than classical perturbation parameters. The semantic value of these parameters is much larger than traditional perturbation parameters, as they not only monitor the phonation restoration process better, they but contribute as well to identifying possible causes of explanatory nature, associating asymmetry to vocal fold body or cover. Specific relevance should be attributed to glottal gap defects, with special emphasis in the adduction defect in this case. Many other estimates can be obtained and included in a biomechanical study of singing voice, such as the distribution of the harmonic/noise factors, the open, close and return quotients, or the parameters of tremor and vibrato [8]. These would be especially relevant to investigate and characterize neurological disease leaving correlates in phonation. The next steps to be covered are to extend the methodology to a large database of organic pathologies to produce and test etiologic assessment and validation. Acknowledgments. This work is being funded by grants TEC2009-14123-C04-03 and TEC2012-38630-C04-04 from Plan Nacional de I+D+i, Ministry of Economic Affairs and Competitiveness of Spain. ISBN: 84-695-8101-5 21 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 References 1. Yamauchi, E. J., Imaizumi, S., Maruyama, H., & Haji, T. (2010). Perceptual evaluation of pathological voice quality: A comparative analysis between the RASATI and GRBASI scales. Logopedics Phoniatrics Vocology, 35(3), 121-128. 2. Gómez, P., Rodellar, V., Nieto, V., Martínez, R., Álvarez, A., Scola, B., Ramírez, C., Poletti, D., and Fernández, M.: BioMet®Phon: A System to Monitor Phonation Quality in the Clinics. Proc. eTELEMED 2013: The Fifth Int. Conf. on e-Health, Telemedicine and Social Medicine, Nice, France, 2013, 253-258. 3. Gómez, P., Nieto, V., Rodellar, V., Martínez, R., Muñoz, C., Álvarez, A., Mazaira, L. M., Scola, B., Ramírez, C. and Poletti, D.: Wavelet Description of the Glottal Gap. Proc. of the 18th DSP Int. Conf., Santorini, July 1-3, 2013 (to appear). 4. Berry, D. A., “Modal and nonmodal phonation”, J. Phonetics, (29) 2001, pp. 431-450. 5. Gómez, P., Belmonte, E., Nieto, V., Rodellar, V.: Vocal Fold Biomechanical Analysis of the Singing Voice. Proc. of the 1st Multidisciplinary Conference of Users of Voice, Speech and Singing (JVHV 2013). Las Palmas de Gran Canaria, 27-28 June, 2013. 6. Gómez, P., Fernández, R., Rodellar, V., Nieto, V., Álvarez, A., Mazaira, L. M., Martínez, R, and Godino, J. I., “Glottal Source Biometrical Signature for Voice Pathology Detection”, Speech Comm., (51) 2009, pp. 759-781. 7. Titze, I. R. Summary Statement. Workshop on Acoustic Voice Analysis, National Center for Voice and Speech (1994). 8. Gómez-Vilda, P., Rodellar-Biarge, V., Nieto-Lluis, V., Muñoz-Mulas, C., MazairaFernández, L. M., Ramírez-Calvo, C., Fernández-Fernández, M. and Toribio-Díaz, E.: Neurological Disease Detection and Monotoring from Voice Production. LNAI 7015 (2011) 1-8. 9. Fant, G., Liljencrants, J. and Lin, Q.: A four-parameter model of glottal flow, STL-QSPR 4 (1985) 1-13. Reprinted in: Speech Acoustics and Phonetics: Selected Writings, G. Fant, Kluwer Academic Publishers, Dordrecht (2004) 95-108. 22 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Identificación de género para la detección automática de patologı́as Jorge Andrés Gómez Garcı́a2 , Juan Ignacio Godino Llorente2 , and Germán Castellanos Domı́nguez1 1 Grupo de Control y Procesamiento Digital de Señales. Universidad Nacional de Colombia Km. 7 vı́a al Magdalena, Manizales, Colombia 2 Grupo de Bioingenierı́a y Optoelectrónica (ByO). Universidad Politécnica de Madrid. Km. 7 Ctra. de Valencia, 28031, Madrid, Spain. Resumen La detección automática de patologı́as utilizando señales de voz ha recibido recientemente gran atención, debido a las ventajas que presenta en comparación con sistemas tradicionales de detección, tales como la no invasividad y el bajo coste de implementación. Sin embargo, la eficacia de estos sistemas puede verse comprometida debido a la gran variabilidad presente en la voz, siendo la debida a diferencias entre géneros, especialmente problemática. Para hacer frente a ello, una estratificación por género puede ser un método razonable para ajustar los detectores de acuerdo a las caracterı́sticas especı́ficas de cada grupo de análisis. Con esto en mente, el presente trabajo estudia la eficacia de un sistema de reconocimiento automático de patologı́as dependiente de género, y que emplea un detector de género antes de la detección de patologı́as. La metodologı́a está basada en la caracterización por medio de coeficientes cepstrales en frecuencia Mel y modelos de mezclas de gaussianas para la clasificación. Adicionalmente el análisis se hace directamente sobre la voz, y sobre la descomposición de la voz en sus componentes glotales y su modelo del tracto vocal, tras aplicar filtrado inverso. Los resultados obtenidos sugieren que la metodologı́a de estratificación por género, puede mejorar los aciertos de clasificación comparado a un sistema tradicional que no toma en cuenta esta información por género. 1 Introduction La detección automática de patologı́as de voz permite una evaluación objetiva de ciertos trastornos, reduciendo el tiempo de evaluación y mejorando el diagnóstico clı́nico y el tratamiento dado a cada paciente [1]. Los enfoques tradicionales emplean caracterı́sticas lineales [2] o no lineales [3] para discriminar entre voces normales y patológicas. Sin embargo, las diferencias entre voces masculinas y femeninas debido a factores fisiológicos, acústicos o psicofı́sicos [4] pueden alterar el funcionamiento de los sistemas de detección automática. Esto ha sido evidenciado por ejemplo en [5], donde el género fue relevante para evaluar la presencia de patologı́as ları́ngeas en grabaciones de vocales sostenidas. Con estos precedentes, ISBN: 84-695-8101-5 23 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 podrı́a ser razonable el diseñar sistemas de reconocimiento que hagan frente, de manera automática, a estas diferencias de voz entre género separadamente. Por otra parte, la onda glotal constituye la fuente de excitación de la voz, y es el origen de muchas caracterı́sticas vocales tales como la frecuencia fundamental, y varias caracterı́sticas de calidad de voz [6]. Además, se han encontrado diferencias estadı́sticas en parámetros de la forma de onda glotal, comparando géneros femenino y masculino [4]. Por tanto, el estudio de las componentes glotales podrı́a ser de interés en labores de detección de género y detección automática de patologı́as de voz [7]. Tı́picamente estas componentes glotales son estimadas por medio de técnicas de filtrado inverso, que descomponen la señal de voz en sus contribuciones glotales y su modelo del tracto vocal. Este trabajo preliminar pretende analizar la utilidad de un sistema de detección automática de patologı́as dependiente de género. La metodologı́a propuesta utilizará filtrado inverso para la extracción de componentes glotales y el modelado del tracto vocal, a partir de señales de voz. Además empleará coeficientes cepstrales en frecuencia Mel (Mel Frequency Cepstral Coefficients MFCC) como caracterı́sticas y modelos de mezcla de gaussianas (Gaussian Mixture Models - GMM) como clasificadores. La metodologı́a se compone de una fase de identificación de género, que alimenta a dos detectores de patologı́a entrenados para cada género. Los experimentos se realizarán sobre grabaciones de vocales sostenidas, de la base de datos de trastornos de voz de la Universidad de Saarbrücken. 2 2.1 Marco Teórico Extracción de la onda glotal a partir de la señal de voz Los métodos más comúnmente empleados para la extracción de la onda glotal a partir de señales de voz, se basan en el principio fuente-filtro de Fant [8], que establece que la onda de flujo glotal, es filtrado por el tracto vocal, siendo convertida en una onda de flujo de aire en la boca. Posteriormente, este flujo de aire se convierte en una onda de presión en los labios, y se propaga como una señal de voz. Esto lleva a pensar que el flujo glotal y el tracto vocal son linealmente separables [6]. Sin embargo, se hace necesario un proceso inverso al que produce la voz, denominado filtrado inverso, para hallar el flujo glotal. Un algoritmo de filtrado inverso que ha sido exitoso es el filtrado inverso iterativo propuesto en [9]. Tal procedimiento se muestra en la Fig. 1 y se explica a continuación[9]: 1. Usando codificación predictiva lineal (Linear Predictive Coding - LPC) se estima el efecto de la componente glotal sobre el espectro de voz. 2. La contribución glotal estimada se elimina mediante filtrado inverso. 3. Una primera estimación del tracto vocal se calcula mediante la aplicación de análisis LPC a la salida del paso anterior. 4. El efecto del tracto vocal se elimina mediante filtrado inverso. 5. La primera estimación de la onda glotal se obtiene cancelando el efecto de la radiación de labios mediante integración. 24 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Señal 1)LPC (Orden 1) 2)Filtrado inverso 3)Análisis LPC 4)Filtrado inverso 5)Integración 6)Análisis LPC 7)Filtrado inverso 8)Análisis LPC 9)Filtrado inverso 10)Integración Flujo Glotal Fig. 1: Esquema del algoritmo de filtrado inverso iterativo para la extracción de componentes glotales a partir de señales de voz 6. Un nuevo estimado del efecto de la fuente glotal sobre el espectro de voz es calculado. 7. La contribución glotal estimada es eliminada mediante filtrado inverso. 8. El modelo final del tracto vocal es obtenido al aplicar análisis LPC a la salida del paso anterior. 9. El efecto del tracto vocal es eliminado de la señal de voz de entrada 10. El resultado final, las componentes glotales, son obtenidas al cancelar la radiación en los labios por medio de integración. 3 3.1 Marco Experimental Base de datos La base de datos de voz Saarbruecken [10] contiene registros de voz grabados a 50 kHz, de más de 2000 hablantes alemanes, con patologı́as vocales y en condición de normalidad. Las grabaciones contienen la fonación sostenida de las vocales /i/, /a/, e /u/ producidas en tono normal, alto, bajo, y en un patrón de aumentodescenso de tono. Sin embargo, para este trabajo solo se considera la vocal /a/ en tono normal. De este subconjunto de grabaciones, un experto médico selecciona los mejores registros, escogiendo aquellos que no presenten ruido de fondo, que tengan un buen rango dinámico, y que se encuentren dentro de un adecuado rango de edades. Después de la selección, se tienen 737 grabaciones de pacientes masculinos (229 normales y 508 patológicos) y 1011 pacientes femeninos (396 normales y 615 patológicos). ISBN: 84-695-8101-5 25 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 3.2 Metodologı́a La Fig. 2 muestra el esquema general del detector de patologı́as dependiente de género propuesto en este documento. Femenino Señal Detector género Masculino Detector patologı́as femenino Detector patologı́as masculino Normal Patológico Normal Patológico Fig. 2: Esquema del detector de patologı́as dependiente de género El objeto de la metodologı́a es la estratificación del problema según el género. En este sentido la señal de voz pasa por el detector de género donde se clasificará según su género (masculino/femenino). Dependiendo de la decisión tomada, pasará a un detector de patologı́as femenino o masculino que tomará una decisión en si el registro es normal o patológico. Del esquema se definen por tanto dos subsistemas: 1. El detector de género. 2. Los detectores de patologı́a (masculino y femenino). Dado que ambos subsistemas son diseñados de la misma manera, la Fig. 3 ilustra su funcionamiento de un modo más explı́cito, mientras que cada una de sus etapas es presentada a continuación: Descomposición por filtrado inverso Tracto vocal Señal Preprocesado Flujo glotal Caracterización Entrenamiento y validación Fig. 3: Esquema metodológico de los detectores (tanto de género como de patologı́as) utilizados en el documento Preprocesado Inicialmente, todas las señales de voz son remuestreadas a 25kHz. Además, para conservar constante el rango dinámico, se aplica una normalización [-1,1]. Luego, se utiliza análisis de tiempo corto con ventanas Hamming de 40ms, traslapadas al 50%[2], de tal manera que la señal de voz se descomponga en tramas. Descomposición por filtrado inverso A partir de las tramas de voz resultantes, las componentes glotales y el modelo de tracto vocal son extraı́dos a través de filtrado inverso, cuyos parámetros son elegidos de la siguiente manera: 26 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 (Fs /1000) + 2 coeficientes para modelar el tracto vocal y 4 coeficientes para el modelado de la componente glotal, donde Fs es la frecuencia de muestreo de la grabación de voz. Caracterización La onda glotal y la señal de voz son entradas de la etapa de caracterización. Ambas señales son parametrizadas por medio de coeficientes MFCC, variando su número en el intervalo [12 : 2 : 22]. Adicionalmente, el modelo del tracto vocal se considera un vector de caracterı́sticas por si mismo. Esta parametrización se lleva a cabo con ambos subsistemas (detector de género y de patologı́as), definiendo también los siguientes tipos de experimentos: – Parametrización de la señal de voz. – Fusión de los parámetros extraı́dos de la componente glotal y del modelo del tracto vocal. – Fusión de los parámetros extraı́dos de la voz, de la componente glotal y del modelo del tracto vocal. Entrenamiento y validación Para medir el desempeño de la metodologı́a, se emplea una estrategia de validación cruzada 7-fold, y se calcula el acierto p en clasificación, α, en un intervalo de confianza q, al 95%, tal que q = ±1.96 α(1 − α)/N , donde N es el número total de patrones clasificados. Adicionalmente, son empleadas la especificidad (sp ), sensitividad (se ), curvas de la caracterı́stica operativa del receptor (Receiver-operating Characteristic Curves-ROC), y el área bajo curvas ROC (AUC). Para labores de clasificación, se emplean GMM que son sintonizados separadamente para labores de detección de género y de detección de patologı́as dependiente de género. Para el detector de género el número de gaussianas del GMM se varı́a de la siguiente manera: {3, 5, 7}. Del mismo modo, en el detector de patologı́as dependiente de género se varı́a el número de gaussianas de la siguiente manera: {14, 21, 28, 35, 42, 48} 4 Resultados Los resultados del detector de género, obtenidos variando el número de gaussianas, se muestran en la Fig. 4b, mientras que la curva ROC correspondiente al número de gaussianas que proporciona la mayor precisión se muestra en la Fig. 4a. El mejor punto de operación del detector de género se encuentra al utilizar la fusión de 16 MFCC extraı́dos de la señal de voz con 22 MFCC extraı́dos de la señal glotal, y un clasificador GMM con 7 gaussianas. Este punto de operación será el que se utilizará para la continuación del experimento en el sistema de detección de patologı́as dependiente de género. Ahora bien, los resultados al variar el número de gaussianas, para el detector de patologı́as de género masculino y femenino se muestran en las Fig. 5b y Fig. 5d respectivamente. Igualmente, las curvas ROC para las configuraciones que ofrecen la mayor precisión se muestran en las Fig. 5a y Fig. 5c, para los modelos masculinos y femeninos respectivamente. ISBN: 84-695-8101-5 27 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 1 100 95 Accuraccy True positive rate 0.8 0.6 0.4 0 0 85 AUC: 0.98 AUC: 0.98 AUC: 0.98 0.2 0.2 0.4 0.6 0.8 False positive rate 90 1 80 3 MFCC 16 MFCC 16+MFCC 20(Glottal) MFCC 16+MFCC 22(Glottal) 5 Number of Gaussians 7 (a) Curva ROC del detector de(b) Acierto en clasificación del género detector de género Fig. 4: Mejores aciertos y curvas ROC del detector de género. Adicionalmente, y por motivos de comparación, se presentan en la Fig. 6 los resultados del detector de patologı́as sin tener en cuenta las diferencias de género. Este será el sistema de lı́nea base. 5 Discusiones y conclusiones Los resultados del detector de género, evidencian un buen desempeño en clasificación al usar las caracterı́sticas MFCC extraı́das solamente de la señal de voz. Sin embargo, al fusionar los 16 MFCC extraı́dos de la señal de voz con los 22 MFCC extraı́dos de las componentes glotales se obtienen un sutil incremento en clasificación (α = 94 ± 1.1%, y AU C = 0.98) tal como se muestra en la Fig. 4. Por otra parte, en el sistema de detección de patologı́as para el género femenino, el mejor rendimiento en términos de AUC, se obtiene al utilizar 14 MFCC extraı́dos de la señal de voz y 14 MFCC extraı́dos de las componentes glotales (α = 86.3 ± 0.9%, AU C = 0.80), tal como lo evidencia la Fig.5. Sin embargo, en términos absolutos de clasificación, los mejores resultados son dados por los 20 MFCC extraı́dos de la voz. De la misma manera, los mejores resultados, en términos de AUC, del detector de patologı́as para el género masculino (α = 89.45 ± 0.9%, AU C = 0.80), se obtienen usando 18 MFCC de la señal de voz y 14 MFCC de las componentes glotales. Sin embargo se presenta el mismo fenómeno que en el género femenino, y son los 18 MFCC extraı́dos de la señal de voz los que proveen el mayor acierto absoluto en clasificación. Para el sistema de lı́nea base, el mejor rendimiento en términos de AUC (85.23 ± 0.6, AU C = 0.8) fue obtenido al fusionar 22 MFCC extraı́dos de la señal de voz y 16 MFCC extraı́dos de las componentes glotales. Igual a los casos de análisis anteriores el mejor desempeño en términos de acierto absoluto se obtiene solamente utilizando 20 MFCC extraı́dos de la voz. La Tabla 1 resume los mejores resultados, en términos de AUC, de los experimentos realizados. 28 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 1 100 95 0.6 Accuracy True positive rate 0.8 MFCC 18 MFCC 20 MFCC 22 MFCC 18+MFCC 14(Glottal) 0.4 AUC: 0.77 AUC: 0.76 AUC: 0.76 AUC: 0.80 0.2 0 0 0.2 0.4 0.6 0.8 False positive rate 90 85 80 14 1 21 28 35 42 Number of Gaussians 48 (a) Curva ROC del detector de(b) Acierto del detector de patologı́as para género masculino patologı́as para género masculino 1 100 MFCC 18 MFCC 20 MFCC 22 MFCC 14+MFCC 14 (Glottal) 95 Accuracy True positive rate 0.8 0.6 AUC: 0.74 AUC: 0.72 AUC: 0.72 AUC: 0.80 0.4 0.2 0 0 0.2 0.4 0.6 0.8 False positive rate 90 85 1 80 14 21 28 35 42 Number of Gaussians 48 (c) Curva ROC del detector de(d) Acierto del detector de patologı́as para género femenino patologı́as para género femenino Fig. 5: Desempeño del sistema de detección automático de patologı́as dependiente de género. Para el detector de patologı́as de género masculino, el acierto se muestra en (b) y su correspondiente curva ROC (a). Similarmente, para el detector de patologı́as de género femenino, el acierto se muestra en (d) y la curva ROC en (c). Tabla 1: Mejores resultados para el detector de patologı́as dependiente (masculino, femenino) e independiente de género (lı́nea base) Sistema Conjunto de caracterı́sticas Lı́nea base Femenino Masculino ISBN: 84-695-8101-5 22(Voz) +16(Glotal) 14(Voz) +14(Glotal) 18(Voz) +14(Glotal) α AUC sp se 85.23 ± 0.6 0.80 0.84 0.86 86.30 ± 0.9 0.80 0.87 0.83 89.45 ± 0.9 0.80 0.93 0.80 29 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 1 100 0.6 0.4 AUC: 0.76 AUC: 0.75 AUC: 0.75 AUC: 0.80 0.2 0 0 MFCC 16 MFCC 18 MFCC 20 MFCC 22+MFCC 16(Glottal) 95 Accuracy True positive rate 0.8 0.2 0.4 0.6 0.8 False positive rate 90 85 1 (a) Curva ROC del sistema de lı́nea base 80 14 21 28 35 42 48 Number of Gaussians (b) Accuracy of baseline Fig. 6: Acierto y curva ROC del detector de patologı́as independiente de género. Sistema de lı́nea base. Al comparar los resultados del sistema de detección automática de patologı́as dependientes de género (Fig. 5), con el sistema de lı́nea base que no emplea información por género (Fig. 6), se observa un leve incremento en rendimiento. Esto es especialmente visible para el sistema de detección de patologı́as de género masculino, donde mejorı́as de alrededor del 2%-3% en acierto de clasificación fueron encontradas. Para el caso femenino las mejorı́as no fueron superiores al 1%. Un aspecto a resaltar, es que la descomposición de la señal de voz en sus componentes glotales y de modelo de tracto vocal (y su posterior fusión con la señal de voz cruda), no fue traducida siempre en un acierto en clasificación mayor (aunque a veces si en un incremento en el AUC obtenido). Tal comportamiento deberá ser estudiado más a fondo. El presente trabajo ha investigado un detector automático de patologı́as dependiente de género. Se han utilizado señales de voz, ası́ como componentes glotales y modelos del tracto vocal extraı́dos de la voz, extraı́dos usando filtrado inverso iterativo. Adicionalmente, se han empleado coeficientes MFCC para la caracterización, y GMM para la clasificación. Los experimentos se han llevado a cabo en una base de datos de voz de transtornos de voz que contienen grabaciones de vocales sostenidas. En cuanto a la detección de género, el rendimiento logrado (hasta un 95% en precisión) sugiere la utilidad del sistema propuesto para la identificación automática de género. En cuanto a la detección de patologı́as basadas en género se han encontrado mejorı́as en acierto de clasificación en torno a 1% - 3% comparado al sistema que no han tomado en cuenta la información por género. Con respecto a la descomposición de la señal de voz en sus componentes glotales o de modelo del tracto vocal, no queda clara su ventaja respecto a la señal de voz cruda, por lo que nueva experimentación es requerida. Se ha de resaltar también que los resultados constituyen solamente una primera aproximación a la estratificación del problema por géneros, por lo que se deberá ampliar el número de coeficientes MFCC, y el número de gaussianas del GMM, buscando los puntos de 30 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 operación óptimos de cada problema bajo análisis. Además, la experimentación con otras caracterı́sticas lineales y no lineales, ası́ como el análisis con técnicas de extracción y selección permanecen como trabajo futuro. Agradecimientos Esta investigación se ha llevado a cabo gracias a: Ayudas para la realización del doctorado (RR01/2011) de la Universidad Politécnica de Madrid, TEC200914123-C04 y TEC2012-38630-C04-01 del Ministerio de Educación de España. References 1. J. I. Godino-Llorente, N. Sáenz-Lechón, V. Osma-Ruiz, S. Aguilera-Navarro, and P. Gómez-Vilda, “An integrated tool for the diagnosis of voice disorders.” Medical engineering & physics, vol. 28, no. 3, pp. 276–89, May 2006. 2. N. Sáenz-Lechón, J. Godino-Llorente, V. Osma-Ruiz, and P. Gómez-Vilda, “Methodological issues in the development of automatic systems for voice pathology detection,” Biomedical Signal Processing and Control, vol. 1, no. 2, pp. 120– 128, 2006. 3. J. D. Arias-Londoño, J. I. Godino-Llorente, N. Sáenz-Lechón, V. Osma-Ruiz, and G. Castellanos-Domı́nguez, “Automatic detection of pathological voices using complexity measures, noise parameters, and mel-cepstral coefficients.” IEEE transactions on bio-medical engineering, vol. 58, no. 2, pp. 370–9, Mar. 2011. 4. D. Childers and K. Wu, “Gender recognition from speech. part ii: Fine analysis,” The Journal of the Acoustical society of America, vol. 90, p. 1841, 1991. 5. R. Fraile, N. Sáenz-Lechón, J. I. Godino-Llorente, V. Osma-Ruiz, and C. Fredouille, “Automatic detection of laryngeal pathologies in records of sustained vowels by means of mel-frequency cepstral coefficient parameters and differentiation of patients by sex.” Folia phoniatrica et logopaedica, vol. 61, no. 3, pp. 146–52, 2009. 6. M. Airas, “TKK Aparat: an environment for voice inverse filtering and parameterization.” Logopedics, phoniatrics, vocology, vol. 33, no. 1, pp. 49–64, Jan. 2008. 7. J. Walker and P. Murphy, “A review of glottal waveform analysis,” Progress in nonlinear speech processing, pp. 1–21, 2007. 8. G. Fant, J. Liljencrants, and Q. Lin, “A four-parameter model of glottal flow,” STL-QPSR, vol. 4, no. 1985, pp. 1–13, 1985. 9. P. Alku, “Glottal wave analysis with Pitch Synchronous Iterative Adaptive Inverse Filtering,” Speech Communication, vol. 11, no. 2-3, pp. 109–118, Jun. 1992. 10. “Saarbruecken voice database.” [Online]. Available: http://www.stimmdatenbank.coli.uni-saarland.de/index.php4 ISBN: 84-695-8101-5 31 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Análisis de métodos de parametrización para la simulación de un sistema de evaluación perceptual de voces patológicas Laureano Moro Velázquez (laureano.moro,@upm.es), Juan Ignacio Godino Llorente ([email protected]) Universidad Politécnica de Madrid, EUIT de Telecomunicación, Ctra. de Valencia km. 7, 28031, Madrid Resumen. Los procedimientos de evaluación de la calidad de la voz por parte de un experto y basados en la valoración subjetiva de la percepción acústica están bastante extendidos. Entre ellos, el protocolo GRBAS es el más comúnmente utilizado en la rutina clínica. Sin embargo existen problemas asociados a este tipo de estimaciones, como la necesidad de profesionales debidamente entrenados para su realización o la variabilidad inter-evaluador e intra-evaluador en los juicios. Por estas razones se hace necesario el uso de parámetros objetivos que permitan realizar una valoración de la calidad de la voz y la detección de diversas patologías. En este trabajo se compararla efectividad de diversas técnicas de cálculo de parámetros representativos de la voz para su uso en la clasificación automática de dos índices de la escala GRBAS: G y R. Algunos parámetros analizados serán los coeficientes Mel-Frequency Cepstral Coefficients (MFCC), las medidas de complejidad y las de ruido. Así mismo se introducirá un nuevo conjunto de características extraídas del Espectro de Modulación (EM) denominadas Centroides del Espectro de Modulación (CEM). A lo largo de este documento se muestra cómo las características CEM proporcionan resultados similares a los de otras técnicas anteriormente utilizadas y propician en algún caso un incremento en la efectividad de la clasificación cuando son combinados con otros parámetros. Palabras clave: Espectro de Modulación, Centroides, Mel-Frequency Cepstral Coefficients, escala GRBAS, Support Vector Machines. 1 Introducción 1.1 Evaluación perceptual y análisis acústico Debido a muy diversas causas, el aparato fonador de una persona puede no funcionar correctamente o estar dañado, lo que en algunos casos interferiría en un proceso de comunicación normal. Por estos motivos se hace necesaria la evaluación de las pato- 32 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 logías de la voz al igual que su diagnóstico, para así poder aplicar un determinado tratamiento. El análisis acústico de la voz resulta ideal en la monitorización de la evolución de un paciente tras diversos tratamientos. Esto es debido a la sencillez de obtención de la señal y los recursos necesarios, generalmente asequibles desde puntos de vista económicos y de usabilidad. Por otro lado, el análisis perceptual consiste en una evaluación de determinadas características de la voz por parte de un experto (foniatra u otorrinolaringólogo, por ejemplo). Se basa en la escucha de una vocal sostenida o de un fragmento de habla continua, tras lo cual se suele dictaminar un valor numérico relacionado con el grado de perturbación existente en dicha voz. Una de las escalas más utilizada y extendida es la escala GRBAS [1]. Esta se divide en cinco rasgos: G (grade), R (roughness), B (breathiness), A (aesthenia) y S (strain). Cada uno de ellos puede tomar cuatro niveles, entre 0 y 3, en donde 0 corresponde a una voz normal, 1 a un ligero trastorno, 2 a uno moderado y 3 a uno severo. El problema del análisis perceptual de la calidad de la voz es su subjetividad y los factores externos que lo influencian, como el estado de ánimo del evaluador, su entrenamiento previo, cansancio, estrés, su cultura, etc [2], [3]. Por eso se hace necesario buscar un sistema automático de clasificación que sea capaz de emular el análisis perceptual de un experto pero de una manera más objetiva y reproducible, reduciendo la incertidumbre de las valoraciones realizadas. 1.2 Objetivos El principal objetivo de este trabajo es analizar nuevos mecanismos de parametrización de las señales acústicas de la voz que permitan emular una valoración perceptual de su calidad. Estos nuevos mecanismos podrían ser útiles como herramienta de apoyo en el diagnóstico y evaluación de patologías de la voz. Para ello se utilizarán los centroides extraídos del Espectro de Modulación (EM), ya utilizado en trabajos como [4], [5] para fines similares. Posteriormente se compararán los resultados de eficiencia de clasificación con los de parámetros utilizados anteriormente por otros trabajos como son los coeficientes MFCC [5–8], medidas de complejidad [9], [10] y medidas de ruido [11], [12]. 2 Metodología Todos los registros de entrada son parametrizados de las cuatro formas indicadas anteriormente. Adicionalmente se crean vectores de parámetros que fusionen los centroides del espectro de modulación (CEM) con el resto de características. Estos vectores entrenan un modelo SVM [13], [14] mediante la técnica de data suffling [15] para realizar la validación cruzada. No se utilizan todas las tramas disponibles debido al desbalance de clases existente, según se aprecia en la Tabla 2. Para cada entrenamiento se seleccionan aleatoriamente 600 tramas de cada clase. Para las clases más frecuentes se dispone de mayor número de locutores, por lo que al limitar el número de ISBN: 84-695-8101-5 33 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 tramas, se espera obtener una mejor generalización para estas clases (normalmente 0 y 1) ya que existirán tramas de más locutores. 2.1 Parametrización basada en el Espectro de Modulación El EM proporciona la información sobre la energía de las frecuencias moduladoras de las portadoras de una señal, siendo una representación bidimensional sobre un eje acústico y otro de modulación frecuencial. Este EM nos permite observar varias características de la voz de forma simultánea, como su naturaleza armónica, a la vez que las modulaciones de la frecuencia fundamental y de alguno de estos armónicos. El cálculo del EM se realiza mediante el paso de la señal por un banco de filtros implementado mediante sTFT (short-Time Fourier Transform), de cuyas salidas se detecta la amplitud y envolvente y se realiza un análisis frecuencial mediante sTFT [16]. Para el cálculo del espectro de modulación se utiliza la librería Modulation Toolbox ver. 2.1 [17]. Este tipo de parametrización se utiliza en [4], [5] para la detección de voces patológicas, en [18–21] para la clasificación automática de algunas enfermedades y en [4] para la obtención de parámetros objetivos que permitan cuantificar la calidad de la voz. Tras el cálculo del EM se debe extraer una determinada cantidad de información representativa de este para la etapa de clasificación. Se decide utilizar el cálculo de centroides [22] como método de extracción de características del EM ya que además de proporcionar un número reducido de datos, proporcionan una información muy visual sobre las frecuencias en las que se distribuye la energía en el espectro. 2.2 Parametrización basada en Mel-Frequency Cepstral Coefficients (MFCC) Estos coeficientes suelen ser utilizados en multitud de aplicaciones vinculadas con el habla. Representan la energía distribuida en bandas sobre una escala frecuencial perceptual relacionada con el sistema auditivo humano denominada escala Mel [23]. De este modo permiten identificar ciertos aspectos que tienen relación con la percepción del habla, siendo altamente útiles en aplicaciones de reconocimiento de locutor o detección de patologías. Los coeficientes MFCC ya han sido utilizados en la clasificación de los rasgos GRBAS en [6]. En este proyecto comprobaremos el efecto en la clasificación que supone añadir los centroides del EM a estas características. 2.3 Parámetros de complejidad Los parámetros de complejidad aportan información cuantitativa sobre la no linealidad en el funcionamiento de las cuerdas vocales y del aparato fonador en general. En muchos casos resultan ser un buen indicador de la presencia de una determinada disfunción, lo cual ha sido objeto de estudio en [8], [24]. Este tipo de medidas han demostrado ser más eficaces en la detección y clasificación de voces patológicas con importantes modulaciones y subarmónicos que las de jitter y shimmer [25]. 34 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Los parámetros utilizados en este trabajo son: Largest Lyapunov Exponent (LLE) [26], Correlation Dimension (CD) [27], Aproximate Entropy (AE) [28], [29], Sampled Entropy (SE) [30], Modified sampled entropy (MSE) [31], Gaussian Kernel Aproximate Entropy (GKAE) [32], Fuzzy Entropy (FE) [33], Detrended Fluctuation Analysis (DFA) [9] y Recurrence Period Density Entropy (RPDE) [34]. 2.4 Parámetros de ruido Debido a que en presencia de muchas patologías aparecen ciertas componentes no armónicas en la señal de la voz, la medida de ruido es utilizada frecuentemente como fuente de datos objetivos para caracterizar la calidad de la voz. Trabajos como [35– 37] utilizan estas medidas para detección de patologías. Por lo tanto, como cuarto método de parametrización se utilizarán medidas de ruido de la voz. Para cada trama se calcularán: Harmonics to Noise Ratio (HNR) [38], Normaized Noise Energy (NNE) [12], Glottal to Noise Excitation Ratio (GNE) [39], Voice Turbulence Index (VTI) [40], Soft Phonation Index (SPI) [40], Cepstrum based Harmonics to Noise Ratio (CHNR) [41] y Noise to harmonics ratio (NHR) [42]. 2.5 Base de datos Partimos de la base de datos realizada en el Hospital Príncipe de Asturias de Alcalá de Henares (PdA) de la que utilizaremos la grabación de la vocal /a/ sostenida de 76 voces normales y 185 patológicas. Todos los registros de audio son mono y tienen una duración aproximada de 2s siendo registrados en las mismas condiciones y con el mismo sistema de adquisición. En concreto, las grabaciones se realizaron con el sistema CLS 4300B de Kay Elemetrics, con frecuencia de muestreo de 50 kHz y 16 bits de cuantificación si bien en este trabajo se realiza un submuestreo a 14 kHz. Para la toma se utilizó un micrófono de condensador situado a 30 cm de la boca de los locutores y un ángulo de 50º sobre el plano horizontal. Todas las voces se captan en una sala acústicamente aislada [43]. Cada uno de los registros de audio de esta base de datos ha sido etiquetado según la escala GRBAS por el consenso de tres expertos en una única sesión. La Tabla 1 muestra la frecuencia de aparición de cada uno de los niveles de los rasgos G y R. Frecuencia de aparición Clase Rasgo G Rasgo R 0 80 83 1 117 102 2 61 71 3 3 5 Total 261 261 Tabla 1. Frecuencia de aparición de cada una de las clases ISBN: 84-695-8101-5 35 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Las edades de los locutores con voz normal oscilan entre los 13 y los 74 años siendo la media 30,9 y la desviación típica 14,1. En el caso de las voces patológicas las edades oscilan entre los 9 y los 76 años, siendo la media de 38,1 y la desviación típica de 14,1. En la Tabla 2 se observan las distintas patologías presentes en el corpus utilizado. Patología presente Sulcus Sulcus en estría Quiste epidermoide Adquiridas traumáticas iatrógenas sobre las cuerdas vocales Laringitis crónica hiperplásica Laringitis crónica hiperplásica con leucoplasia Parálisis periféricas Parálisis periféricas: Recurrente derecho Parálisis periféricas: Recurrente izquierdo Lesión de neurona motora superior Alteraciones extrapiramidales Nódulo bilateral Pólipo pediculado Edema de Reinke bilateral Falta de cierre Total Número de casos 1 21 19 2 17 10 1 9 6 8 1 29 28 28 5 185 Tabla 2. Frecuencia de aparición de patologías en el corpus utilizado 3 Pruebas y resultados Tras el pre-procesado de la base de datos de 261 registros de audio, se calculan los centroides del EM para distintos valores de las variables de parametrización, obteniéndose los mejores resultados para una longitud de trama de 100 ms, solapamiento del 50%, 26 centroides, 1024 líneas en el eje de frecuencia de modulación y 70 bandas acústicas. Igualmente, se parametrizan las tramas de 100 ms con solapamiento del 50% obteniéndose los valores de MFCC+Δ+ΔΔ (sobre 15 coeficientes), complejidad y ruido. En la Tabla 4 se exponen los resultados eficiencia media de clasificación con un modelo SVM para cada una de las parametrizaciones por separado y de la combinación de CEM con el resto. 36 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 CEM G R Niveles predichos Niveles de entrada 0 1 2 3 0 12 10 0 2 16 7 1 0 27 5 0 7 20 3 0 2 0 11 6 1 2 16 3 0 3 0 1 0 0 0 1 MFCC+Δ+ΔΔ Complejidad G G R 2 3 1 8 24 2 1 6 23 1 0 2 3 9 6 0 0 16 3 2 3 1 0 0 0 0 0 1 0 0 MFCC+Δ+ΔΔ + CEM R 0 14 8 2 3 0 1 0 21 3 2 3 0 2 3 0 0 13 9 2 0 1 8 20 7 0 8 18 4 0 2 1 8 9 0 1 11 9 0 3 0 0 0 1 0 0 1 0 0 1 2 3 2 0 15 6 3 0 1 10 23 2 0 12 12 6 0 2 2 9 7 0 3 8 9 1 3 0 1 0 0 0 1 0 0 0 R 1 2 3 2 3 0 1 2 3 0 8 16 0 0 6 17 1 0 1 4 31 0 0 6 23 1 0 2 0 12 6 0 0 16 3 2 3 0 0 1 0 0 0 1 0 Ruido + CEM G R Niveles predichos Niveles predichos 1 R Niveles predichos 1 G Niveles de entrada 1 G Complejidad + CEM Niveles predichos 0 R Niveles de entrada 2 3 0 1 0 12 12 0 0 6 17 1 0 G Ruido 1 2 3 0 14 10 0 0 13 10 1 0 1 2 29 4 0 8 18 4 0 2 0 8 9 1 2 10 9 0 3 0 0 1 0 0 0 1 0 0 Niveles de entrada 1 0 0 Niveles predichos Niveles de entrada 0 Niveles de entrada 2 3 0 1 3 Niveles predichos Niveles de entrada 1 1 2 3 0 1 2 3 0 10 14 0 0 19 4 1 0 1 4 31 0 0 7 16 7 0 2 2 11 5 0 6 10 5 0 3 0 0 0 1 0 0 1 0 Tabla 3. Matrices de confusión de las distintas parametrizaciones ISBN: 84-695-8101-5 37 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Rasgo CEM G 59 (7) 48 (5) R Correlación cruzada. Eficiencia media % (varianza) % MFCC MFCC Complejidad Complejidad + CEM + CEM 51 55 60 59 (7) (6) (6) (7) 48 49 53 53 (8) (6) (6) (5) Ruido 55 (10) 49 (7) Ruido + CEM 53 (8) 51 (6) Tabla 4. Resultados de validación cruzada obtenidos para las distintas parametrizaciones usando tramas de 100 ms y solapamiento del 50%. 4 Discusión Como puede observarse en la Tabla 4, los resultados obtenidos con los centroides, a pesar de su simplicidad, son ligeramente superiores a los que proporcionan los coeficientes MFCC para los dos rasgos estudiados. También superan a los proporcionados por la parametrización del ruido para el rasgo G. A la vista de los resultados se puede afirmar que con la base de datos utilizada el método de parametrización más efectivo es el de los índices de complejidad. Sin embargo, y debido a que la información proporcionada por los centroides acerca del EM es muy simple, cabe esperar que una extracción de características de este más completa produzca mejores resultados. Un posible nuevo parámetro basado en el EM sería la relación entre la energía en torno a 0 Hz y el resto hasta 25 Hz para las primeras bandas acústicas (normalmente alrededor de la frecuencia fundamental). Se propone esta medida ya que se observa que la relación entre la energía a 0 Hz y el resto de frecuencias de modulación es siempre menor en voces patológicas. También existe la posibilidad de medir los valores de las frecuencias de modulación más representativas en la banda de la frecuencia fundamental y el ancho de banda de modulación para cada una de ellas. La tercera posibilidad que se propone consiste en calcular la densidad espectral de potencia (Power Spectral Density - PSD) mediante el método Welch y calcular su desviación Estándar en la banda que incluya todas las frecuencias de interés. Esto nos daría una cierta información sobre los cambios en la dinámica del EM. Para el rasgo G, es destacable el hecho de que en todas las fusiones disminuye la eficiencia media con respecto al uso de una única familia de de parámetros. Posiblemente esto se deba a que por un lado la complementariedad de las características no es lo suficientemente relevante. Por otro lado, el aumento en el número de parámetros complica el espacio multidimensional de los sistemas de clasificación SVM empobreciéndose la eficiencia media de clasificación. Muy probablemente esta segunda causa sea la que tiene más peso. Por lo tanto, sería recomendable repetir en el futuro las pruebas realizadas utilizando algún método de selección de las características más importantes, como el de máxima relevancia [44]. 38 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Algo distinto ocurre con el rasgo R. En todos los casos la fusión de características iguala o aumenta la precisión media. Estos resultados sugieren que para R, la cantidad de información complementaria de unas características respecto a otras sí es suficientemente relevante como para dar mejores resultados. Todo ello a pesar de que el aumento en el número de parámetros de entrada en el clasificador SVM pueda complicar el espacio de multidimensional. Igualmente, el uso de selección de características de máxima relevancia podría aumentar la eficiencia. Continuando con el análisis de los resultados, al observar las matrices de confusión de la Tabla 3 se comprueba que por norma general todos los errores de clasificación cometidos recaen en niveles adyacentes al nivel supuestamente real. Este comportamiento es bastante coherente con el hecho de que las etiquetas utilizadas provienen de una evaluación subjetiva. Dicha subjetividad conlleva una cierta falta de consistencia en el etiquetado, que podría hacer que dos registros de audio con características acústicas muy similares sean etiquetados, por parte de un mismo evaluador, con niveles cercanos pero no idénticos. En estas matrices también puede observarse que en los dos últimos niveles (especialmente en el nivel con valor 3) la eficiencia baja con respecto a los dos primeros. Esto se debe al desbalance de clases presente en la base de datos. Sería aconsejable ampliar la base de datos existente para incluir un número mayor de voces patológicas que estén dentro de estos niveles. Si esto no fuese posible, en trabajos futuros se debería plantear el uso de algoritmos de balance de clases [45]. A modo de ejemplo, a continuación se muestra la variabilidad inter-evaluador e intraevaluador del etiquetado del rasgo G de la base de datos de Kay Elemetrics [46] realizado por dos evaluadores distintos. Uno de los evaluadoresellos realizó el etiquetado dos veces y el otro sólo una vez. Se exponen estos resultados en la tabla 5 como muestra de un caso conocido de variabilidad sin implicar necesariamente que los valores obtenidos sean representativos del caso general. Inter-evaluador Intra-evaluador Evaluador 2 Clases 0 1 2 3 0 1 2 3 78 1 0 0 5 21 19 0 0 0 18 20 0 0 0 59 Evaluador 1 Evaluación 1 Evaluación 2 Clases 0 1 2 3 0 1 2 3 30 2 1 0 44 7 8 10 9 13 26 30 0 0 2 39 Tabla 5. Matrices de confusión intra-evaluador e inter-evaluador En este caso podemos considerar que la eficiencia intra-evaluador es del 79,6% y la inter-evaluador disminuye al 46%. Así pues, aun cuando los resultados de eficacia media obtenidos en este proyecto pudieran parecer comedidos, se considera que los sistemas de clasificación obtenidos se aproximan bastante al caso real. ISBN: 84-695-8101-5 39 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Cabe destacar que en el presente proyecto se busca analizar el comportamiento de los sistemas de clasificación de niveles perceptuales frente a distintas parametrizaciones. y Ees por eso que se dan los resultados obtenidos para los dos rasgos G y R para utilizando las mismas características y longitudes de trama. En el desarrollo de un detector de cada uno de los rasgos del GRBAS, deberían estudiarse todas las parametrizaciones y entrenamientos posibles por separado, pudiéndose obtener longitudes de trama y número de parámetros distintos para cada uno de ellos. Esto es así debido a que ambos cada rasgos están referidos a propiedades de la voz distintas y requerirán requiere un desarrollo tratamiento distinto. En cuanto a la metodología, estudios como [19], [47] apuntan a que el uso de una base de datos en la que exista un solo género (masculino o femenino) podría proporcionar mejores resultados. En [47] se llega a obtener una eficiencia del 85 % si bien no se puede establecer una comparación consistente con este proyecto ya que se utilizan bases de datos y evaluadores distintos. Igualmente, sería recomendable el estudio de una posible segmentación de las bases de datos por edades de los locutores además de por género, lo que podría tener consecuencias positivas. Por otro lado, se ha de tener en cuenta que la evaluación GRBAS se realiza mediante la escucha de una o más vocales sostenidas y de habla continua para poder así comprobar diversas características necesarias en la voz [1]. De este modo podría ser relevante añadir la parametrización del habla continua a la realizada en este proyecto debido apor que proporciona información que es tenida en cuenta en la valoración perceptual subjetiva. 5 Conclusiones Los nuevos parámetros CEM proporcionan información representativa sobre el nivel de afección presente en voces patológicas. El uso de CEM arroja valores de eficiencia algo superiores al uso de MFCC en de simulaciones de evaluación perceptual automática y muy similares a los de las parametrizaciones basadas en complejidad. Una fusión de características entre los nuevos parámetros CEM y parámetros otros utilizados anteriormente aumentan en algunos casos la efectividad media pero se recomienda el estudio de técnicas de reducción de características en trabajos futuros. Igualmente, se demuestra que los sistemas de clasificación SVM pueden ser válidos para la simulación de evaluaciones perceptuales. Estos clasificadores habían sido utilizados anteriormente en trabajos similares pero no en evaluación perceptual. Los siguientes pasos para continuar con esta investigación consistirán en el desarrollo de nuevos parámetros relacionados con el EM y la extracción de las características más relevantes. 40 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Referencias [1] M. Hirano, Clinical examination of voice. Springer Verlag, 1981. [2] I. V. Bele, “Reliability in perceptual analysis of voice quality.,” Journal of voice : official journal of the Voice Foundation, vol. 19, no. 4, pp. 555–73, Dec. 2005. [3] M. S. De Bodt, F. L. Wuyts, P. H. Van de Heyning, and C. Croux, “Testretest study of the GRBAS scale: influence of experience and professional background on perceptual rating of voice quality.,” Journal of voice : official journal of the Voice Foundation, vol. 11, no. 1, pp. 74–80, Mar. 1997. [4] M. Markaki and Y. Stylianou, “Voice Pathology Detection and Discrimination Based on Modulation Spectral Features,” Ieee Transactions On Audio Speech And Language Processing, vol. 19, no. 7, pp. 1938–1948, 2011. [5] J. D. Arias-Londoño, J. I. Godino-Llorente, M. Markaki, and Y. Stylianou, “On combining information from modulation spectra and mel-frequency cepstral coefficients for automatic detection of pathological voices.,” Logopedics, phoniatrics, vocology, vol. 36, no. 2, pp. 60–9, Jul. 2011. [6] N. Sáenz-Lechón, J. I. Godino-Llorente, V. Osma-Ruiz, M. Blanco-Velasco, and F. Cruz-Roldán, “Automatic assessment of voice quality according to the GRBAS scale.,” Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society., vol. 1, pp. 2478–81, Jan. 2006. [7] J. I. Godino-Llorente and P. Gómez-Vilda, “Automatic detection of voice impairments by means of short-term cepstral parameters and neural network based detectors,” IEEE transactions on bio-medical engineering, vol. 51. NO2, 2004. [8] J. J. Jiang, Y. Zhang, and C. McGilligan, “Chaos in voice, from modeling to measurement.,” Journal of voice : official journal of the Voice Foundation, vol. 20, no. 1, pp. 2–17, Mar. 2006. [9] M. a Little, P. E. McSharry, S. J. Roberts, D. a E. Costello, and I. M. Moroz, “Exploiting nonlinear recurrence and fractal scaling properties for voice disorder detection.,” Biomedical engineering online, vol. 6, p. 23, Jan. 2007. ISBN: 84-695-8101-5 41 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 42 [10] J. Alonso, J. de León, I. Alonso, and M. A. Ferrer, “Automatic detection of pathologies in voice by HOS based parameters,” Journal on Applied Signal Processing. EURASIP, 2001. [11] M. Wester, “Automatic classification of voice quality: Comparing regression models and hidden markov models,” Proceedings of Voicedata ’98, Utretch, The Netherlands, pp. 92–97, 1998. [12] H. Kasuya, “Normalized noise energy as an acoustic measure to evaluate pathologic voice,” The Journal of the Acoustical Society of America, vol. 80, no. 5, p. 1329, Nov. 1986. [13] V. N. Vapnik, “An overview of statistical learning theory.,” IEEE transactions on neural networks/ IEEE Neural Networks Council, vol. 10, no. 5, pp. 988–99, Jan. 1999. [14] C. Cortes and V. Vapnik, “Support-vector networks,” Machine learning, 1995. [15] G. Toussaint, “Bibliography on estimation of misclassification,” IEEE Transactions on Information Theory, 1974. [16] S. Schimmel, L. Atlas, and K. Nie, “Feasibility of single channel speaker separation based on modulation frequency analysis,” EEE International Conference in Acoustics, Speech and Signal Processing, 2007. ICASSP, vol. 4, 2007. [17] “Les Atlas, Pascal Clark and Steven Schimmel, Modulation Toolbox Version 2.1 for MATLAB, http://isdl.ee.washington.edu/projects/modulationtoolbox/, University of Washington, September 2010.” . [18] G. Pouchoulin, C. Fredouille, J. Bonastre, A. Ghio, and J. Revis, “CHARACTERIZATION OF THE PATHOLOGICAL VOICES ( DYSPHONIA ) IN THE FREQUENCY SPACE,” Proceedings of International Congress of Phonetic Sciences (ICPhS), no. August, pp. 1993– 1996, 2007. [19] G. Pouchoulin, C. Fredouille, J. Bonastre, A. Ghio, A. Giovanni, A. France, P. France, and M. France, “Frequency Study for the Characterization of the Dysphonic Voices,” Interspeech 2007. ISCA, pp. 1198–1201, 2007. [20] T. F. Q. Nicolas Malyska, “Automatic dysphonia recognition using biologically inspired amplitude-modulation features,” Proc. ICASSP, vol. 1, pp. 873–876. ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 [21] M. Markaki and Y. Stylianou, “Modulation Spectral Features for Objective Voice Quality Assessment: The Breathiness Case,” Sixth International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications., 2009. [22] B. Gajic and K. K. Paliwal, “Robust speech recognition in noisy environments based on subband spectral centroid histograms,” IEEE Transactions on Audio, Speech and Language Processing, vol. 14, no. 2, pp. 600–608, Mar. 2006. [23] L. Rabiner and B.-H. Juang, Fundamentals of Speech Recognition. Prentice Hall, 1993. [24] G. Arias-Londono, J. D., Godino-Llorente, J. I., Sáenz-Lechón, N., OsmaRuiz, V., & Castellanos-Dominguez, “Automatic detection of pathological voices using complexity measures, noise parameters, and mel-cepstral coefficients,” IEEE Transactions on Biomedical Engineering, pp. 370–379, 2011. [25] Y. Zhang, J. J. Jiang, L. Biazzo, and M. Jorgensen, “Perturbation and nonlinear dynamic analyses of voices from patients with unilateral laryngeal paralysis.,” Journal of voice : official journal of the Voice Foundation, vol. 19, no. 4, pp. 519–28, Dec. 2005. [26] A. Giovanni, M. Ouaknine, and J. Triglia, “Determination of largest Lyapunov exponents of vocal signal: application to unilateral laryngeal paralysis,” Journal of Voice, 1999. [27] H. Kantz and T. Schreiber, “Nonlinear time series analysis,” Cambridge University Press, vol. 7, 2003. [28] S. Pincus, “Approximate entropy as a measure of system complexity,” Proceedings of the National Academy of Sciences, vol. 88(7), pp. 2297–2301, 1991. [29] I. Rezek and S. Roberts, “Stochastic complexity measures for physiological signal analysis,” Transactions on Biomedical Engineering, IEEE., vol. 45 (9), pp. 1186–1191, 1998. [30] J. Richman and J. Moorman, “Physiological time-series analysis using approximate entropy and sample entropy,” American Journal of PhysiologyHeart and Circualtory Physiology, vol. 278(6), pp. H2039–H2049, 2000. ISBN: 84-695-8101-5 43 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 44 [31] H.-B. Xie, W.-X. He, and H. Liu, “Measuring time series regularity using nonlinear similarity-based sample entropy,” Physics Letters A, vol. 372, no. 48, pp. 7140–7146, Dec. 2008. [32] L. Xu, K. Wang, and L. Wang, “Gaussian kernel approximate entropy algorithm for analyzing irregularity of time-series,” Proceedings of 2005 International Conference on Machine Learning and Cybernetics, vol. 9, pp. 5605–5608, 2005. [33] B. Kosko, “Fuzzy entropy and conditioning,” Information sciences, 1986. [34] M. Little, D. Costello, and M. Harries, “Objective dysphonia quantification in vocal fold paralysis: comparing nonlinear with classical measures,” Journal of Voice, 2011. [35] P. Yu, J. Revis, F. L. Wuyts, M. Zanaret, and A. Giovanni, “Correlation of Instrumental Voice Evaluation with Perceptual Voice Analysis Using a Modified Visual Analog Scale,” Folia Phoniatr Logop, 2002. [36] A. Schindler, F. Palonta, G. Preti, F. Ottaviani, O. Schindler, and A. L. Cavalot, “Voice quality after carbon dioxide laser and conventional surgery for T1A glottic carcinoma.,” Journal of voice : official journal of the Voice Foundation, vol. 18, no. 4, pp. 545–50, Dec. 2004. [37] V. Parsa and D. G. Jamieson, “Identification of Pathological Voices Using Glottal Noise Measures,” J Speech Lang Hear Res, vol. 43, no. 2, pp. 469– 485, Apr. 2000. [38] E. Yumoto, “The quantitative evaluation of hoarseness: A new harmonics to noise ratio method,” Archives of Otolaryngology—Head & Neck Surgery, 1983. [39] D. Michaelis, “Glottal-to-noise excitation ratio a new measure for describing pathological voices,” Acta Acustica united with Acustica, vol. 83, no. 4, pp. 700–706, 1997. [40] D. Deliyski, “Acoustic model and evaluation of pathological voice production,” Proceedings of Eurospeech, 1993. [41] G. Krom, “A cepstrum-based technique for determining a harmonics-to-noise ratio in speech signals,” Journal of Speech, Language and Hearing Research, 1993. [42] G. Jotz, O. Cervantes, and M. Abrahão, “Noise-to-harmonics ratio as an acoustic measure of voice disorders in boys,” Journal of voice, 2002. ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 [43] J. I. Godino-Llorente, V. Osma-Ruiz, N. Sáenz-Lechón, I. Cobeta-Marco, R. González-Herranz, and C. Ramírez-Calvo, “Acoustic analysis of voice using WPCVox: a comparative study with Multi Dimensional Voice Program.,” European archives of oto-rhino-laryngology : official journal of the European Federation of Oto-Rhino-Laryngological Societies (EUFOS) : affiliated with the German Society for Oto-Rhino-Laryngology - Head and Neck Surgery, vol. 265, no. 4, pp. 465–76, Apr. 2008. [44] H. Peng, F. Long, and C. Ding, “Feature selection based on mutual information criteria of max-dependency, max-relevance, and minredundancy,” IEEE Transactions on Pattern Analysis and Machine Intelligence, pp. 1226–1238, 2005. [45] E. A. Garcia, “Learning from Imbalanced Data,” IEEE Transactions on Knowledge and Data Engineering, vol. 21, no. 9, pp. 1263–1284, Sep. 2009. [46] “Voice Disorders Database.” Massachusetts Eye and Ear Infirmary, 1994. [47] G. Pouchoulin, C. Fredouille, J. Bonastre, A. Ghio, and A. Giovanni, “Dysphonic Voices and the 0-3000Hz Frequency Band,” Interspeech 2008. ISCA, pp. 2214–2217, 2008. ISBN: 84-695-8101-5 45 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Proyecto e-VOICE: Sistema de Evaluación Remota del Sistema Fonador Jesús B. Alonso1,2, Josué Cabrera1, José de León2, Miguel A. Ferrer,1,2, Carlos M. Travieso, 1,2, David Sánchez1,2, Patricia Henríquez1, Aythami Morales1, Juan Francisco Rivero2, Francisco Ayudarte2 , Santiago Tomás1, Fidel Cabrera4, Juan Manuel Caballero4 1 Instituto para el Desarrollo Tecnológico y la Innovación en Comunicaciones Universidad de Las Palmas de Gran Canaria Campus de Tafira Las Palmas de Gran Canaria 35017 - Las Palmas (Spain) 2 Servicio de Otorrinolaringología Hospital de Gran Canaria Dr. Negrín Las Palmas de Gran Canaria 3 Departamento de Telemática Universidad de Las Palmas de Gran Canaria 4 Departamento de Señales y Comunicaciones Universidad de Las Palmas de Gran Canaria [email protected] Abstract. La necesidad de valorar la información acústica que nos llega del paciente ha desarrollado progresivamente métodos de análisis de la señal de voz que van desde la valoración subjetiva mediante determinado protocolos (GRAB, ….) que permiten homogeneizar las características perceptuales de la voz, hasta el desarrollo de sistemas informáticos que a partir de la señal acústica establecen medidas de parámetros característicos que han de permitir evaluar de manera objetiva la señal de voz y documentarla de una forma clara y eficaz. En este trabajo una herramienta web para la evaluación acústica que valora de forma objetiva una señal de voz mediante la grabación de una vocal sostenida. Este software implementa un protocolo que se basa en cuantificar cuatro aspectos de la calidad de la voz: la estabilidad de la voz, la riqueza espectral, la presencia de ruido y las irregularidades en las masas. Para ello asigna el valor de una medida a cada una de los diferentes aspectos que caracterizan la calidad de la voz, obteniéndose una correlación entre el valor numérico de la medida y el fenómeno físico que cuantifica, y en la que cualquier alteración de la calidad de la voz normal sufre una desviación respecto al patrón de normalidad de al menos una de las cuatro características. Consideramos que este protocolo y las medidas que identifica suponen una mejora significativa en cuanto a eficiencia 46 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 y posibilidades de aplicación clínica que ofrece, frente a otras herramientas ya existentes que desarrollan protocolos de mayor dificultad en su aplicación práctica diaria. Además, su formato web permite su utilización de forma remota pudiendo ser utilizado en campos como la telemedicina o la medicina preventiva. Palabras Claves: sistema fonador, calidad de la voz, evaluación acústica 1 Introducción Las técnicas basadas en métodos de inspección visual son las que clásicamente se han utilizado para el diagnóstico de los trastornos de voz. Sin embargo estas técnicas presentan ciertos inconvenientes como son, al tratarse de técnicas de exploración visual, la necesidad de un adecuado adiestramiento y la incomodidad que ello conlleva en muchas ocasiones para el paciente. Así mismo, estos métodos de diagnóstico aportan considerables datos sobre el aspecto morfológico de la laringe y los procesos patológicos que le afectan, pero muy pocos sobre la valoración acústica de la voz, a la vez que han de ser realizadas exclusivamente por profesionales del ámbito médico especializado. Actualmente, no siempre se dispone de los medios humanos y materiales adecuados para esta valoración, y resulta de interés disponer de técnicas de evaluación objetivas de la calidad de la voz, que pudieran utilizarse por ejemplo para realizar el primer screenning en centros de atención primaria, sin olvidarnos de la importancia documental que permiten este tipo de herramientas en el ámbito especializado, y que hasta hora se vienen desarrollando con métodos más o menos estandarizados pero basados siempre en la evaluación subjetiva-perceptual de la calidad de la voz. En este sentido podemos encontrar en la literatura diferentes estrategias para documentar la calidad de la voz o señalar la presencia de una disfonía, y su intensidad. Una de las estrategias desarrolladas, como comentamos previamente, es realizar una descripción del estado de la voz indicando niveles predefinido de anormalidad a partir de una valoración acústica perceptual, esto es, se pretende alcanzar una medida objetiva a partir de una valoración subjetiva. En esta línea, el Comité para las Pruebas de la Función Fonatoria de la Sociedad Otorrinolaringológica Japonesa propuso un sistema de valoración acústica subjetiva que se conoce con el nombre del acrónimo escala GRABS [1], que corresponde a las palabras: G (Grade), R (Roughness), A (Asthenicity), B (Breathiness) y S (Strain). Cada uno de los apartados se valora en una escala de 4 puntos (0 = normal, 1 = ligero, 2 = moderado, 3 = extremo). El atributo G indica el grado general de afectación de la voz; el 0 correspondería a una voz normal; el 3 correspondería a una voz muy patológica. El atributo R indica si la voz es rasposa, ronca o con rozamiento. Se emplea para expresar la irregularidad o defecto de la vibración (rozamiento), e incluso la ausencia de vibración. El atributo A sería el grado de astenia o fatiga y debilidad de la voz. El atributo B correspondería a la sensación ISBN: 84-695-8101-5 47 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 de aire en la voz, voz aérea o voz soplada, que se produce por escape de aire entre las cuerdas vocales. Si por alguna circunstancia no hay cierre glótico adecuado, parte del aire espirado se pierde de forma turbulenta entre las cuerdas, lo cual percibimos como voz aérea. El atributo S lo tienen las voces constreñidas, tensas o duras. Esta interpretación psicoacústica corresponde al fenómeno de la hiperfonación o tensión excesiva de la laringe. Existen ligeras modificaciones de la escala GRABS como el formulario extendido el cual ha sido desarrollado y aplicado en Europa [2]. También en Suecia se ha trabajado en otro juego de descriptores clínicos de la voz referentes a la percepción [3] u otros trabajos [4] en los que se introducen un conjunto de características fonéticas que intenta agregar información del tracto vocal en la medida de la calidad de la voz. Además, han surgido propuestas alternativas a la escala GRABS como la escala RHB (Roughness, Breathiness y Hoarseness) [5], con cuatro niveles de cuantificación en su uso clínico. Otra alternativa, ha sido clasificar la voz en distintos tipos de fonación [6] (Modal, Breathy Voice , Creaky Voice, Harsh voice, Tense o Strained voice) donde además, apuntan los autores, que estos tipos de voces generan nuevos tipos fruto de la combinación de los tipos iniciales. Otro tipo de estrategias presente en la literatura, son sin embargo aquellas basadas en medir la calidad de la voz, obtenida mediante una grabación, a partir de una serie de medidas objetivas calculadas por medio de un sistema informático diseñado a tal efecto. Existen diferentes trabajos clínicos en los que se utilizan las medidas de la calidad de la voz como herramientas para su evaluación objetiva. Cualquiera de los diferentes fenómenos físicos que se ponen de manifiesto en un trastorno de la voz, se pueden estudiar en diferentes dominios de representación: dominio temporal, dominio espectral, dominio cepstral, etc. Sin embargo, generalmente cada uno de los fenómenos físicos se manifiesta de forma preferencial en uno de los diferentes dominios de representación. Resulta de interés identificar el dominio preferencial en el que se manifiesta cada uno de los distintos fenómenos, permitiendo aumentar la capacidad de cuantificar dicho fenómeno y por lo tanto dar lugar a la posibilidad de cuantificar la calidad de la voz de forma más efectiva. No existe un único fenómeno que permita diferenciar entre las distintas calidades de voz, y por tanto se hace necesario tener en cuenta un conjunto de fenómenos físicos. En este trabajo se han identificado cuatro fenómenos físicos que permiten realizar una medición objetiva de la calidad de la voz: 48 Estabilidad de la voz. Este fenómeno caracteriza el flujo de aire que es exhalado por los pulmones y que da lugar al movimiento vibratorio de las cuerdas vocales (movimientos de apertura y cierre). Para evaluar este fenómeno se analiza la capacidad de un locutor para producir, durante la fonación de un sonido sonoro sostenido, un flujo de aire con una intensidad constante. Presencia de ruido: Este fenómeno caracteriza el contacto de ambas cuerdas durante la fonación. En el caso de no existir un correcto cierre de las mismas se identifica la presencia de ruido en la señal de voz. Riqueza espectral: La estructura armónica de la señal de voz viene determinada por el ritmo y la fuerza del golpeo (el impacto entre las cuerdas vocales). La existencia de un ritmo irregular pone de manifiesto la presencia de determinadas patologías. Igualmente, si el golpeo no se produce con la sufi- ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 ciente intensidad, la voz producida presentará una pobre y anormal sonoridad. Irregularidades en las masas. Para realizar un correcto golpeo de las cuerdas resulta necesario que ambas cuerdas realicen de forma sincronizada las diferentes fases del movimiento vibratorio necesario que da lugar a la sucesiva apertura y cierre de las cuerdas. Este fenómeno cuantifica la descoordinación de las diferentes fases del movimiento entre cuerdas cuando estas presentan irregularidades. Además, cuantifica el deterioro de las propiedades viscoelásticas de la mucosa que recubre las cuerdas vocales. Este último fenómeno físico cuantificable, Irregularidades en las masas, resulta una aportación novedosa dentro de los sistemas convencionales de evaluación de la calidad de la voz. Surge por tanto, como medio de objetivar estas medidas de valoración acústicas, las distintas estrategias que se basan en la estimación de medidas objetivas que cuantifican numéricamente y de forma automática la calidad de la voz a partir de una grabación de audio. Sin embargo no existe un protocolo claro, y es difícil extraer información clínicamente relevante en lo referente a una interpretación de los valores numéricos. Frente a esta situación, en este trabajo se propone un herramienta para su utilización vía web, de evaluación de la calidad voz que evalúa de forma objetiva una grabación de la fonación sostenida. Este protocolo mide, de forma objetiva, cuatro aspectos de la calidad de la voz: la estabilidad de la voz, la riqueza espectral, la presencia de ruido y las irregularidades en las masas. Para ello asigna el valor de una determinada medida a cada una de los diferentes aspectos que caracterizan la calidad de la voz, donde además se han identificado los rangos de normalidad. 2 La herramienta web: e-VOICE A continuación se presenta una herramienta web, en su versión de prototipo, para su utilización en la evaluación de la calidad voz que evalúa de forma objetiva una grabación de la fonación sostenida. Es posible acceder a dicha herramienta web en la siguiente dirección: http://evoice.ulpgc.es/. 2.1 Método de grabación Las características del proceso de grabación son las siguientes: La grabación consiste en la fonación de forma sostenida de la vocal “a” de forma sostenida, durante 5 segundos. Ha de ser una fonación no susurrada. La grabación de audio se realiza con un PC de propósito general equipado con una tarjeta de sonido convencional. La grabación se realiza con una frecuencia de muestreo de 22050 muestras por segundo y una resolución de 16 bits por muestra. ISBN: 84-695-8101-5 49 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Se utiliza un micrófono convencional de sobremesa, con al menos un ancho de banda sin distorsión de 11 KHz. Se recomienda que el micrófono esté a una distancia de 15 centímetros del locutor. 2.2 Medidas de Calidad de la Voz En el protocolo de cuantificación de la calidad de la voz, se indica la necesidad de medir cuatro características de la voz: estabilidad de la voz, riqueza espectral, presencia de ruido e irregularidades en las masas. Cada una de las diferentes características de la voz es cuantificada por una única medida. En la Tabla 1 se indican las medias utilizadas para cuantificar cada una de las cuatro características. Tabla 1. Medidas para cuantificar los distintos fenómenos físicos implicados en la medida de la calidad de la voz. Fenómeno Físico Estabilidad de la Voz Riqueza Espectral Presencia de Ruido Irregularidades en las Masas Medida Cociente de perturbación de amplitud (APQ)[7-11] Valor promedio del primer pico cepstral de los cepstrum derivados espacialmente [12] Promedio de la relación sub-armónico armónico [13] Promedio del aérea inferior del índice de bicoherencia integrado [12] Una voz de calidad anormal presenta al menos uno de los valores correspondientes a la cuantificación de los cuatro fenómenos físicos fuera de los rangos de normalidad. Este protocolo de evaluación cuantifica la calidad de la voz permitiendo identificar calidades de voz anómalas de diferentes orígenes. A medida que la calidad de la voz de un locutor empeora, aumentará el número de fenómenos físicos y la desviación de los valores de la cuantificación de dichos fenómenos respecto a los valores de normalidad. Se ha estimado los rangos preliminares de normalidad de las cuatro medidas de calidad de la voz, utilizando la base de datos del estudio y tomando el 95% central de los valores de la población de muestras sanas. En la Tabla 2 se muestran los rangos de normalidad de cada una de las medidas. Tabla 2. Rangos de normalidad de las diferentes medidas de la calidad de la voz Medida de Calidad de la Voz Estabilidad de la Voz Ritmo de Golpeo Problemas de Cierre Irregularidades en las Masas 50 Rango de Normalidad 0.002 … 0.136 0.919 … 1.761 0.189 … 0.561 0.531 … 0.755 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 2.3 Sistemas Temático El sistema telemático implementado es un sistema cliente-servidor que utiliza tecnologías y lenguajes de programación estándar frecuentemente utilizado en la informática y las comunicaciones, como HTTP, HTML, CSS, FLASH y Java. A grandes rasgos la comunicación sigue los siguientes pasos: 1. El usuario a través de cualquier navegador de escritorio realiza una petición HTTP de la web http://evoice.ulpgc.es 2. La petición es recibida por el servidor web del proyecto e-VOICE, que corre en servidor web de código abierto Apache, y devuelve al usuario los archivos (HTML,CSS,Flash,…) que componen la página web del Proyecto e-VOICE. 3. Recibida la págna web el usuario puede ejecutar la aplicación flash siguiendo unos sencillos pasos para grabar su voz. Tras la grabación, la aplicación se realiza una conexión socket automáticamente con el servidor de procesado del Proyecto e-VOICE en servicio. 4. El servidor de procesado, implementado en lenguaje Java, realiza las comprobaciones de seguridad pertinentes y aceptada la conexión recibe y realiza el procesado de la señal de voz grabada previamente por el usuario desde su navegador web. Procesada la señal de voz, el servidor Java envía los resultados obtenidos a la aplicación flash contenida en el navegador del usuario, mostrándose en pantalla. 2.4 Entorno Web El entorno web se ha diseñado y programando siguiendo estándares HTML y CSS del World Wide Web Consortium (W3C) que aseguran las buenas prácticas de diseño web y una mejor experiencia para el usuario. El entorno web es sencillo, claro, intuitivo y asistido mediante mensajes sonoros y textuales que guían al usuario en todo el proceso de evaluación acústica del sistema fonador. ISBN: 84-695-8101-5 51 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Conectándose a través de internet a http://evoice.ulpgc.es desde cualquier navegador de escritorio el usuario accede a la página inicial del sistema e-VOICE (Fig. 1), donde se un mensaje sonoro da la bienvenida al usuario. Fig. 1. Página inicial del sistema e-VOICE Una vez el usuario inicia la aplicación del proyecto a través del botón comenzar, se accede al entorno de grabación, donde una serie de pantallas guiadas sonora y textualmente, conllevan a que el usuario realice una sencilla grabación de la vocal „a‟ de forma sostenida durante 5 segudos. (Fig 2.) Fig. 2. Entorno de grabación de la herramienta e-VOICE 52 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Realizada la grabación el entorno de grabación se conecta de forma autómatica al servidor de procesamiento,e indica al usuario que se está llevando a cabo las labores de conexión al servidor y procesado. Tras unos pocos minutos, el usuario recibe en pantalla los resultados obtenidos de su evaluación del sistema fonador. (Fig. 3 – 4). Fig. 3. Muestra del resultado de la evaluación de una muestra de voz sana La pantalla de resultados muestra al usuario de forma cuantificable y gráfica el estado de su voz para los 4 valores analizados. De manera gráfica se muestra al usuario los limites sanos (zona verde) y patológicos (zona roja) de la voz, advirtiéndole mediante una alarma luminosa de aquellos que están fuera de los rangos normales. Fig. 4. Muestra del resultado de la evaluación de una muestra de voz patológica El entorno cuenta con un botón de impresión de los resultados con los que el usuario puede imprimir en cualquier formato admisible los resultados de sus evaluaciones y poder llevar una evolución cronológica de su voz. ISBN: 84-695-8101-5 53 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 3 Discusión Es posible identificar un determinado grupo de aplicaciones informáticas que permiten registrar la señal de voz y posteriormente permiten realizar una evaluación tanto cualitativa por medio de diferentes representaciones de la señal de voz como cuantitativa por medio de una serie de medidas. Un primer ejemplo de este tipo de aplicaciones es el SoundScope [14] el cual es un software compatible únicamente con equipos Macintosh diseñado para el análisis de señales sonoras. Además de un profundo análisis de la señal, permite su grabación, editado y el cálculo de estadísticas de valores tomados a partir del estudio de la señal. Algunas de las características más reseñables son: realiza espectrogramas, calcula la frecuencia fundamental de la señal (pitch), su perturbación (jitter), la perturbación en amplitud de la señal (shimmer), realiza en análisis espectral de la señal mediante FFT y LPC y proporciona estadísticas sobre algunas características de la señal, como pueden ser el porcentaje se sonidos sonoros y sordos. Otro interesante ejemplo es el PRAAT [15] [16] el cual es un programa de libre distribución para el análisis fonético y la edición de sonidos. Permite la grabación y reproducción de señales sonoras. Aplicado a señales de voz permite realizar un análisis espectral de la señal: realiza el espectrograma, la FFT de la señal, y estima los formantes. PRRAT también es capaz de calcular y analizar el pitch de la señal. Por último un tercer ejemplo de este grupo de aplicaciones es el CSRE (léase „César‟) el cual es un software que permite la grabación, reproducción, análisis y sintetizado de señales sonoras, especialmente desarrollado para el tratamiento de señales de voz. El programa ha sido desarrollado por Azaaz Innovations. Contiene un potente editor de señales sonoras, además permite realizar análisis del pitch de la señal mediante dos métodos diferentes. Una vez calculado el pitch, obtiene parámetros de las variaciones en el tiempo que sufre (jitter y shimmer). Es posible realizar un análisis espectral y del espectrograma de la señal de voz mediante el software CSRE, en el que se puede incluir: análisis de la FFT y análisis LPC. Haciendo uso de los LPC es capaz de extraer información de los formantes (amplitud, frecuencia, anchos de banda,…). Otras aplicaciones informáticas además incluyen utilidades orientadas a la educación y entrenamiento articulatorio. Un buen ejemplo es el sistema desarrollado por Speech Technology Research (STR) Ltd. el cual consiste en una serie de herramientas para la captura y el análisis de la señal de voz. Dispone tanto de soluciones software como de aplicaciones que conjugan elementos software y hardware. De entre todos sus productos, destaca el Computerized Speech Lab (CSL) [17], desarrollado conjuntamente con Kay Elemetrics Corporation. CSL es la herramienta de referencia en ámbitos que van desde la acústica forense hasta el estudio acústico de patologías de la voz. Esto se debe a sus altas prestaciones, utilización de hardware de alta gama y a la amplia base de datos que lo acompaña. Su utilización es muy sencilla y aporta grandes posibilidades para la grabación y análisis de señales de voz. El CSL proporciona información de múltiples características de la voz, extrayendo parámetros de cualidades temporales, de energía y de la frecuencia fundamental. La evolución de estos parámetros puede ser estudiada en tiempo real mientras se realiza la grabación de la voz del locutor. El CSL puede completarse con diferentes módulos de extensión des- 54 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 arrollados para dar mayores prestaciones en distintos ámbitos del procesado y análisis de la señal de voz. Algunos de estos módulos son el Multidimensional Voice Program (MDVP) el cual es un paquete orientado al análisis de la calidad de la voz a través del cálculo de 22 parámetros de un sonido vocálico, el Voice Range Profile (Fonetografía) el cual permite representar el margen dinámico de la voz tanto en amplitud como en frecuencia, el Sona-Match diseñado para la educación y entrenamiento articulatorio o el Palatometer diseñado para la visualización del contacto linguopalativo. También es posible encontrar aplicaciones informáticas dirigidas a pacientes que tengan trastornos de audición, del lenguaje y del habla con en el caso de SpeechViewer [18] el cual es especialmente útil para personas que deseen modificar su inflexión, pronunciación y calidad vocal. El programa permite conocer y ejercitar las características de la voz (tono, intensidad, duración y sonoridad) mediante una retroalimentación visual y auditiva de las producciones verbales. Asimismo, contiene ejercicios cuyo objeto es la reeducación fonológica y la prosodia. El programa se compone de los ejercicios: presencia de sonido, gama de intensidad, presencia de voz, ataque vocal, duración de la voz, escala de tonos, control de tono, precisión de fonemas, encadenamiento de varios fonemas, contraste de dos fonemas, contraste de cuatro fonemas, estructuración de tono e intensidad y estructuración de espectros. Además, SpeechViewer III facilita el seguimiento de los pacientes, a través de una base de documentación en la que es posible establecer listas de pacientes de los terapeutas, almacenar notas, resultados de los ejercicios y patrones de habla de los pacientes. Existe sistemas informáticos más completos que incluyen todos los aspecto descritos como los desarrollados por la división UCL Speech Hearing and Phonetic Science [19], de la University College London, la cual es reconocida internacionalmente por su investigación de excelencia en la percepción y producción del habla. En su web dispone de múltiples aplicaciones de libre distribución las cuales permite un sencillo pero completo estudio de la señal de voz. Por medio de estas herramientas es posible realizar la grabación de señales de voz, el estudio cualitativo de la señales por medio de representaciones temporales, espectrales (espectro y espectrograma) y cepstrales. Es posible identificar los formantes y estimar las frecuencias de vibraciones de las cuerdas vocales. Es posible visualizar en tiempo real el espectrograma, periodograma y el pitch. Además permite calcular las principales medidas de la señales de voz como jitter y shimmer. También existen herramientas para la simulación dinámica del comportamiento del sistema fonador y del oído. Otro ejemplo es VISHA [20] el cual es un sistema desarrollado en la Universidad Politécnica de Madrid. Consta de un conjunto de componentes hardware que deben instalarse en el ordenador, y un conjunto de programas de software que permiten el análisis de los parámetros del habla, la síntesis y codificación visual de la señal acústica y el reconocimiento de los sonidos. Es un sistema orientado a la logopedia en los procesos de rehabilitación y al estudio del habla. El software incluye diferentes programas como el PCVOX el cual permite almacenar la voz para su posterior estudio mediante la representación visual de sus parámetros más representativos, el ISOTON que permite visualizar en tiempo real las características de la emisión sonora mediante los parámetros de intensidad, tono y sonoridad, también incluye una serie de juegos orientados a la rehabilitación logopé- ISBN: 84-695-8101-5 55 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 dica en los que se trabaja la entonación, el ritmo, las pausas, la intensidad, etc., el SAS el cual es un programa concebido para el entrenamiento articulatorio de las vocales en personas que presentan trastornos del habla y el PC AUDIOMETRIAS mediante el cual se pueden realizar audiometrías. Por último existen sistemas más complejos en el que además de lo ya visto añaden otro tipo de señales como pueden ser la electroglotografía e imágenes laringoscópicas. Un buen ejemplo es Dr Speech [21], desarrollado por Tiger Electronic, y orientado al análisis y rehabilitación de voces patológicas. El software ha sido desarrollado principalmente para ser utilizado en entornos profesionales, especialmente en el sector sanitario. Dr. Speech da la posibilidad de realizar un estudio continuado de la evolución de la voz patológica. Contiene un sencillo entorno de trabajo de manera que el especialista pueda anotar cada una de sus impresiones sobre el paciente, quedando su historial almacenado en una base de datos de pacientes. Dr. Speech parametriza la voz de manera que se puedan comparar distintas voces o se pueda evaluar la evolución a lo largo del tiempo. Permite analizar el pitch mediante visualizaciones del espectrograma. También da la posibilidad de realizar un análisis electroglotográfico. El programa se completa con ejercicios para la rehabilitación vocal y con un generador de ondas y un sintetizador vocal. Dr. Speech también permite la adquisición, tratamiento y análisis clínico de desordenes en la resonancia nasal, esto es posible mediante la herramienta Nasal View, integrada en Dr. Speech. El análisis se facilita realizando medidas y gráficos que muestran la hipernasabilidad y las emisiones nasales. Igualmente otro ejemplo es MediVoz [22], desarrollado en la Universidad Politécnica de Madrid, y orientado a facilitar el trabajo de médicos especialistas en el área de la detección y tratamiento de las patologías laríngeas. MediVoz aúna en un sólo producto el estudio de las tres técnicas normalmente empleadas para el diagnostico de este tipo de patologías: observación de las cuerdas vocales mediante laringoscopio, audición del paciente y análisis acústico de la voz. MediVoz permite la grabación simultánea de la señal de voz del paciente, de la señal de electroglotografía (EGG), y del registro de vídeo tomado con técnicas de endoscopia [23][24]. Igualmente permite editar conjuntamente estas tres señales para seleccionar los segmentos del registro más útiles para el diagnóstico. Toda la información multimedia (voz, vídeo y EGG) de cada paciente es almacenada en una base de datos relacional junto con la información de anamnesis del paciente. En este trabajo se propone una alternativa a los sistemas informáticos descritos. Se presenta un sistema informático que evalúa vía web de forma objetiva la calidad clínica de la voz de un locutor a partir de la grabación de una fonación sostenida de una vocal. Este sistema mide, de forma objetiva, cuatro aspectos de la calidad de la voz: la estabilidad de la voz, la riqueza espectral, la presencia de ruido y las irregularidades en las masas. Para ello asigna un valor a cada una de los diferentes aspectos que caracterizan la calidad de la voz, donde además se han identificado los rangos de normalidad. 56 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 4 Conclusiones En este trabajo hemos presentando, en el contexto de la evaluación clínica de la voz a partir de una grabación, las diferentes herramientas software que permiten evaluar la calidad de la voz de forma cualitativa. Sin embargo, esta tarea no está exenta de interpretación y de la necesidad de un conocimiento amplio de las características de la señal de voz en los diferentes dominios de representación. Como alternativa se presenta una simple y robusta herramienta web que permite documentar la calidad de voz, cuantificando objetivamente y de forma automática cuatro fenómenos físicos que permiten realizar una medición de la calidad de la voz. Como resultado, es posible obtener una correlación entre el valor numérico de la medida y el fenómeno físico que cuantifica, permitiendo detectar desviaciones respecto de sus márgenes de normalidad, donde cualquier voz de calidad anormal presenta una desviación respecto al patrón de normalidad de al menos una de las cuatro características. Un prototipo de esta herramienta ha sido evaluado en un estudio clínico, obteniéndose como resultado una alta correlación entre la presencia de una patología laríngea y el etiquetado de al menos de una de los cuatro fenómenos físicos cuantificables fuera del rango de normalidad. En trabajos de laboratorio anteriores hemos demostrado que la herramienta es estadísticamente significativa en la discriminación entre muestras de voces sanas y con patologías laríngeas, y con el estudio clínico hemos demostrado que la herramienta es clínicamente relevante en la evaluación y documentación de pacientes con patologías laríngeas. La cuantificación objetiva de la calidad de la voz permite realizar funciones de screening de disfonías que pueden mostrarse útiles en atención primaria, incluso en situaciones en las que el locutor no se encuentra presente como es el caso de la telemedicina, así como valorar resultados del tratamiento de las mismas en el entorno especializado. 5 Referencias 1. Hirano, M.; Clinical Examination of Voice. New York, Springer-Verlag, 1981 2. Dejonckere, P. H.; Remacle, M.; Fresnel-Elbaz, E.; Woisard, V.; Crevier-Buchman, L.; Millet, B.; “Differentiated perceptual evaluation of pathological voice quality: reliability and correlations with acoustic measurements”. Revue de Laryngologie Otologie Rhinologie, 1996; 117 (2):219-224. 3. Hammarberg, B.; Gauffin, J.; ”Perceptual and acoustic characteristics of quality differences in pathological voices as related to physiological aspects”, O. Fujimura & M.Hirano (eds.), Vocal Fold Physiology, 1995; 283-303. 4. Laver, J.; The Gift of Speech. Edinburgh University Press, 1991 5. The National Center for Voice and Speech.Disponible en: www.ncvs.org 6. Elisabeth Zetterholm, “Auditory and Acoustic Analysis of Voice Quality Variations in Normal Voices”, Proceedings of the XIVth International Congress of Phonetic Sciences, ICPhS-99, 1999; 973-976. 7. Kay Elemetrics Corporation.. Disorder Voice Database Model 4337. Massachusetts Eye and Ear Infirmary Voice and Speech Lab, Boston, MA. 1994 ISBN: 84-695-8101-5 57 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 8. Godino-Llorente, J.; "On the selection of meaningful speech parameters used by a pathologic/non pathologic voice register classifier". Sixth European Conference on Speech Communication and Technology (EUROSPEECH'99). 1999;563-566. 9. Godino-Llorente, J.I.; Aguilera-Navarro, S.; Gomez-Vilda, P.;. "Non supervised neural net applied to the detection of voice impairment". Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP '00. 2000; 6:3594-3597. 10. Godino-Llorente, J.; Aguilera-Navarro, S.; Gómez-Vilda, P.; "Automatic detection of voice impairments due to vocal misuse by means of gaussian mixture models". Procedings of the 23rd Annual EMBS International conference. 2001; 1723-1726. 11. Jo, C.; Kim, K.; Kim, D.; Wang, S.; "Screening of Pathological Voice from ARS using Neural Network". International Workshop on MAVEBA. 2001; 13-15. 12. Alonso, J.B.;de León ,J.; Alonso, I.; Ferrer, M.A.; "Automatic Detection of pathologies in the voice by Hos based parameters". Eurasip journal on Applied signal processing. 2001; 2001( 4):275-284. 13. Sun, X.; "Pitch determination and voice quality analysis using subharmonic-to-harmonic ratio". IEEE International Conference on Acoustics, Speech, and Signal Processing. 2002; 1: 333-336 14. GW Instruments, Inc., http://www.gwinst.com/macsftwr/html/sos_summary.html, [visitado 17/06/2012]. 15. Paul Boersma and David Weenink, Capacity Group Linguistics, Department of Language and Literature, Faculty of Humanities, University of Amsterdam, http://www.fon.hum.uva.nl/praat/, [visitado 17/06/2012]. 16. Paul Boersma and David Weenink; “Praat, a system for doing phonetics by computer, version 3.4.”, Institute of Phonetic Sciences of the University of Amsterdam, Report 132, (1996) pp1- 182 17. KayPENTAX, http://www.kayelemetrics.com, [visitado 17/06/2012]. 18. IBM Corporation, ftp://service.boulder.ibm.com/sns/spv3/spv3supt.htm, [visitado 17/06/2012]. 19. UCL Speech Hearing and Phonetic Science, University College London, http://www.phon.ucl.ac.uk/resource/software.php, [visitado 17/06/2012]. 20. Aguilera, S.; Pescador F.; Godino J.I.; Novillo, A.; “Improvement of a Spanish Speech Processing System”, Advancement of Assistive Technology, G. Anogianakis et al., IOS Press, 1997 21. Dr. Speech home page, http://www.drspeech.com, [visitado 17/06/2012]. 22. MediVoz web, http://www.byo.ics.upm.es/medivoz, [visitado 17/06/2012]. 23. Godino-Llorente, J.I.; Sáenz-Lechón, N.; Osma-Ruiz, V.; Aguilera-Navarro, S.; “An integrated tool for the diagnosis of voice disorders”, Medical Engineering & Physics 28, (2006) 276-289 24. Godino-Llorente, J.I.; Osma-Ruiz, V.; Sáenz-Lechón, N.; Cobeta-Marco, I.; GonzalezHerranz, R.; Ramirez-Calvo, C.; “Acoustic Analysis of voice using WPCVox: a comparative stydy with Multi Dimensional Voice Program”, European Archives of Oto-RhinoLaryngology, 265:4 (2008), 465-476 58 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Neurological Disorders Analysis Using the Speech Signal Processing Jiri Mekyska Signal Processing Laboratory (SPLab) Department of Telecommunications Faculty of Electrical Engineering and Communication Brno University of Technology Technicka 12, 612 00 Brno Czech Republic Abstract. Speech signal processing is one of the popular non-invasive techniques of neurological disorders analysis. People with diseases like Parkinson’s disease, Alzheimer’s disease or schizophrenia have different speech dysfunctions. A possibility to objectively quantify these dysfunctions is a step for a better and more efficient diagnosis. The aim of this lecture is to describe the whole process of neurological disorders analysis using speech signal processing. There will be described the most common speech dysfunctions, suitable speech tasks, local speech features (basic features, non-linear dynamic features, features based on empirical mode decomposition EMD), global speech features (description of tongue movement), high-level speech features (some statistics), different approaches of feature selection and possible applications of these techniques in a medical and pharmaceutical industry. ISBN: 84-695-8101-5 59 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Analysis of Spontaneous Speech and Emotional Response oriented to Alzheimer's Disease Diagnosis K. Lopez-de-Ipiña1, J.B. Alonso2, J. Solé-Casals3, N.Barroso1, P.Henriquez2, M. Faundez-Zanuy4, C. Travieso2, M. Ecay-Torres5, P.Martinez-Lage5, U. Martinez-deLizardui1, H. Egiraun1 5, A. Ezeiza1 1 System Engineering and Automation Department, University of the Basque Country, Donostia 20008, Spain, {karmele.ipina, nora.barroso, unai.martinezdelizarduy, harkaiz.egiraun, aitzol.ezeiza}@ehu.es 2 Universidad de Las Palmas de Gran Canaria, IDeTIC, {jalonso,ctravieso,phernandez}@dsc.ulpgc.es 3 4 Digital Technologies Group. University of Vic, [email protected] Escola Universitaria Politècnica de Mataró (UPC), Tecnocampus , [email protected] 5 Research Center for Experimental Marine Biology and Biotechnology, Plentzia Marine Station, University of the Basque Country, Plentzia, Spain Abstract. Alzheimer’s disease is the most prevalent form of progressive degenerative dementia; it has a high socio-economic impact in Western countries. Therefore it is one of the most active research areas today. Alzheimer's is sometimes diagnosed by excluding other dementias, and definitive confirmation is only obtained through a post-mortem study of the brain tissue of the patient. The work presented here is part of a larger study that aims to identify novel technologies and biomarkers for early Alzheimer disease detection, and it focuses on evaluating the suitability of a new approach for early diagnosis of Alzheimer’s disease by non-invasive methods. The purpose is to examine, in a pilot study, the potential of applying Machine Learning algorithms to speech features obtained from suspected Alzheimer sufferers in order help diagnose this disease. Two human capabilities relevant in communication have been analyzed for feature selection: Spontaneous Speech and Emotional Response. A novel parameter is used Emotional Temperature. The experimental results obtained were very satisfactory and promising for the early diagnosis and classification of Alzheimer’s disease patients. 60 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Characterization of Speech in Amyotrophic Lateral Sclerosis by Neuromorphic Processing Pedro Gómez-Vilda1, Ana Rita M. Londral2, Mamede de Carvalho2, José Manuel Ferrández-Vicente3, Victoria Rodellar-Biarge1 1 NeuVox Laboratory, Center for Biomedical Technology, Universidad Politécnica de Madrid, Campus de Montegancedo, s/n, 28223 Pozuelo de Alarcón, Madrid, Spain 2 Instituto de Medicina Molecular, Faculty of Medicine, University of Lisbon, Lisbon, Portugal 3 Universidad Politécnica de Cartagena, Campus Universitario Muralla del Mar, Pza. Hospital 1, 30202 Cartagena, Spain e-mail: [email protected] Abstract. Amyotrophic Lateral Sclerosis is a severe disease, which dramatically reduces the speech communication skills of patients as disease progresses. The present study is devoted to define accurate and objective estimates to characterize the loss of communication skills, to help clinicians and therapists in monitoring disease progression and in deciding on rehabilitation interventions. The methodology proposed is based on the perceptual (neuromorphic) definition of speech dynamics, concentrated in vowel sounds in character and duration. We present the results from a longitudinal study carried out in an ALS patient during one year. Discussion addresses future actions. Keywords: Neuromorphic speech processing, amyotrophic lateral sclerosis, speech production, speech perception. 1 Introduction The detection and characterization of vowel spaces is of most importance in many applications, as in pathological characterization of speech, accordingly the present work will investigate inter-vowel space detection and characterization in amyotrophic lateral sclerosis (ALS) by neuromorphic methods. ALS is a very severe and rapidly progressive neuromuscular disease of unclear origin [1] and with treatment able to halt progression. This disorder is characterized by degeneration of upper and lower motor neurons, causing generalized muscle weakness and atrophy, with death occurring, in general, between 2-5 years after disease onset, due to complications related to respiratory muscles involvement. One of the most dramatic symptoms is the progressive limitation of speech production, resulting from deterioration of the complex neuromuscular system involved in respiration, phonation, swallowing and lingual and oro-facial muscle function. This process degenerates in a specific kind of dysarthria characterized by hypernasality, reduced speech rhythm, vowel intelligibility degradation, loss of consonantal dynamics, reduced and prolonged number of inter-phonation intervals and pitch dysprosody. The patient experiences a loss of oral communication capability, usually characterized by a reduction of intelligibility and speech rate [2], which may lead to social isolation and depression. The present paper is intended to explore some of the most perceivable features among the ones described above, with the aim of helping the early detection of speech limitation, as well as to provide the speech therapist with objective tools to evaluate patients over disease progression in order to optimize exercising techniques to manage patients. Among the different numbers of speech changes mentioned above, the paper concentrates in the description of vowel colour and count as possible markers of ALS dysarthria, as well on the number and duration of inter-phonation intervals. In doing so, an important definition has to be established, which is the nature and characteristics of vowel sounds. This is not a trivial task as vowels may be defined under the acoustic-phonetic or phonologic point of view [3]. In such task, perceptual concepts of vowel production and perception may be of great help. In this study, vowels will be characterized by the following descriptors: phonation must be present (i.e. a glottal source excitation of the vocal tract must be detected), strong and narrow formant descriptors must be evident, stability in the formants has to be maintained under a certain criterion, and a mapping in the vowel triangle of the patient may be attributed to a certain phonologic attractor or vowel representation space. The paper is organized as follows: A neuromorphic description of the phonation and articulation processes is given in section 2, to easy the understanding of the underlying neuromotor mechanisms involved; a brief description of vowel nature, based in formant characteristics and dynamics, ISBN: 84-695-8101-5 61 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 is given in section 3; in section 4, the metrics used to characterize the articulation in dysarthria is presented, and the case study is described; section 5 presents the results, which are illustrated graphically and briefly discussed; finally, conclusions are presented in section 6. 2 Neuro-Physiological Speech and Phonation Model Speech production is planned and instantiated in the linguistic neuromotor cortex (see Fig. 1). The neuromotor activation sequence involved in speech production is transmitted to the pharynx (2), tongue (3), larynx (4), chest and diaphragm (5) through the brainstem motor neuons. Fine muscular control is provided by a sophisticated feedback control system (6). A large number of cranial nerves are involved in motor controls of relevant muscles, including the facial, hypoglossus, glosopharyngeal and vagus nerves, innervating the facial muscles, the tongue and, in particular, the following muscles: levator veli palatini, palatoglosus and palatopharyngeous (2), which are critical for the naso-pharyngeal switch. These latter structures play a most relevant role in nasalization (hyper-, hypo- and modal). The superior, middle and inferior pharyngeal constrictors, and stylopharyngeous (3) muscles found in the mid-pharynx, are responsible for the swallowing function as well as of changes in the vocal tract during speech articulation. The cricothyroid, transverse and oblique arytenoid, as well as the posterior cricoarytenoid (4) muscles in the larynx are responsible for vocal fold stretching, adduction and abduction by acting on the cricoarytenoid joint as well as in raising and lowering the cricothyroid cartilage. The vagus nerve (5) is responsible for filling and depleting the lung cavity with air by contraction and relaxation of the crural diaphragm. Most of the muscles in the tongue, responsible of articulation gestures are innervated by the hypoglosal nerve (CN XII). Other muscle-nerve systems of interest in speech are the buccal and mental nerves, derived from the facial nerves. Any alteration in the functionality of these structures will produce perturbations in respiration, phonation and articulation, giving place to specific dysarthrias [4, 5] which may be characterized by the F2 vs. F1 positions in time [3]. Fig. 1 Simplified view of main neural pathways involved in the production of phonation and speech articulation. N: nasal cavity, V: velum, P: palate, A: alveoli, L: lips, T: teeth, G: tongue. 3 Neuromorphic characterization of speech Vowels may be formally defined as applications between the space of acoustic representations at the cortical level to the set of perceptual symbols defined as vowels at the phonologic or linguistic level [3]. The acoustic-phonetic nature of these patterns is based on the association of the two first resonances of 62 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 the Vocal Tract, which are referred to as 'formants', and described as F1 and F2. F1 in the range of 200-800 Hz is the lowest, F2 sweeps a wider range, from 500 to 3000 Hz. Under this point of view the nature of vowels may be described by formant stability during a time interval larger than 30 ms, and relative position in the F2 vs F1 space, in which is called the 'Vowel Triangle' (see Fig. 2). The characterization of vowels by neuromorphic speech processing requires the identification of formants as the basic instantiations to develop further knowledge. Formants are specific resonances of the articulation organs (vocal and nasal tracts, and pharyngeal cavities). Neuromorphic processing refers to processing methods directly inspired in neuronal activity (Hebbian structures) [6, 7]. The main processes mimicking the neuronal activity are lateral inhibition formant profiling, tonotopic frequency band tracking, vowel representation space grouping by space-frequency neuromorphic density functions, vowel assignment by mutual exclusion, and vowel temporal clipping, among others. Fig. 2 Reference Vowel Triangle used in the present study. The vowel set {i, e, a, o, u} in full circles is referred as the cardinal set. The vowel set in dash circles may have different phonological assignments in different languages. A full description of these processes can be found in [3]. The specific procedures implemented in this study are the following: 1. 2. 3. 4. 5. 6. 7. 8. The speech trace is processed by an adaptive lattice gradient filter to obtain the inverse vocal tract transfer function. A spectrogram is evaluated from the coefficients of the inverse vocal tract transfer function. Formants are estimated from the maxima of the spectrogram by lateral inhibition. Speech activity and phonation activity are estimated by the umbralization of speech and glottal residual energy. The first two formants are tracked using space-frequency density functions. Vowel representation spaces are used in detecting vowel presence by formant pair associations. Vowel assignments by mutual exclusion determine the most probable vowel uttered. Vowel limits in time are delimited by characteristic-frequency overlapping. Speech may be described as a time-running acoustic succession of events (or phonetic sequence, see Fig. 3.a) [8]. Each event is associated with an oversimplified phonation paradigm composed of vowels, and non-vowels. Non-vowel sounds are characterized by unstable formants (dynamic), by not having a representation inside the vowel triangle, or by lacking a neat F2 vs. F1 pattern. The International Phonetic Alphabet (IPA) [9] has been used, with symbols between square brackets [a] and bars /a/ are phonemes (acoustic representations) and phonologic representations, respectively. Formants are characterized in this spectrogram (middle template) by darker energy envelope peaks. What can be observed in the figure is that the vowels and vowel-like sounds correspond to stable positions of the formants. ISBN: 84-695-8101-5 63 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 a) b) c) d) Fig. 3 a) time series of the utterance in Portuguese "tudo vale a pena quando a alma não é pequena" ([tʊδʊɥɑɭɐ_pInæ˜_kwændʊaaɭmɐnɐ˜ε˜_pkenæ˜]) uttered by a female control speaker. b) Adaptive Lineal Prediction Spectrogram (grey background) and first two formants (superimposed in color). The color dots mark the positions of each pair {F1,F2} from green (the oldest) to red (the most recent). The approximate phonetic labeling is given as a reference. c) Formant plot of F2 vs F1. d) Same plot as a Formant Chart commonly used in Linguistics. The blue triangle and circles give the limit positions of the five cardinal vowels {/i/, /e/, /a/, /o/, /u/} (for a typical male speaker in blue, female in melba). These plots show the formant trajectories of the utterance. There is color correspondence between the bottom and middle templates to track formant trajectories on the time axis. 4 Materials and Methods The present study has a marked exploratory nature. Early work on formant descriptions in ALS related dysarthria has a long history [10]. Nevertheless, objective characterization of these articulation abnormalities by using objective representations on the vowel triangle is not frequently found. The study will concentrate in producing sequences of positions on the vowel triangle F2 vs. F1 corresponding to pairs {F1(n), F2(n)}, where n is the discrete time index, as given in Fig. 3 (c and d). The more stable a vowel will be the more points will be found in a given area of the vowel triangle in time. A measurement of the vowel triangle extension covered by a given sentence or utterance may be produced in terms of the distribution of pairs {F1, F2} in that specific area. Therefore the following landmarks of the vowel triangle will be defined { } θ θ VLL = {q1 , q2 }; VMR = {q1θ , qθ2 }; CMM = {q1θ , qθ2 } VUL = q1θ1 , qθ2 3 ; 1 1 3 2 2 (1) 2 where VUL, VLL, VMR and VMM are respectively the uper left, lower left and mid right vertices of the vowel triangle, and CMM is the median centre of the triangle, defined in terms of the generic quantiles ∞ ∫ γ i (ν )dν } θ ν = q i θ <θ qi = arg ∞ γ (ν )dν } −∫∞ i 64 (2) ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 where γi(ν) is the probability distribution of the formant i in frequency ν, and θ is the specific quantile threshold (for instance θ=0.03 would correspond to a 3% quantile). In the present study the following definitions apply: θ1=0.03, θ2=0.5 and θ3=0.97. Using these definitions the virtual centroid of the vowel triangle would be defined as qθ1 + q1θ 3 qθ21 + qθ2 3 Cv = 1 , 2 2 (3) whereas the median centroid of the vowel triangle would be { C m = q1θ 2 , qθ2 2 } (4) The asymmetry coefficient would be the difference between the median and the virtual centroids, which may be expressed in module and argument as 2 2 2q θ 2 2q θ2 2 1 M A = θ − 1 − 1 + θ q 1 + q θ3 q 1 + q θ 3 1 1 2 2 2q θ 2 − q θ21 + q θ2 3 ϕ A = arctan θ2 2q 2 − q θ1 + q θ 3 1 1 1 12 (5) Given the exploratory character of the present study, a case study of a woman affected with ALS has been used in contrast to a control healthy woman. The case study consisted in five recordings from the patient taken at specific 3-month intervals, these being referred to as HA_T0 (November 2011), HA_T1 (January 2012), HA_T2 (March 2012), HA_T3 (July 2012) and HA_T4 (October 2012). HA_T2 had to be rejected after voice quality analysis later and was not used in the present acoustic study. In all cases the recordings contained utterances of the sentence /tudo vale a pena quando a alma não é pequena/ in Portuguese. Baseline data (HA_T0) was recorded in initial stage of disease progression, when clinical evaluation (ALSFRS [10]) indicated a high score in bulbar related functions. The results of the study conducted on these recordings are given in the next section. 5 Results and Discussion The descriptions of the vowel triangle for each utterance produced were obtained and compared. For the sake of brevity only the first and last plots compared against the control subject are given in Fig. 4. It may be seen that the distribution of the control subject stresses the main patterns and trajectories of the target sentence. The first utterance of the ALS patient (HA_T0) stresses the differences in the vocalic space between [ʊ] and [a], but fails in weighting the respective distribution of each vowel group. The last utterance (HA_T4) is clearly unbalanced towards [a], with most of the vowels improperly articulated as [æ]. The plots in Fig. 5 help in establishing a better comparison among the different vowel triangles and to derive resolving conclusions. ISBN: 84-695-8101-5 65 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 a) [a] [ʊ] b) [ʊ] Fig. 4 [æ] c) [a] Positions of f1 vs f2 on the vowel triangle. The 3% quartiles are given in red circles. The median centre is given as a red diamond. a) Control female. The main vowel positions are for [ʊ] (in melba) and [a] (in green). The formant trajectories are well organized and separate. The frequency span is large both for f1 and f2. b) HA_T0. The vowel space is much more confuse, there are not clear vowel trajectories, but the [ʊ] and [a] are still differentiated . The frequency span is still wide, but it shrinks in f2. The median centre is slightly tilted to the left. c) HA_T4. VT Evolution Second Formant F2 (Hz) 3000 2500 2000 ContFemale 1500 HA_T0 1000 HA_T1 HA_T3 500 HA_T4 0 0 200 400 600 800 1000 1200 First Formant F1 (Hz) Fig. 5 The approximate vowel triangles derived from the utterances from the control subject (ContFemale), and the ALS patient in four different sessions chronologically ordered from less severity to most severity (HA_T0, HA_T1, HA_T3 and HA_T4) are compared among themselves. It may be seen that the vowel triangle for HA_T0 is slightly narrower in f2 but larger in f1 than the control one. HA_T1 shrinks clearly with respect to HA_T0. The same happens with HA_T3 and HA_T4 with respect to HA_T1, although there is not a clear change between themselves. The progressive degradation of the vowel triangle can be clearly perceived, with strong differences between the results for HA_T0 (still comparable with the control subject) and the three last utterances. This indicates that a strong decay in articulatory ability of the patient took place from November 2011 to January 2012. These results are summarized in Table 1. 66 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Table 1. Asymmetry measurements for the vowel triangles studied Cv1 (Hz) Cv2 (Hz) Cm1 (Hz) Cm2 (Hz) MaleRef 445 1578 406 1507 FemaleRef 570 1828 523 1656 ContFemale 601 2000 695 1555 HA_T0 640 1734 539 1523 HA_T1 586 1578 578 1531 HA_T3 640 1578 648 1539 HA_T4 578 1656 664 1726 MA φA (deg.) 0,099 -152.9 0,125 -131.1 0,272 -55.0 0,200 -142.3 0,033 -113.4 0,027 -63.4 0,154 15.7 VSA FCR 141910 1,15 240230 1,07 456300 0,93 361240 1.02 147190 1.29 90637 1.42 105740 1.43 The most interesting fact to be stressed is that the angle of the normalized asymmetry coefficient swings from the third to the first quadrant in a progressive succession. This means that the orientation of the vowel median centroids is evolving from a more balanced situation to a tendency marked by vowel [æ]. The two last columns in the table give the Vowel Space Area (VSA) and the Formant Centralization Ratio (FCR) evaluated following [12, 13] as a further reference. It may be seen that the FCR gives also an indication of the anomalous articulation function. The respective values of the asymmetry modulus and phase (Relative Centre Displacement) are given also in Fig. 6. It may be seen from the plot that the cases show a progression from the third quadrant to the first one, with a transit through the fourth quadrant. This is an objective measurement expressing the migration of the articulation center of gravity towards the position of an open mid vowel as [æ]. Asymmetry Coefficient 0,06 Vertical Asymmetry 0,04 -0,2 0,02 -0,15 -0,1 0 -0,05 -0,02 0 0,05 0,1 0,15 0,2 HA_T0 -0,04 HA_T1 -0,06 HA_T3 -0,08 -0,1 HA_T4 -0,12 -0,14 Horizontal Asymmetry Fig. 6 The asymmetry coefficient is the normalized distance between the triangle base and height midpoint intersection and the median center. This relative displacement is plotted in module and angle for four progressive ALS stages from the same patient (HA_T0, HA_T1, HA_T2 and HA_T3). The last part of the results presented is the study of vowel and stop interval durations. To produce such results vowels are detected using a coincidence function between the first and second formant CF neuron firings [3], as these units are activated when a formant is relatively unchanged for a certain interval. Coinciding quasi-stable formants are an indication of vowel presence, independently of its nature. The results for the target sentence from the control and the first and last ALS patient utterances are given in Fig. 7. ISBN: 84-695-8101-5 67 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 a) b) c) Fig. 7 Vowel-Consonant Dynamics. The green line delimits vowel intervals corresponding to the high level, whereas the low level corresponds to silence or unstable formants (consonant patterns). The long intervals are associated to vowel patterns, the short intervals correspond to brief and unstable vowels near consonantal groups. a) Control female. Stable vowel groups are 200-300 ms long. Short unstable vowels around 50 ms may be observed near plosive groups [p-] and [kw-]. Vowel formants take different configurations. b). HA_T0. The number of long vowel groups is smaller, the number of short vowel groups is larger. Formant patterns deteriorate. c) HA_T4. Larger vowel groups may be appreciated again for the first part of the sentence, but formant patterns are much deteriorated pointing to the positions for [æ]. The number of silences is shorter and larger, the length of the sentence is more than twice longer than in (a). The presence of vowel groups are divided in three categories: larger than 150 ms, between 50 and 150 ms, and smaller than 50 ms. Classically regular vowels would be included in the second category. The first category may be associated with an impaired articulation. The presence of the third category is associated with dynamic transitions between stable vowel positions, and its reduction can be also associated with impaired articulation. Silences can be also classified according to the same principles. Intervals longer than 150 ms can be associated with phrase splits, less than 150 ms with plosive consonants. The account of the different vowel and silence intervals for the three cases presented in Fig. 7 are listed in Table 2. Table 2. Vowel group duration and stop and silence intervals ContFemale HA_T0 HA_T4 Long Vowels (L > 150 ms) 4 5 6 Short Vowels (50<L<150 ms) 3 4 5 Short Dyn Groups (L<50 ms) 6 12 5 Stops (50<L<150 ms) 2 3 1 Silences (L > 150 ms) 4 4 2 In general it may be observed that the number of longer vowel groups is larger in pathological speech than in normal speech. It may be seen also that the duration of the utterance is much larger as pathology expresses its severity. 68 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 6 Conclusions The results of the study avail some of the preliminary goals formulated in section 1, consisting in producing objective measurements of speech degradation phenomena which may be perceived by the expert listener or the speech therapist: increased hypernasality, reduced speech rhythm, reduction of vowel intelligibility, loss of consonantal dynamics, reduced and prolonged number of inter-phonation intervals and pitch dysprosody, among others. Due to the limitations of the present study only rhythm, duration and intelligibility of vowels have been studied using neuromorphic detection of formant dynamics to establish the presence and nature of produced vowels. The most important findings established in this sense as illness progresses are the following: • • • • • • The utterance of the same sentence is produced in a longer interval. The duration of vowels in syllabic nuclei are also extended. The number of inter-phrasal intervals is reduced, but its duration is extended. The number of pre-stop silence intervals is reduced. As a consequence stop consonants are lost. The vowel triangle shrinks, especially in F2. The vowel triangle centroids evolve towards [æ]. This last finding needs a further explanation. It is well known from literature [14] that F1 is very much related to the degree of opening of the vocal tract ([i] and [u] corresponding to the more closed extremes, whereas [a] gives the more open extreme), whereas F2 is more related to the articulation position (where [u] is considered a back vowel whereas [i] is a frontal, and [a] would be a middle vowel). Thus forcing frontal or rear vowels would imply the operation of the hypoglossal and facial (mental) neuromotor systems which need not be active in the neutral mid position open vowel given by [æ]. Under severely impaired neuromuscular activity this would be the only articulatory position and the relative colouring of the different vowels would be fused towards this final position. Other vowels nearby the lower vertex of Fig. 2 could also be plausible solutions to an impaired articulatory situation. There are other aspects of ALS dysarthric speech which have not been checked in the present study, as estimating the degree of hypernasality due to the failure of the levator veli palatini, palatoglosus and palatopharyngeous neuromuscular structures acting on the naso-pharyngeal switch, as these would require a spectral detector to model the zeroes in the vocal and nasal tract anti-resonances. Consonantal dynamics could also be traced using neuromorphic speech processing [7]. Dysprosody could also be characterized using wellknown pitch tracking methods. These tasks are left for future research. Another important task to be accomplished is the estimation of the biomechanical parameters of phonation in ALS patients, in a similar way used in other neurological pathologies [15], which has not been conducted in this case due to the limitations of the study. Another important task to fulfil in the near future is the collection of a large database containing longitudinal studies as the one described to extend the statistical significance of the findings produced in this study. Acknowledgments. This work is being funded by grants TEC2009-14123-C04-03 and TEC2012-38630C04-04 from Plan Nacional de I+D+i, Ministry of Science and Technology of Spain. References 1. Núñez-Batalla, F., Díaz-Molina, J. P., Costales-Marcos, M., Moreno-Galindo, C., Suárez-Nieto, C.: Neurolaryngology. Acta Otorrinol. Esp. 63 (2012) 132-140. 2. Ball, L. J., Beukelman, D.R. and Pattee, G.L., Timing of speech deterioration in people with amyotrophic lateral sclerosis, Journal of Medical Speech-Language Pathology, 10 (4) (2002), 231–235. 3. Gómez-Vilda, P., Ferrández-Vicente, J. M., and Rodellar-Biarge, V.: Simulating the Phonological Auditory Cortex: From Vowel Representation Spaces to Categories. Neurocomputing (in press, 2012). DOI: http://dx.doi.org/10.1016/j.neucom.2012.07.036 4. Yunusova, Y.: Articulatory Movements During Vowels in Speakers With Dysarthria and Healthy Controls. J. Speech, Lang. and Hear. Res. 51 (2008) 596-611. 5. Bongioanni, P.: Communication Impairment in ALS Patients: Assessment and Treatment. In : Amyotrophic Lateral Sclerosis, Ed.: M. Maurer (2012). Available from: http://www.intechopen.com/books/amyotrophic-lateral-sclerosis 6. Gómez, P., Ferrández, J. M., Rodellar, V., Fernández, R.: Time-frequency Representations in Speech Perception, Neurocomputing 72 (2009) 820-830. ISBN: 84-695-8101-5 69 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 7. Gómez, P., Ferrández, J. M., Rodellar, V., Álvarez, A., Mazaira, L. M., Olalla, R., Muñoz, C.: Neuromorphic detection of speech dynamics, Neurocomputing 74 (2011) 1191-1202. 8. Greenberg, S., Ainsworth, W. H.: Speech processing in the auditory system: an overview, in: W.A.S. Greenberg (Ed.), Speech Processing in the Auditory System (Springer, New York, 2004) 1–62. 9. Available from http://www.arts.gla.ac.uk/IPA/ipachart.html 10. Cedarbaum, J. M., Stambler, N., Malta, E., Fuller, C., Hilt, D., Thurmond, B. and Nakanishi, A.: The ALSFRS-R: a revised ALS functional rating scale that incorporates assessments of respiratory function, BDNF ALS Study Group (Phase III). J Neurol Sci. 169(1-2) (1999) 13-21. 11. Weismer, G., Martin, R., Kent, R. D. and Kent, J. F.: Formant trajectory characteristics of males with amyotrophic lateral sclerosis. J. Acoust. Soc. Am. 91 (1992) 1085-1098. 12. Sapir, S., Ramig, L. O., Spielman, J., Fox, C.: Acoustic Metrics of Vowel Articulation in Parkinson’s Disease: Vowel Space Area (VSA) vs. Vowel Articulation Index (VAI). In: Proc. of MAVEBA11 (Manfredi, C., Ed.). Florence University Press; (2011) 173-175. 13. Sapir, S., Ramig, L. O. and Fox, C.: Formant Centralization Ratio: A proposal for a New Acoustic Measure of Dysarthric Speech. J. Speech, Lang. and Hear. Res. 53 (2010) 114-125. 14. Dromey, C., Jang, G-O. and Hollis, K.: Assessing correlations between lingual movements and formants. Speech Comm. 55 (2013) 315-328. 15. Gómez-Vilda, P., Rodellar-Biarge, V., Nieto-Lluis, V., Muñoz-Mulas, C., Mazaira-Fernández, L. M., RamírezCalvo, C., Fernández-Fernández, M. and Toribio-Díaz, E.: Neurological Disease Detection and Monotoring from Voice Production. LNAI 7015 (2011) 1-8. 70 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Herramienta de creación de base de datos de habla espontanea de pacientes con diagnóstico de Enfermedad de Alzheimer Cayetano Cabrera, Jesús. B. Alonso, Carlos M. Travieso, Miguel A. Ferrer. Instituto para el Desarrollo Tecnológico y la Innovación en Comunicaciones (IDeTIC) Departamento de Señales y Comunicaciones Universidad de Las Palmas de Gran Canaria Campus de Tafira, 35017, Las Palmas de Gran Canaria, España { jalonso, ctravieso, mferrer}@dsc.ulpgc.es, [email protected] Abstract. Una herramienta simple y eficaz para crear bases de datos de habla espontanea de sujetos con Enfermedad de Alzheimer es presentada. Las bases de datos actuales incluyen grabaciones de fonaciones sostenidas de vocales, lectura de textos de test y entrevistas dirigidas por un entrevistador. Esta nueva herramienta propone una solución para crear bases de datos que permitirán un estudio de la enfermedad mejor y con un coste computacional bajo. La ventaja que presenta esta herramienta es su independencia del texto a leer, ya que pide al paciente que recuerde y describa sucesos que han ocurrido recientemente, así como su independencia con respecto al entrevistador, por lo que la obtención de datos depende del paciente y no de la capacidad del entrevistador para obtener los mismos.El uso de esta herramienta abre la puerta a utilizar sistemas automáticos de evaluación, offline y online, de pacientes que presenten esta enfermedad. ISBN: 84-695-8101-5 71 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 1. INTRODUCCIÓN. Para entender mejor la enfermedad del Alzheimer, se hará un pequeño resumen de la neurología y las patologías asociadas más comunes que se dan en esos casos. Según la asociación española de neurología [1], la neurología (del griego clásico neuron, "nervio" y del sufijo logia, "estudio de”) es la especialidad médica que trata los trastornos del sistema nervioso. Específicamente, un neurólogo se ocupa de la prevención, diagnóstico, tratamiento y rehabilitación de todas las enfermedades que involucran al sistema nervioso central, el sistema nervioso periférico y el sistema nervioso autónomo, incluyendo sus envolturas (hueso), vasos sanguíneos y tejidos como los músculos. Las patologías neurológicas pueden clasificarse como: patologías vasculares (apoplejías o hemorragias cerebrales), enfermedades musculares y de la unión neuromuscular (distrofia muscular), polineuropatias, trastornos de los nervios, de las raíces y de los plexos nerviosos (paralisis de Bell, entre otras), trastornos episódicos y paroxísticos (epilepsia, cefalea..), enfermedades desmielinizantes (esclerosis multiple), trastornos extrapiramidales y del movimiento (enfermedad de Parkinson), atrofias sistémicas con afección primaria del sistema (enfermedad de Huntington, ataxia de Friedrich), enfermedades inflamatorias del sistema nervioso central (meningitis, encefalitis), y demencias (enfermedad de Alzheimer, deterioro cognitivo leve(del inglés, mild cognitive impairment, MCI)). Constituyen un conjunto de enfermedades muy frecuentes que afectan tanto a las personas jóvenes como, y de forma muy especial, a las de edad avanzada. Además, pueden llegar a mermar de forma muy grave muchas de nuestras capacidades (el movimiento, la memoria y el pensamiento, el lenguaje, etc.) por lo que sus consecuencias llegan a impedir a muchos de los enfermos realizar incluso las actividades más básicas de la vida diaria: ocasionan muy frecuentemente discapacidad y dependencia. Dentro de las patologías neurológicas, este trabajo se centrará en las demencias, y dentro de ellas, específicamente en la enfermedad de Alzheimer. Según la definición de la Librería Nacional de Medicina (NLM) estadounidense, la enfermedad de Alzheimer (EA, o del inglés, Alzheimer´s Disease, AD) es la forma más común de demencia entre las personas mayores. La demencia es un trastorno cerebral que afecta gravemente la capacidad de una persona de llevar a cabo sus actividades cotidianas [2]. La AD comienza lentamente, afectando primero las partes del cerebro que controlan el pensamiento, la memoria y el lenguaje. Suele comenzar después de los 60 años. El riesgo aumenta a medida que la persona envejece, siendo este mayor si hay antecedentes familiares que han padecido la enfermedad. Ningún tratamiento puede detener la enfermedad. Sin embargo, algunos fármacos pueden ayudar a impedir por un tiempo limitado que los síntomas empeoren. Los síntomas que presenta esta enfermedad suelen ser: Dificultad para recordar sucesos recientes, dificultad para mantener una conversación o repetir las mismas historias una y otra vez, cambios de humor y de personalidad, comportamiento social inadecuado y tener problemas para entender imágenes visuales, entre otras. 72 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Hasta hace poco, la forma más eficiente de diagnóstico de enfermedad de Alzheimer es realizando una autopsia al paciente fallecido. Hoy en dia, es posible realizar un diagnóstico de enfermedad de Alzheimer a los pacientes que lo sufren mediante dos pruebas: exámenes neurológicos e imágenes neurológicas. Los exámenes neurológicos son básicos a la hora de detectar y crear el diagnóstico diferencial de la enfermedad de Alzheimer, así como de las entrevistas a familiares y cuidadores. Además, pruebas adicionales como el análisis de sangre (que sirve para detectar si las causas de la demencia se deben a AD u otras causas) o exámenes ayudan al diagnóstico de la misma. Las imágenes neurológicas, tales como el TAC (Tomografía axial computarizada), RMN (Resonancia magnética nuclear) o TEP (tomografía por emisión de positrones) pueden mostrar signos de la existencia de una demencia, que junto a los anteriores exámenes y la ausencia de un diagnostico alternativo, permiten dar un diagnóstico de AD. El análisis acústico es una técnica no invasiva basada en el procesado digital del habla, que se presenta como una herramienta eficiente de apoyo para el diagnóstico efectivo de trastornos vocales, monitorización de enfermedades vocales y de voz, alteración de las funciones vocales y la evaluación de tratamientos quirúrgicos asi como farmacológicos y rehabilitación. Otra gran ventaja de esta técnica es que puede ser utilizada sin necesidad de tener unos conocimientos especializados elevados, en los entornos habituales de los pacientes sin alterar ni bloquear sus habilidades. El paciente no percibe este tipo de examen como una prueba estresante, y además no se requiere el uso de una gran infraestructura o equipos médicos, por lo que se puede obtener la información del paciente de forma fácil, rápida y barata. El principal problema que se presenta en el caso del estudio por voz de enfermedad de Alzheimer radica en que las bases de datos de las que disponen los investigadores son limitadas y en la mayoría de los casos no se corresponden a pruebas que permitan observar el posible deterioro en la memoria del paciente, como pueda ser una breve conversación o pedir al paciente que recuerde algún suceso reciente. La inhabilidad que el paciente presenta para recordar y describir sucesos o memorias pueden dar lugar a cambios emocionales en el paciente, que pueden ser analizados mediante técnicas de respuesta emocional o ERA (del inglés, Emotional Response Analysis). Por ejemplo, estudios recientes basados en este tipo de análisis, como el presentado por [14], en el que se estudia la temperatura emocional de los datos del paciente, presentan unos porcentajes de acierto elevados. En la literatura, prácticamente todos los acercamientos a la hora de realizar estudios mediante voz de pacientes con EA utilizan la base de datos desarrollada por el Massachusetts Eye and Ear Infirmary Voice and Speechs Lab (MEII) y comercializada por KayElemetrics Disordered Voice Database and Program, Model 4337 [3]. Esta base de datos está formada por más de 1400 muestras (fonaciones sostenidas de la vocal “a”, y 12 segundos de lectura de un texto) de aproximadamente 700 pacientes. Las muestras se obtuvieron en un entorno controlado. La frecuencia de muestreo de las grabaciones fue de 25-50 KHz, con una resolución en las mismas de 16 bits. ISBN: 84-695-8101-5 73 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 De esta forma, los autores [4]-[10] utilizan subconjuntos de la base de datos anteriormente mencionada, con rangos de frecuencia de muestreo entre los 25 y 50 KHz. Otros autores utilizan bases de datos propias. Por ejemplo, en [11] la base de datos la conforman 168 muestras( 100 de control y 68 patológicas), muestreadas a 22.05 KHz y con una precisión de 16 bits; en [12] los autores crearon una base de datos de fonaciones sostenidas de 1200 muestras (900 patologicos, 300 de control) en las que las muestras se tomaron con un frecuencia de muestreo de 16 KHZ y resolución de 16 bits; o el caso de [14], cuya base de datos está compuesta por grabaciones de video de pacientes con AD (20 sujetos, 8 horas) y sujetos de control (50 sujetos, 12 horas). La base de datos de [13] la componen fonaciones sostenidas muestreadas a 8 Khz y remuestreadas a 16 KHz. Tanto en el caso de [13] como de [14], los autores no indicaban datos de resolución ni de tamaño de la base de datos. La herramienta que a continuación se propone permitirá crear una base de datos de grabaciones de habla espontanea de pacientes que presenten síntomas ó la enfermedad de Alzheimer, lo que ayudará a la creación de herramientas de diagnóstico de AD menos dependientes de factores externos, como puede ser la figura del entrevistador, entornos controlados, etc... 2. Método y herramienta. Como se ha visto anteriormente, las bases de datos publicas disponibles son o bien de fonaciones sostenidas o de lectura de textos específicos. Por eso se propone el uso de una herramienta que permita obtener grabaciones de habla espontanea de los pacientes. Una de las posibles herramientas es la que se propone: Una herramienta semiautomatizada que permite que el sujeto patológico pueda comunicarse sin que haya un nivel alto de estrés, y que no depende de la capacidad del entrevistador en el momento de la entrevista. La herramienta se dice semi-automatizada puesto que es necesario introducir los datos del paciente por parte del cuidador o médico del paciente, tras lo cual no se necesita mayor participación del cuidador hasta que la herramienta no termine o se produzca algún fallo durante el proceso (el micrófono no funciona, el paciente habla muy lejos o muy cerca del micrófono, etc…). Los pasos que se utilizan en la herramienta son los siguientes: tras la pantalla de presentación de la herramienta, el cuidador/medico introduce los datos del paciente en la herramienta. Una vez hecho esto, la herramienta se pone en marcha y explica al paciente en que va a consistir la prueba, mediante la reproducción de un video que describe en que va a consistir la prueba que el paciente va a realizar utilizando un lenguaje claro e informal, que ayudará a que el paciente se sienta cómodo y se relaje el tiempo en el que se va a realizar la prueba. Esto es importante, ya que si el paciente percibiera este test como frustrante o incomodo, la realización de la prueba podría resultar tediosa, tanto para el paciente como para el cuidador/medico, lo que daría lugar a la obtención de grabaciones que no nos proporcionarían tanta información como si el paciente estuviese relajado. Acto seguido, el sistema carga un video, y al terminar la reproducción del mismo, pide de forma automática al paciente que describa lo que acaba de ver en el video mediante un mensaje de refuerzo, en el que se pide al paciente su opinión ó 74 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 una descripción del mismo, realizando acto seguido la grabación de la descripción del video del paciente. Este control conversacional que se lleva a cabo usando mensajes de refuerzo intermedios es importante para que el paciente mantenga el interés durante la prueba y que el paciente se encuentre relajado en todo momento. Cada grabación tiene una duración de 1 minuto, con frecuencia de muestreo de 22050 Hz y resolución de 16 bits. Los videos que se usan tienen una duración de, como máximo, 2 minutos. El sistema repite el proceso un mínimo de tres veces hasta obtener 3 grabaciones del paciente. Si el sistema detectase que han ocurrido problemas durante alguna de las grabaciones, muestra un mensaje de error al paciente, explicándole que fallo ha podido pasar, y le pide que vea un nuevo video y que lo describa. Los casos de error que el sistema contempla son: - - No ha habido actividad de voz. Durante la grabación del paciente el sistema no ha detectado que el paciente ha hablado. Puede sucederse debido a problemas en el micrófono o porque el paciente no haya hablado durante la grabación. Si es la primera vez que pasa, el sistema manda un mensaje de refuerzo al paciente y le pide que lo vuelva a intentar. Si no, se pasa a hacer un análisis técnico. El nivel de intensidad de la señal es bajo. Ocurre si el micrófono está muy alejado del paciente durante la grabación, o si el micrófono está desconectado. Además, tras cada correcta grabación del fichero, vuelven a aparecer mensajes de refuerzo que animan al paciente y le relajan, siguiendo las sugerencias indicadas en estudios de control conversacional y en programación neurolingüística. Para poder guardar las grabaciones de los pacientes, se rellenan los campos de la ficha del paciente, donde: Ilustración 1.Plantilla para cumplimentar la información del paciente. ISBN: 84-695-8101-5 75 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Name, Surname, Second Surname.- Se toman las iniciales de nombre y apellidos (Ejemplo: Alberto López Pérez -> FPL) Age.- La edad del paciente Sex.- Se indica el sexo del paciente mediante M (Male, hombre) ó F (Female, mujer) Stage.- Etapa de la enfermedad en la que se encuentra el paciente. Se indica mediante cuatro opciones: MCI (mild cognitive impairment, o deterioro cognitivo leve), AD1 (Alzheimer´s Disease stage 1), AD2 (Alzheimer´s Disease stage 2) y AD3 (Alzheimer´s Disease stage 3). Fecha en la que se realizaron las grabaciones. Con esto, las grabaciones del paciente quedan almacenadas en una carpeta que mantiene la intimidad y protege los datos del paciente. El ejemplo anterior quedaría “NS1S2AASSTADD-MM_AAAA” (N=Nombre, S1=Apellido 1, S2=Apellido 2, AA=Edad, S=Sexo, STA=Etapa de la enfermedad, DD=Dia, MM=Mes, YYYY= Año). En el ejemplo propuesto, el nombre de la carpeta que incluiría los ficheros de las grabaciones del paciente seria: ALP70HDCL28-May-2013 A continuación se detalla el funcionamiento de la herramienta y del análisis técnico mediante diagramas de flujo: 76 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Ilustración 2.Diagrama de flujo de la herramienta. ISBN: 84-695-8101-5 77 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Ilustración 3.Diagrama de flujo del análisis técnico. . 3. Discusión. El principal problema que presentan las bases de datos para estudio de la enfermedad de Alzheimer mediante voz actuales es que, salvo algunas excepciones, consisten en fonaciones sostenidas de vocales, más concretamente de la vocal “a”, o en la grabación del paciente leyendo un texto o frases preestablecidas. Ambos tipos de grabaciones han demostrado ser bastante robustos y sencillos a la hora de trabajar con ellos y estudiar sus características, dando lugar a estudios sobre diagnóstico de Alzheimer por voz con porcentajes de acierto elevados. Otro problema que se deriva de este tipo de bases de datos es que, tanto en las que se da un texto a leer por el paciente como en las fonaciones, se hace en entornos controlados, lo que el paciente percibe como intrusivo, lo que no permite al mismo relajarse durante la entrevista. Además, existe el problema de no conocer si las bases de datos disponibles son de pacientes con AD, o de pacientes con enfermedad de Parkinson, o de alguna otra demencia, o una amalgama de demencias. La ventaja de la herramienta presentada es que prácticamente elimina la necesidad del entrevistador (medico, cuidador, etc...), siendo este necesario a la hora de rellenar la ficha del paciente. Esto permite que la descripción que realiza el paciente en las grabaciones no dependa del estado de ánimo de terceros a la hora de obtener información del paciente. Otra ventaja es que permitiría tener una base de datos de pacientes con AD rigurosa, es decir, que tendríamos la certeza de que todos los pacientes que conforman la base de datos poseen AD. 78 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 4. Conclusiones. Como se ha visto, se ha propuesto el uso de una herramienta propia creada en Matlab, que mediante el uso de video, hace posible el construir una base de datos de voces de sujetos que presentan enfermedad de Alzheimer en distintos grados. Dicha base de datos estará formada por las grabaciones de habla espontanea (al contrario que las opciones que están disponibles públicamente, como son la lectura de textos predeterminados o fonaciones sostenidas de vocales) de los sujetos que presentan dicha patología, lo que facilitara el diagnóstico de la enfermedad y su tratamiento. Además, aplicando algunas modificaciones, esta herramienta podría utilizarse para la creación de bases de datos para otro tipo de enfermedades neurodegenerativas, como por ejemplo la enfermedad de Parkinson. ISBN: 84-695-8101-5 79 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Referencias. [1] ¿Qué es la Neurologia? - www.sen.es/pdf/2010/que_es_la_neurologia.pdf [2] Early Alzheimer´s: Are you worried about memory loss? alzheimer´s disease - http://www.nlm.nih.gov/medlineplus/alzheimersdisease.html [3] Disordered Voice Database and Program, Model 4337 http://www.kayelemetrics.com/index.php?option=com_product&Itemid=3&control ler=product&task=learn_more&cid[]=52 [4] J. Godino-Llorente, P. Gómez-Vilda, N. Sáenz-Lechón, M. Blanco-Velasco, F. Cruz-Roldán, and M. A. Ferrer, "Discriminative methods for the detection of voice disorders," in Proceedings of International Conference on Non-Linear Speech Processing (NOLISP '05), Barcelona, Spain, April 2005. [5] Little, M.A.; McSharry, P.E.; Hunter, E.J.; Spielman, J.; Ramig, L.O., "Suitability of Dysphonia Measurements for Telemonitoring of Parkinson's Disease," Biomedical Engineering, IEEE Transactions on , vol.56, no.4, pp.1015,1022, April 2009 [6] Godino-Llorente, J.I.; Gomez-Vilda, P.; Blanco-Velasco, M., "Dimensionality Reduction of a Pathological Voice Quality Assessment System Based on Gaussian Mixture Models and Short-Term Cepstral Parameters," Biomedical Engineering, IEEE Transactions on , vol.53, no.10, pp.1943,1953, Oct. 2006 [7] Kaleem, Muhammad; Ghoraani, Behnaz; Guergachi, Aziz; Krishnan, Sridhar; “Pathological speech signal analysis and classification using empirical mode decomposition”, http://dx.doi.org/10.1007/s11517-013-1051-8 [8] Dibazar, A.A.; Narayanan, S.; Berger, T.W., "Feature analysis for automatic detection of pathological speech," Engineering in Medicine and Biology, 2002. 24th Annual Conference and the Annual Fall Meeting of the Biomedical Engineering Society EMBS/BMES Conference, 2002. Proceedings of the Second Joint , vol.1, no., pp.182,183 vol.1, 2002 [9] Wenxi Chen; Ce Peng; Zhu, Xin; Baikun Wan; Daming Wei, "SVM-based Identification of Pathological Voices," Engineering in Medicine and Biology Society, 2007. EMBS 2007. 29th Annual International Conference of the IEEE , vol., no., pp.3786,3789, 22-26 Aug. 2007 [10] Jianglin Wang; Cheolwoo Jo, "Vocal Folds Disorder Detection using Pattern Recognition Methods," Engineering in Medicine and Biology Society, 2007. EMBS 2007. 29th Annual International Conference of the IEEE , vol., no., pp.3253,3256, 22-26 Aug. 2007 [11] Jesus B. Alonso , José de Leon , Itziar Alonso , Miguel A. Ferrer, Automatic detection of pathologies in the voice by HOS based parameters, EURASIP Journal on Applied Signal Processing, v.2001 n.4, p.275-284, December 2001 [12] Boyanov, B. and Hadjitodorov, S. 1997. Acoustic analysis of pathological voices. A voice analysis system for the screening of laryngeal diseases. IEEE Engineering in Medicine & Biology Magazine 16:74-82. [13] Martinez, C.E.; Rufiner, H.L., "Acoustic analysis of speech for detection of laryngeal pathologies," Engineering in Medicine and Biology Society, 2000. Proceedings of the 22nd Annual International Conference of the IEEE , vol.3, no., pp.2369,2372 vol.3, 2000 [14] López-de-Ipiña, K.; Alonso, J.-B.; Travieso, C.M.; Solé-Casals, J.; Egiraun, H.; Faundez-Zanuy, M.; Ezeiza, A.; Barroso, N.; Ecay-Torres, M.; Martinez-Lage, P.; Lizardui, U.M. On the Selection of Non-Invasive Methods Based on Speech Analysis Oriented to Automatic Alzheimer Disease Diagnosis. Sensors 2013, 13, 6730-6745. 80 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Aplicaciones en Rehabilitación: Trastornos de la Voz y su Reeducación Maria Soledad García Acosta Médico Rehabilitador y Foniatra Centro ICOT en Gran Canaria Centro Volcano en Lanzarote [email protected] Abstract. Con esta ponencia se pretende plantear una perspectiva integradora y global de las disfonías funcionales principalmente. La voz no es un ente aislado, y si está alterado, puede ser como consecuencia de un desequilibrio del normal funcionamiento de nuestro cuerpo, especialmente, en lo referente a la postura, a la actitud corporal y comunicativa, que tiene que ver mucho con nuestra estática raquídea y donde también interviene factores psíquicos, mentales y emocionales de cada persona. Por este motivo, el enfoque metodológico derivado de una concepción holística del las disfonías , difiere del enfoque sólo centrado en la modificación de conductas “ mejorables”. El enfoque holístico tiene como objetivo lograr la restauración de una emisión vocal saludable a través de la implicación de todo el cuerpo. ( desarrollar mayor grado de propioceptividad ), y para el Médico Foniatra , el reto de aprender más de nuestras estructuras corporales , no solo del aparato fonador. ISBN: 84-695-8101-5 81 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Análisis biométrico aplicado en la evaluación y tratamiento en patología vocal Marcelo J. Rodríguez-Cruz, Amalia Sánchez-López, María Teresa Schüller-Moreno, Pilar Revilla-Rodríguez Centro de Rehabilitación del Lenguaje, Av. De los Toreros. 10, 28028 Madrid, España e-mail: [email protected] Resumen. Parece necesario que el logopeda disponga de un procedimiento no invasivo para el análisis de la eficacia del tratamiento aplicado. Los objetivos de este estudio se orientan, primero a comprobar la validez del software BioMet®Phon como herramienta no invasiva de diagnóstico para la exploración de los trastornos de la voz y segundo a valorar la eficacia del tratamiento logopédico mediante el análisis objetivo de los cambios en la huella biométrica de la onda. Keywords: parámetros biométricos, onda mucosa, evaluación no invasiva de la voz, medidas de eficiencia terapéutica. 1. Introducción El interés por evidenciar la validez (eficiencia) de la terapia vocal ha generado la necesidad de evaluar los cambios producidos en la vibración de los pliegues vocales y en la calidad de la voz, después de aplicar la terapia como medida restaurativa de la función fonatoria. [2][5]. Si bien, la efectividad de herramientas como la laringoestroboscopia y la nasofibroslaringoscopia quedan sobradamente probadas y son imprescindibles para el diagnóstico de los trastornos de la voz [3][4], parece necesario que el logopeda pueda contar con un procedimiento no invasivo, como la Técnica de la Dinámica de la Onda Mucosa [7] para el análisis de la eficacia del tratamiento aplicado. Esta técnica, al analizar la onda glótica, permite orientar una hipótesis diagnóstica acertada, mediante un material de fácil aplicación en la sesión terapéutica y sin molestia alguna para el paciente. Los objetivos de este estudio se orientan, primero a comprobar la validez del software BioMet®Phon como herramienta no invasiva de diagnóstico para la exploración de los trastornos de la voz y segundo, a valorar la eficacia del tratamiento logopédico mediante el análisis objetivo de los cambios en la huella biométrica de la onda. 82 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 2. Materiales y Método Se estudian tres casos de disfonía, en mujeres. Los tres por lesión benigna de pliegue vocal: dos de ellas por nódulos y una por edema. El rango de edad se sitúa entre los 20 y los 47 años; edad media: 34 años y 4 meses, con una desviación estándar de 13 años y 7 meses. Todas ellas fueron derivadas al CRL por diferentes hospitales del Servicio Madrileño de Salud. A su ingreso en este centro se realizó exploración mediante nasofibroscopia por los Servicios de ORL y de Foniatría y un estudio funcional de la voz que incluyó: la obtención de parámetros fonorrespiratorios, la valoración perceptiva de la calidad de la voz mediante GRABS, el análisis acústico digital y la estimación biométrica del pliegue vocal. Tras recibir el tratamiento de rehabilitación, cada sujeto fue reevaluado aplicando el mismo protocolo inicial. Con los resultados obtenidos, en base a los archivos de grabación de voz, se realizó un análisis comparativo de las variables biométricas y acústicas. El estudio utiliza la herramienta BioMet®Phon para la comparación interna de los parámetros vocales más susceptibles de orientar hacia una hipótesis diagnóstica, según las recomendaciones de Gómez Vilda [8]: parámetro 35: masa dinámica asociada al cuerpo; parámetro 37: parámetro de rigidez asociada al cuerpo promedio; parámetro 38: desequilibrio de masa dinámica corporal por cada dos ciclos vecinos; parámetro 40: desequilibrio de rigidez del cuerpo por cada dos ciclos vecinos; parámetro 41: masa dinámica asociada a la cubierta promedio entre los pliegues vocales; parámetro 43: rigidez asociada a la cubierta promedio de pliegues; parámetro 44 desequilibrio de masas dinámicas de la cubierta por cada dos ciclos vecinos; y parámetro 46: desequilibrio de la rigidez de la cubierta por cada dos ciclos vecinos. Los objetivos finales del tratamiento propuesto para todos los casos consistieron en: - Eliminar la lesión. Conseguir una buena calidad de voz. Obtener una voz funcional para la demanda fonatoria del paciente. El procedimiento terapéutico incluyó diferentes enfoques de la terapia vocal: técnicas indirectas de control de pautas de higiene vocal, que se fueron revisando periódicamente mediante registros durante el tratamiento. Se utilizaron, también, técnicas directas propias del enfoque fisiológico: sonidos facilitadores y técnicas de tracto vocal semiocluído (TVSO) [9][10][12]. Otras técnicas aplicadas fueron la masoterapia para eliminar tensiones en la musculatura perioral, perilaringea y de cintura escapular. De igual manera, se utilizaron técnicas específicas para eliminar el ataque vocal duro, y para lograr una coordinación neumofónica adecuada. Los programas de ordenador Isoton y Dr. Speech[11] fueron los principales apoyos de biofeedback. Finalmente se aplicaron técnicas propias del enfoque psicológico para el reconocimiento y toma de conciencia del problema fonatorio, y la generalización en la vida cotidiana de los patrones vocales aprendidos. ISBN: 84-695-8101-5 83 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 3. Resultados Caso 1. Nódulos (PGJ pre). Mujer. 20 años. El estudio ORL mostraba nódulos en tercio anterior de cuerdas vocales. Ataque vocal duro con acabalgamiento de aritenoides derecho sobre el izquierdo. Defecto de cierre posterior. Constricción supraglótica en graves y agudos. Fig. 1 Diagrama de huella de fuente glótica y flujo aéreo (PGJ pre). Fuente glótica: La fase de retorno (tR1) es muy breve y deficiente. La fase de contacto (0-tO2) es igualmente breve e irregular. El punto de apertura (O) está muy adelantado y la fase de abducción es muy larga y llena de irregularidades. La fase de inicio de cierre (cl) se encuentra cercana a la norma. Fig. 2 Densidad espectral de voz y función de transferencia (PGJ pre). Densidad espectral: los armónicos se observan hasta 1500Hz aproximadamente. Llama la atención la presencia de ruido interarmónico. 84 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fig. 3 Valores de calidad de fuente glótica. Comentario al análisis cualitativo de la fuente glótica: Voz de gama aguda (271 Hz) llama la atención un Jitter, Shimmer y ruido interarmónico aumentados. Los desbalance de la masa y rigidez de la cubierta, y además la rigidez del cuerpo aparecen con valores alterados. PGJ recibió 26 sesiones de tratamiento de una hora con una periodicidad de dos días alternos a la semana. Su asistencia al tratamiento fue regular. Los objetivos de tratamiento fueron: - Adquirir un patrón respiratorio costo-abdominal. Eliminar el habla en espiración mediante una coordinación neumofónica adecuada. Corregir la postura inadecuada de cuello. Eliminar la contracción de la musculatura supra e inflaglótica. Maseteros y Pterigoideos. Lograr una frecuencia habitual dentro de los parámetros normales. Eliminar el ataque vocal duro. Eliminar la contractura anteroposterior para agudos y graves. Incrementar el número y la intensidad de los armónicos. Eliminar situaciones de mal uso y abuso vocal. Caso 1. Nódulos (PGJ post). El estudio ORL muestra un esbozo o mínima lesión. Ha desaparecido la tensión del cierre y el encabalgamiento. Constricción leve en grave y agudos. ISBN: 84-695-8101-5 85 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fig. 4 Diagrama de huella de fuente glótica y flujo aéreo (PGJ post). Fuente glótica: La fase (tR1) es un poco más amplia y más mantenida con menos irregularidades. La fase de contacto (0-tO) igualmente es mas amplia. En general toda la fase se encuentra más próxima a la línea de equilibrio. La fase de apertura (O) continúa adelantada y ha disminuido su duración e irregularidad. Fig. 5 Densidad espectral de voz y función de transferencia (PGJ post). Densidad espectral: se evidencian armónicos hasta 4000 Hz. Fig. 6 86 Valores de calidad de fuente glótica. ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 El análisis de la calidad de fuente glótica muestra unos valores más cercanos a los norma en frecuencia, y dentro de la norma en: Jitter, Shimmer,.y HNR. Los desbalances de la cubierta y de la rigidez del cuerpo se mantienen elevados, aunque han disminuido el grado de alteración. Fig. 7 Diagrama de respuesta al tratamiento de PGJ respecto a un conjunto de normado. El tratamiento ha resultado eficaz. Aunque no ha logrado suprimir totalmente la lesión, sí ha conseguido mejorar significativamente la calidad de la voz eliminando el índice de discapacidad vocal Caso 2. (SSA pre). (Nódulos) Mujer. 36 años. La exploración ORL mostró nódulos en comisura anterior. Fig. 8 ISBN: 84-695-8101-5 Diagrama de huella de fuente glótica y flujo aéreo (SSA pre). 87 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fuente glótica: La fase de retorno (R) es dinámica, insuficiente y sin irregularidades. La fase de contacto (tO-tR) es muy breve existiendo un gap permanente. La fase de apertura máxima (tM) igualmente es breve y abrupta sin incremento adecuado de flujo aéreo (O-tM). La fase de abducción puede estar dentro de los parámetros normativos. Fig. 9 Densidad espectral de voz y función de transferencia (SSA pre). Densidad espectral: Pérdida de intensidad en los armónicos a partir de 2000 Hz con presencia de un armónico de intensidad difusa alrededor de los 2900 Hz. Fig. 10 Valores de calidad de fuente glótica. Los valores que destacan relacionados con la calidad de fuente glótica por su distancia a los límites de normalidad son shimmer, jitter, masa y tensión del cuerpo, y muy significativamente los parámetros de desbalances en cubierta. SSA recibió 15 sesiones de una hora de duración dos días alternos por semana. Los objetivos de tratamiento fueron: - Mejorar el control del soplo espiratorio. Lograr una correcta coordinación neumofónica. Mejorar el apoyo respiratorio en la fonación. Adquirir patrón respiratorio costo-diafragmático. Lograr la eutonía en la musculatura del cuello. Eliminar el ataque duro. Disminuir la tasa de habla. Caso 2. (SSA post). (Nódulos) Mujer. 36 años. La exploración ORL mostró cuerdas vocales sin lesiones. 88 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fig. 11 Diagrama de huella de fuente glótica y flujo aéreo (SSA post). Fuente glótica: se puede observar fase de recuperación muy rápida. La fase de contacto presenta un inicio anteriorizado con ausencia de gap permanente, pero con presencia de gap en la fase de contacto. La fase de apertura máxima se ha suavizado y aunque persisten irregularidades con intentos de cierre en la fase descendente el flujo aéreo se incrementa desde el comienzo de esta fase. Fig. 12 Densidad espectral de voz y función de transferencia (SSA post). Hz. Densidad espectral: Los armónicos han aumentado hasta observarse en los 4000 Fig. 13 Valores de calidad de fuente glótica. ISBN: 84-695-8101-5 89 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Los valores de jitter y shimer se han normalizado. Destaca la mejora de la masa de la cubierta. Fig. 14 Diagrama de respuesta al tratamiento de SSA respecto a un conjunto de normado. Analizando los resultados del análisis de la muestra completa se confirma la evolución. Hay que destacar la normalización de todos los parámetros espacialmente el Shimmer, los desbalances de masa y rigidez del cuerpo, e igualmente aparecen mejoras notorias en los desbalances en las cubiertas. Caso 3. Nódulos (AJG pre). Mujer. 47 años. El estudio ORL mostraba Edema. Defecto de cierre longitudinal y constricción supraglótica en graves y agudos intensa. Fig. 15 Diagrama de huella de fuente glótica y flujo aéreo (AJG pre). 90 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fuente glótica: La fase de retorno (tR1) es muy dinámica pero poco eficaz. La fase de contacto (0-tO2) es amplia destacando un gap de contacto con varias falsas aperturas. Igualmente existen intentos de cierres posteriores y gran turbulencia debido al escape aéreo. La fase de apertura tiene irregularidades e intentos de cierre. Fig. 16 Densidad espectral de voz y función de transferencia (AJG pre). Densidad espectral: los armónicos se observan hasta 2900 Hz aproximadamente. Llama la atención la presencia de ruido interarmónico. Fig. 17 Valores de calidad de fuente glótica. Comentario al análisis cualitativo de la fuente glótica: destaca los valores alterados de jitter y desbalance de la tensión en cubierta. AJG recibió 20 sesiones de tratamiento de una hora con una periodicidad de dos días alternos a la semana. Su asistencia al tratamiento fue regular. Los objetivos de tratamiento propuestos fueron: - Adquirir un patrón respiratorio costo-abdominal. Eliminar el ataque vocal duro Aumentar la presión subglótica a través del apoyo respiratorio. Disminuir la tensión de la musculatura perioral. Mejorar la fuerza de la musculatura laringea y la resistencia glótica. Caso 3. Nódulos (AJG post). El estudio ORL muestra cuerdas vocales sin lesión. ISBN: 84-695-8101-5 91 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fig. 18 Diagrama de huella de fuente glótica y flujo aéreo (AJG post). Fuente glótica: La fase de retorno (tR1) es muy dinámica. La fase de contacto (0tO) igualmente es más amplia y disminuyen las irregularidades. Apareciendo un cierre defectuoso tipo gap transitorio alrededor de los 2 msg. En general toda la fase se encuentra más próxima a la línea de equilibrio. La fase de abducción (o-tM) es pronunciada. Fig. 19 Densidad espectral de voz y función de transferencia (AJG post). Densidad espectral: se evidencian una mejoría muy significativa en el incremento de armónicos y su intensidad hasta 5000 Hz. 92 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fig. 20 Valores de calidad de fuente glótica. El análisis de la calidad de fuente glótica muestra unos valores normalizados por completo. Fig. 21 Diagrama de respuesta al tratamiento de AJG respecto a un conjunto de normado. El tratamiento ha resultado eficaz. Se han conseguido en la regularidad de la amplitud de los armónicos como demuestra el espectrograma. Han desaparecido los desbalances, y las amplitudes de onda glótica son más uniformes ciclo a ciclo. 4. Conclusiones Se observa de manera general que el programa BioMet®Phon permite demostrar con parámetros objetivos la mejoría de los pacientes tras el tratamiento logofoniátrico. En todos los casos estudiados se ha observado un incremento y mayor regularidad en la amplitud de los ciclos glóticos. ISBN: 84-695-8101-5 93 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 De igual manera, se observa una mejor función de transferencia del tracto vocal visible por la presencia de mayor número de armónicos enriquecidos en intensidad. En los casos descritos, al eliminar la lesión, han desaparecido los desbalances en el cuerpo y la cobertura. Con los casos analizados parece que los parámetros que ofrece BioMet®Phon podrían proporcionar información válida al terapeuta sobre la dinámica del ciclo glótico, pero sería necesario ampliar la muestra del estudio para llegar a establecer regularidades y relacionar las alteraciones estructurales y funcionales con la dinámica de la fuente glótica. Agradecimientos. Este proyecto se ha podido llevar a cabo gracias al apoyo recibido desde el Laboratorio de Procesado Neuromórfico de la Voz del Centro de Tecnología Biomédica, y en especial a D. Pedro Gómez-Vilda. References 1. Gartner-Schmidt, J. L., Roth, D. F., Zullo, T. G., & Rosen, C. A. (2013). Quantifying Component Parts of Indirect and Direct Voice Therapy Related to Different Voice Disorders. Journal of Voice. 2. Patel, R. R., Pickering, J., Stemple, J., & Donohue, K. D. (2012). A Case Report in Changes in Phonatory Physiology Following Voice Therapy: Application of High-Speed Imaging. Journal of Voice. 3. Halawa, W. E., Muñoz, I. V., & Perez, S. S. (2013). Effectiveness of Laryngostroboscopy for Monitoring the Evolution of Functional Dysphonia after Rehabilitator Treatment. Indian Journal of Otolaryngology and Head & Neck Surgery, 1-5. 4. Halawa, W. E., García, A. C., & Pérez, S. S. (2012). Effectiveness of laryngostroboscopy for monitoring the evolution of vocal nodules after rehabilitator treatment. Auris Nasus Larynx. 5. Mehta, D., Paul, D., & Hillman, R. (2012). Evidence-based clinical voice assessment: A systematic review. American Journal of Speech-Language Pathology November 26, 2012 6. Mehta, D. D., & Hillman, R. E. (2012). Current role of stroboscopy in laryngeal imaging. Current Opinion in Otolaryngology & Head and Neck Surgery, 20(6), 429-436. 7. Krausert, C. R., Olszewski, A. E., Taylor, L. N., McMurray, J. S., Dailey, S. H., & Jiang, J. J. (2011). Mucosal wave measurement and visualization techniques. Journal of Voice, 25(4), 395-405. 8. Gómez, P., Rodellar, V., Nieto, V., Martínez, R., Alvarez, A., Scola, B., & Fernández, M. (2013, February). BioMet®Phon: A System to Monitor Phonation Quality in the Clinics. In eTELEMED 2013, 5th Int. Conf. on eHealth, Telemed., and Social Medicine (pp. 253-258). 9. Guzman N. M. (2012) Terapia con tracto vocal semi-ocluido: un studio de caso. Revista chilena de fonoaudiología. Vol. 11, 2012 10. Bonet,M. y Bonet, N. (2008) Lax vox: Método de rehabilitación vocal finlandés. Comunicación oral. Congreso Sociedad Médica de Foniatría Española. León, 2008 11. Campillos LLanos, L. (2010), “Tecnologías del habla y análisis de la voz. Aplicaciones en la enseñanza de la lengua”, en Diálogo de la Lengua, II, 1-41 12. Behlau, M "Rehabilitación vocal" pp 339-354. En: García-Tapia, R. y Cobeta, I. (1996) Diagnóstico y tratamiento de los trastornos de la voz.Garsi: Madrid. 94 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Una nueva dimensión en la enseñanza musical: el procesado digital de señales Oscar Juan Domínguez Jaén1, Mª Zulema Santana López1 1 Conservatorio Profesional de Música de las Palmas de Gran Canaria C/ Maninidra 1 35002 Las Palmas de Gran Canaria, España [email protected] Abstract. Se ha normalizado la idea de que el aprendizaje de un instrumento musical implica largas horas de práctica en soledad y que la supervisión del profesor especialista se realice con una cadencia a la semana de dos horas para las enseñanzas elementales y de una para las enseñanzas profesionales. A este contexto hay que añadir la poca ayuda que normalmente y por desconocimiento pueden recibir los estudiantes en casa, el uso tradicional de una metodología de enseñanza basada en la ejecución ejemplar con el instrumento por parte del profesor y/con la intención de que el alumno reproduzca lo escuchado y visto, la imposibilidad, en algunas disciplinas (canto, trombón, trompa, etc.) de una observación directa, sistemática y focalizada de gran parte de los elementos que entran en funcionamiento para lograr la producción del sonido y la falta de una verbalización clara y específica de los procedimientos a seguir producto, en gran parte, de una tradición de enseñanza- aprendizaje que no ha tenido en cuenta la atención a la diversidad favoreciendo así a unos pocos. El resultado de todo esto es que nuestros niños músicos, además de tener una sobrecarga lectiva, han de estar haciendo el esfuerzo, muchas veces en vano, de recordar para adivinar, o intuir y recomponer en su mente lo escuchado, lo que hace posible que suene el instrumento, y esa tarea es grande, ingrata, se dilata en el tiempo y no garantiza una base sólida que permita abordar estudios avanzados. En la actualidad los avances en todas las vertientes de la ciencia y especialmente en el procesado digital de las señales nos permiten convertir el sonido en un objeto de estudio que podemos oír, ver y modificar, en tiempo real o en diferido y proporcionan unas nuevas herramientas que no solo nos ayudan a objetivar y unificar criterios sino que nos permiten integrar el potencial de la imagen como fuente de información para la transmisión de los conocimientos y ayuda en el estudio instrumental. La investigación en el procesado digital de las señales entre equipos interdisciplinares de músicos e ingenieros abre un futuro esperanzador para que la tarea del estudio instrumental se torne amena, no se dilate tanto en el tiempo y proporcione un estudio significativo. ISBN: 84-695-8101-5 95 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Vocal Fold Biomechanical Analysis for the Singing Voice Pedro Gómez Vilda1, Elisa Belmonte-Useros2, Víctor Nieto Lluis1, Victoria RodellarBiarge1, Agustín Álvarez Marquina1, Luis M. Mazaira Fernández1 1 NeuVox Laboratory, Center for Biomedical Technology, Universidad Politécnica de Madrid, Campus de Montegancedo, s/n, 28223 Pozuelo de Alarcón, Madrid 2 Escuela Superior de Canto, C/ San Bernardo 44, 28015, Madrid e-mail: [email protected] Abstract. Teaching the adequate use of the singing voice conveys a lot of knowledge in musical performance as well as in objective estimation techniques involving the use of air, muscles, room and body acoustics, and the tuning of a fine instrument as the human voice. Although subjective evaluation and training is a very delicate task to be carried out only by expert singers, biomedical engineering may help contributing with well-funded methodologies developed for the study of voice pathology. The present study is a preliminary study of exploratory character describing the performance of a student singer in a regular classroom under the point of view of vocal fold biomechanics. Estimates of biomechanical parameters obtained from singing voice are given and their use in the classroom is discussed. Keywords: vocal fold modeling, singing performance, voice production, vocal effort. 1 Introduction The singing voice is one of the most beautiful and natural musical instruments in nature. It must be seen also as a very ancient and emotional way of expression of human nature and culture. Although much has been studied about the singing voice since the pioneering work of Sundberg [1], much more is still pending of introspective analysis using the traditional acoustic theories hybridized with the modern signal processing tools based on powerful and ubiquitous computing. The work presented here is an exploratory study motivated by the need of objectively estimating what has been always the spirit of singing expressed subjectively. The ultimate goal being the study of the 'stage fright' of singers, a fruitful collaboration between the NeuVox Lab and the Superior School of Singing in Madrid allowed the recording of real performances from students and professors of the school both at the study room and at the stage. The use of BioMet®Phon [2] in the estimation of aspects as tone, loudness, vocal fold biomechanics and glottal closure during different scales, has allowed to depict a colourful yet highly semantic picture of what is the singing voice. The needs derived from the study have deeply reformed the tool, initially conceived to analyze voice quality in the clinics to transform it to a new device: BioMet®Sing. Estimations of real recordings and their preliminary statistical results 96 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 are being presented and discussed. This study must be seen as a due sequel of early works conducted in the NeuVox Lab some years ago [3, 4]. The ultimate goal of the study is to provide a methodology for the objective analysis of the singing voice with different intentions: graduate the vocal effort of the singer, produce estimates of the performance of the interpreter in real time to be used in learning singing techniques, and evaluate the emotional overload (stage fright), among others. The paper is organized as follows: A brief description of vocal fold biomechanics is given in section 2 to help understanding the parameters being used. A summary of the methodology used in the recordings is given in section 3. In section 4 results obtained from the analysis of a single performance by a singing student are presented, and their potential use discussed. Conclusions are presented in section 5. 2 Fundamentals The key technique used for the analysis of voice quality in BioMet®Sing is adaptive vocal tract inversion to produce an estimate of the glottal source. Accurate spectral domain techniques [5] allow the estimation of a set of biomechanical parameters associated to a 2-mass model of the vocal folds [6] as the one depicted in Fig. 1. Fig. 1 Vocal fold 2-mass biomechanical model assumed in the study. a) Structural description of vocal folds. b) Model equivalent in masses and viscoelasticities. The template (a) shows the physiological structure of the vocal folds as a body composed by the musculis vocalis, and a cover or lamina propria and the visco-elastic tissues in Reinke’s space and the ligaments. The biomechanical model in (b) shows that the masses of the cover and Reinke’s space have been included in the cover masses Mcl and Mcr for the left (l) and right (r) vocal folds. Masses Mbl and Mbr account for the body and ligaments. It must be kept in mind that these masses are not distributed, but dynamic point-like ones. Visco-elastic parameters Kcl and Kcr explain the relations between tissue compression and acting forces on the cover and Reinke’s space. Parameters Kbl and Kbr are the same regarding the body and ligaments. Although the tool in itself produces a wide range of parameters (jitter, shimmer, NHR, mucosal/aaw, glottal source cepstral, spectral profile, biomechanical, OQ, CQ, RQ, glottal gap defects, tremor) the biomechanical parameters are by far the most ISBN: 84-695-8101-5 97 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 interesting set to assess the dysphonic conditions both in modal voice as well as in singing voice. Having this description in mind, the subset of biomechanical parameters is composed of the following correlates: • • • • • • • • Parameter 35: Dynamic mass associated to the body, given as an average of Mbl and Mbr. Parameter 37: Stiffness parameter associated to the body averaged on the left and right folds (Kbl and Kbr). Parameter 38: Unbalance of dynamic body mass per each two neighbor cycles. Parameter 40: Unbalance of body stiffness per each two neighbor cycles. Parameter 41: Dynamic mass associated to the cover averaged on the left and right folds (Mcl and Mcr). Parameter 43: Stiffness parameter associated to the cover averaged on the left and right folds (Kcl and Kcr). Parameter 44: Unbalance of dynamic cover masses per each two neighbor cycles. Parameter 46: Unbalance of cover stiffness per each two neighbor cycles. The estimation of the above parameters is carried out by inverting the 2-mass model in Fig. 1 in the spectral domain as described in [5]. Examples of estimates from each parameter on a balanced database of 50 male and 50 female normative speakers collected and evaluated by endoscopy at Hospital Universitario Gregorio Marañón de Madrid (Spain) are given in Fig. 2 and Fig. 3. Fig. 2 Histograms of the biomechanical parameters (dynamic masses and stiffness) for normative male and female datasets. In abscisae masses are given in g, stiffness given in g.s-2 (mili-N/m). Ordinates give number of subjects. 98 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fig. 3 Histograms of the biomechanical parameter unbalance for normative male and female datasets (given in rel. values). Abscisae give unbalance relative to unity (0.01 is 1%). Ordinates give number of subjects per bin. It may be seen that parameter 35 (body mass) is differentially distributed for males and for females, being larger for males, as expected. Parameter 37 (body stiffness) is distributed differentially but reciprocally (larger for females than for males), as well as parameter 43 (cover stiffness). On the other hand, cover masses (parameter 41) do not show gender differences. Regarding unbalance parameters (38, 40, 44 and 46) all the distributions concentrate towards low values with a few exceptions (outliers). This means that large unbalance may be an indication of dysphonic or pathological behavior. The irregularities found in these parameters bear a clear semantics on the presence of dysphonia in modal as well as in singing voice. 3 Materials and Methods Recordings of singing voice were taken in two different scenarios: at the classroom during the singing lessons, where the performer had to produce different scales accordingly with his/her vocal characteristics, and in the performing stage before an audience composed by the grading jury and general public attending the performance. To ensure proper quality of voice and reduce interference from piano guidance, ambient noise or reverberation effects highly directional wireless chest microphones were used (Sennheiser ME4 clip-on condenser cardioid). Recording was carried out at a sampling frequency of 96,000 Hz in 32 bits. Posterior signal processing did not alter ISBN: 84-695-8101-5 99 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 these standards. Special care had to be taken with signal levels to avoid saturation clipping, fixing gains low in the recording card (MOTU Traveller Firewire Audio Interface Recording System). Later analysis showed irrelevant levels of ambient noise or reverberation in the classroom, and minor interference from piano guidance, with levels of the singing voice at least 60 dB over piano notes. The situation in the theatre stage was a bit worse, with piano guidance below 50 dB, ensuring a safe margin to grant enough accuracy to parameter estimation methods. Classrooms were around 120-150 m3, carpeted floor and paper walls, no special isolation. The neoclassic theatre room had a capacity for 300 persons, high ceilings and long backstage. Of course, the recording conditions differed from those in a sound-proof chamber, but it was decided to have the performers acting in their own media, either in the classroom or in the stage to reproduce better the environs where the singer is supposed to perform, avoiding an artificial situation for the exploratory study which does not show a correspondence with real life activity. Satisfactorily, the recordings show that signal quality is more than enough to produce valid and reliable results. The performers were students of the Superior School of Singing, with ages ranging from 20-32 years, 7 men and 4 women, showing different voice characteristics (2 bass, 3 baritones 2 tenors, mezzo, 4 sopranos). In the classroom they were asked to produce different natural scales following the pattern of a fifth followed by an octave, articulating the five cardinal vowels in a vowel shift phrase as /ye-e-e-e-e-e-e-e-e-a-a-a-a-a-a-a-a-a-aa-a-a-a-a/, or similar, combining the different target vowels. In stage auditions they choose a classical masterwork fragment at their will. The materials used in the present exploratory longitudinal study [7] are from a soprano student to show how biomechanical parameters grade singing effort and performance. 4 Results and Discussion An estimation of four perturbation parameters (jitter, shimmer, NHR, mucosal/aaw), the four biomechanical ones, their unbalances and pitch (totaling 13 estimates) evaluated over the fifth/octave span is given in Fig. 4. The parameters have been normalized to their respective means from the general normative database of 50 female subjects already mentioned. It may be noticed that some parameters show almost no influence with the tone change, as the Body Mass (35), whereas others as the Body Mass Unbalance (38) show important changes. As it may be seen in the first column to the left Absolute Pitch (1) follows closely the expected evolution, first raising, then sloping down during the fifth, and repeating the same pattern on a larger span for the octave (a ninth, indeed). But the question is how precise the estimation of pitch can be. In the case of the pitch frequency estimation provided by BioMet®Phon, based on cycle-synchronous detection, this accuracy can be estimated approximately as (f0)2/fs, where f0 is the pitch and fs the sampling frequency. This means that for the larger tone displayed in the test (D5, f0=1174.66 Hz) the accuracy would be around 14.37 Hz, whereas for the lowest tone (C4, f0=523.25 Hz) the accuracy would be around 2.85 Hz. In the worst case the accuracy of the estimate would be equivalent of one eight of tone. With these figures in mind the question would be how accurate the tuning of the singing voice has been. The answer to this question is plotted in Fig. 5. 100 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fifth/Ninth - Normalized Perturbation & Biomechanical Parameters 30 25 20 15 10 5 0 Do (C) Sol (G) Do (C) Sol (G) Re (D) Sol (G) Re (D4) Fa (F) Re (D) La (A) Do (C) Fa (F) Mi (E) Mi (E) Mi (E) Si (B) Si (B) Mi (E) Fa (F) Re (D) Fa (F) Do (C) La (A) Re (D) Fig. 4 Estimates of pitch and 12 perturbation and biomechanical parameters on the tonal span. Actual pitch freq. vs theoretical tone (Hz) 1300 1200 Theoretical Pitch 1100 Actual Pitch Ave. 1000 Ave. - Std. Ave. + Std. 900 800 700 600 500 Do (C4) Re (D4) Mi (E4) Fa (F4) Sol (G4) Fa (F4) Mi (E4) Re (D4) Do (C4) Re (D4) Mi (E4) Fa (F4) Sol (G4) La (A4) Si (B4) Do (C5) Re (D5) Do (C5) Si (B4) La (A4) Sol (G4) Fa (F4) Mi (E4) Re (D4) Do (C4) Do# (C#4) Do (C4) Do# (C#4) 400 Fig. 5 Theoretical and actual pitch frequency for each tone in the scale (fine tuning). ISBN: 84-695-8101-5 101 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 The expected pitch frequency according to the theoretical tonal scale (mathematically fk+1=fk.2-12) is given in blue, and the actual frequency estimated by BioMet®Sing is plotted in red. Average estimations are in circles, whereas diamonds mark the limit of one standard deviation around the average. In general it may be seen that tuning is better for the larger scale than for the smaller, this fact which is observed in other voice quality factors to be presented in brief. Another important quality factor is vocal effort, defined as the loudness vs. pitch for each tone in the scale. This factor is presented in Fig. 6, using the amplitude of the first harmonic as a reference of tone loudness. The quality factor is plotted vs. the actual pitch estimated by BioMet®Sing (in red) and the theoretically expected one (in blue). This merit factor may be of strong importance to teach the production of high pitch at lower or higher loudness. 0 -5 500 Vocal Effort (Loudness vs Pitch: dB-Hz) 600 700 800 900 1000 1100 1200 -10 -15 -20 -25 -30 Loudness vs. Theor. Freq. Loudness vs. Actual Freq. -35 -40 -45 Fig. 6 Loudness as a function of pitch (vocal effort). The biomechanical parameters of the vocal fold body are of strong interest for the study. The dynamic body mass vs. tone is plotted in Fig. 7. The average estimate is plotted in blue circles, the statistical dispersion (one standard deviation, average±std. dev.) is given by red diamonds. Some tones are produced neatly whereas some others show large dispersion, marking voicing instabilities. 0.007 0.006 0.005 0.004 Body Mass vs Tone (g) Body Mass Ave. Ave. + Std. Ave. - Std. 0.003 0.002 0.001 Do (C4) Re (D4) Mi (E4) Fa (F4) Sol (G4) Fa (F4) Mi (E4) Re (D4) Do (C4) Re (D4) Mi (E4) Fa (F4) Sol (G4) La (A4) Si (B4) Do (C5) Re (D5) Do (C5) Si (B4) La (A4) Sol (G4) Fa (F4) Mi (E4) Re (D4) Do (C4) Do# (C#4) Do (C4) Do# (C#4) 0 Fig. 7 Vocal fold body mass (dynamic) for each tone in the scale. 102 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 In general, the higher the pitch the larger the loudness, as to raise the pitch the performer has to increase vocal fold tension mainly, as it may be seen in Fig. 8. It can be appreciated that the dispersion of stiffness is stronger in certain tones (more weakly produced, as F4 in the fifth ascending scale). Body Stiffness vs Tone (mN/m) 140000 120000 100000 Body Stiffness Ave. Ave. + Std. Ave. - Std. 80000 60000 40000 20000 Do (C4) Re (D4) Mi (E4) Fa (F4) Sol (G4) Fa (F4) Mi (E4) Re (D4) Do (C4) Re (D4) Mi (E4) Fa (F4) Sol (G4) La (A4) Si (B4) Do (C5) Re (D5) Do (C5) Si (B4) La (A4) Sol (G4) Fa (F4) Mi (E4) Re (D4) Do (C4) Do# (C#4) Do (C4) Do# (C#4) 0 Fig. 8 Vocal fold body stiffness (lateralized tenseness) for each tone in the scale. Other important quality factors are biomechanical unbalances, as expressed by the difference between neighbor cycles relative to their average. The instability may be associated to an asymmetric vibration pattern of each vocal fold, and in grading organic pathology is a clear mark of dysphonic behavior. Its relevance in the singing voice may be as high or even higher, giving a hint of poor performance, signaling weaknesses in voicing to be corrected by voice education techniques. The unbalances of body mass and stiffness are given in Fig. 9. Again F4 in the fifth ascending scale and C4 in the ligature between both scales are the most unstable tones. 0.14 0.12 0.1 0.08 Body Mass & Stiffness Unb (%) vs Tone Body Mass Unb. Body Stiffness Unb. 0.06 0.04 0.02 Do (C4) Re (D4) Mi (E4) Fa (F4) Sol (G4) Fa (F4) Mi (E4) Re (D4) Do (C4) Re (D4) Mi (E4) Fa (F4) Sol (G4) La (A4) Si (B4) Do (C5) Re (D5) Do (C5) Si (B4) La (A4) Sol (G4) Fa (F4) Mi (E4) Re (D4) Do (C4) Do# (C#4) Do (C4) Do# (C#4) 0 Fig. 9 Body mass and stiffness unbalances for each tone in the scale. Finally another merit factor is that of glottal gap defects, defined as the improper opening found where the larynx is supposed closed (contact gap defect), the lack of complete closure all over the phonation cycle (permanent gap defect), and the improper fluctuations during the closing phase, showing a marked tendency to retrocede to opening where the folds are supposed to progress to contact and closure ISBN: 84-695-8101-5 103 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 (adduction gap defect). These three gap defects were evaluated using advanced signal processing techniques [8] and are plotted for each tone in Fig. 10. 0.7 Contact Gap 0.6 Adduction Gap 0.5 Permanent Gap Gaps (%) vs Tone 0.4 0.3 0.2 0.1 Do (C4) Re (D4) Mi (E4) Fa (F4) Sol (G4) Fa (F4) Mi (E4) Re (D4) Do (C4) Re (D4) Mi (E4) Fa (F4) Sol (G4) La (A4) Si (B4) Do (C5) Re (D5) Do (C5) Si (B4) La (A4) Sol (G4) Fa (F4) Mi (E4) Re (D4) Do (C4) Do# (C#4) Do (C4) Do# (C#4) 0 Fig. 10 Glottal gap defects for each tone in the scale. Glottal gap defects are to be interpreted differently. Contact gap is associated to inadequate closure, and maybe more relevant in male than in female voice. In fact it remains very low for each tone. Adduction gaps are associated to the asymmetry in vocal fold dynamics, and the difficulty in approaching to closure. Permanent gap maybe the more relevant one for singing voice, as it measures the amount of constant opening found in the larynx, thus giving an estimation of air use efficiency. The larger the permanent gap the larger the permanent air escape and the lower the air use efficiency. It may be seen that permanent gap is especially large for certain tones as C5 and E4 in the descending ninth. 5 Conclusions The results of the study avail some of the preliminary goals formulated in section 1, consisting in producing objective measurements of singing voice performance based on the biomechanical description of the vocal folds. Due to the limitations of the present study based in the description of a single performer, statistical significance cannot be claimed. Nevertheless some interesting important findings may be remarked: • • • • 104 A close following of the performance tuning can be estimated and presented to the student and professor during the classroom session in real time granting tonality accuracy. Measures of vocal effort can be provided under the same basis. Estimates of vocal fold mass and especially stiffness may provide a clear hint to voicing performance, particularly as statistical dispersion is concerned. Biomechanical unbalances, especially those affecting stiffness could be eventually used to marks to voicing deficiencies to be corrected using classical voicing techniques in singing. ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 • Specific relevance should be attributed to glottal gap defects, with special emphasis in the permanent defect, as a mark of improper air usage. Many other estimates can be obtained and included in a biomechanical study of singing voice, such as the distribution of the harmonic/noise factors, the open, close and return quotients, or the parameters of tremor and vibrato [9]. These would be especially relevant to investigate and characterize the stage fright, one of the ambitious objectives of a study being already conducted. The next steps to be covered are to extend the methodology to the group of singers already been recruited in the database to evaluate the statistical significance of this approach. Acknowledgments. This work is being funded by grants TEC2009-14123-C04-03 and TEC2012-38630-C04-04 from Plan Nacional de I+D+i, Ministry of Economic Affairs and Competitiveness of Spain. Special thanks are due to the direction of Escuela Superior del Canto for facilitating the recordings and the access to their beautiful stage. The results shown in the study come from recordings contributed by the Erasmus Student Adeline Le Mer from the Conservatoire de Rennes, France, who enthusiastically collaborated in providing her most beautiful gift: her voice. References 1. Sundberg, J.: The Science of the Singing Voice. Dekalb, IL: Northern Illinois Univ. Press (1987) 2. Gómez, P., Rodellar, V., Nieto, V., Martínez, R., Álvarez, A., Scola, B., Ramírez, C., Poletti, D., and Fernández, M.: BioMet®Phon: A System to Monitor Phonation Quality in the Clinics. Proc. eTELEMED 2013: The Fifth Int. Conf. on e-Health, Telemedicine and Social Medicine, Nice, France, 2013, 253-258. 3. Gómez, P.: Biomechanical Evaluation of Vocal Fold Performance in Singing Voice, Lecture at The Voice Foundation's 37th Annual Symposium 2008: Care of the Professional Voice - The Westin, Philadelphia, PA, May 28 - June 1 (2008) 4. Murphy, K.: Digital signal processing techniques for application in the analysis of pathological voice and normophonic singing voice. PhD. Thesis, Universidad Politécnica de Madrid, 2008 (download: http://oa.upm.es/1079/1/KATHARINE_MURPHY.pdf). 5. Gómez, P., Fernández, R., Rodellar, V., Nieto, V., Álvarez, A., Mazaira, L. M., Martínez, R, and Godino, J. I.: Glottal Source Biometrical Signature for Voice Pathology Detection. Speech Comm., (51) 2009, pp. 759-781. 6. Berry, D. A.: Modal and nonmodal phonation. J. Phonetics, (29) 2001, pp. 431-450. 7. Mürbe, D., Pabst, F., Hofmann, G., & Sundberg, J.: Effects of a professional solo singer education on auditory and kinesthetic feedback—a longitudinal study of singers' pitch control. Journal of Voice, 18-2 , (2004) 236-241. 8. Gómez, P., Nieto, V., Rodellar, V., Martínez, R., Muñoz, C., Álvarez, A., Mazaira, L. M., Scola, B., Ramírez, C. and Poletti, D.: Wavelet Description of the Glottal Gap. Proc. of the 18th DSP Int. Conf., Santorini, July 1-3, 2013 (to appear). 9. Gómez-Vilda, P., Rodellar-Biarge, V., Nieto-Lluis, V., Muñoz-Mulas, C., MazairaFernández, L. M., Ramírez-Calvo, C., Fernández-Fernández, M. and Toribio-Díaz, E.: Neurological Disease Detection and Monotoring from Voice Production. LNAI 7015 (2011) 1-8. ISBN: 84-695-8101-5 105 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Diseño y desarrollo de una propuesta metodológica para la reeducación de la voz: Método Cimardi “Pantalla de Celofán” Mª Zulema Santana López1, Jesús B. Alonso2, Fidel Cabrera3, Oscar Juan Domínguez1, Dionisio Rodriguez3, Carlos M. Travieso2 1 Conservatorio Profesional de Música de las Palmas de Gran Canaria C/ Maninidra 1 35002 Las Palmas de Gran Canaria, España 2 Instituto para el Desarrollo Tecnológico y la Innovación en Comunicaciones (IDeTIC) Universidad de Las Palmas de Gran Canaria Campus de Tafira, 35017, Las Palmas de Gran Canaria, España 3 Departamento de Señales y Comunicaciones Universidad de Las Palmas de Gran Canaria Campus de Tafira, 35017, Las Palmas de Gran Canaria, España [email protected] Abstract. Las patologías de la voz tienen una gran incidencia, cada vez más frecuente en la población, como consecuencia de los esfuerzos sostenidos de la voz por motivos profesionales (cantante, orador, educador, animador, vendedor etc.) ya sean distonías, nódulos, afonías u otros, o simplemente que su emisión de voz no es la más adecuada, produciendo cansancio y el consiguiente forzamiento vocal. La voz es el resultado de una compleja mecánica en la que cada elemento posee una función e intervienen una multitud de fenómenos que interaccionan en la laringe. Es bien sabido que aprender a controlar y verificar todos los movimientos que hacen falta para producir un buen sonido es bastante difícil, porque el cantante percibe unas sensaciones internas, que no son siempre iguales y que varían dependiendo de la técnica vocal que se emplée La propuesta metodológica para la reeducación de la voz “Pantalla de celofán”, tanto en el habla como en el canto, tiene como objetivo proporcionar una herramienta sencilla y práctica a todas aquellas personas que necesiten mejorar su emisión vocal. 106 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 1 Introducción La voz es sin duda el instrumento de expresión y comunicación de trabajo más difundido en la vida moderna. Todas las personas utilizan la voz a diario, es el vehículo y condicionante del trabajo en nuestra vida, en casi todas las manifestaciones. Para algunas profesiones el uso de la voz es fundamental para el desempeño laboral, como actores, cantantes, locutores, oradores, telefonistas, docentes y otros. En la actualidad, nos encontramos con que una gran parte de la población presenta trastornos vocales como consecuencia de sobreesfuerzos del instrumento, ya sean distonías, nódulos, afonías u otros, o simplemente que su emisión de voz no es la más adecuada, produciendo cansancio y el consiguiente forzamiento vocal. Entre la población docente existe un alto porcentaje de profesores que utilizan mal la voz y realizan esfuerzos musculares para obtener los sonidos con intensidad y amplificados, para así poder ser escuchados. Hay una estrecha correlación entre éstos y los niños. Es muy frecuente encontrar a niños con dificultades en la fonación, pero vemos que donde realmente radica el problema es en los modelos vocales, o sea, en sus padres, familia o en las personas que más horas pasan con ellos, que son sus maestros. Es también habitual, tanto en adultos y en niños, y sobre todo en la etapa de la adolescencia, ver que no se sienten identificados con su voz, no les gusta y buscan patrones de conducta vocal cercanos a sus deseos, tendiendo a hacer el tono de voz más grave buscando resonancias más profundas, oscuras y atractivas, adaptando su voz a patrones erróneos y como consecuencia a un mal funcionamiento de su órgano vocal. En la transmisión de comunicación en el canto es bastante frecuente utilizar el ejemplo directo del maestro. Es habitual que el maestro interprete y el discípulo ejecute, lo que resulta muy difícil aprender a controlar y verificar todos los movimientos que hacen falta para tener una buena emisión vocal, ya que las sensaciones no son iguales ISBN: 84-695-8101-5 107 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 en todas las personas y tienen que aprender a investigar sobre ellos mismos. En el estudio del canto, los alumnos se hacen siempre la misma pregunta “¿Cómo sé si es correcto lo que estoy haciendo?”. Realmente no saben a ciencia cierta si lo están haciendo bien o no. Tienen la sensación que, sin la ayuda de su profesor poco o nada pueden hacer por ellos mismos y no tienen nada tangible a lo que aferrarse. El control de la voz por el propio oído les resulta muy difícil porque carecen de una referencia clara para cerciorarse de que están emitiendo un sonido correcto, por lo tanto, el estudio y la práctica en casa se les hace mucho más engorroso. Es bastante ingrato repetir y repetir sin tener la certeza de que están trabajando adecuadamente, y sólo les queda esperar una semana, hasta la próxima clase, para que su profesor les verifique si han realizado bien los ejercicios. Actualmente existen diferentes métodos para reeducar la voz, los cuales se describen a continuación: Método de Voice Ctraft: se basa en la fisiología y la anatomía del cuerpo. El método consiste en dividir el proceso de producir sonidos en 13 ejercicios o Figuras Obligatorias, que aíslan las estructuras independientes en el mecanismo vocal. Esto permite al cantante escoger qué “ingredientes” combinan en la “receta” de cualquier sonido particular que desee hacer. Método Speech Level: Creado por Seth Riggs, es una técnica de entrenamiento vocal que consiste en mezclar resonancias entre pecho y cabeza. Esta mezcla es gradual al pasar de registro. Cantar con los músculos internos de la laringe no con los externos, por lo que se necesita menos esfuerzo para producir el sonido. Se desarrolla un sonido parejo y consistente sin discrepancias al cambiar de un registro a otro. Método Rabine: creado por Eugene Rabine, junto al profesor Peters Jacoby, se dedicó a investigar y comprender las bases anatomo- fisiológicas del canto. El fundamento del Método Rabine consiste en la habilidad del maestro en desarrollar el oído, la visión y la empatía funcional. Su base está apoyada en dos teorías, una acerca de la función vocal y la otra acerca del aprendizaje senso- motor. 108 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Método Linklater: fue diseñado por Kristin Linklater, su enfoque se caracteriza que no desenraiza la voz de la persona “Escuchamos la persona, no escuchamos su voz”. Consiste en una progresión de ejercicios al servicio de la libertad de expresión y cuya meta es la libertad de la voz natural. Complete Vocal Technique: creado por Cathrine Sadolin, según su método protege anatomía y el uso de la voz mediante cuatro modos vocales (neutral, retenido/frenado, directo, extremo), los colores del sonido y la asistencia urgente; opta por una manera sana de hacer efectos vocales. Método Vocal Power: creado por Elisabeth Howard, es un método “step- by step” de entrenamiento vocal que permite un mejor control de la voz y una mayor libertad expresiva. Método Proel: método propioceptivo elástico energético basado en los conceptos fisiológicos de la voz aplicados al canto: La viscoelasticidad y la lubricación de la laringe, la dinámica del velo del paladar, de la lengua y de la musculatura facial para abrir el tracto vocal. 2 Método Cimardi. “Pantalla de celofán” La propuesta metodológica para la reeducación de la voz “Pantalla de celofán” responde a una necesidad que se plantea habitualmente en la docencia de cómo hacer que los estudiantes de canto consigan discernir cuándo un sonido está bien emitido, entendiendo por ello estabilidad de la voz, riqueza espectral, riqueza de armónicos y facilidad en la emisión, sin tensiones. Este trabajo propone una técnica de entrenamiento vocal y la información de cómo usarla. La técnica de voz llamada “Pantalla de celofán” sirve para que la práctica vocal no sólo sea por imitación y por vía auditiva, sino por sensaciones internas que puedan fijar a través de la utilización con la “Pantalla de celofán”. El objetivo es proporcionar una herramienta sencilla y práctica a todas aquellas personas que necesiten mejorar su emisión vocal. ISBN: 84-695-8101-5 109 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 La técnica “Pantalla de celofán” consiste en hacer vibrar un papel de celofán transparente de bajo gramaje, aproximadamente de 20 gr/m2, colocado sobre los labios y sosteniéndolo con una o ambas manos. Fig. 1. Pantalla de Celofán El papel de celofán debe tener aproximadamente 20 cm de ancho y 15 cm de alto, lo suficiente para que se pueda sostener con las manos sin problema, procurando que los hombros estén relajados y los orificios nasales no estén tapados. El papel de celofán no debe estar tenso, cada persona elegirá cuál es el grado de tensión que necesita para hacerlo vibrar. Hay quienes necesitarán taparse prácticamente la boca para vibrar, y otros simplemente rozando delicadamente los labios. Algo importante es la colocación de los labios, por experiencia el resultado óptimo es cuando se coloca la boca en forma de <U>. 110 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fig. 2. Uso de la pantalla de celofán. Se ha desarrollado un trabajo de investigación sobre la incidencia en el resultado sonoro con la utilización de la “Pantalla de celofán”, para ello, se ha hecho una evaluación preliminar para ver las condiciones de partida y posteriormente efectuado el registro de la voz. Se les ha explicado a los participantes qué es la “Pantalla de celofán” y cómo usarla, también cuál va a ser la dinámica para tomar las muestras necesarias y los instrumentos de recogida de datos, así como el tiempo que le dedicaremos a la práctica. Se han trabajado sonidos sostenidos, arpegios y práctica de sonidos onomatopéyicos. Se ha adiestrado a los participantes en el uso, alternando con la “Pantalla de celofán “ y sin ella. Y finalmente, se han realizado los registros de voz antes y después de finalizar el programa. El análisis acústico se ha realizado con el programa de libre distribución SFS/ESection. ISBN: 84-695-8101-5 111 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Aunque el tiempo necesario que se empleará en cada sesión dependerá de las necesidades de cada individuo, en el caso que nos ocupa no ha sido más de 35’. 2.1 Fase Previa: entrenamiento Para hacerlo sonar se emite un sonido, haciendo vibrar el papel de celofán. Resulta más conveniente dar la nota <La4> o <Si4>, depende también del tipo de voz que sea, si es hombre, mujer o niño, o simplemente la nota en la que se encuentren más cómodo. La punta de la lengua debe estar contra las encías o contra los dientes, y los bordes deben contactar con las encías o con las arcadas dentales superiores. La cara superior de la lengua puede ahuecarse más o menos hasta formar un canal mediante el enrollamiento lateral de sus bordes. Una vez que se ha conseguido hacer vibrar el papel de celofán se harán ejercicios de vocalización (canto sin texto). Su finalidad es colocar el aparato fonador en las máximas condiciones de flexibilidad y funcionamiento para obtener una correcta emisión de la voz. Se debe empezar con una vocal que más espontáneamente produzca las cualidades vocales de la persona, aunque se recomienda para este trabajo comenzar a vocalizar con la <U>, porque es más sencillo hacer vibrar el papel de celofán, facilita la emisión y sirve como referencia y punto de partida para las demás vocales. Cuando hay dificultades en hacer vibrar el papel de celofán se pueden hacer varios ejercicios: Con una mano se sostiene el papel sobre los labios y con la otra mano se alterna el dedo índice y mediano dando golpecitos al papel a un ritmo rápido, y cantando la vocal <u>. También pueden colocar la palma de la mano de manera cóncava para aquellas personas que no les sale con los dedos alternados Otra manera de hacerlo vibrar es pronunciar el vocablo <pr> y mantener el sonido onomatopéyico del motor de un coche <rrrrr> 112 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Imitar el sonido de la sirena de una ambulancia también da muy buenos resultados. Para aquellas personas que tengan una voz débil resulta muy apropiado imitar a un perro con un ladrido fino y chillón < gua gua gua> o también a una gallina (co co co co) 2.2 Fase Final: La percepción Primero se practicará haciendo sonidos onomatopéyicos, aquellos de los que hemos hablado anteriormente y que resulten más adecuados para el alumno. Una vez se haya conseguido hacer vibrar el papel con soltura, se comenzará a practicar con sonidos sostenidos sobre una nota. Se debe iniciar los ejercicios comenzando de notas agudas a graves, manteniendo la misma posición y la energía espiratoria, para pasar a hacer ejercicios de extensión gradual hacia los extremos de la voz, y así con todas las vocales. Una vez que el alumno ha conseguido hacerlo vibrar con desenvoltura y haya podido hacer los ejercicios correspondientes, se le pedirá que retire el papel manteniendo la misma posición y la misma sensación que tenía cuando lo hacía con el papel, de esta manera logrará una emisión fácil y correcta sin necesidad de buscar dónde debe colocar el sonido, se trata de hacer exactamente lo mismo que cuando se canta con el papel. Ya una vez que se ha entendido y practicado con vocales, se hará lo mismo con consonantes hasta que pueda cantar una canción con el papel de celofán, de igual manera se haría para la voz hablada. 3 Resultados Se han estudiado 3 casos diferentes. Para cada caso se ha analizado una grabación de la vocal /a/ de forma sostenida tanto antes como después del tratamiento. El análisis ha consistido en la representación de la señal en el dominio temporal, del espectrograma de banda estrecha, la excitación glótica y una representación en el dominio cepstral. Para obtener las representaciones ha sido utilizado el software de libre distribución ESection. ISBN: 84-695-8101-5 113 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Caso 1 Descripción: Es una voz de una señora de 74 años. Cantante en coros desde su juventud, presenta problemas de emisión: voz tremolante y gutural, sin saber dónde debe emplazar el sonido. Fig. 3. Señal de voz antes de aplicar el Método Cimardi (caso 1) Fig. 4. Señal de voz después de aplicar el Método Cimardi (caso 1) 114 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Caso2 Descripción: Adolescente de 17 años, aspirante a estudiar canto. Presenta problemas de ronquera y de fatiga vocal debido al nulo conocimiento de cómo o qué se debe hacer para emitir un sonido correcto Fig. 5. Señal de voz antes de aplicar el Método Cimardi (caso 2) Fig. 6. Señal de voz después de aplicar el Método Cimardi (caso 2) ISBN: 84-695-8101-5 115 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Caso 3 Descripción: Varón de 57 años, sin estudios de canto, presenta problemas de debilidad e irregularidad en la voz. Fig. 7. Señal de voz antes de aplicar el Método Cimardi (caso 3) Fig. 8. Señal de voz después de aplicar el Método Cimardi (caso 3) 116 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 4 Discusión Tras el análisis acústico pueden identificarse ciertos patrones comunes en los diferentes casos, tanto para las voces antes del tratamiento como para las voces después del tratamiento. Las voces antes del tratamiento se caracterizan por voces aéreas, especialmente caracterizadas por la presencia de ruido en altas frecuencias. Las voces después del tratamiento se caracterizan por una mayor definición de los armónicos, mayor rango de armónicos y una mayor definición de los formantes. 5 Conclusiones Ha habido cambios significativos en la calidad de la voz que han sido medidos con técnicas de procesado digital. “La Pantalla de celofán” creemos que les ha servido para unificar la impostación de todas las vocales, este molde estable no es fácil de conseguir y requiere mucho tiempo, con este trabajo han minimizado los esfuerzos necesarios para conseguirlo. La relación entre la audición y la fonación es íntima, la realización de un sonido está estrechamente ligada a la imagen auditiva del mismo. Si el sujeto no percibe las impresiones sonoras o las percibe deformadas, es incapaz de controlar su voz. “La Pantalla de celofán” consideramos que les ha ayudado porque no tienen que estar pendientes de lo que oyen sino sólo de hacerlo vibrar. En cuanto a la aceptabilidad de los usuarios, la práctica de “La “Pantalla de celofán” según su opinión, les ha favorecido a desarrollar la memoria auditiva y muscular necesaria para tener una buena emisión. Así mismo consideran que el estudio en casa les ha sido más productivo, no han necesitado estar tan pendientes de una percepción auditiva, ni depender tanto de su maestro, ya que en muchas ocasiones la ISBN: 84-695-8101-5 117 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 emisión de un sonido dado por un profesor puede estar sujeta a fluctuaciones. La referencia ha sido “La Pantalla de celofán”. 6 Referencias bibliográficas 1. LE HUCHE, F. Y ALLALI, A. (2003): Terapéutica de los trastornos vocales (Tomo 4). Paris: Masson 2. DR. PERELLÓ, J. CABALLÉ, M. Y GUITART, E. (1982): Canto-dicción. Barcelona: Editorial científico 3. CANUYT, G. (1958): La voz. Buenos Aires: Hachette 4. JESÚS B. ALONSO HERNÁNDEZ, CARLOS M. TRAVIESO, MIGUEL A. FERRER BALLESTER, JOSÉ DE LEÓN, JUAN I. GODINO,(2008) Evaluación Acústica del Sistema Fonador. Ed. Universidad de Las Palmas de Gran Canaria, ISBN 978-84-96971-74-5 118 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Entrenamiento vocal en la práctica Ulrika Törnros Educación Musical Ulrika, S.L.U. Las Palmas de Gran Canaria [email protected] La educación vocal se considera como una disciplina musical compleja, y entendemos que el profesor de esta materia, el educador, el vocal coach, requiere de una formación amplia, profunda y muy específica, en varias materias, para lograr tener el éxito que desea en su vida laboral y, de este modo, sentirse capaz de ayudar a quién acude a su estudio. El papel del profesor de canto está cambiando con la sociedad, y en la actualidad, no se considera suficiente que los profesores de voz, exclusivamente, dominen un único género, el clásico, sino que, se considera fundamental, que tenga los conocimientos básicos para poder ayudar al alumno que desee evolucionar, además, su voz en otros estilos. Nos preguntamos en dónde está la diferencia, y hemos visto que los resultados de investigaciones recientes nos explican en qué se diferencia el cantar en un estilo u otro, y creemos que el entrenamiento puede tener muchos patrones en común. La respiración, como generador de energía que pasa por los pliegues vocales y se convierte en sonido requiere entrenamiento específico y constante, independiente del estilo que se quiera cantar. La fuente de la voz, donde se crea el sonido, en la apertura glotal, la glotis, entre los dos pliegues vocales, requiere su entrenamiento muscular para poder responder al aire que viene de los pulmones. Este entrenamiento, la resistencia glotal, también se puede realizar independientemente del estilo que se quiera cantar. La diferencia fundamental está en el resonador, en nuestro amplificador interno, o si utilizamos la nomenclatura de la tecnología, nuestra mesa de mezcla personal. Allí, en el tracto vocal, el sonido puro empieza a “trabajar” para amplificarse y convertirse en un sonido apto para un estilo o para otro. Creemos que el entrenamiento vocal consiste en entender el cómo se puede modificar el resonador para conseguir una calidad vocal cantada/hablada u otra. ISBN: 84-695-8101-5 119 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 La elección de la resonancia la consideramos como una elección individual, personal y artística de cada cantante. La historia y la cultura general nos aportan los conocimientos básicos sobre qué ha sido lo “correcto” en cada época, pero eso forma parte de los conocimientos complementarios del cantante, y por supuesto, deben ir en aumento con la educación vocal en su totalidad. Creemos que si logramos enseñar a los alumnos a diferenciar, modificar y auto-evaluar su voz y la elección de resonancia, lo tendrán más fácil a la hora de conseguir un trabajo como cantante, porque serán capaces de dar al director lo que él/ella desea en cada obra. Sin embargo, si al contrario, solamente saben cantar con una calidad vocal, se limitarán sus expectativas laborales como cantantes. En el taller la ponente compartirá su experiencia como entrenadora vocal y, con la ayuda de un powerpoint, expondrá los ejercicios y elementos fundamentales para el entrenamiento vocal bajo su punto de vista y experiencia laboral. Será un taller práctico donde se invitará a practicar el comienzo del tono, el control sobre los pliegues verdaderos y falsos junto a algunos ejercicios para la obtención del control sobre la laringe y su musculatura y conexión con el cuerpo. Estos ejercicios musculares se pueden realizar incluso en silencio, lo cual nos resulta muy gratificante ya que muchos de nuestros clientes acuden por sobreesfuerzo vocal y necesitan herramientas y estrategias de entrenamiento alternativos para poder avanzar con su voz. Además se demostrará unos ejercicios de estiramiento para incluir en la práctica diaria del usuario profesional de la voz. ¡Bienvenido al taller de entrenamiento vocal en la práctica! 120 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Introducción a la Biometría de Voz Identificación de Locutor Miguel Ángel Ferrer Instituto Universitario para el Desarrollo Tecnológico y la Innovación en Comunicaciones Universidad de Las Palmas de Gran Canaria Spain Resumen. Al tratarse las Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto de un foro multidisplinar que engloba expertos en ingeniería de la voz, profesionales de la salud y canto, la presente ponencia pretende presentar los conceptos y terminología básica propia de la biometría, centrándose en la identificación de locutor. Se introducirá el paradigma biométrico y una introducción a los sistemas biométricos automáticos así como la evaluación de su rendimiento. Previo a la presentación de la biometría de locutor, se expondrán las principales aplicaciones y mercados así como algunas consideraciones y limitaciones de la biometría. Se continuará con la presentación de las principales técnicas de identificación de locutor a diferentes niveles, su arquitectura y aplicaciones a salud y seguridad. ISBN: 84-695-8101-5 121 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Classical vs. Biometric Features in the 2013 Speaker Recognition Evaluation in Mobile Environments Luis Miguel Mazaira-Fernández, Agustín Álvarez Marquina, Pedro Gómez Vilda, Rafael Martínez-Olalla, Cristina Muñoz-Mulas Grupo de Informática Aplicada al Procesado de Señal e Imagen (GIAPSI) Facultad de Informática, Universidad Politécnica de Madrid, Campus de Montegancedo, s/n, 28660 Boadilla del Monte, Madrid – SPAIN. e-mail:[email protected] Abstract. MFCC coefficients extracted from the power spectral density of speech as a whole, seems to have become the de facto standard in the area of speaker recognition, as demonstrated by its use in almost all systems submitted to the 2013 Speaker Recognition Evaluation (SRE) in Mobile Environment [1], thus relegating to background this component of the recognition systems. However, in this article we will show that selecting the adequate speaker characterization system is as important as the selection of the classifier. To accomplish this we will compare the recognition rates achieved by different recognition systems that relies on the same classifier (GMM-UBM) but connected with different feature extraction systems (based on both classical and biometric parameters). As a result we will show that a gender dependent biometric parameterization with a simple recognition system based on GMM-UBM paradigm provides very competitive or even better recognition rates when compared to more complex classification systems based on classical features. Keywords: Speaker Characterization, Speaker Recognition, GMM-UBM, Source-Tract separation, MOBIO database. 1 Introduction Although been an area that has been active at least since early 70s [2], Automatic Speaker Recognition (ASR) keeps on been an active research area. As a result of this interest, some institutions have provided a common framework to test the advances in this area. For instance, the National Institute of Standards and Technology (NIST 1) have been organizing the NIST SRE on a regular basis since 1996. The main objective pursued in these evaluations is to measure the state-of-the-art in text-independent speaker recognition subject to high variability covering different aspects, such as: varying length recordings (both in train and test), vocal effort variability, different 1 www.nist.gov adfa, p. 1, 2011. © Springer-Verlag Berlin Heidelberg 2011 122 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 communication channels, etc. A more novel evaluation, (the second one taking place on 2013) is the one proposed by the Biometric Group at the Idiap Research Institute, which is based on the MOBIO database [3].The aim of this competition is mainly the same as the one of NIST SRE, i.e. determine whether a specified target speaker is present or not in a given segment of speech. The main difference with respect to NIST SRE is that this competition is restricted to speech recorded in mobile environments, and more important the average speech duration of MOBIO recordings are significantly lower (around 8s ) than those in NIST databases. To meet the challenges of these evaluations different classification methods [4] (UBM-GMM, total variability spaces, Gaussian Supervectors, etc.) have been proposed combined with normalization post-processing steps such as LDA, WCCN, or NAP. However, regarding the front-end that feeds those classification systems, gender-independent MFCC coefficients extracted from the power spectral density of speech as a whole, seems to be the only choice, as demonstrated by the fact that all systems participating on the 2013 SRE on Mobile Environments used them [1]. Given that none of the presented evaluations performs cross-gender trials and that as is well known male and female voices present different characteristics (the clearest case is for example in pitch values), the present work defends the idea that a gender dependent parameterization that takes into account spectral characteristics of vocal tract (acoustic-phonetic) and glottal (phonation-gesture) estimates of voicing speech , as well as classical MFCC, will provide a better characterization of speakers and thus help to increase recognition rates. The paper is organized as follows: section 2 briefly describes both the MOBIO database as well as the 2013 SRE in Mobile Environments. Section 3 presents both the biometric gender-dependent front-end as well as the whole recognition system build to participate in the SRE. Section 4 evaluates the performance of the presented system and compares it with the other systems. Finally, some conclusions will be exposed in section 5. 2 The MOBIO database and the 2013 SRE in Mobile Environments The MOBIO database is a bi-modal database that consists of faces and voice information, captured on mobile devices (actually using a NOKIA 93i mobile phone with a sampling rate of 16 kHz). The database contains a total of 152 speakers (100 male and 52 female) that have been recorded in 2 different phases, with 6 different sessions in each phase, in 6 different sites. Regarding the audio data, all data was collected in English, though English may not always be the native language of the speakers. Additionally, as it was captured using a mobile device (not placed in a fixed position), it contains high variability in terms of quality and acquisition environments (which means real noise background).A deep description of the MOBIO database can be found in [3]. ISBN: 84-695-8101-5 123 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Regarding the competition, the main objective, as in NIST SRE, is to determine whether a specified target speaker is present or not in a given segment of speech. In order to provide a common framework for all systems taking part in the evaluation, the speakers (and thus its recordings) included in the MOBIO database, are split into three different subsets as follows: • Background training set.- this subset me be only used to learn the background parameters of the algorithm (UBM, subspaces, etc.) or for normalization purposes. • Development set.- The data assigned to this set is split into two subsets: enrolment and test. The first one is used to create a model of each of the target speakers included. The second one contains a list of audio samples that must be tested against all the target speakers. The data on this set is supposed to be used to tune metaparameters of the algorithm (e.g. number of Gaussians, dimension of subspaces, etc.). The recognition rate, regarding EER, achieved with this development set is used to define a score threshold that will be used to evaluate the performance of the recognition systems. • Evaluation set.- the final evaluation performance is analysed using this set, which has a similar structure as the development set. A score must be provided for each trial, for instance in the form of log-likelihood, representing how accurately the test segment is classified as containing, or not, speech for the target speaker against which is confronted. The performance of the systems is evaluated on terms of EER in two different ways. Using the development set, a score threshold, θdev, is defined which provides the EER of that set. The threshold, θdev, will provide the Half Total Error Rate (HTER) that can be defined as: 𝐻𝑇𝐸𝑅 = 𝐹𝐴𝑅𝑒𝑣𝑎𝑙 (𝜃𝑑𝑒𝑣 )+𝐹𝑅𝑅𝑒𝑣𝑎𝑙 (𝜃𝑑𝑒𝑣 ) 2 (1) where FAReval is the False Acceptance Rate obtained using threshold θdev, on the evaluation set, and FRReval represents the False Rejection Rate achieved using threshold θdev on the evaluation set. 3 Gender-dependent biometric front-end and Recognition System Description. A complete speaker recognition system has been design to participate in the 2013 SRE on Mobile Environments. This system can be divided into different blocks: 3.1 Feature extraction. In order to evaluate the influence of what we have called biometric parameters, an additional system (baseline front-end) was developed, also connected to the same modeling and scoring system. This baseline front-end performs a classical feature extraction, providing gender independent speaker features based on MFCC + ∆. 124 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fig. 1. Classical MFFC+∆ feature extraction process. Alternatively to the feature set based on classical MFCC parameters where both male and female speakers are parameterized using the same set up, we propose an extended parameterization which integrates classical cepstral information with cepstral coefficients derived from vocal tract and glottal source estimates (biometric parameters) in a single feature vector. Moreover, as we have already pointed out, not only classical MFCC parameters are computed using a different set up depending on the gender, but also the MFCC parameters extracted from vocal tract and glottal source estimates are parameterized differently depending on the gender. Fig. 2. Separation algorithm with lip radiation compensation using first order prediction lattice ISBN: 84-695-8101-5 125 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 The methodology used to separate vocal tract and glottal estimate of voice from continuous speech is based on the uncorrelation hypothesis between them and is carried out using Joint Process Estimation (JPE) algorithm. Fig.2 shows the block diagram of the separation algorithm, while a comprehensive description of it can be found in [5]. Additionally to these new set of parameters, we have also investigated the used of other common parameters such as frame energy, delta energy, pitch and, formant 3 estimate. The configuration finally sent to the SRE consisted of the following parameters: o Female Speakers (54-dim FV): 24MFCC+∆MFCC (34mel-spaced filter bank) 4MFCC (extracted from the glottal estimate) F0 estimate F3 estimate o Male Speakers (69-dim FV): 28MFCC+∆MFCC (38mel-spaced filter bank) 10MFCC (extracted from the glottal estimate) ∆Energy F0 estimate F3 estimate 3.2 Voice activity detection An adaptive VAD algorithm based on energy detection has been implemented and computed over a 32ms-long window with 8ms overlap. Additionally, a built-in heuristic has been incorporated that removes or includes signal segments shorter than 56ms, depending on its relative location to longer voice segments. The algorithm has been tested on the MOBIO development dataset, providing accurate voice activity detection 3.3 Feature Normalization It is necessary to perform a noise reduction preprocessing step, as we are dealing with telephone conversations. In this case, a variation of the Ephraim-Malah spectral subtraction algorithm in a single channel is applied [6] Once the set of MFCC feature vectors have been computed for the whole speech signal, the cepstral mean subtraction (CMS) [7] algorithm is applied. This algorithm mainly consists on computing the mean of each cepstral coefficient over the length of the current utterance, then the mean value is subtracted from the original cepstral coefficient, thus removing the channel induced effects as well as any other stationary speech component. Additionally, feature warping [8] has been applied to transform the original cepstral coefficients so that they follow a specific target distribution, for instance a normal distribution, over a window of speech frames, typically 3 seconds 126 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 window. It provides a set of features that are supposed to be robust to channel mismatch, additive noise and nonlinear effects attributed to handset transducers. Finally, RASTA filtering [9] has been implemented in order to remove the spectral components that changes at different rate than the one present in speech, i.e. tries to remove convolutional and additive noise. 3.4 Classifier and model Regarding the speaker modeling technique, we have applied the UBM-GMM (Universal Background Model – Gaussian Mixture Model) paradigm. The selection of this approach is twofold. First of all, GMM is a probabilistic model which has become the de facto reference method in text-independent speaker recognition. Second, the limited amount of data available on the MOBIO database (regarding both the number of speakers and channel variability) discourage the use of more complex recognition systems Specifically, we have used a standard mixture classifier with diagonal covariance matrix. Each speaker is represented by a GMM, λspeaker-k, which has been adapted from a gender-dependent UBM using the MAP algorithm [10] in which only the distribution means have been adapted. The UBM is also represented as a GMM, λUBM, which has been trained on the MOBIO training set via the EM-algorithm. The number of Gaussians as well as the relevance factor used on the MAP-algorithm is in the case of female speakers 256 and 28 respectively; while for male speakers are 512 and 28. Log-likelihood ratio (LLR) has been the score used to take a decision on whether a test audio segment is likely to be spoken by a specific speaker represented by a model λs. LLR=logP(X|λS)-log P(X| λUBM) 3.5 (2) Score Normalization. Znorm [11], Tnorm [12] and ZTnorm have been tested using gender dependent cohorts, extracted from the MOBIO training set. However, only ZT norm score normalization, applied to male speakers, have provided some improvement on development test in terms of EER 4 Performance Results A battery of test has been conducted on the development set, in order to find the best configuration, in terms of number of MFCC, using the baseline front-end, which minimizes the EER for both genres. As expected, the results achieved, in terms of EER, with a gender independent configuration (GIC) are slightly worse than the ones obtained using a gender dependent characterization (GDC) even in the case of using just MFCC coefficients extracted from the power spectral density of speech as whole. ISBN: 84-695-8101-5 127 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Additionally, we have introduce some alternative parameters (but also typically used in speaker recognition) that are added to the feature vector either alone or combined, to the GDC. Specifically, we have tested Energy, ∆Energy, Pitch (F0) and formant F3. Finally, we have evaluated the performance of the gender-dependent biometric front-end. The approach that has been followed consists on incorporating the biometric coefficients (GDBP) into the best gender dependent configuration achieved so far (as presented in section 3.1). The bests results achieved, on development set, are shown in table 1 (male) and table 2 (female), as well as the relative reduction in terms of EER if compare to the GIC. It must be noted that despite receiving the same name GDC and GDBP are different configurations depending on the gender. Additionally DET curves are presented in Fig.3. Table 1. EER achieved for different configurations on development set, for male speakers, applying ZT Norm or no score normalization. Best results highlighted in bold. EER MALE Parameters GIC GDC GDC+ ∆E+ F0 + F3 GDBP ZT Norm 10.31% 9.70% 9.16% 8.12% No Norm 11.58% 10.97% 10.47% 8.91% Relative Reduction ZT Norm No Norm 5.92% 5.26% 11.15% 9,58% 21,24% 23.05% Table 2. EER achieved for different configurations on development set, for female speakers, applying ZT Norm or no score normalization. Best results highlighted in bold. EER FEMALE Parameters GIC GDC GDC+ F0 + F3 GDBP ZT Norm 11.59% 11.25% 11.57% 10.79% No Norm 12.16% 11.64% 11.20% 10.44% Relative Reduction ZT Norm No Norm 2.93% 4.28% 0.17% 7.89% 6.90% 14,14% After these test carried out on the MOBIO database, and specifically in the development set, we can draw the following conclusions. First of all, a gender dependent characterization provides a clear improvement in the recognition rates. The use of additional parameters such as Pitch and formant F3 (and ∆Energy in male speakers) also causes a decrease of the EER especially in the case of male speakers. Moreover, incorporating what we have called biometric parameters, results in a clear improvement of recognition rates. Finally, ZT Norm does not appear to provide a clear improvement in recognition rates for female speakers, unlike in the case of male speakers. This may be due, to the limited number of female speakers in the training set. 128 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Fig. 3. Male (right) and female (left), applying ZT Norm (up) and no score normalization (down) DET curves on MOBIO development set. Finally, table 3 summarizes the results obtained in the SRE by different systems in both development and evaluation set. Systems marked with *, are actually fusion of different systems, while systems marked with + are those who used external/additional training data. It must be noted that, despite having developed a simple recognition system (based on the UBM-GMM paradigm), the fact of having achieved a better speaker’s characterization based on gender-dependent biometric parameters, allows us to get very competitive results. Moreover, the systems that improve the recognition rates of our system are only those that either performed a fusion of multiple systems or used additional data for training. ISBN: 84-695-8101-5 129 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Table 3. EER % on the development (DEV) set and half total error rate (HTER %) on the evaluation (EVAL) set for the systems participating in 2013 SRE in Mobile Environments (from [1]). System Alpineon* ATVS+ CPqD* CDTA GIAPSI 2 GIAPSI 3 EHU IDIAP L2F* L2F-EHU* Mines-Telecom+ Phonexia+ RUN+ 5 FEMALE DEV EVAL 7.982% 10.678% 16.836% 17.858% 14.348% 15.987% 19.471% 22.640% 11.590% 12.813% 10.440% 13.115% 17.937% 19.511% 12.011% 14.269% 13.484% 22.140% 11.005% 17.266% 11.429% 11.633% 8.364% 14.181% 25.405% 23.112% MALE DEV EVAL 5.040% 7.076% 14.881% 15.429% 11.824% 10.214% 12.738% 19.404% 9.683% 8.865% 8.125% 8.854% 11.310% 10.058% 9.960% 10.032% 10.599% 11.129% 7.889% 8.191% 10.198% 9.109% 9.601% 10.779% 24.643% 22.524% Conclusions In order to test the importance of an accurate front-end to better characterize speakers, a complete system has been developed to participate in an international evaluation contest, 2013 SRE in Mobile Environments. It has been shown that the use of a gender-dependent biometric representation provides a more accurate description of the speakers than the one based on classical gender-independent MFCC. Thus confirming conclusions achieved in previous works [13][14]with different databases. Additionally, as we are dealing with text-independent trials, it seems that including information, as MFCC parameters, from the vocal tract estimate provides no additional benefit. This may be mainly due to the fact that this component, in which voice can be split, is more related to the message carried out by voice rather than to the biometry of the speaker as is the glottal source estimate. Although the developed system meets the state-of-art requirements is probably the simplest presented system, but at the same time achieves very competitive results thanks to incorporate enhanced description of speakers. Moreover, according to the published results [1] our system gets the best simple system performance on male. However, results seem to be still far away for the best results that can be achieved fusing all the presented systems (male eval. HEER=6.986%, female eval. HEER=4.767), providing still some room for improvement by using the presented gender-dependent biometric front-end combined with more promising classifiers such as GSV or i-vectors. 2 3 130 Original results. Results achieved after post-processing. ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 6 Acknowledgement This work is being funded by grant I+D+I, Ministry of Science (http.//www.proyecto-hesperia.org) Desarrollo Tecnológico Industrial, TEC2012-38630-C04-04. TEC2009-14123-C04-03 from Plan Nacional de and Innovation; by project HESPERIA from the Program CENIT, Centro para el Ministry of Industry, Spain, and by project References 1. E. Khoury et al, “The 2013 Speaker Recognition Evaluation in Mobile Environments”. In the Proceedings of 6th IAPR International Conference on Biometrics (ICB 2013), 2013 (to be published) 2. A. Rosenberg, “Automatic speaker verification: A review”. In Proc. IEEE, vol. 64, pp. 475– 487, Apr. 1976. 3. Chris McCool, Sébastien Marcel, Abdenour Hadid, Matti Pietikäinen, Pavel Matějka, Jan Černocký, Norman Poh, Josef Kittler, Anthony Larcher, Christophe Lévy, Driss Matrouf, Jean-François Bonastre, Phil Tresadern, and Timothy Cootes. “Bi-Modal Person Recognition on a Mobile Phone: using mobile phone data”,Iin IEEE ICME Workshop on Hot Topics in Mobile Mutlimedia, 2012 4. Kinnunen, T., Li, H. “An overview of text-independent speaker recognition: From features to supervectors”. Speech Communication, Vol.52, Issue 1, pp.12-40, 2010. 5. Gómez, P. et al, “A Hybrid Parameterization Technique for Speaker Identification”, In the 16th European Signal Processing Conference, 2008 6. Y. Ephraim and D. Malah, “Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator”. IEEE Trans. Acoustics, Speech Signal Proc., vol.32, pp. 1109-1121.1984. 7. S.Furui, “Cepstral analysis technique for automatic speaker verification”. In IEEE Transactions on Acoustic, Speech and Signal Processing, vol. 29, pp. 254-272, 1981. 8. J. Pelecanos, S. Sridharan, “Feature Warping for Robust Speech Verification”. In 2001: A speaker Odyssey – The Speaker Recognition Workshop, pp. 213-218, 2001 9. Hermansky,H., Morgan, N.”RASTA processing of speech”. In IEEE Transactions on Speech and Audio Processing, vol. 2, pp. 578-589, 1994 10. Reynolds, D.A., Quatieri, T.F., Dunn, R.B.: Speaker Verification Using Adapted Gaussian Mixture Models. Digital Signal Processing, (2000) 11. Li, K.-P., Porter, J.E: “Normalizations and selection of speech segments for speaker recognition scoring”. Proc. of the International Conference on Acoustics, Speech and Signal Processing (ICASSP’88), vol. 1, pp 595-598, 1988. 12. Auckenthaler, R., Carey, M. & Lloyd-Thomas, H.: "Score Normalization for TextIndependent Speaker Verification Systems", Digital Signal Processing, vol. 10, no.1-3, pp. 42-54, 2000. 13. Mazaira L.M. et al. “Glottal Source Cepstrum Coefficients Applied to NIST SRE 2010”, In Proc. Of the V Jornadas de Reconocimiento Biométrico de Personas, 2010 14. Mazaira L.M. et al. “Improving Speaker Recognition rates using alternative genderdependent MFC Coefficients”, In Proceedings of the VI Jornadas de Reconocimiento Biométrico de Personas, JRBP 12, 2012. ISBN: 84-695-8101-5 131 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Voice Biometrical Match of Twin and non-Twin Siblings Eugenia SanSegundo1, Pedro Gómez-Vilda2 1 Phonetics Lab., Inst. of Lang. Lit. and Anthrop., Spanish National Research Council (CSIC) C/ Albasanz 26-28, 28037 Madrid, Spain 1 NeuVox Laboratory, Center for Biomedical Technology, Universidad Politécnica de Madrid, Campus de Montegancedo, s/n, 28223 Pozuelo de Alarcón, Madrid 2 Escuela Superior de Canto, C/ San Bernardo 44, 28015, Madrid e-mails: [email protected],[email protected] Abstract. The similarity in twins’ voice has been always an intriguing issue in forensic speech matching, but has become a serious matter of research only recently. The present work is a preliminary study of exploratory character describing the similarities of monozygotic and dizygotic phonation under the point of view of vocal fold biomechanics, in contrast to other siblings’ speech and unrelated speakers. Estimates of biomechanical parameters obtained from vowel fillers are used to produce bilateral matches between MZ and DZ twins and siblings, and unrelated speakers. These results show interesting relationships regarding genetic load and ambient factors in the adoption of phonation styles. Keywords: voice production, forensic pattern matching, phonation styles, glottal source features. 1 Introduction Recent studies in voice quality are conducted towards the evaluation of phonation performance in relation to either professional voice care, or in meta-acoustic knowledge (neurological deterioration, emotion detection, etc.) These fields of study are becoming more and more demanded nowadays. The aim of the present work is to study the similarities and differences of phonation characteristics in twins’ voices, including monozygotic (MZ) as well as dizygotic (DZ) twins. A reference to previous work on twin voice quality analysis and vocal performance of interest for this research is that of Van Lierde et al. [1]. The quality measurements used were perceptual GRBAS, breathing performance, fundamental frequency, jitter and shimmer, and the Dysphonia Severity Index (linear combination of highest pitch, lowest loudness, max. phonation time and rel. jitter). However, the study focused only on monozygotic siblings (MZ). Another relevant reference is that of Cielo et al. [2]. Although the twin sample used is quite small (2 MZ pairs, one per gender) their analysis is interesting as far as they tackle some features not been considered in twins’ voice studies before, namely vocal onset and harmonic characterization. While the results for maximum phonation time showed significant differences between twins, no such differentiation was found regarding vocal onset, fundamental frequency or 132 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 intensity. The work of Fuchs et al. [3] found that the voices of MZ twins showed more similarity among themselves than those of non-similar speakers regarding vocal range, highest and lowest fundamental frequency, prosodic pitch line, maximum intensity, number of overtones and intensity vibrato. The present work is intended to include biomechanical marks of relevance in the biometrical description of phonation [4]. The working hypothesis is that phonation cycle quotients and biomechanics may offer differentiation capabilities among MZ, DZ and control speakers not explored already. The paper is organized as follows: A brief description of the materials and methods used in the study is given in section 2. In section 3 results obtained from the bilateral tests and matches of 16 male speakers are given discussed. Conclusions are presented in section 4. 2 Materials and Methods Recordings from 16 male subjects of spontaneous free discourse in Spanish were taken at a sampling rate of 44,100 Hz and 16 bits using HQ microphones in an isolated room. The distribution of speakers was the following: 2 pairs of MZ, 2 pairs of DZ, 2 pairs of non-twin siblings and 2 pairs of controls (non-relatives). Spontaneous fillers (long vowels maintained for more than 200 ms around vowel [ε] produced inadvertently by speakers of Spanish in words like “que”, “de”, or in hesitation marks like “eeh...” etc.) were used in the study. Each speaker was recorded twice (2 sessions) separated by a 3-week interval. Speech recordings were around 10 min long. An average of 8-10 fillers was extracted from each recording. A set of biomechanical parameters as body and cover dynamic mass and stiffness was estimated from the spectral description of the glottal source reconstructed by inverse filtering. The inter-cycle unbalances of these parameters were also estimated. Open, Close and Return Quotients were added to the parameter set as well as Contact, Adduction and Permanent Gap Defects. The parameter set was completed with jitter, shimmer, NHR and Mucosal Wave ratio to produce a feature vector of 65 parameters. A set of pair-wise parameter matching experiments was carried out by likelihood ratio contrasts used in forensic voice matching [6]. The test is based on two-hypothesis contrasts: that the conditional probability between voice samples Za and Zb (from to the subjects under test) is larger than the conditional probability of each subject to a Universal Speaker’s Model ZU in terms of logarithmic likelihood ratios p( Z b | Z a ) LLR = log ; p( Z a | ZU ) p( Z b | ZU ) p( Z b | Z a ) = Γa ( Z b ); p( Z a | ZU ) = ΓU ( Z a ); (1) p( Z b | ZU ) = ΓU ( Z b ) where conditional probabilities have been evaluated using Gaussian Mixture Models (Γa, Γb, ΓU) from each vector subset. Intra-speaker tests used recordings from different sessions. A priori expectations assume that MZ will show the largest LLR's, followed by DZ, then by non-twin siblings; non-related speakers expected to show the lowest LLR's. ISBN: 84-695-8101-5 133 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 3 Results and Discussion Three main types of results are expected: a) those LLR (log-likelihood ratios) consistent with a priori expectations; b) a group of results which are not in agreement with a priori expectations; c) and probably the most important group being those allowing insightful discussion concerning the influence of genetic endowment and environmental factors in the type of speakers analyzed. Regarding the first group, all intra-speaker comparisons yielded positive and relatively large LLRs (from 5.2 to 50.1), except one (-14.5). As far as the inter-speaker comparisons are concerned, all LLRs (discarding the twin- and non-twin sibling comparisons, which are referred in a section apart) yielded negative values, except in one speaker (LLR= 3.5). Consequently the unexpected case of intra-speaker comparison and the unexpected case of inter-speaker comparison already mentioned above are found in the second group of results. Looking at the third group of results, for which no a priori assumptions were formulated since it is the first time that these biometrical parameters are used to test this kind of speakers, the following values have been obtained: For the two MZ pairs, as well as for the two DZ pairs, the LLRs are positive (57.3, 7.1, 34.9, 41.1, respectively), while the comparisons for non-twin siblings yielded different results depending on the pair under consideration: one pair yields an LLR of 19.1 while the other gives -32.4. Something similar happens in the comparison of unrelated speakers. In one case a strong mismatch is produced (LLR of -45.9) while in the other a weak match is obtained (LLR=3.5). These results are depicted in Fig. 1 and summarized in Table 1. 134 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Bilateral Matching 200.00 MZ05 MZ06 DZ15 150.00 DZ16 B21 100.00 B22 U27 50.00 U28 MZ41 MZ42 -50.00 MZ05 MZ06 DZ15 DZ16 B21 B22 U27 U28 MZ41 MZ42 DZ45 DZ46 B47 B48 U53 U54 MZ05 MZ06 DZ15 DZ16 B21 B22 U27 U28 MZ41 MZ42 DZ45 DZ46 B47 B48 U53 U54 0.00 DZ45 DZ46 B47 B48 U53 U54 Fig. 1 Summary of the results for the different tests. MZ: Monozygotics; DZ: Dizygotics; B: Related Siblings (Brothers); U: Unrelated Speakers; Table 1. Summary of the results for the different tests. MZ: Monozygotics; DZ: Dizygotics; RS: Related Siblings; US: Unrelated Speakers; (I): intra-speaker tests; (O): inter-speaker tests. Divided columns are used for each pair member. Match/Case MZ (I) MZ(O) DZ(I) DZ(O) RS(I) RS(O) US(I) US(O) LLR 50.1 48.4 57.3 44.5 16.3 34.9 -18.8 10.7 19.1 11.1 50.2 3.5 Match/Mismatch High High High High High High High High High High High Low LLR 24 24.6 7.1 -14.5 11.8 41.1 154.6 5.2 -32.4 26.5 13.5 -45.9 Match/Mismatch High High Low High High High High Low High High High High 4 Conclusions The most interesting finding is that there is a consistency in the results obtained within pairs in the case of both MZ twins and DZ twins: the results for pairs 1 (MZ) and 2 (MZ) show large positive matches, and the same occurs in the case of DZ twins: pairs 3 (DZ) and 4 (DZ) produce also large positive matches. Although at first sight, these results it might contrary-to-the-fact (i.e. the system produces large matches from ISBN: 84-695-8101-5 135 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 two different speakers), they must be interpreted in a different way. We suggest that the parameters that have been used in such comparisons show a great influence of both genetic and environmental factors. If only the comparisons of MZ twin pairs had yielded large matches, the only explanation possible would be genetic influence. However, the fact that similar values are obtained for MZ and DZ twins cannot lead to that conclusion. The impact of external factors (like a similar living and educational environment, same age, etc.) must be more relevant than it may be thought a priori in this kind of voice studies. This reflection may be reinforced by the fact that opposing trends are observed for the non-twin sibling pairs. The comparison results from one of them looks more similar to the values obtained from non-related pairs, while the results from the other sibling pair is closer to the trend followed systematically by MZ and DZ twins. Further research would be necessary especially in order to study the role of the specific parameters (out of the 65 possible features) intervening in the results from each comparison. Likewise, it seems vital to consider a reanalysis with more speakers. Acknowledgments. This work is being supported by an FPU grant from the Ministry of Education, a grant from the International Association for Forensic Phonetics and Acoustics, and by research grants TEC2009-14123-C04-03 and TEC2012-38630C04-04 from Plan Nacional de I+D+i, Ministry of Economy and Competitiveness of Spain. References 1. Van Lierde, K. M., Vinck, B., De Ley, S., Clement, G., and Van Cauwenberge, P. “Genetics of vocal quality characteristics in monozygotic twins: a multiparameter approach”, Journal of Voice, 19 (4), 2005, pp. 511-518. 2. Cielo, C. A., Agustini, R. and Finger, L. S., “Características vocais de gêmeos monozigóticos”, Revista CEFAC, 14 (6), 2012, pp. 1234-1241 (in Portuguese, summary in English). 3. Fuchs, M., Oeken, J., Hotopp, T., Täschner, R., Hentschel, B. and Behrendt, W., “Die Ähnlichkeit monozygoter Zwillinge hinsichtlich Stimmleistungen und akustischer Merkmale und ihre mögliche klinische Bedeutung”, HNO, 48 (6), 2000, pp. 462-469. 4. Gómez, P., Fernández, R., Rodellar, V., Nieto, V., Álvarez, A., Mazaira, L. M., Martínez, R, and Godino, J. I.: Glottal Source Biometrical Signature for Voice Pathology Detection. Speech Comm., (51) 2009, pp. 759-781. 5. Gómez, P., Rodellar, V., Nieto, V., Martínez, R., Álvarez, A., Scola, B., Ramírez, C., Poletti, D., and Fernández, M.: BioMet®Phon: A System to Monitor Phonation Quality in the Clinics. Proc. eTELEMED 2013: The Fifth Int. Conf. on e-Health, Telemedicine and Social Medicine, Nice, France, 2013, 253-258. 6. González, J., Rose, P., Ramos, D., Toledano, D. T. and Ortega, J., “Emulating DNA: Rigurous Quantification of Evidential Weight in Transparent and Testable Forensic Speaker Recognition”, IEEE Trans. On Audio, Speech and Lang. Proc., 15 (7), 2007, pp. 2104-2115. 136 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Modelado ARMA con resolución perceptual sobre fases glóticas para clasificación de voz patológica Pedro Quintana Morales, Juan L. Navarro Mesa, Antonio Ravelo García, Iván Guerra Moreno, Eduardo Hernández Pérez Instituto para el Desarrollo Tecnológico y la Innovación en Comunicaciones Universidad de Las Palmas de Gran Canaria. España. [email protected] Abstract. Las patologías de la voz, entre las que se encuentran las disartrias, dislalias, disglosias, etc, manifestadas a través de perturbaciones en el habla, afectan de manera importante al proceso de comunicación. En el desarrollo de herramientas de ayuda a personas con estos tipos de discapacidades orales nos encontramos con entornos de entrenamiento para la mejora de la pronunciación que necesitan de la clasificación de la voz y en los que los sistemas de reconocimiento automático del habla (RAH) son la base de ellos. Las técnicas de RAH han alcanzado tasas de reconocimiento muy altas para los sistemas basados en modelos ocultos de Markov (HMM), mayores al 95%. Lo que no ha recibido tanta atención es la aplicación de estas técnicas para el caso particular de personas con problemas en la comunicación oral. En este escenario y dentro del bloque de extracción de características del sistema de RAH, vamos a proponer el análisis localizado sobre las fases glóticas con la incorporación de información perceptual sobre los parámetros de predicción lineal. La información fonética que caracteriza la voz puede ser representada de manera muy detallada si se toma en intervalos de pitch o menores, como puedan ser las fases cerradas y abiertas de las cuerdas vocales en los tramos sonoros, lo que serían las fases glóticas. Las señales en estos intervalos contienen información relativa al proceso de producción de voz y en consecuencia reflejarían la existencia o no de problemas en dicho proceso. Esto nos lleva a plantear en este trabajo una parametrización específica para cada fase y síncrona con los periodos de cierre glótico (ICG). Adicionalmente la inclusión de la información perceptual puede realizarse sustituyendo las unidades de retardo con células paso-todo de primer orden, consiguiendo una resolución perceptual ajustable. Proponemos por tanto un modelado de voz paramétrico ARMA por fase, con resolución perceptual aproximada a la escala mel, síncrono con el ICG, con polos comunes a varios periodos consecutivos, para conseguir que sea fiable y consistente, para emplearlo en un sistema de reconocimiento de palabras con y sin patologías, basado en HMM continuos. Los experimentos se realizaron con una base de datos que contiene un código fonológico inducido de 57 palabras, con voces normales y patológicas. Los experimentos mostraron que nuestro modelo es superior al LPC clásico y al MFCC, obteniendo tasas de acierto del 97’59% para voz normal y del 98’23% para voz patológica. ISBN: 84-695-8101-5 137 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Generación de una base de datos y análisis de señales del lenguaje silbado de La Gomera Juan L. Navarro Mesa, Pedro Quintana Morales, Antonio Ravelo García, Iván Guerra Moreno, Eduardo Hernández Pérez Instituto para el Desarrollo Tecnológico y la Innovación en Comunicaciones Universidad de Las Palmas de Gran Canaria. España. [email protected] Abstract. El lenguaje silbado de la isla de la Gomera es antiguo y de origen poco conocido. Actualmente se enseña en las escuelas de la isla y el interés que despierta en diversos ámbitos profesionales abarca desde lingüistas a filólogos y profesores de silbo. Desde el punto de vista del análisis de la señal presenta gran interés para investigadores en el campo de la tecnología del habla con la que guarda gran parentesco. En la actualidad el silbo gomero tiene múltiples conexiones con la lengua castellana a la que sustituye cuando el silbador se comunica. Como lenguaje con personalidad propia tiene sus propios fonemas, sílabas, y construcciones léxicas y gramaticales. Las señales que se generan son bien conocidas y en ellas se observa la predominancia de tonos muy limpios con evolución temporal específica y una cierta complejidad espectral marcada por la acción de la cavidad bucal como resonador, las vibraciones que se producen y la fuerza de silbado. En este artículo presentamos una base de datos grabada y etiquetada donde se recogen grabaciones de 22 silbadores de los que 9 son expertos silbadores adultos y 13 son niños en edad escolar. En la base se recogen 32 unidades básicas de tipo silábico que se obtienen a partir de las 4 vocales y 4 consonantes que, en sí, representan las unidades más elementales de silbo. Presentaremos un estudio acústico-fonético en el que se podrán apreciar las cualidades temporales-frecuenciales de las señales en diferentes contextos de silbado. El análisis, que se ha realizado mediante programas en Matlab, tiene un doble enfoque. En primer lugar, analizamos las cualidades de las señales y estudiamos cómo es el contenido en tiempo-frecuencia, y vemos una serie de pautas para poder hacer un etiquetado de la base atendiendo al conocimiento léxico que nos proporcionan los lingüistas. Y en segundo lugar, hemos discutido la posibilidad de aplicar técnicas de extracción automáticas de características y su posterior uso en reconocimiento automático y síntesis artificial. 138 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 L1 Spanish interferences in the acquisition of tonality and tone in L2 English prosody. Results from perception and production. Mercedes Cabrera Abreu1, Francisco Vizcaíno Ortega1, Carmen Nieves Hernández Flores2 1 Dept. Filología Moderna, Universidad de Las Palmas de Gran Canaria 2 Dept. Informática y Matemáticas; Universidad de Las Palmas de Gran Canaria [email protected] [email protected] [email protected] Learners of English as a foreign language either neglect prosody, or they transfer their L1 prosody into the prosody of L2, something which results in abnormal effects and also communication failure (Ramírez Verdugo 2006). When teaching and learning English prosody (if any), traditionally, too much attention is paid to a list of different prosodic patterns which are associated loosely with a set of communicative effects or meanings, at the expense of giving an opportunity to the learner to understand the system underlying such patterns. In order to improve and better understand the acquisition process of L2 English prosody, we undertake a series of experiments which evaluate individually to what extent the perception and production of the parameters tonality and tone (Brazil et al. 1980) improve in the student’s performance. The stimuli for the perception tests consist of recordings of t-shirt slogans of the type This land is your land. They are recorded twice so that one rendition is produced with a natural intonation pattern, and the other shows an unnatural intonation pattern. Subjects are asked to judge the degree of naturalness of the renditions ISBN: 84-695-8101-5 139 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 on a two point scale (1= natural; 0 = unnatural). In the production tests, subjects are asked to record their own rendition of t-shirt slogans. Such recordings are then judged by a trained phonetician. In the case of tone, the experimental design integrates prosody and pragmatic effects (Prieto and Roseano 2010), as it incorporates brief contextual descriptions which set the frame for understanding the intended meaning (House 2006, Wells 2006). In the case of tonality, however, no context was provided. The subjects involved in the experiments are sixteen B2-level (Common European Framework of Reference) learners of English who take the same perception and production tests before and after being instructed as to tonality and tone. For tonality, each subject listened to a total number of 28 paired stimuli and produced a total number of 20 recordings. For tone, the number of paired stimuli presented was 10, and subjects produced 10 recordings. The results for tonality turn out to be inconclusive as to whether or not there is an improvement in perception and production in the post-test condition (0-1 in the left panel of figure 1) (McNemar’s chisquared = 2.4, df = 1, p-value = 0.1213 for perception, and McNemar’s chi-squared = 1.125, df = 1, p-value = 0.2888 for production). This may be due either to the small size of subjects participating in the experiment, or to the fact that tonality stands as a parameter which shares common characteristics between English and Spanish, and consequently, needs no instruction; to what extent this might be true or not is further investigated in this paper. As for tone, the distribution 0-1 observed in the right panel of figure 1 for perception (McNemar’s chisquared = 7.5625, df = 1, p-value = 0.00596) and production (McNemar’s chi-squared = 8.6429, df = 1, p-value = 0.003283) indicates a significant improvement in the post- instruction condition. Furthermore, there seems to be a greater improvement in perception than production, although this still remains to be confirmed statistically. In general, these results confirm that the pre- and postmethodology used contributes to a gain in the acquisition of tone in L2 English prosody, and that while the improvement in perception seems to reach a higher level, production stays at a more conservative level. Finally, an analysis of incorrect responses in both the tonality and tone production experiments point in the following direction: 1) the tonality used by subjects exhibits a clear interference of the typical 140 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 theme/rheme (rising-falling tune) organization found in their L1; 2) L2 falling tones produced by subjects exhibit a compressed pitch range, and L2 falling-rising tones show a low rise configuration. A detailed analysis of these findings is also further investigated in the present paper. Left panel Right panel Fig. 1. Distribution of student’s knowledge before and after instruction on tonality and tone (10 = pre-test with knowledge and post-test without knowledge; 0-0 pre-test without knowledge and post-test without knowledge; 1-1 pre-test with knowledge and post-test with knowledge; 01 pre-test without knowledge and post-test with knowledge). ISBN: 84-695-8101-5 141 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 References: Brazil, D., Coulthard, M. and Johns, C. 1980. Discourse, Intonation and Language Teaching. London: Longman. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing. Vienna, Austria. URL http://www.R-project.org/. House, J. 2006. Constructing a context with intonation. Journal of Pragmatics. 38, 15421558. Prieto, P., and Roseano, P. 2010. Transcription of Intonation of the Spanish Language. Munich: Lincom Europa. Ramírez Verdugo, D. 2006. A Study of Intonation Awareness and Learning in Non-native speakers of English. Language Awareness, 15:3, 141-159. Wells, J. 2006. English Intonation. An Introduction. Cambridge: Cambridge University Press. 142 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Seguimiento automático de la apertura glotal a partir de imágenes digitales de alta velocidad usando correlación cruzada adaptiva. Gustavo Andrade-Miranda, Juan Ignacio Godino-Llorente Universidad Politécnica de Madrid, Ctra. Valencia, Km. 7, 28031 Madrid, España {gxandrade,igodino}@ics.upm.es Resumen El presente trabajo describe un nuevo procedimiento para el seguimiento automático de la zona glotal a partir de imágenes digitales de alta velocidad de la laringe. Este enfoque comprende tres pasos: Primero, se localiza de manera automática la trama con la apertura glótica máxima, la cual corresponderá a la trama en que la suma de las intensidades de los pı́xeles sea mı́nima. Segundo, un algoritmo de segmentación basado en contornos activos es utilizado para detectar el espacio glotal y construir la plantilla inicial. Por último, se usa la correlación cruzada para encontrar la mejor correspondencia entre la plantilla inicial y la trama siguiente. El área de la gráfica de superficie de la correlación cruzada representará tanto al espacio glotal como a la nueva plantilla. El procedimiento mencionado se realiza iterativamente hasta alcanzar el último fotograma de la secuencia. El rendimiento, la eficacia y la validación del enfoque son demostrados en grabaciones de altas velocidades en las cuales las imágenes presentan un cierre inapropiado de las cuerdas vocales. Términos claves: apertura glotal, fotogramas claves, correlación cruzada normalizada, HSDI, plantilla. 1. Introducción Las imágenes ları́ngeas juegan un rol importante para el preciso, rápido, y confiable diagnóstico de los patrones vibratorios de las cuerdas vocales, además proveen valiosa información visual que no puede ser adquirida mediante medición acústica. Las imágenes ları́ngeas son grabadas utilizando técnicas endoscópicas tales como [1]: video de baja velocidad (estroboscopia) y videos de alta velocidad (HSDI). Los videos de alta velocidad pueden grabar imágenes de la laringe a una velocidad tı́pica de 2000 cuadros/segundo, mientras que la tasa obtenida en baja velocidad es sólo de 25 a 50 fotogramas por segundo. Los videos de alta velocidad usan luz continua mientras que los videos de baja velocidad utilizan luz estroboscópica para mostrar el movimiento de los pliegues vocales. Una clara ventaja de los videos de alta velocidad con respecto a los de baja radica en que los primeros no presentan imágenes borrosas e incorrectamente iluminadas. Sin embargo, por la naturaleza invasiva de ambos métodos se presentan otros tipos de ISBN: 84-695-8101-5 143 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 inconvenientes tales como: rotaciones, movimientos laterales de la laringoscopio, y movimientos del paciente, originando deslocalización de los pliegues vocales y de la apertura glotal, lo cual complica de sobremanera el uso de técnicas automáticas para el correcto seguimiento del espacio glotal. La precisa detección del espacio glotal y su seguimiento a lo largo del tiempo es necesaria para la caracterización objetiva de los patrones de vibración de las cuerdas vocales. Dicha caracterización se obtiene a partir de distintos tipos de representaciones tales como; perfiles de vibración [2], formas de onda glotal [3], quimogramas [4], a esto hay que añadirle ciertos parámetros cuantitativos como por ejemplo; relación de amplitud de vibración, relación de periodos de vibración, etc [5]. Cabe mencionar que todos los parámetros mencionados con anterioridad guardan una correlación con la calidad de voz y con las patologı́as que afectan a esta [6], ayudando a los especialistas a evaluar el proceso de fonación de manera objetiva. Debido al gran avance computacional y a la mejora continua de los algoritmos empleados para el procesamiento de imágenes, la compleja tarea de la segmentación automática del espacio glotal ha logrado un dramático avance. A pesar de esto, mucho de los algoritmos encontrados en el estado del arte presentan aún muchas deficiencias, tornándolos poco prácticos en un ambiente clı́nico real, en el cual la automatización y la confiabilidad son caracterı́sticas fundamentales. Las técnicas más comunes encontradas en la literatura para la detección del espacio glottal son basadas en histogramas [7], crecimiento de regiones [8], transformación divisoria (watershed) [9], y contornos activos [10]. Los algoritmos basados en histogramas utilizan la umbralización, donde el umbral se determina a partir de la información proporcionada por el histograma de cada imagen. Para el caso de las imágenes ları́ngeas, la glotis tiene un nivel de intensidad menor que el presentado por los tejidos de las cuerdas vocales, por tanto un umbral puede ser utilizado para diferenciar entre la glotis y las cuerdas vocales. Sin embargo, las imágenes ları́ngeas a menudo presentan bajo contraste y perfiles heterogéneos, con lo cual la selección de un umbral global resultarı́a en una errónea delimitación de la abertura glotal durante la fase de cierre de las cuerdas vocales, ya que en este momento la glotis y el fondo de la imagen tendrı́an prácticamente el mismo nivel de intensidad. El método basado en regiones evalúa los pixeles vecinos de un grupo inicial de pixeles llamados semillas, y determina si estos vecinos deben ser añadidos a la región formada por las semillas. Uno de los inconvenientes de este método es que requiere un sólido criterio y bordes relativamente bien delimitados para converger dentro del espacio glotal; otro inconveniente se origina cuando las cuerdas vocales presentan problemas de cierre, en estos casos la glotis suele dividirse en dos partes, lo que ocasionarı́a que una de las partes correspondientes a la glotis sea rechazada. La transformación divisoria (watershed) simula el proceso de lluvia sobre una imagen, donde los distintos niveles de grises representan una altitud diferente. Una gota de agua que cae sobre la imagen fluye a lo largo de un camino para finalmente llegar a un mı́nimo local; intuitivamente, la divisoria de un relieve cor- 144 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 responde a los lı́mites de las cuencas hidrográficas adyacentes. Las cuencas de recepción asociadas con cada mı́nimo local serán etiquetadas con el mismo valor. El resultado final de este método producirá miles de cuencas de recepción (sobre segmentación), por tal razón es necesario incluir una etapa de pre-procesado para reducir el nivel de ruido de la imagen. Para el caso de imágenes ları́ngeas, la transformación divisora no elimina todos los objetos que no pertenezcan a la glotis [9], por lo tanto es necesario incluir una etapa de post procesado, originando en algunos casos perdida de información glotal. Por último, encontramos los algoritmos de contornos activos o snakes los cuales se han tornado muy populares en el tratamiento de imágenes médicas, ya que estas se pueden acoplar de manera apropiada a contornos no rı́gidos o amorfos. A pesar de todos los beneficios proporcionados por los contornos activos su efectividad en el procesamiento de miles de imágenes se ve limitado a los grandes tiempos computacionales que estos generan. Adicionalmente, para el caso de imágenes ları́ngeas durante la fase de cierre glottal, la snake tiene una gran probabilidad de converger en algún punto erróneo de la imagen. Los algoritmos mencionados anteriormente, no toman en consideración la dimensión temporal del problema, cada trama se trata individualmente sin emplear información obtenida de tramas anteriores. Por lo tanto, nuevos métodos se requieren para superar con precisión y eficacia las limitaciones expuestas con anterioridad, prestando una especial atención en el seguimiento de las cuerdas vocales a lo largo del tiempo. La finalidad de este documento no es resolver por completo el problema del seguimiento de la glotis, sino proveer una nueva herramienta que podrı́a ser usada para refinar técnicas ya existente, o a su vez ser empleada como inicialización de algoritmos de segmentación más elaborados, como por ejemplo; contornos activos o transformación divisoria. El método propuesto utiliza para la primera detección de la glotis información temporal obtenida a partir de la secuencia de video, con la finalidad de reducir el número de falsas detecciones e iterativamente actualiza la información en cada trama basándose en una correlación cruzada adaptiva. Entre las ventajas del método propuesto tenemos; alto grado de adaptabilidad con técnicas existentes en el estado del arte, fácil implementación, y posibilidad de poder distinguir entre las cuerdas vocales y la glotis. El resto del trabajo se organiza de la siguiente manera: Sección 2, resumen introductorio de algunos conceptos básicos. Sección 3, desarrollo de la metodologı́a implementada para el seguimiento de la glotis. Sección 4 evalúa los resultados obtenidos usando el nuevo enfoque y por último en la sección 5 se presentan algunas conclusiones. 2. Metodologı́a El esquema del método propuesto se presenta en la Figura 1. La función de cada bloque se detalla a continuación: ISBN: 84-695-8101-5 145 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Figura 1. Esquema del algoritmo propuesto 2.1. Detección de fotogramas clave y primera segmentación El primer paso es encontrar información útil acerca los ciclos glotales, utilizando las tramas de la secuencia con la apertura glotal máxima. Estas tramas se pueden detectar como aquellas para cual la suma de las intensidades de los pı́xeles es mı́nima, ya que en esos momentos la glotis está abierta y la cantidad de pı́xeles oscuros es máxima. Estos son los llamados fotogramas clave. Los fotogramas claves representan los estados de máxima apertura del ciclo glotal dentro de la secuencia bajo consideración. El mismo enfoque también ha sido utilizado en [11] para la búsqueda de las tramas con máxima apertura glotal. ! XX Fotogramas claves(p) = argmin Ii (x, y) (1) i=1..k x y El siguiente paso es elegir uno de los p fotogramas claves como punto inicial del algoritmo. En nuestro caso por simplificación, se selecciona la primera trama de los fotogramas claves p. Por último, es necesario obtener la primera segmentación de la glotis y propagar está a través del vı́deo. Para ello, se utiliza un sistema de segmentación automático basado en contornos activos [12]. La figura 2 muestra el primer fotograma clave y la plantilla inicial. Las plantillas están compuestas por la superposición del área de la glotis obtenida a partir de la trama anterior con un fondo negro. El fondo negro actúa como un potenciador del borde con el fin de resaltar el contorno de la glotis. Por razones computacionales y de localización no es necesario procesar toda la imagen, ya que la región de interés cubre sólo una parte de esta. Por tal motivo, se incluye el uso de una ventana de búsqueda dinámica, basándonos únicamente en la información extraı́da de las plantillas de la trama anterior. El término dinámico es debido a que la ventana es capaz de cambiar su posición de acuerdo con la nueva posición de la plantilla. La ventana dinámica para la nueva iteración se construye tomando en consideración la posición de la glotis obtenida de la 146 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Figura 2. Primer Fotograma clave y primera plantilla trama anterior creando la nueva ventana de búsqueda para la trama siguiente. Las dimensiones de la ventana de búsqueda son variables e indican la tolerancia a los movimientos bruscos, por ejemplo, cuando se aumenta el área de búsqueda, la tolerancia al movimiento y a las falsas coincidencias aumenta. Por otro lado, cuando la ventana de búsqueda disminuye su área, la precisión del seguimiento disminuye y la probabilidad de perder el blanco (glotis) aumenta. En nuestro caso la dimensión se ha seleccionado con la finalidad de obtener una visualización completa de los objetos de interés. Una ventana de búsqueda permite reducir el número de picos generados por la correlación cruzada, de esta manera se evita el uso de transformaciones tediosas en el dominio de la frecuencia, las mismas que son utilizadas normalmente para eliminar los picos no representativos [13]. El uso de información temporal aumenta la tolerancia a los movimientos involuntarios de la cámara. La figura 3 muestra un claro ejemplo de una trama y su respectiva ventana de búsqueda. Figura 3. Trama siguiente con su respectiva ventana de búsqueda 2.2. Correlación cruzada adaptiva Una forma de hacer el método más robusto ante los problemas de rotación y cambio de escala es el uso de plantillas variables. Por tal razón hemos optado por el uso de una correlación adaptiva para el seguimiento de la variación del espacio glottal. La NCC es representada mediante el uso de una matriz con intervalos de [−1, 1]. Los valores más cercanos a 1 indican más similitudes entre la plantilla y la ventana de búsqueda, de lo contrario, si los valores están más cerca de −1 significa que la plantilla no está correlacionada con la ventana de búsqueda. ISBN: 84-695-8101-5 147 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Figura 4. Gráfica de superficie de la correlación El resultado de la correlación (figura 4) es una versión mejorada de la imagen original, en el que la información relativa al espacio glotal y las cuerdas vocales se distinguen con gran claridad. La glotis en la figura 5 es la región roja rodeada por los pliegues vocales (azul oscuro). Por lo tanto, utilizando únicamente técnicas basadas en umbrales o gradientes, es posible evaluarlos por separado y obtener información de sus respectivas posiciones, formas y áreas. Esta información se actualiza iterativamente mediante la inclusión de la nueva plantilla y la nueva ventana de búsqueda. Este procedimiento se repite hasta que se alcanza la última trama. Adicionalmente es necesario incluir un búfer que almacene información de las plantillas anteriores durante cada nueva iteración. Esto se debe a que en el instante de tiempo entre una apertura y cierre de las cuerdas vocales, la nueva plantilla corresponderá a una matriz formada por ceros causando una correlación cruzada indeterminada. El búfer es utilizado para sustituir la matriz de ceros, y el procedimiento normal sigue su curso, esto se realizara cada vez que la plantilla sea una matriz de ceros. Figura 5. Vista superior de la gráfica de correlación 3. Resultados La metodologı́a descrita en la sección anterior ha sido probado con secuencias HSDI tomados de la base de datos del Dr. Erkki Bianco yGillesDegottex. La resolución de los videos es de 256x256 pı́xeles y la velocidad de muestreo es de 148 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 4000 cuadros/segundo. La Figura 6 muestra tres diferentes tramas y su respectiva correlación. En estas imágenes es fácil notar como el uso de una ventana de búsqueda elimina un gran número de picos erróneos. Sin embargo, hay algunos pequeños picos que permanecen en las esquinas superior e inferior del gráfico de superficie de la correlación, pero los mismos pueden ser eliminados fácilmente utilizando umbralización o un criterio gradiente. Los picos más significativos representan a las cuerdas vocales y a la glotis. La correlación claramente muestra las grandes diferencias entre ellos: mientras que uno tiende a ser más positiva (glotis), el otro tiende a ser más negativo (Cuerdas vocales), este comportamiento se mantiene constante para todos los fotogramas de la secuencia de vı́deo. Otra caracterı́stica importante se produce en la segunda imagen, en la que la glotis se cierra parcialmente. En este caso el problema no es solo la variación de escala de la glotis, sino también una variación de su forma. La correlación adaptiva tiene la capacidad de lidiar con las pequeñas variaciones en la forma entre tramas consecutivas. Finalmente, el último cuadro muestra uno de los escenarios más exigentes durante la detección de la glotis, y sucede cuando la glotis se divide en dos o más secciones. En ese escenario, el algoritmo propuesto tiene un gran rendimiento y es capaz de distinguir perfectamente entre las regiones que pertenecen a la glotis y las regiones que serı́an las cuerdas vocales. Figura 6. Resultados; La primera columna corresponde a la imagen original, la segunda columna corresponde al resultado obtenido después de aplicar la correlación adaptiva y la ultima columna corresponde a la segmentación final usando [14]. ISBN: 84-695-8101-5 149 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 El algoritmo presentado se puso a prueba como una inicialización para el algoritmo [14]. La segmentación final en cada trama se comparó con una segmentación semiautomática [15] utilizando el ı́ndice de Pratt [16]. Pratt calcula una figura de mérito que mide la similitud entre los contornos obtenidos de manera automática y semiautomática, donde el 1 indica que los dos contornos son iguales y 0 que no hay similitud. La Figura 7 resume los resultados obtenidos a partir de 2 secuencias de alta velocidad en las que se analiza la calidad de la segmentación basados en una escala que mide el porcentaje de similitud entre los contornos. Figura 7. Evaluación subjetiva de la segmentación realizada a 60 tramas en una escala de 5 puntos. 4. Conclusiones y discusiones En el trabajo presentado se ha desarrollado un método de correlación adaptivo. El cual realiza periódicamente una actualización de la plantilla de la glotis con la finalidad de ajustarse a los cambios en la secuencia del video. Por su parte la ventana de búsqueda dinámica resuelve los problemas introducidos por cambios bruscos de la posición de la cámara. La NCC a pesar de ser un método simple es muy eficaz para medir la similitud entre dos imágenes, además de que no se ve afectado por la variación de intensidad y de contraste. Su fácil implementación lo torna muy práctico para aplicaciones en tiempo real. La motivación de este trabajo es explorar técnicas que aun siendo tradicionales para el seguimiento de vı́deos no se han considerado previamente en el estado del arte para la detección y el seguimiento de la glotis. La experimentación ha demostrado que su uso proporciona información valiosa, no sólo para detectar y realizar el seguimiento del espacio glotal sino también para localizar las cuerdas vocales. Los resultados obtenidos son muy prometedores, aún más si consideramos combinarlo con otras 150 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 técnicas ya existentes en el estado del arte, sin embargo el algoritmo necesita ser probado en diferentes condiciones para asegurar su generalización. 5. Agradecimiento El siguiente trabajo se realizo gracias a los proyectos: TEC2009-14123- C04 y TEC2012-38630-C04-01 del ministerio de educación de España Los autores quisieran agradecer tambien a los Dr. Erkki Bianco y Gilles Degottex por proveernos la base de datos. Referencias 1. R. Baken and R. F. Orlikoff, Clinical Measurement of Speech and Voice, 2nd ed. United States of America: Singular Publishing Group, 2000. 2. C. Palm, T. Lehmann, S. N.-R. Bredno, Klajman, and K. Spitzer, “Automated analysis of stroboscopic image sequences by vibration profile diagrams,” in 5th International Workshop on Advances in Quantitative Laryngology, Voice and Speech Research, 2001. 3. P. Woo, “Quantification of videostrobolaryngoscopic findings-measurements of the normal glottal cycle,” The Laryngoscope, vol. 106, no. S79, pp. 1–27, 1996. 4. J. G. Ŝvec and H. K. Schutte, “Videokymography: High-speed line scanning of vocal fold vibration,” Journal of Voice, vol. 10, no. 2, pp. 201 – 205, 1996. 5. V. Osma, “Contribución al procesado digital de imágenes para la caracterización de patologı́as ları́ngeas,” Ph.D. dissertation, Universidad Politécnica de Madrid, 2010. 6. K. Ahmad, Y. Yan, and D. Bless, “Vocal fold vibratory characteristics in normal female speakers from high-speed digital imaging,” Journal of Voice, vol. 26, no. 2, pp. 239–253, 2012. 7. D. D. Mehta, D. D. Deliyski, T. F. Quatieri, and R. E. Hillman, “Automated measurement of vocal fold vibratory asymmetry from high-speed videoendoscopy recordings,” Speech, Language and Hearing Research, vol. 54, no. 1, pp. 47 – 54, 2011. 8. J. Lohscheller, H. Toy, F. Rosanowski, U. Eysholdt, and M. Dollinger, “Clinically evaluated procedure for the reconstruction of vocal fold vibrations from endoscopic digital high-speed videos,” Medical Image Analysis, vol. 11, no. 4, pp. 400 – 413, 2007. 9. V. Osma-Ruı́z, J. I. Godino-Llorente, N. Sáenz-Lechón, and R. Fraile, “Segmentation of the glottal space from laryngeal images using the watershed transform,” Computerized Medical Imaging and Graphics, vol. 32, no. 3, pp. 193 – 201, 2008. 10. B. Marendic, N. Galatsanos, and D. Bless, “New active contour algorithm for tracking vibrating vocal folds,” in Image Processing, 2001. Proceedings. 2001 International Conference on, vol. 1, 2001, pp. 397–400. 11. S.-Z. Karakozoglou, N. Henrich, C. d?Alessandro, and Y. Stylianou, “Automatic glottal segmentation using local-based active contours and application to glottovibrography,” Speech Communication, vol. 54, no. 5, pp. 641 –654, 2012. 12. G. Andrade, N. Sáenz-Lechón, V. Osma-Ruı́z, and J. I. Godino-Llorente, “A new approach for the glottis segmentation using snakes,” in 6th International Joint Conference on Biomedical Engineering Systems and Technologies. INSTICC, 2013, p. 34. ISBN: 84-695-8101-5 151 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 13. A. Mendez, E. Ismaili Alaoui, B. Garcia, E. Ibn-Elhaj, and I. Ruiz, “Glottal space segmentation from motion estimation and gabor filtering,” in Engineering in Medicine and Biology Society, 2009. EMBC 2009. Annual International Conference of the IEEE, 2009, pp. 5756–5759. 14. S. Lankton and A. Tannenbaum, “A localizing region-based active contours,” IEEE Trans. on Image Processing, pp. 2029–2039, 2008. 15. V. Vezhnevets and V. Konouchine, “”growcut interactive multi-label nd image segmentation by cellular automata,” in international conference on Computer Graphics and Vision. 16. I. E. Abdou and W. K. Pratt, “Quantitative design and evaluation of enhancement/thresholding edge detectors,” Proceedings of The IEEE, vol. 67, pp. 753–763, 1979. 152 ISBN: 84-695-8101-5 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 Consideraciones acústicas durante el proceso de grabación de audio Manuel Medina Molina, Juan Manuel Caballero, Fidel Cabrera Quintero Departamento de Señales y Comunicaciones Consultores Acústicos Universidad de Las Palmas de Gran Canaria Campus de Tafira, 35017 – Las Palmas [email protected] Abstract. Es una tarea común en la actividad de cantantes, locutores, lingüistas, foniatras, logopedas e ingenieros, entre otros, realizar grabaciones de audio para su posterior análisis. En esta tarea el equipamiento, su disposición respecto de la fuente y el entorno donde se realiza la toma de sonido juegan un papel fundamental que, en muchas ocasiones, no se tiene en cuenta. En definitiva, el control de las condiciones de grabación de audio es fundamental. Prueba de ello es que en muchas tomas de sonido realizadas por personal no especializado se comete errores típicos como no considerar el ruido del ambiente, no tener en cuenta las condiciones acústicas del recinto, no considerar la utilización adecuada de micrófonos y, muchas veces, no utilizar la configuración de grabación adecuada del equipo. En esta ponencia proponemos seguir un protocolo de actuación en el que se tenga en cuenta evitar las malas prácticas durante el proceso de la grabación sonora que siempre es susceptible de ser mejorada mediante actuaciones de fácil ejecución. Siguiendo el protocolo que se propondrá conseguimos mejorar la relación señal a ruido y la inteligibilidad de la toma de señal. Finalmente esto repercutirá en la calidad y validez debido a que tenemos bajo control las condiciones de grabación. ISBN: 84-695-8101-5 153 I Jornadas Multidisciplinares de Usuarios de la Voz, el Habla y el Canto Las Palmas de Gran Canaria – 27-28 de junio 2013 La digitalización: ¿Qué software utilizo? Fidel Cabrera Quintero, Manuel Medina Molina, Juan Manuel Caballero Suárez Departamento de Señales y Comunicaciones Consultores Acústicos Universidad de Las Palmas de Gran Canaria Campus de Tafira, 35017 – Las Palmas [email protected] Abstract. En la tarea de grabación de sonidos entran en juegos diferentes aspectos que resultan fundamentales considerar para la correcta ejecución. Además de otras consideraciones como la acústica, microfonía y niveles de ruido, destaca la correcta ejecución del proceso de digitalización en aspectos como la frecuencia de muestreo y bits de cuantificación. De igual forma resulta una decisión importante la elección del software a utilizar ya que condicionará la agilidad y el tiempo empleado, debiendo seleccionarse el mismo en función del proceso y del producto final que se desee obtener. También, la elección del software de grabación condicionará el adiestramiento de la persona responsable de supervisar dichas grabaciones. Esta ponencia está focalizada en el proceso de la digitalización y analizará diferentes software de grabación y edición de audio existentes, algunos de ellos de libre distribución. 154 ISBN: 84-695-8101-5 Patrocinadores TEC2012-38630-C04 TEC2012‐38630‐C04