Elaboración de una Base de Datos Emotiva Multimedia y su
Transcripción
Elaboración de una Base de Datos Emotiva Multimedia y su
Elaboración de una Base de Datos Emotiva Multimedia y su Clasificación Responsables de la propuesta: Dr. John Goddard Close (Departamento de Ingeniería Eléctrica, UAM Iztapalapa) M.I. Fabiola Martínez Licona (Departamento de Ingeniería Eléctrica, UAM Iztapalapa) Perfil deseable del alumno: ➢ ➢ ➢ ➢ Conocimientos generales de conceptos de Inteligencia Artificial Manejo de métodos de aprendizaje maquinal supervisado y no supervisado Conocimientos de programación en matlab, python o java Conocimientos de análisis de señales Presentación: El habla es la herramienta que se reconoce como el medio de comunicación por excelencia; su capacidad de comunicar ideas, pensamientos y hasta emociones permite la interacción entre los seres humanos a un alto nivel. Dada la naturaleza de la señal de habla, ésta se caracteriza por su alta variabilidad: su producción queda condicionada por la ubicación y movimiento de los elementos de la cavidad oral y el rostro, y por variantes en parámetros como el acento regional, la condición social o el estilo personal [1]. Uno de los elementos que enriquecen la comunicación humana es la expresión de emociones en el mensaje. Se ha establecido que las palabras aportan menos del 10% del significado del mensaje para un escucha [2] por lo que el análisis de los componentes paralingüísticos (prosodia, calidad de la voz, ritmo, etc.) así como la expresión facial se han vuelto importantes. Este proyecto abordará el problema del análisis y reconocimiento de emociones a partir de la analizar la señal del habla y los cambios en la expresión facial mediante la generación de una base de datos de audio y video en español que denote emociones, y la clasificación de las mismas a partir de la elección de conjunto de características acústicas y de imágenes. Objetivo General: Desarrollar una base de datos en audio y video de habla en español con emociones y su clasificación. Objetivos específicos: ➢ Desarrollar una base de datos de señales de audio y video de habla en español que se utilice para el reconocimiento de emociones. ➢ Seleccionar los componentes acústicos, frecuenciales y temporales de la señal del habla que se puedan utilizar en un sistema de clasificación de emociones. ➢ Seleccionar los componentes geométricos y de localización en las imágenes de video que se puedan utilizar en un sistema de clasificación de emociones. ➢ Desarrollar un sistema de clasificación para el reconocimiento de estados emocionales en el habla mediante el análisis de la señal compuesta de audio y video ➢ Evaluar el sistema de clasificación para obtener un porcentaje aceptable con respecto a lo reportado en la literatura. Metodología: La metodología se dividirá en tres etapas. Etapa I: Base de datos Los datos para la realización del proyecto se obtendrán a partir de la grabación de una base de datos en audio y video donde se muestren las emociones básicas de alegría, furia, miedo, sorpresa, tristeza, disgusto más una emoción de referencia a la que se denominará neutra. Se diseñará el corpus a grabar así como los criterios de inclusión y exclusión del actor o actriz para que la base de datos resultante tenga las características estándar que permita su uso para pruebas de técnicas en análisis de emociones [3,4]. Etapa II: Extracción de características La extracción de características de los datos obtenidos se realizará mediante la aplicación de métodos de análisis de señales, los cuales se enfocarán en la obtención de parámetros acústicos, frecuenciales y temporales en el audio, y geométricas y de localización en las imágenes de video, a fin de encontrar el conjunto óptimo de características que permitan realizar la clasificación de emociones [5]. Se explorarán metodologías para la extracción de marcadores en las imágenes que ayuden a la diferenciación de emociones a lo largo de la expresión o texto que se grabe. Etapa III: Clasificación de emociones y evaluación El sistema de clasificación se desarrollará a partir de la elección de las características que mejor discriminen las emociones, para tal fin se analizará el conjunto de características en audio y video del registro al mismo tiempo para identificar aquellas que en conjunto sean de mayor utilidad. El objetivo es obtener un porcentaje aceptable, con respecto a los resultados reportados en la literatura, en la clasificación correcta de las emociones en general, y compararlos con los resultados reportados en el uso de información multimedia. La evaluación se complementará por medio de una herramienta de valoración subjetiva aplicada a un grupo de voluntarios que identificarán la emoción presentada. Resultados esperados ➢ ➢ ➢ ➢ Obtener una base de datos multimedia en español que se utilice para el reconocimiento de emociones Obtener un conjunto de características del habla en audio y video para la clasificación de emociones Desarrollar un clasificador de emociones basado en las características obtenidas. Probablemente publicar un artículo en una revista o congreso nacional o internacional. Calendarización de actividades: Actividades Etapa I: Base de Datos Etapa II: Extracción de características Etapa III: Clasificación de emociones y evaluación Período de trabajo Trimestre 1 Trimestre 2 Trimestre 3 X X X X X Infraestructura disponible: ➢ ➢ ➢ ➢ Computadora Software especializado Disponibilidad de realizar las grabaciones en instalaciones especializadas Audios y videos de habla en inglés y español como referencia. Lugar de realización: Laboratorio del Habla UAM Iztapalapa Referencias: [1] M. Benzeghiba, R. De Mori, O. Deroo, et al, “Automatic speech recognition and speech variability: A review”, Speech Communication 49 (2007) 763–786. [2] A. Mehrabian, “Communication without words”, Psychology Today, 2 (1968) 53-56. [3] O. Martin, I. Kotsia, B. Macq and I. Pitas : “The eNTERFACE-05 Audio-Visual Emotion Database”, Proceedings of the First IEEE Workshop on Multimedia Database Management, Atlanta, Abril 2006. [4] E. Douglas-Cowie, R. Cowie, M. Schroeder, “The description of naturally ocurring emotional speech”,15th International Congress of Phonetic Sciences, ICPhS, pp. 2877-2880, Barcelona 2003. J. Bernstein, et al., The Latino40 Speech Database, Entropic Research Laboratory, Washington, DC. 1994. [5] S. Haq and P.J.B. Jackson, "Multimodal Emotion Recognition", In W. Wang (ed), Machine Audition: Principles, Algorithms and Systems, IGI Global Press, ISBN 978-1615209194, chapter 17, pp. 398-423, 2010.