Elaboración de una Base de Datos Emotiva Multimedia y su

Transcripción

Elaboración de una Base de Datos Emotiva Multimedia y su
Elaboración de una Base de Datos Emotiva Multimedia y su Clasificación
Responsables de la propuesta:
Dr. John Goddard Close (Departamento de Ingeniería Eléctrica, UAM Iztapalapa)
M.I. Fabiola Martínez Licona (Departamento de Ingeniería Eléctrica, UAM Iztapalapa)
Perfil deseable del alumno:
➢
➢
➢
➢
Conocimientos generales de conceptos de Inteligencia Artificial
Manejo de métodos de aprendizaje maquinal supervisado y no supervisado
Conocimientos de programación en matlab, python o java
Conocimientos de análisis de señales
Presentación:
El habla es la herramienta que se reconoce como el medio de comunicación por excelencia; su capacidad de
comunicar ideas, pensamientos y hasta emociones permite la interacción entre los seres humanos a un alto nivel.
Dada la naturaleza de la señal de habla, ésta se caracteriza por su alta variabilidad: su producción queda
condicionada por la ubicación y movimiento de los elementos de la cavidad oral y el rostro, y por variantes en
parámetros como el acento regional, la condición social o el estilo personal [1]. Uno de los elementos que
enriquecen la comunicación humana es la expresión de emociones en el mensaje. Se ha establecido que las
palabras aportan menos del 10% del significado del mensaje para un escucha [2] por lo que el análisis de los
componentes paralingüísticos (prosodia, calidad de la voz, ritmo, etc.) así como la expresión facial se han vuelto
importantes. Este proyecto abordará el problema del análisis y reconocimiento de emociones a partir de la
analizar la señal del habla y los cambios en la expresión facial mediante la generación de una base de datos de
audio y video en español que denote emociones, y la clasificación de las mismas a partir de la elección de
conjunto de características acústicas y de imágenes.
Objetivo General:
Desarrollar una base de datos en audio y video de habla en español con emociones y su clasificación.
Objetivos específicos:
➢ Desarrollar una base de datos de señales de audio y video de habla en español que se utilice para el
reconocimiento de emociones.
➢ Seleccionar los componentes acústicos, frecuenciales y temporales de la señal del habla que se puedan
utilizar en un sistema de clasificación de emociones.
➢ Seleccionar los componentes geométricos y de localización en las imágenes de video que se puedan utilizar
en un sistema de clasificación de emociones.
➢ Desarrollar un sistema de clasificación para el reconocimiento de estados emocionales en el habla mediante el
análisis de la señal compuesta de audio y video
➢ Evaluar el sistema de clasificación para obtener un porcentaje aceptable con respecto a lo reportado en la
literatura.
Metodología:
La metodología se dividirá en tres etapas.
Etapa I: Base de datos
Los datos para la realización del proyecto se obtendrán a partir de la grabación de una base de datos en audio y
video donde se muestren las emociones básicas de alegría, furia, miedo, sorpresa, tristeza, disgusto más una
emoción de referencia a la que se denominará neutra. Se diseñará el corpus a grabar así como los criterios de
inclusión y exclusión del actor o actriz para que la base de datos resultante tenga las características estándar que
permita su uso para pruebas de técnicas en análisis de emociones [3,4].
Etapa II: Extracción de características
La extracción de características de los datos obtenidos se realizará mediante la aplicación de métodos de análisis
de señales, los cuales se enfocarán en la obtención de parámetros acústicos, frecuenciales y temporales en el
audio, y geométricas y de localización en las imágenes de video, a fin de encontrar el conjunto óptimo de
características que permitan realizar la clasificación de emociones [5]. Se explorarán metodologías para la
extracción de marcadores en las imágenes que ayuden a la diferenciación de emociones a lo largo de la
expresión o texto que se grabe.
Etapa III: Clasificación de emociones y evaluación
El sistema de clasificación se desarrollará a partir de la elección de las características que mejor discriminen las
emociones, para tal fin se analizará el conjunto de características en audio y video del registro al mismo tiempo
para identificar aquellas que en conjunto sean de mayor utilidad. El objetivo es obtener un porcentaje aceptable,
con respecto a los resultados reportados en la literatura, en la clasificación correcta de las emociones en general,
y compararlos con los resultados reportados en el uso de información multimedia. La evaluación se
complementará por medio de una herramienta de valoración subjetiva aplicada a un grupo de voluntarios que
identificarán la emoción presentada.
Resultados esperados
➢
➢
➢
➢
Obtener una base de datos multimedia en español que se utilice para el reconocimiento de emociones
Obtener un conjunto de características del habla en audio y video para la clasificación de emociones
Desarrollar un clasificador de emociones basado en las características obtenidas.
Probablemente publicar un artículo en una revista o congreso nacional o internacional.
Calendarización de actividades:
Actividades
Etapa I: Base de Datos
Etapa II: Extracción de características
Etapa III: Clasificación de emociones y evaluación
Período de trabajo
Trimestre 1 Trimestre 2 Trimestre 3
X
X
X
X
X
Infraestructura disponible:
➢
➢
➢
➢
Computadora
Software especializado
Disponibilidad de realizar las grabaciones en instalaciones especializadas
Audios y videos de habla en inglés y español como referencia.
Lugar de realización:
Laboratorio del Habla UAM Iztapalapa
Referencias:
[1] M. Benzeghiba, R. De Mori, O. Deroo, et al, “Automatic speech recognition and speech variability: A review”,
Speech Communication 49 (2007) 763–786.
[2] A. Mehrabian, “Communication without words”, Psychology Today, 2 (1968) 53-56.
[3] O. Martin, I. Kotsia, B. Macq and I. Pitas : “The eNTERFACE-05 Audio-Visual Emotion Database”, Proceedings
of the First IEEE Workshop on Multimedia Database Management, Atlanta, Abril 2006.
[4] E. Douglas-Cowie, R. Cowie, M. Schroeder, “The description of naturally ocurring emotional speech”,15th
International Congress of Phonetic Sciences, ICPhS, pp. 2877-2880, Barcelona 2003.
J. Bernstein, et al., The Latino40 Speech Database, Entropic Research Laboratory, Washington, DC. 1994.
[5] S. Haq and P.J.B. Jackson, "Multimodal Emotion Recognition", In W. Wang (ed), Machine Audition: Principles,
Algorithms and Systems, IGI Global Press, ISBN 978-1615209194, chapter 17, pp. 398-423, 2010.

Documentos relacionados