Realidad virtual acústica vía redes neuronales artificiales
Transcripción
Realidad virtual acústica vía redes neuronales artificiales
S O N A C 2 0 1 2 43 REALIDAD VIRTUAL ACÚSTICA VÍA REDES NEURONALES ARTIFICIALES J. F. Lucio Naranjo a,b [email protected]; [email protected] R. A. Tenenbaum b [email protected] J. C. B. Torres c [email protected] E. Jácome a [email protected] J. Mantilla a [email protected] a Universidad Quito - Ecuador de las Américas b Universidade do Estado do Rio de Janeiro Nova Friburgo, Brasil c Universidade de Janeiro Federal do Rio Rio de Janeiro, Brasil Resumen Este trabajo da un paso más en la investigación que trata de obtener las respuestas impulsivas bi-auriculares (BIRS) a ser aplicadas en sistemas de aurilización mediante el uso de redes neuronales artificiales (RNA). Después de haber entrenado a diversas redes, una para cada área de recepción distribuida alrededor de la cabeza artificial, los resultados mostraron tener un error bastante pequeño, sin embargo, se detectó que dicho error presenta una no-uniformidad si se lo coloca como función del área de recepción. El objetivo principal en esta investigación, es determinar cuáles son las causas de dicha no-uniformidad, de manera que se la pueda atenuar, y así, presentar resultados estables. Se estima que el problema es causado por la presencia de casos de overfitting en las redes debido a la similitud entre ciertos valores de HRIR medidas, para lo cual una solución podría ser modificar el tamaño de las áreas de recepción. De ser así, se debe encontrar la ubicación y el tamaño óptimos de las áreas de recepción, de manera que el comportamiento del error tienda a ser uniforme. Palabras Clave: Psicoacústica, Realidad Virtual Acústica, Aurilización, Redes Neuronales Artificiales. SONAC Revista de Sonido y Acústica, Num. 3, pags 43 - 51. Mayo 2012. ISSN: 1390-6348 Abstract The work presented in this paper is another step in the research to obtain the bi-auricular impulse responses (BIRS) to be applied in auralization systems using Artificial Neural Networks. After having trained several networks, one for each reception area distributed around the artificial head, the results shown an small error. However, we found that such an error represents a non-uniformity if it is placed as a function of the reception area. The main objective of this research is to identify the causes for the non-uniformity, so that it can be attenuated. It is believed that the problem is caused by the presence of cases of overfiting in the networks due to similarities between certain HRIR values. The solution to this problem could be to change the size of the reception areas. If so, we must find the optimum locations and size of the reception areas, in such way that the error behavior tends to be uniform. Key Words: Psychoacoustics, Acoustic Virtual Reality, Auralization, Artificial Neural Networks. luego de preparar un conjunto de redes que cubrían por completo las áreas de recepción alrededor de la cabeza humana, se observó que el error, al ser presentado como función del área de recepción, presentaba un comportamiento inestable. 1. INTRODUCCIÓN En un trabajo previo [Lucio et al. (2011)], se presentó a una red neuronal artificial (RNA), como una herramienta que implementa la modificación espectral de una HRIR (Head-Related Impulse Response) causada por un rayo acústico dentro de un área de recepción determinada. Dicho estudio mostró que este nuevo método es capaz de sustituir al procedimiento tradicional, generando resultados con un error bastante pequeño y usando la mitad del costo computacional. Sin embargo, luego de preparar un conjunto de redes que cubrían por completo las áreas de recepción alrededor de la cabeza humana, se observó que el error, al ser presentado como función del área de recepción, presentaba un comportamiento inestable. En el presente artículo, se presenta un análisis que persigue detectar las causas de dicha inestabilidad presente en los errores. Inicialmente, se estimó que el problema estaba relacionado con casos de overfitting en las redes. Es decir, por existir mucha similitud entre las HRIR interpoladas dentro de un área de recepción dada, la RNA estaba perdiendo capacidad de generalización. Con aquel supuesto en mente, se generaron conjuntos de redes para áreas de recepción de diferente tamaño, para poder comparar el comportamiento y la amplitud del error en cada caso. Esto permitiría determinar tamaños variables para las áreas de recepción de manera que el error sea minimizado y su comportamiento sea estable. Los resultados de este análisis se presentan en tablas y gráficos comparativos, los mismos que son discutidos. S O N A C 2 0 1 2 45 2. METODOLOGÍA El método de RNAs, se aplica dividiendo la totalidad de la esfera de recepción (ver figura 2.1) en segmentos o áreas limitadas por ángulos de azimut y elevación definidos en dos pares de valores: máximo y mínimo. Cada una de estas áreas tiene relacionada una red entrenada, de forma que pueda interpolar y modificar espectralmente a cualquier HRIR dentro de dicha área. El método ha demostrado ser eficaz en el cálculo produciendo resultados que muestran errores bastante pequeños, con un tiempo de cálculo 50% más pequeño que el utilizado con el método tradicional (MT). Sin embargo, el comportamiento del error no es homogéneo, mucho menos cuando el ángulo de azimut se aproxima a 270 ° (con respecto al oído derecho). Además, dichos errores presentan oscilaciones cuando se colocan como una función de segmentos vecinos. Figura 2.1 Esfera de recepción La primera medida adoptada fue revisar exhaustivamente los cálculos definidos anteriormente para generar los datos de entrenamiento, y de esta manera, comprobar la coherencia de los mismos. Los vectores de entrada son los rayos acústicos con 6 datos de energía, uno por cada banda de octava (125 Hz a 4 kHz) y 2 datos de dirección de llegada (azimut y elevación). Los vectores objetivo se generan a partir de los vectores de entrada utilizando el MT. Dado que es muy improbable que un rayo acústico llegue exactamente en una dirección para la cual existe una HRIR medida, es necesario generar una HRIR ponderada. Para dicho fin se utilizó el método de interpolación bilineal en el dominio de la frecuencia para evitar los problemas causados por las diferencias inter-auriculares. Para comprobar la eficacia de la técnica de interpolación en el dominio de la frecuencia se realizaron algunas pruebas. En la Figura 2.2 se puede apreciar cómo la HRIR interpolada tiene un retardo que corresponde al ángulo de azimut interpolado, el mismo que fue validado realizando el cálculo con los datos obtenidos en el trabajo del MIT [Gardner and Martin (1995)]. Figura 2.2 HRIR interpolada con su respectivo atraso. Se generaron 70 muestras para cada área de recepción, 49 de las cuales fueron colocadas a manera de malla para cubrir todo el espacio disponible de forma más o menos equitativa. Los siguientes 21 valores fueron posicionados aleatoriamente. El primer grupo (ordenados a manera de malla) se usó como muestras para entrenamiento, en tanto que el segundo se usó para procesos de validación y prueba. Se analizaron segmentos o áreas generadas dentro de un intervalo de -20° a 20° de elevación. Las variaciones escogidas para azimut y elevación variaron para cada caso analizado y los resultados son presentados en la sección siguiente. En la figura 2.3 se puede ver en azul los puntos que se utilizan como datos de entrenamiento y en rojo los datos para ser utilizados como prueba y validación. Figura 2.3 Distribución de los datos de entrenamiento y prueba dentro de una área de recepción que va desde los -20° de elevación hasta los -10° y desde los 0° de azimut hasta los 5° S O N A C 2 0 1 2 47 3. RESULTADOS (ANÁLISIS DEL ERROR) 3.1. Entrenamiento n° 1 En este primer entrenamiento se usaron segmentos angostos, la variación de azimut era de apenas 5°, mientras que las de elevación eran de 10°. En la figura 3.1, se muestra el error medio cuadrático de los datos de prueba como una función del ángulo de azimut para diferentes valores de elevación en el intervalo de -20 ° a 20 °. Los resultados, en escala logarítmica, muestran cómo a un ángulo de azimut de 270° (es decir cuando la fuente se encuentra en la posición contraria al oído en cuestión) los resultados presentan un error mínimo. Figura 3.1 Tipos de errores (Validación, Prueba y Entrenamiento) con un patrón similar. La Figura 3.2 presenta el error utilizando un mapa de colores en una gráfica 3D, indicándose con los triángulos dónde queda la posición de azimut 0°. Figura 3.2 Representación del error en 3D a través de mapa de colores. El resultado visual muestra que la tendencia de errores más pequeños se mantiene para 270° de azimut para todas las elevaciones. Lo anterior hizo necesario que se analice el comportamiento de las HRIRs para saber si las mismas tenían algo que ver con los resultados. S O N A C 2 0 1 2 49 Figura 3.3 Variaciones de amplitud en las HRIRs dependientes del ángulo de azimut a cinco diferentes elevaciones 3.2. Entrenamiento n° 2 Para este entrenamiento las variaciones escogidas de azimut y elevación son de 20° para cada una. Con los nuevos datos obtenidos, se graficaron nuevamente los errores obteniendo los resultados presentados en las Figuras 3.4 y 3.5. Figura 3.4 Tipos de errores (Validación, Prueba y Entrenamiento) para Entrenamiento n° 2. Figura 3.5 Error de los parámetros de prueba en formato 3D para el Entrenamiento n° 2. Lo anterior muestra que al aumentar el tamaño, el comportamiento del error continúa manteniendo su tendencia anterior. Salvo una disminución en las oscilaciones, no existe una mejoría o empobrecimiento de resultados que sea notable simplemente examinando los gráficos. Por tal motivo, se procedió a promediar los datos del entrenamiento n°1, de tal forma que al sumar áreas pequeñas (variaciones de azimut de 5° y de elevación de 10°) y dividirlas para el número de áreas consideradas, se la pueda comparar con los resultados obtenidos del entrenamiento n° 2 (variaciones de azimut y de elevación de 20°). Dicha comparación se muestra en la Tabla 3.1. Elevación Azimut -20° a 0° Secciones 20x20 Secciones de 5x10 0° a 20° Secciones de 20x20 Secciones de 5x10 0° - 20° 6,50E-05 9,21E-06 4,75E-05 1,03E-05 20° - 40° 7,98E-05 1,16E-05 9,91E-05 1,33E-05 40° - 60° 1,12E-04 1,08E-05 8,35E-05 1,19E-05 60° - 80° 1,02E-04 5,95E-06 1,26E-04 6,71E-06 80° - 100° 3,27E-05 5,43E-06 5,84E-05 6,58E-06 100° - 120° 9,84E-05 1,02E-05 3,82E-05 1,19E-05 120° - 140° 4,48E-05 8,62E-06 4,61E-05 8,94E-06 140° - 160° 2,38E-05 6,47E-06 5,40E-05 6,74E-06 160° - 180° 1,22E-05 2,67E-06 1,49E-05 2,90E-06 180° - 200° 1,58E-05 1,84E-06 7,35E-06 1,92E-06 200° - 220° 9,11E-06 1,03E-06 8,83E-06 1,16E-06 220° - 240° 3,57E-06 5,93E-07 4,35E-06 6,76E-07 240° - 260° 2,45E-06 4,87E-07 1,91E-06 5,35E-07 260° - 280° 1,97E-06 4,69E-07 7,08E-06 5,15E-07 280° - 300° 3,88E-06 5,68E-07 2,51E-06 5,98E-07 300° - 320° 8,05E-06 6,39E-07 1,94E-05 7,81E-07 320° - 340° 9,66E-06 1,65E-06 2,74E-05 1,90E-06 340° - 360° 4,26E-05 2,24E-06 3,67E-05 2,48E-06 Tabla 3.1 Análisis Comparativo del Error Medio Cuadrático. S O N A C 2 0 1 2 51 4. DISCUSIÓN Los resultados muestran claramente que el comportamiento del error no corresponde a un caso de overfitting. Por el contrario, un aumento en el tamaño de las áreas de recepción complica la obtención de resultados precisos, elevando ligeramente el error. La anomalía en la magnitud del error se debe directamente a la complejidad propia de ciertas HRIRs. Se estima que, las oscilaciones del error, más presentes en el caso de entrenamiento n°1, se deben a que cada proceso de entrenamiento empieza con pesos sinápticos aleatoriamente inicializados. Esto lleva a que no siempre se alcance el mismo nivel de precisión en todos los entrenamientos. 5. CONCLUSIONES El tamaño de las áreas de recepción no es un elemento que sirva para eliminar anomalías en el comportamiento del error ya que el mismo es dependiente de las características propias de las HRIRs. En general, un área mayor producirá que una misma red produzca resultados ligeramente inferiores. Utilizar áreas mayores no mejoraría prácticamente en nada el tiempo de cálculo, ya que la topología de las redes es la misma para todos los tamaños de áreas de recepción. Durante este estudio se realizaron entrenamientos con tamaños intermedios. Por motivos de espacio, dichos resultados no se incluyeron, sin embargo se pudo apreciar que lo obtenido sigue la lógica de lo presentado en este trabajo. Entrenar con un mayor número de muestras podría permitir encontrar resultados un poco más exactos. Valdría la pena variar un poco la topología de la red para verificar si en las áreas problemáticas se obtienen resultados más interesantes. 6. REFERENCIAS 1. Lucio Naranjo, J. F.; Tenenbaum, R. A; Torres, J. C. B. (2011). Cómputo de las respuestas impulsivas bi-auriculares usando redes neurales artificiales. Revista SONAC, Vol. 2, pp. 29-40. 2. B. Gardner, K. Martin (1995) HRTF Measurements of a KEMAR Dummy-Head Microphone., J. Acoust. Soc. Am. vol. 97, n. 6, 3907-3908.