Realidad virtual acústica vía redes neuronales artificiales

Transcripción

Realidad virtual acústica vía redes neuronales artificiales
S O N A C
2 0 1 2
43
REALIDAD
VIRTUAL
ACÚSTICA
VÍA REDES NEURONALES
ARTIFICIALES
J. F. Lucio Naranjo a,b
[email protected];
[email protected]
R. A. Tenenbaum b
[email protected]
J. C. B. Torres c
[email protected]
E. Jácome a
[email protected]
J. Mantilla a
[email protected]
a Universidad
Quito - Ecuador
de las Américas
b Universidade
do Estado do
Rio de Janeiro
Nova Friburgo, Brasil
c Universidade
de Janeiro
Federal do Rio
Rio de Janeiro, Brasil
Resumen
Este trabajo da un paso más en la investigación que trata de obtener las
respuestas impulsivas bi-auriculares (BIRS) a ser aplicadas en sistemas
de aurilización mediante el uso de redes neuronales artificiales (RNA).
Después de haber entrenado a diversas redes, una para cada área de
recepción distribuida alrededor de la cabeza artificial, los resultados
mostraron tener un error bastante pequeño, sin embargo, se detectó que
dicho error presenta una no-uniformidad si se lo coloca como función
del área de recepción. El objetivo principal en esta investigación, es
determinar cuáles son las causas de dicha no-uniformidad, de manera
que se la pueda atenuar, y así, presentar resultados estables. Se estima
que el problema es causado por la presencia de casos de overfitting en
las redes debido a la similitud entre ciertos valores de HRIR medidas,
para lo cual una solución podría ser modificar el tamaño de las áreas
de recepción. De ser así, se debe encontrar la ubicación y el tamaño
óptimos de las áreas de recepción, de manera que el comportamiento
del error tienda a ser uniforme.
Palabras Clave: Psicoacústica, Realidad Virtual Acústica, Aurilización,
Redes Neuronales Artificiales.
SONAC Revista de Sonido y Acústica, Num. 3, pags 43 - 51. Mayo 2012. ISSN: 1390-6348
Abstract
The work presented in this paper is another step in the research to
obtain the bi-auricular impulse responses (BIRS) to be applied in auralization systems using Artificial Neural Networks. After having trained
several networks, one for each reception area distributed around the artificial head, the results shown an small error. However, we found that
such an error represents a non-uniformity if it is placed as a function
of the reception area. The main objective of this research is to identify
the causes for the non-uniformity, so that it can be attenuated. It is believed that the problem is caused by the presence of cases of overfiting
in the networks due to similarities between certain HRIR values. The
solution to this problem could be to change the size of the reception
areas. If so, we must find the optimum locations and size of the reception areas, in such way that the error behavior tends to be uniform.
Key Words: Psychoacoustics, Acoustic Virtual Reality, Auralization,
Artificial Neural Networks.
luego de preparar
un conjunto de
redes que cubrían
por completo
las áreas de
recepción
alrededor de la
cabeza humana,
se observó que
el error, al ser
presentado como
función del área
de recepción,
presentaba un
comportamiento
inestable.
1. INTRODUCCIÓN
En un trabajo previo [Lucio et al. (2011)], se presentó a una red neuronal artificial (RNA), como una herramienta que implementa la modificación espectral de una HRIR (Head-Related Impulse Response) causada por un rayo acústico dentro de un área de recepción determinada.
Dicho estudio mostró que este nuevo método es capaz de sustituir al
procedimiento tradicional, generando resultados con un error bastante pequeño y usando la mitad del costo computacional. Sin embargo,
luego de preparar un conjunto de redes que cubrían por completo las
áreas de recepción alrededor de la cabeza humana, se observó que el
error, al ser presentado como función del área de recepción, presentaba
un comportamiento inestable.
En el presente artículo, se presenta un análisis que persigue detectar
las causas de dicha inestabilidad presente en los errores. Inicialmente,
se estimó que el problema estaba relacionado con casos de overfitting
en las redes. Es decir, por existir mucha similitud entre las HRIR interpoladas dentro de un área de recepción dada, la RNA estaba perdiendo
capacidad de generalización. Con aquel supuesto en mente, se generaron conjuntos de redes para áreas de recepción de diferente tamaño,
para poder comparar el comportamiento y la amplitud del error en cada
caso. Esto permitiría determinar tamaños variables para las áreas de
recepción de manera que el error sea minimizado y su comportamiento
sea estable.
Los resultados de este análisis se presentan en tablas y gráficos comparativos, los mismos que son discutidos.
S O N A C
2 0 1 2
45
2. METODOLOGÍA
El método de RNAs, se aplica dividiendo la totalidad de la esfera de
recepción (ver figura 2.1) en segmentos o áreas limitadas por ángulos
de azimut y elevación definidos en dos pares de valores: máximo y
mínimo. Cada una de estas áreas tiene relacionada una red entrenada,
de forma que pueda interpolar y modificar espectralmente a cualquier
HRIR dentro de dicha área. El método ha demostrado ser eficaz en el
cálculo produciendo resultados que muestran errores bastante pequeños, con un tiempo de cálculo 50% más pequeño que el utilizado con el
método tradicional (MT). Sin embargo, el comportamiento del error no
es homogéneo, mucho menos cuando el ángulo de azimut se aproxima
a 270 ° (con respecto al oído derecho). Además, dichos errores presentan oscilaciones cuando se colocan como una función de segmentos
vecinos.
Figura 2.1 Esfera de recepción
La primera medida adoptada fue revisar exhaustivamente los cálculos
definidos anteriormente para generar los datos de entrenamiento, y de
esta manera, comprobar la coherencia de los mismos. Los vectores de
entrada son los rayos acústicos con 6 datos de energía, uno por cada
banda de octava (125 Hz a 4 kHz) y 2 datos de dirección de llegada
(azimut y elevación). Los vectores objetivo se generan a partir de los
vectores de entrada utilizando el MT. Dado que es muy improbable que
un rayo acústico llegue exactamente en una dirección para la cual existe una HRIR medida, es necesario generar una HRIR ponderada. Para
dicho fin se utilizó el método de interpolación bilineal en el dominio
de la frecuencia para evitar los problemas causados por las diferencias
inter-auriculares.
Para comprobar la eficacia de la técnica de interpolación en el dominio
de la frecuencia se realizaron algunas pruebas. En la Figura 2.2 se puede apreciar cómo la HRIR interpolada tiene un retardo que corresponde
al ángulo de azimut interpolado, el mismo que fue validado realizando
el cálculo con los datos obtenidos en el trabajo del MIT [Gardner and
Martin (1995)].
Figura 2.2 HRIR interpolada con su respectivo atraso.
Se generaron 70 muestras para cada área de recepción, 49 de las cuales fueron colocadas a manera de malla para cubrir todo el espacio
disponible de forma más o menos equitativa. Los siguientes 21 valores
fueron posicionados aleatoriamente. El primer grupo (ordenados a manera de malla) se usó como muestras para entrenamiento, en tanto que
el segundo se usó para procesos de validación y prueba. Se analizaron
segmentos o áreas generadas dentro de un intervalo de -20° a 20° de
elevación. Las variaciones escogidas para azimut y elevación variaron
para cada caso analizado y los resultados son presentados en la sección
siguiente. En la figura 2.3 se puede ver en azul los puntos que se utilizan como datos de entrenamiento y en rojo los datos para ser utilizados
como prueba y validación.
Figura 2.3 Distribución de los datos de entrenamiento y prueba dentro de una área de recepción que va
desde los -20° de elevación hasta los -10° y desde los 0° de azimut hasta los 5°
S O N A C
2 0 1 2
47
3. RESULTADOS (ANÁLISIS DEL ERROR)
3.1.
Entrenamiento n° 1
En este primer entrenamiento se usaron segmentos angostos, la variación de azimut era de apenas 5°, mientras que las de elevación eran de
10°. En la figura 3.1, se muestra el error medio cuadrático de los datos de prueba como una función del ángulo de azimut para diferentes
valores de elevación en el intervalo de -20 ° a 20 °. Los resultados, en
escala logarítmica, muestran cómo a un ángulo de azimut de 270° (es
decir cuando la fuente se encuentra en la posición contraria al oído en
cuestión) los resultados presentan un error mínimo.
Figura 3.1 Tipos de errores (Validación, Prueba y Entrenamiento) con un patrón similar.
La Figura 3.2 presenta el error utilizando un mapa de colores en una
gráfica 3D, indicándose con los triángulos dónde queda la posición de
azimut 0°.
Figura 3.2 Representación del error en 3D a través de mapa de colores.
El resultado visual muestra que la tendencia de errores más pequeños
se mantiene para 270° de azimut para todas las elevaciones. Lo anterior
hizo necesario que se analice el comportamiento de las HRIRs para saber si las mismas tenían algo que ver con los resultados.
S O N A C
2 0 1 2
49
Figura 3.3 Variaciones de amplitud en las HRIRs dependientes del ángulo de azimut a cinco diferentes elevaciones
3.2.
Entrenamiento n° 2
Para este entrenamiento las variaciones escogidas de azimut y elevación son de 20° para cada una. Con los nuevos datos obtenidos, se graficaron nuevamente los errores obteniendo los resultados presentados
en las Figuras 3.4 y 3.5.
Figura 3.4 Tipos de errores (Validación, Prueba y Entrenamiento) para Entrenamiento n° 2.
Figura 3.5 Error de los parámetros de prueba en formato 3D para el Entrenamiento n° 2.
Lo anterior muestra que al aumentar el tamaño, el comportamiento del
error continúa manteniendo su tendencia anterior. Salvo una disminución en las oscilaciones, no existe una mejoría o empobrecimiento de
resultados que sea notable simplemente examinando los gráficos. Por
tal motivo, se procedió a promediar los datos del entrenamiento n°1, de
tal forma que al sumar áreas pequeñas (variaciones de azimut de 5° y
de elevación de 10°) y dividirlas para el número de áreas consideradas,
se la pueda comparar con los resultados obtenidos del entrenamiento
n° 2 (variaciones de azimut y de elevación de 20°). Dicha comparación
se muestra en la Tabla 3.1.
Elevación
Azimut
-20° a 0°
Secciones
20x20
Secciones de
5x10
0° a 20°
Secciones de
20x20
Secciones de
5x10
0° - 20°
6,50E-05
9,21E-06
4,75E-05
1,03E-05
20° - 40°
7,98E-05
1,16E-05
9,91E-05
1,33E-05
40° - 60°
1,12E-04
1,08E-05
8,35E-05
1,19E-05
60° - 80°
1,02E-04
5,95E-06
1,26E-04
6,71E-06
80° - 100°
3,27E-05
5,43E-06
5,84E-05
6,58E-06
100° - 120°
9,84E-05
1,02E-05
3,82E-05
1,19E-05
120° - 140°
4,48E-05
8,62E-06
4,61E-05
8,94E-06
140° - 160°
2,38E-05
6,47E-06
5,40E-05
6,74E-06
160° - 180°
1,22E-05
2,67E-06
1,49E-05
2,90E-06
180° - 200°
1,58E-05
1,84E-06
7,35E-06
1,92E-06
200° - 220°
9,11E-06
1,03E-06
8,83E-06
1,16E-06
220° - 240°
3,57E-06
5,93E-07
4,35E-06
6,76E-07
240° - 260°
2,45E-06
4,87E-07
1,91E-06
5,35E-07
260° - 280°
1,97E-06
4,69E-07
7,08E-06
5,15E-07
280° - 300°
3,88E-06
5,68E-07
2,51E-06
5,98E-07
300° - 320°
8,05E-06
6,39E-07
1,94E-05
7,81E-07
320° - 340°
9,66E-06
1,65E-06
2,74E-05
1,90E-06
340° - 360°
4,26E-05
2,24E-06
3,67E-05
2,48E-06
Tabla 3.1 Análisis Comparativo del Error Medio Cuadrático.
S O N A C
2 0 1 2
51
4. DISCUSIÓN
Los resultados muestran claramente que el comportamiento del error
no corresponde a un caso de overfitting. Por el contrario, un aumento en el tamaño de las áreas de recepción complica la obtención de
resultados precisos, elevando ligeramente el error. La anomalía en la
magnitud del error se debe directamente a la complejidad propia de
ciertas HRIRs. Se estima que, las oscilaciones del error, más presentes
en el caso de entrenamiento n°1, se deben a que cada proceso de entrenamiento empieza con pesos sinápticos aleatoriamente inicializados.
Esto lleva a que no siempre se alcance el mismo nivel de precisión en
todos los entrenamientos.
5. CONCLUSIONES
El tamaño de las áreas de recepción no es un elemento que sirva para
eliminar anomalías en el comportamiento del error ya que el mismo es
dependiente de las características propias de las HRIRs. En general, un
área mayor producirá que una misma red produzca resultados ligeramente inferiores.
Utilizar áreas mayores no mejoraría prácticamente en nada el tiempo
de cálculo, ya que la topología de las redes es la misma para todos los
tamaños de áreas de recepción.
Durante este estudio se realizaron entrenamientos con tamaños intermedios. Por motivos de espacio, dichos resultados no se incluyeron, sin
embargo se pudo apreciar que lo obtenido sigue la lógica de lo presentado en este trabajo.
Entrenar con un mayor número de muestras podría permitir encontrar
resultados un poco más exactos.
Valdría la pena variar un poco la topología de la red para verificar si
en las áreas problemáticas se obtienen resultados más interesantes.
6. REFERENCIAS
1.
Lucio Naranjo, J. F.; Tenenbaum, R. A; Torres, J. C. B. (2011). Cómputo de las respuestas
impulsivas bi-auriculares usando redes neurales artificiales. Revista SONAC, Vol. 2, pp.
29-40.
2.
B. Gardner, K. Martin (1995) HRTF Measurements of a KEMAR Dummy-Head Microphone., J. Acoust. Soc. Am. vol. 97, n. 6, 3907-3908.