Estimación de parámetros para redes cascada correlación

Transcripción

Estimación de parámetros para redes cascada correlación
Estimación de parámetros para redes cascada
correlación utilizando Supernova.
Eddy Mesa1, Fernán Villa2, Juan David Velásquez3,Gloria Patricia Jaramillo4
Resumen—Las metaheurísticas han sido aplicadas
exitosamente a diferentes problemas del mundo real ya que
no tienen restricciones como continuidad y derivadas. La
estimación de parámetros para redes neuronales artificiales
es un problema complejo que requiere un optimizador
robusto porque su topología difiere mucho entre un problema
y otro, además de ser altamente no lineales. Supernova es una
metaheurística novedosa que muestra un comportamiento
robusto y satisfactorio respecto a otras metaheurísticas pues
sus parámetros no varía mucho de problema a problema
además de encontrar respuestas de buena calidad para varios
tipos de problemas benchmark multimodales con geometría
intricada. En este artículo se presenta la aplicación de
Supernova al problema de estimación de parámetros para las
redes neuronales artificiales tipo cascada correlación para
predicción de series de tiempo. Se encontró que los
parámetros estimados mejoran la predicción de los modelos
de redes cascada correlación tanto en la etapa de validación
como de entrenamiento.
Palabras clave—optimización no lineal, metaheurísticas,
Supernova, redes cascada correlación, series de tiempo,
predicción.
I.
INTRODUCCIÓN
Las
metaheurísticas
se
han
aplicado
exitosamente para problemas reales con alta
complejidad [1]; uno ellos es la estimación de
parámetros para modelos no lineales utilizados en
diversas áreas del conocimiento como en el
modelado matemático [2]. Dentro del modelado, la
predicción de series de tiempo tiene diversas
aplicaciones en diferentes campos como las
ciencias, las finanzas y la ingeniería [3], lo cual ha
motivado el desarrollo de diversas técnicas para su
predicción. Entre ellas, se encuentran las redes
neuronales artificiales, las cuales tienen ventajas
sobre otros tipos de modelos por la facilidad para
capturar las relaciones no lineales entre los datos de
entrada y la respuesta [4]. Villa, Velásquez y Souza
[5] mostraron que las redes neuronales tipo cascada
correlación (CasCor) permiten encontrar modelos
con mejor capacidad de predicción, logrando un
menor error en entrenamiento y en validación que
los perceptrones multicapa.
El problema de la estimación de parámetros para
redes neuronales es complejo por sus condiciones de
no linealidad, multimodalidad y alto número de
1
Carrera 80 # 65-223 Medellín. E-mail: [email protected]
Carrera 80 # 65-223 Medellín. E-mail: [email protected]
3
Carrera 80 # 65-223 Medellín. E-mail: [email protected]
4
Carrera 80 # 65-223 Medellín. E-mail: [email protected]
2
variables; además porque es un problema con
características totalmente diferentes para cada serie
modelada, por lo tanto no sólo se requiere un
optimizador adecuado en términos proximidad a la
respuesta y globalidad, sino que también cubra una
amplia gama de problemas, es decir robusto. Para el
problema de predicción en particular no solo es
necesario minimizar el error de aproximación, sino
el de entrenamiento que es un indicador de la
calidad de predicción, lo que difiere del problema de
entrenamiento de las redes neuronales que no se
utilizan para predicción
Tradicionalmente, para redes neuronales
utilizadas para predicción de series de tiempo, se
estiman los parámetros que mejor ajustan la red a la
serie de tiempo utilizando resilient backpropagation (rprop), una heurística de primer orden
propuesta por Riedmiller y Bran en 1993 [6] para
problemas de optimización no lineal sin
restricciones. Para éste problema de estimación con
redes perceptrón multicapa, hay una aproximación
con estrategias evolutivas donde se obtienen
resultados muy similares a rprop, pero no son
comparables en esta ocasión, pues no se aplica a
redes tipo CasCor específicamente [7]. El problema
de estimación de parámetros para redes CasCor, por
su definición, implica restricciones de borde para
sus parámetros, por lo tanto, no se puede aplicar el
método tradicional, rprop, por lo que se aplicó una
modificación de rprop propuesta por Velásquez,
Villa y Jaramillo [8] que incluye el manejo de
restricciones llamada CONRprop.
Supernova es una metaheurística diseñada para
problemas de optimización no lineal, y a pesar de
estar en su fase de desarrollo, encuentra soluciones
muy cercanas al mínimo de las funciones de prueba
para un rango variado de problemas y con
desempeño superior o comparable a otras
metaheurísticas tradicionales [9]. Ya que Supernova
muestra las características deseables para aplicarse
al problema descrito, el objetivo de este artículo es
comparar el desempeño de Supernova en la
estimación de parámetros para una red tipo CasCor
con la forma clásica de estimación de parámetros
descrita en [8].
En la sección II. Se describe el problema de
optimización. En la sección III se describe la
metaheurística y el manejo de restricciones
planteado para desarrollar la aplicación. En la
sección IV se describen los casos de aplicación
utilizados. Finalmente en la sección V. se concluye
sobre los resultados obtenidos.
II.
ESTIMACIÓN DE PARÁMETROS PARA UNA RED
NEURONAL CASCADA CORRELACIÓN
Las redes CasCor son un tipo de red neuronal
artificial diseñadas con aprendizaje constructivo.
Iniciando la red desde la manera más simple, una
capa de entrada y una de salida como se muestra en
la Figura 1 (a), se van agregando neuronas en la
capa oculta llegando a un modelo multicapa, como
se observa en la Figura 1 (b); para la siguiente
configuración los pesos sinápticos de la etapa
precedente (w!,! ,α, etc.) son congelados y estiman
los nuevos pesos para la nueva etapa. Se adicionan
tantas neuronas como sean necesarias para llegar a
resultados satisfactorios o el criterio de parada
puesto para la red, de manera que el diseño de la red
tiene el número mínimo de neuronas necesarias para
llegar a la precisión deseada [5].
En términos de optimización, el problema se
puede plantear como la minimización de la función
de error:
componentes de Ω. Dentro de los parámetros a
estimar, es importante notar que para el caso de la
red cascada correlación se tienen algunas
restricciones −1 ≤ !!,! ≤ 1 y −1 ≤ !! ≤ 1.
El problema de la estimación de parámetros en
una red neuronal tiene varias dificultades. En primer
lugar, las superficies de error son intrincadas y
altamente no lineales [10]; además, en este caso
particular, el número de variables a estimar
aumenta, pues es un modelo creciente por
definición, haciendo que el problema tenga cada vez
más dimensiones [11]. Adicionalmente, hay un
mayor grado de complejidad por las restricciones
dadas [12].
!
!! − !!
!!" =
!
!!!!!
donde ! corresponde a la cantidad de rezagos o
instantes de tiempo considerados en el modelo, !
corresponde a los periodos de tiempo, !! a la
observación real en el periodo ! y !! corresponde al
valor de ! estimado por la red neuronal en el mismo
periodo:
!! = !(Ω, !, !)
para Ω = !!,! , !! , !! , !∗ (con ! = 1, ⋯ , ! y ℎ =
1, ⋯ , !). ! es la cantidad de rezagos y ! el número
de neuronas en la capa oculta. !∗ es un escalar. El
vector ! representa las variables explicativas, que en
este caso son: !!!! , ⋯ , !!!! . Formalmente !
correspondería a un modelo estadístico no
paramétrico de regresión no lineal y se define como:
!
!! = !∗ +
!! + !
!!!
1
2!!!!
!
× !! +
!!,! ×!!!! + !!
!!!
donde !(∙) es la función de activación de las
neuronas de la capa oculta y !! se asume como una
variable aleatoria con distribución normal con media
0 de varianza desconocida.
Desde el punto de vista de optimización !, !, !
y ! son conocidos y fijos, y se busca minimizar la
función de error(!!") cuyos parámetros son las
Fig. 1.
III.
Etapas de aprendizaje incremental red cascada
correlación.
SUPERNOVA PARA PROBLEMAS CON
RESTRICCIONES
Supernova es una metaheurística, inspirada en la
supernovas, que toma un sistema de ecuaciones
abreviado en el cual se define el impulso y la
atracción gravitatoria de las partículas como regla
de búsqueda y originalmente está diseñado para
problemas sin restricciones, para este caso se le
ajusta un manejo de restricciones por penalización
para poder aplicar directamente el método al
problema planteado.
Supernova sigue la secuencia de la Figura 2,
para una solución inicial. Se explota sobre el área de
búsqueda un número ! de partículas con una fuerza
!, que interactúan de acuerdo a la gravedad y el
impulso así:
!! = ! ! + ! ! + ! !
donde !! = !!!!! !!
!
!!!|!!! !
es el impulso y ! ! =
∙ !!!! ∙ !!!! ∙ 1 − !!" ∙
!!
!
!!!|!!! !!"
∙ !!"
la fuerza de gravedad asociada acorde a la masa ! y
distancias ! como en el modelo físico de las
supernovas. La masa, en este caso, es un
escalamiento de la función objetivo; se escala para
que el valor de cualquier función sea positivo y
mayor que 0. La distancia, se toma como un
promedio ponderado de la distancia euclidiana entre
las
partículas
para
evitar
problemas
computacionales para conjuntos de partículas muy
cercanas entre sí. La interacción particular se repite
hasta llegar a un número de iteraciones ! o un
equilibro que se denota como un criterio de parada;
éste consiste parar cuando en un porcentaje ! de
iteraciones no se halla un mejor mínimo. Una vez
llega a este punto de equilibrio se reduce ! a una
razón de ! y sobre el mejor punto encontrado se
vuelve a explotar el algoritmo, reiniciando así el
proceso de búsqueda. Estos reinicios se repetirán
hasta llegar a un número !.
Fig. 2.
Secuencia que sigue la metaheurísticas de
supernova
Una de las formas mas populares de manejo de
restricciones es la penalización. La penalización
consiste en aplicar un castigo (en el caso de la
minimización, aumentar el valor de la función
objetivo) a las soluciones que no cumplen con las
restricciones dadas, y así convertir un problema con
restricciones en uno sin restricciones. De las clases
de penalización existentes (estáticas, dinámicas,
adaptativas, entre otras) se utilizó una penalización
estática propuesta por Hoffmeister y Sprave para
restricciones de igualdad o desigualdad [8], [13] la
misma utilizada por CONRprop.
En la Figura 3 se observa el efecto de la
penalización propuesta sobre la función; los trazos
oscuros marcan los valores que tomaría la función
para diferentes valores de !; como se puede
observar en la región factible, estipulada entre !" y
!", se toma la función objetivo, mientras que en la
región no factible se toma el valor del castigo
propuesto lo que evita el sobrepaso de las
restricciones de borde del problema planteado.
Fig. 3.
Función por partes para penalización de
restricciones.
La función objetivo transformada !(!) es la
función por partes:
!(!)
!∈Ω
!! + !! ! ∉ Ω
donde !! es el valor máximo encontrado para !(!)
dentro de la región factible y !! es la medida de
penalización
!! = max !! × !! , ⋯ , !! × !!
donde ! es el número de restricciones. ! es una
matriz
de
coeficientes
del
orden
(! ×# !" !"#$%&"'%$&) que toma valores de 0
cuando la restricción se cumple y 1 cuando no se
cumple. Y R es el valor de restricción en ese punto.
Así pues, para cualquier matriz ! ≠ 0 la función
tomará el valor de !! + !! . Una vez implementado
el sistema de penalización el problema planteado
puede ser resuelto con Supernova.
! ! =
IV.
CASOS DE APLICACIÓN
Las diferentes versiones de redes neuronales se
han optimizado clásicamente con el algoritmo de
resilient back-propagation (rprop); sin embargo,
para el problema de las redes cascada correlación se
aplicó una versión penalizada de este mismo
algoritmo llamada ConRprop [8]. A continuación se
presentan dos casos de estudio y los resultados
encontrados en la literatura. Los detalles del
algoritmo CONRprop pueden ser consultados en
[8]. Para aplicar la metaheurística al problema de la
estimación de parámetros, se utilizaron dos series
benchmark conocidas: Pasajeros de una aerolínea y
linces canadienses con los mismas entradas descritas
en [8] para que las pruebas serán comparables los
resultados de la estimación con CONRprop y la
misma con Supernova.. Inicialmente se parametrizó
el algoritmo y posteriormente se hicieron las
corridas para ambas series.
A. Parametrización:
Inicialmente se tomó un modelo de red cascada
correlación y se varió los parámetros hasta el
funcionamiento adecuado del algoritmo. En la Tabla
1 se observan los parámetros utilizados por
Supernova para optimizar los casos de aplicación, el
método de reinicio es tipo II. Para ambas series se
encontró que los parámetros que daban mejor
rendimiento eran iguales y similares a los
recomendados para Supernova en general [9];
exceptuando ! que es mucho menor al
recomendado, ya que los parámetros a estimar están
dentro del rango [-1,1] que es mucho menor que las
funciones benchmark propuestas para la estimación
de parámetros.
TABLA I
PARÁMETROS DE SUPERNOVA PARA LOS CASOS DE
APLICACIÓN.
Parámetros
Caso
!
!
!
!
!
!
!
Pasajeros
60
1
1
50 35
3
1.1
de una
aerolínea
Linces
60
1
1
50 35
3
1.1
canadienses
B. Caso de estudio: Pasajeros de una Aerolínea.
Esta serie de tiempo contiene el registro del
número total de pasajeros transportados por mes por
una aerolínea, desde enero de 1949 hasta diciembre
de 1960. Cada uno de los modelos presentados en la
Tabla 2 fue estudiada por Faraway y Chatfield [14]
y Ghiassi et al [15] y se tomaron con los mismos
parámetros para hacer comparativo el estudio. Para
cada modelo, los datos de la serie se transformaron
utilizando la función logaritmo natural (base euler);
se usaron los primeros 120 datos para entrenamiento
y los 12 últimos para validación, tal como fue
realizado por Faraway y Chatfield[14]. Los
parámetros utilizados para supernova se muestran en
la Tabla 1.
Faraway y Chatfield [14] reportaron para cada
uno de los modelos de la Tabla 2, la sumatoria del
error cuadrático (SSE) para las muestras de
entrenamiento y validación, al predecir la serie con
redes neuronales artificiales (ANN). Mientras que
en la Tabla 3, se resumen los resultados reportados
por Ghiassi et al [15]. Para cada uno de los modelos
de la Tabla 2, se calcula el estadístico de ajuste para
las muestras en entrenamiento y de validación, al
pronosticar la serie con redes CasCor optimizadas
con Supernova y CONRprop. Se puede apreciar
que todos los errores obtenidos CasCor optimizadas
con Supernova, tanto en entrenamiento como en
validación, son menores que los obtenidos con
ConRprop, que los reportados por Faraway y
Chatfield [14](Tabla 2) y por Ghiassi et al [15]
(Tabla 3).
TABLA II
VALORES DEL SSE PARA DIFERENTES MODELOS PRONOSTICANDO LA SERIE DEL PRIMER CASO.
SSE Entrenamiento
SSE Validación
Modelo
Rezagos
H
ANN SNOVA
ConRprop
ANN
SNOVA
ConRprop
1
1 – 13
2
0.73
0.14
0.28
0.71
0.01
0.09
2
1, 12
2
2.30
0.32
0.35
0.34
0.02
0.03
3
1, 2, 12
2
2.17
0.31
0.39
0.29
0.02
0.03
4
1, 2, 12, 13
2
0.99
0.18
0.65
0.52
0.01
0.05
5
1, 12, 13
4
0.84
0.16
0.55
0.62
0.01
0.03
6
1, 2, 3, 4
4
7.74
1.10
1.15
1.03
0.12
0.40
TABLA III
PORCENTAJES DE MEJORA DE REDES CASCOR ESTIMADAS CON SNOVA SOBRE DAN2.
SSE Entrenamiento
SSE Validación
Modelo
Rezagos
DAN2
SNOVA
%Mejora
DAN2
SNOVA
%Mejora
1
1 – 13
0.17
0.14
0.23
0.01
17.65
95,65
2
1, 12
0.85
0.32
3
1, 2, 12
0.44
0.31
4
1, 2, 12, 13
0.30
0.18
6
1, 12, 13
0.24
0.16
62.35
0.26
0.02
92,31
29.55
0.19
0.02
89,47
40.00
0.29
0.01
96,55
33.33
0.22
0.01
95,45
Fig. 4.
Predicción con una red CASCOR optimizada con Supernova y ConRprop para la serie de pasajeros de una aerolínea
Para este caso de estudio, los resultados del
SSE se comprara con ANN y con ConRprop, los
resultados se muestras en la Tabla 2. Se observa
una reducción consistente para todos los modelos.
Los mejores resultados para la fase de
entrenamiento corresponden a loas modelos 1,4 y
5, consistentemente para los modelos 1 y 4 se
nota una también una notable mejoría para la
validación; pero, es en el modelo 6 donde se
presenta la mayor reducción del SSE para la
validación.
En la Tabla 3, se presenta el porcentaje de
mejoramiento al comparar supernova con
DANN2 donde se observa que al igual que en la
comparación anterior la mejora es consistente
para todos los modelos. El modelo 4 presenta las
mayores reducciones del error tanto en la fase de
entrenamiento como en la validación. En este
caso supernova presenta unos errores de
validación mucho menores con un rango de
mejora entre 89.47% y 96.55 %.
En la Figura 4 se presentan los valores reales
Fig. 5.
de la serie de tiempo y los pronosticados con el
modelo 1 de CasCor estimado con supernova y
rprop de la Tabla 2, en ésta gráfica se observa que
la red CasCor estimada con supernova se ajusta
un poco mejor a la serie que la misma red
estimada con CONRprop.
C. Caso de aplicación: Linces canadienses
En esta serie se encuentra registrada la
cantidad de linces capturados anualmente, desde
1821 hasta 1934, en los alrededores del río
Mackenzie ubicado en el distrito de Northem,
Canadá. Esta serie fue estudiada por [4], [16],
[17]. Los datos de la serie se transformaron
utilizando la función logaritmo base 10; de sus
114 datos se tomaron los 100 primeros para
entrenamiento y los últimos 14 para validación tal
como se ha realizado en estudios pasados. Los
parámetros utilizados para supernova se muestran
en la Tabla 1.
Predicción con una red CASCOR para la serie de tiempo de Linces Canadienses [espacio con la columna]
TABLA IV
VALORES DEL ERROR CUADRÁTICO MEDIO PARA DIFERENTES MODELOS PRONOSTICANDO LA SERIELA SERIE
DE LOS LINCES CANADIENCES.
MSE Entrenamiento
MSE Validación
Modelo
Rezagos
SNOVA
ConRprop
SNOVA
ConRprop
1
1–7
0.0371
0.0503
0.0135
0.0210
2
1,2,3,8,9,10
0.0403
0.0492
0.0451
0.0224
3
1–9
0.0122
0.0124
0.0551
4
1–6
0.0383
0.0536
0.0096
5
1,2,3,4,8,9,10
0.0675
0.0468
0.0316
0.0553
0.027estamal
colocada la
imagen0
0.0215
6
1–8
0.0362
0.0483
0.0175
0.0242
En la Figura 5 se presentan los valores reales
de la serie de tiempo y los pronosticados con el
modelo 1 de CasCor estimado con supernova y
CONRprop de la Tabla 4, en ésta gráfica se
observa que la red CasCor estimada con
supernova se ajusta mejor a la serie que la misma
red estimada con CONRprop.
En la Tabla 4 presentan los datos obtenidos
para los diferentes modelos de la serie de linces
canadienses, en este caso, supernova no es
superior en todos los modelos, pero presenta
mejores resultados en la sección de entrenamiento
para los modelos 1-4 y 6. La mejora más
sustancial la presenta para el modelo 4. En la
parte del error de validación, presenta mejores
comportamientos para los modelos 1,3,4 y 6
presentando la mayor disminución del error para
el modelo 4.
V.
CONCLUSIONES
En este artículo se presentó la aplicación de
Supernova al problema de estimación de
parámetros en una red cascada correlación.
Inicialmente se implementa con éxito el manejo
de restricciones, ampliando la gama de los
problemas a los que se puede aplicar Supernova.
Comparándola con ConRprop, Supernova
muestra un mejor ajuste para la mayoría de
modelos propuesto para los casos de aplicación.
Además de lograr un mejor ajuste, Supernova
tiene una ventaja adicional, los parámetros del
algoritmo no se variaron para los diferentes
modelos, lo que indica que un mismo conjunto de
parámetros para el algoritmo proveen una buena
respuesta en dos casos diferentes.
Como trabajo futuro se propone explorar el
comportamiento en otras series de tiempo.
También, variando un poco la construcción de la
red tipo CasCor de una construcción por
aprendizaje constructivo a una con aprendizaje
heurístico.
REFERENCIAS
[1] E. G. Talbi, Metaheuristics: from design to
implementation. Wiley, 2009.
[2] X.-S. Yang. Engineering Optimization An Introduction
with Metaheuristics Applications. Hoboken: Wiley, 2010.
[3] A. Palit and D. Popovic, Computational Intelligence in
Time Series Forecasting. Springer, 2005.
[4] G. Zhang, B. Eddy Patuwo, and M. Y. Hu, Forecasting
with artificial neural networks: The state of the art.
International Journal of Forecasting, vol. 14, no. 1, pp.
35-62, 1998.
[5] F. A. Villa, J. D. Velásquez, and R. C. Souza. Una
aproximación a la regularización de redes cascadacorrelación para la predicción de series de tiempo.
Investigação Operacional, vol. 28, pp. 151-161, 2008.
[6] M. Riedmiller and H. Braun. A Direct Adaptive Method
for Faster Backpropagation Learning: The RPROP
Algorithm. In: IEEE international conference on neural
networks, 1993, pp. 586-591.
[7] D. Ortíz, F.A. Villa, and J. D.Velásquez. 2007. Una
comparación entre estrategias Evolutivas y RPROP para
la Estimación de Redes Neuronales.
Avances en
Sistemas e Informática. Vol.4. No. 2, pp.135–144.
[8] F. Villa, J. Velásquez, and P. Jaramillo. Conrprop: un
algoritmo para la optimización de funciones no lineales
con restricciones. Revista Facultad de Ingeniería
Universidad de Antioquia, No. 50, pp. 179-185, Dec.
2009.
[9] E. Mesa, Supernova  : un algoritmo novedoso de
optimización global. Universidad Nacional, 2010.
[10] T. L. Fine. Feedforward neural network methodology.
Springer, 1999.
[11] X. Yao, Y. Liu, and G. Lin. Evolutionary Programming
Made Faster. IEEE Transactions on Evolutionary
Computation, vol. 3, pp. 82-102, 1996.
[12] Z. Michalewicz and M. Schmidt. Evolutionary
Optimization. Kluwer Academic Press, 2002.
[13] C. A. Coello Coello. Theoretical and Numerical
Constraint-Handling Techniques used with Evolutionary
Algorithms: A Survey of the State of the Art. Computer
Methods in Applied Mechanics and Engineering, vol.
191, no. 11-12, pp. 1245-1287, 2002.
[14] J. Faraway and C. Chatfield. Time series forecasting with
neural networks: A comparative study using the airline
data. Applied Statistics, vol. 47, no. 2, pp. 231-250, 1998.
[15] M. Ghiassi, H. Saidane, and D. K. Zimbra. A dynamic
artificial neural network model for forecasting time series
events. International Journal of Forecasting, vol. 21, No.
2, pp. 341-362, 2005.
[16] M. J. Cambell and A. M. Walker. A survey of statistical
work on the mackenzie river series of annual canadian
lynx trappings for the years 1821-1934 and a new
analysis. Journal of the Royal Statistical Society, vol.
140, No. 4, pp. 411-431, 1977.
[17] T. S. Rao and M. M. Gabr. An introduction to bispectral
analysis and bilinear time series models. No. 24. New
York, NY: Springer, 1984, pp. 528-535.

Documentos relacionados