Estimación de parámetros para redes cascada correlación
Transcripción
Estimación de parámetros para redes cascada correlación
Estimación de parámetros para redes cascada correlación utilizando Supernova. Eddy Mesa1, Fernán Villa2, Juan David Velásquez3,Gloria Patricia Jaramillo4 Resumen—Las metaheurísticas han sido aplicadas exitosamente a diferentes problemas del mundo real ya que no tienen restricciones como continuidad y derivadas. La estimación de parámetros para redes neuronales artificiales es un problema complejo que requiere un optimizador robusto porque su topología difiere mucho entre un problema y otro, además de ser altamente no lineales. Supernova es una metaheurística novedosa que muestra un comportamiento robusto y satisfactorio respecto a otras metaheurísticas pues sus parámetros no varía mucho de problema a problema además de encontrar respuestas de buena calidad para varios tipos de problemas benchmark multimodales con geometría intricada. En este artículo se presenta la aplicación de Supernova al problema de estimación de parámetros para las redes neuronales artificiales tipo cascada correlación para predicción de series de tiempo. Se encontró que los parámetros estimados mejoran la predicción de los modelos de redes cascada correlación tanto en la etapa de validación como de entrenamiento. Palabras clave—optimización no lineal, metaheurísticas, Supernova, redes cascada correlación, series de tiempo, predicción. I. INTRODUCCIÓN Las metaheurísticas se han aplicado exitosamente para problemas reales con alta complejidad [1]; uno ellos es la estimación de parámetros para modelos no lineales utilizados en diversas áreas del conocimiento como en el modelado matemático [2]. Dentro del modelado, la predicción de series de tiempo tiene diversas aplicaciones en diferentes campos como las ciencias, las finanzas y la ingeniería [3], lo cual ha motivado el desarrollo de diversas técnicas para su predicción. Entre ellas, se encuentran las redes neuronales artificiales, las cuales tienen ventajas sobre otros tipos de modelos por la facilidad para capturar las relaciones no lineales entre los datos de entrada y la respuesta [4]. Villa, Velásquez y Souza [5] mostraron que las redes neuronales tipo cascada correlación (CasCor) permiten encontrar modelos con mejor capacidad de predicción, logrando un menor error en entrenamiento y en validación que los perceptrones multicapa. El problema de la estimación de parámetros para redes neuronales es complejo por sus condiciones de no linealidad, multimodalidad y alto número de 1 Carrera 80 # 65-223 Medellín. E-mail: [email protected] Carrera 80 # 65-223 Medellín. E-mail: [email protected] 3 Carrera 80 # 65-223 Medellín. E-mail: [email protected] 4 Carrera 80 # 65-223 Medellín. E-mail: [email protected] 2 variables; además porque es un problema con características totalmente diferentes para cada serie modelada, por lo tanto no sólo se requiere un optimizador adecuado en términos proximidad a la respuesta y globalidad, sino que también cubra una amplia gama de problemas, es decir robusto. Para el problema de predicción en particular no solo es necesario minimizar el error de aproximación, sino el de entrenamiento que es un indicador de la calidad de predicción, lo que difiere del problema de entrenamiento de las redes neuronales que no se utilizan para predicción Tradicionalmente, para redes neuronales utilizadas para predicción de series de tiempo, se estiman los parámetros que mejor ajustan la red a la serie de tiempo utilizando resilient backpropagation (rprop), una heurística de primer orden propuesta por Riedmiller y Bran en 1993 [6] para problemas de optimización no lineal sin restricciones. Para éste problema de estimación con redes perceptrón multicapa, hay una aproximación con estrategias evolutivas donde se obtienen resultados muy similares a rprop, pero no son comparables en esta ocasión, pues no se aplica a redes tipo CasCor específicamente [7]. El problema de estimación de parámetros para redes CasCor, por su definición, implica restricciones de borde para sus parámetros, por lo tanto, no se puede aplicar el método tradicional, rprop, por lo que se aplicó una modificación de rprop propuesta por Velásquez, Villa y Jaramillo [8] que incluye el manejo de restricciones llamada CONRprop. Supernova es una metaheurística diseñada para problemas de optimización no lineal, y a pesar de estar en su fase de desarrollo, encuentra soluciones muy cercanas al mínimo de las funciones de prueba para un rango variado de problemas y con desempeño superior o comparable a otras metaheurísticas tradicionales [9]. Ya que Supernova muestra las características deseables para aplicarse al problema descrito, el objetivo de este artículo es comparar el desempeño de Supernova en la estimación de parámetros para una red tipo CasCor con la forma clásica de estimación de parámetros descrita en [8]. En la sección II. Se describe el problema de optimización. En la sección III se describe la metaheurística y el manejo de restricciones planteado para desarrollar la aplicación. En la sección IV se describen los casos de aplicación utilizados. Finalmente en la sección V. se concluye sobre los resultados obtenidos. II. ESTIMACIÓN DE PARÁMETROS PARA UNA RED NEURONAL CASCADA CORRELACIÓN Las redes CasCor son un tipo de red neuronal artificial diseñadas con aprendizaje constructivo. Iniciando la red desde la manera más simple, una capa de entrada y una de salida como se muestra en la Figura 1 (a), se van agregando neuronas en la capa oculta llegando a un modelo multicapa, como se observa en la Figura 1 (b); para la siguiente configuración los pesos sinápticos de la etapa precedente (w!,! ,α, etc.) son congelados y estiman los nuevos pesos para la nueva etapa. Se adicionan tantas neuronas como sean necesarias para llegar a resultados satisfactorios o el criterio de parada puesto para la red, de manera que el diseño de la red tiene el número mínimo de neuronas necesarias para llegar a la precisión deseada [5]. En términos de optimización, el problema se puede plantear como la minimización de la función de error: componentes de Ω. Dentro de los parámetros a estimar, es importante notar que para el caso de la red cascada correlación se tienen algunas restricciones −1 ≤ !!,! ≤ 1 y −1 ≤ !! ≤ 1. El problema de la estimación de parámetros en una red neuronal tiene varias dificultades. En primer lugar, las superficies de error son intrincadas y altamente no lineales [10]; además, en este caso particular, el número de variables a estimar aumenta, pues es un modelo creciente por definición, haciendo que el problema tenga cada vez más dimensiones [11]. Adicionalmente, hay un mayor grado de complejidad por las restricciones dadas [12]. ! !! − !! !!" = ! !!!!! donde ! corresponde a la cantidad de rezagos o instantes de tiempo considerados en el modelo, ! corresponde a los periodos de tiempo, !! a la observación real en el periodo ! y !! corresponde al valor de ! estimado por la red neuronal en el mismo periodo: !! = !(Ω, !, !) para Ω = !!,! , !! , !! , !∗ (con ! = 1, ⋯ , ! y ℎ = 1, ⋯ , !). ! es la cantidad de rezagos y ! el número de neuronas en la capa oculta. !∗ es un escalar. El vector ! representa las variables explicativas, que en este caso son: !!!! , ⋯ , !!!! . Formalmente ! correspondería a un modelo estadístico no paramétrico de regresión no lineal y se define como: ! !! = !∗ + !! + ! !!! 1 2!!!! ! × !! + !!,! ×!!!! + !! !!! donde !(∙) es la función de activación de las neuronas de la capa oculta y !! se asume como una variable aleatoria con distribución normal con media 0 de varianza desconocida. Desde el punto de vista de optimización !, !, ! y ! son conocidos y fijos, y se busca minimizar la función de error(!!") cuyos parámetros son las Fig. 1. III. Etapas de aprendizaje incremental red cascada correlación. SUPERNOVA PARA PROBLEMAS CON RESTRICCIONES Supernova es una metaheurística, inspirada en la supernovas, que toma un sistema de ecuaciones abreviado en el cual se define el impulso y la atracción gravitatoria de las partículas como regla de búsqueda y originalmente está diseñado para problemas sin restricciones, para este caso se le ajusta un manejo de restricciones por penalización para poder aplicar directamente el método al problema planteado. Supernova sigue la secuencia de la Figura 2, para una solución inicial. Se explota sobre el área de búsqueda un número ! de partículas con una fuerza !, que interactúan de acuerdo a la gravedad y el impulso así: !! = ! ! + ! ! + ! ! donde !! = !!!!! !! ! !!!|!!! ! es el impulso y ! ! = ∙ !!!! ∙ !!!! ∙ 1 − !!" ∙ !! ! !!!|!!! !!" ∙ !!" la fuerza de gravedad asociada acorde a la masa ! y distancias ! como en el modelo físico de las supernovas. La masa, en este caso, es un escalamiento de la función objetivo; se escala para que el valor de cualquier función sea positivo y mayor que 0. La distancia, se toma como un promedio ponderado de la distancia euclidiana entre las partículas para evitar problemas computacionales para conjuntos de partículas muy cercanas entre sí. La interacción particular se repite hasta llegar a un número de iteraciones ! o un equilibro que se denota como un criterio de parada; éste consiste parar cuando en un porcentaje ! de iteraciones no se halla un mejor mínimo. Una vez llega a este punto de equilibrio se reduce ! a una razón de ! y sobre el mejor punto encontrado se vuelve a explotar el algoritmo, reiniciando así el proceso de búsqueda. Estos reinicios se repetirán hasta llegar a un número !. Fig. 2. Secuencia que sigue la metaheurísticas de supernova Una de las formas mas populares de manejo de restricciones es la penalización. La penalización consiste en aplicar un castigo (en el caso de la minimización, aumentar el valor de la función objetivo) a las soluciones que no cumplen con las restricciones dadas, y así convertir un problema con restricciones en uno sin restricciones. De las clases de penalización existentes (estáticas, dinámicas, adaptativas, entre otras) se utilizó una penalización estática propuesta por Hoffmeister y Sprave para restricciones de igualdad o desigualdad [8], [13] la misma utilizada por CONRprop. En la Figura 3 se observa el efecto de la penalización propuesta sobre la función; los trazos oscuros marcan los valores que tomaría la función para diferentes valores de !; como se puede observar en la región factible, estipulada entre !" y !", se toma la función objetivo, mientras que en la región no factible se toma el valor del castigo propuesto lo que evita el sobrepaso de las restricciones de borde del problema planteado. Fig. 3. Función por partes para penalización de restricciones. La función objetivo transformada !(!) es la función por partes: !(!) !∈Ω !! + !! ! ∉ Ω donde !! es el valor máximo encontrado para !(!) dentro de la región factible y !! es la medida de penalización !! = max !! × !! , ⋯ , !! × !! donde ! es el número de restricciones. ! es una matriz de coeficientes del orden (! ×# !" !"#$%&"'%$&) que toma valores de 0 cuando la restricción se cumple y 1 cuando no se cumple. Y R es el valor de restricción en ese punto. Así pues, para cualquier matriz ! ≠ 0 la función tomará el valor de !! + !! . Una vez implementado el sistema de penalización el problema planteado puede ser resuelto con Supernova. ! ! = IV. CASOS DE APLICACIÓN Las diferentes versiones de redes neuronales se han optimizado clásicamente con el algoritmo de resilient back-propagation (rprop); sin embargo, para el problema de las redes cascada correlación se aplicó una versión penalizada de este mismo algoritmo llamada ConRprop [8]. A continuación se presentan dos casos de estudio y los resultados encontrados en la literatura. Los detalles del algoritmo CONRprop pueden ser consultados en [8]. Para aplicar la metaheurística al problema de la estimación de parámetros, se utilizaron dos series benchmark conocidas: Pasajeros de una aerolínea y linces canadienses con los mismas entradas descritas en [8] para que las pruebas serán comparables los resultados de la estimación con CONRprop y la misma con Supernova.. Inicialmente se parametrizó el algoritmo y posteriormente se hicieron las corridas para ambas series. A. Parametrización: Inicialmente se tomó un modelo de red cascada correlación y se varió los parámetros hasta el funcionamiento adecuado del algoritmo. En la Tabla 1 se observan los parámetros utilizados por Supernova para optimizar los casos de aplicación, el método de reinicio es tipo II. Para ambas series se encontró que los parámetros que daban mejor rendimiento eran iguales y similares a los recomendados para Supernova en general [9]; exceptuando ! que es mucho menor al recomendado, ya que los parámetros a estimar están dentro del rango [-1,1] que es mucho menor que las funciones benchmark propuestas para la estimación de parámetros. TABLA I PARÁMETROS DE SUPERNOVA PARA LOS CASOS DE APLICACIÓN. Parámetros Caso ! ! ! ! ! ! ! Pasajeros 60 1 1 50 35 3 1.1 de una aerolínea Linces 60 1 1 50 35 3 1.1 canadienses B. Caso de estudio: Pasajeros de una Aerolínea. Esta serie de tiempo contiene el registro del número total de pasajeros transportados por mes por una aerolínea, desde enero de 1949 hasta diciembre de 1960. Cada uno de los modelos presentados en la Tabla 2 fue estudiada por Faraway y Chatfield [14] y Ghiassi et al [15] y se tomaron con los mismos parámetros para hacer comparativo el estudio. Para cada modelo, los datos de la serie se transformaron utilizando la función logaritmo natural (base euler); se usaron los primeros 120 datos para entrenamiento y los 12 últimos para validación, tal como fue realizado por Faraway y Chatfield[14]. Los parámetros utilizados para supernova se muestran en la Tabla 1. Faraway y Chatfield [14] reportaron para cada uno de los modelos de la Tabla 2, la sumatoria del error cuadrático (SSE) para las muestras de entrenamiento y validación, al predecir la serie con redes neuronales artificiales (ANN). Mientras que en la Tabla 3, se resumen los resultados reportados por Ghiassi et al [15]. Para cada uno de los modelos de la Tabla 2, se calcula el estadístico de ajuste para las muestras en entrenamiento y de validación, al pronosticar la serie con redes CasCor optimizadas con Supernova y CONRprop. Se puede apreciar que todos los errores obtenidos CasCor optimizadas con Supernova, tanto en entrenamiento como en validación, son menores que los obtenidos con ConRprop, que los reportados por Faraway y Chatfield [14](Tabla 2) y por Ghiassi et al [15] (Tabla 3). TABLA II VALORES DEL SSE PARA DIFERENTES MODELOS PRONOSTICANDO LA SERIE DEL PRIMER CASO. SSE Entrenamiento SSE Validación Modelo Rezagos H ANN SNOVA ConRprop ANN SNOVA ConRprop 1 1 – 13 2 0.73 0.14 0.28 0.71 0.01 0.09 2 1, 12 2 2.30 0.32 0.35 0.34 0.02 0.03 3 1, 2, 12 2 2.17 0.31 0.39 0.29 0.02 0.03 4 1, 2, 12, 13 2 0.99 0.18 0.65 0.52 0.01 0.05 5 1, 12, 13 4 0.84 0.16 0.55 0.62 0.01 0.03 6 1, 2, 3, 4 4 7.74 1.10 1.15 1.03 0.12 0.40 TABLA III PORCENTAJES DE MEJORA DE REDES CASCOR ESTIMADAS CON SNOVA SOBRE DAN2. SSE Entrenamiento SSE Validación Modelo Rezagos DAN2 SNOVA %Mejora DAN2 SNOVA %Mejora 1 1 – 13 0.17 0.14 0.23 0.01 17.65 95,65 2 1, 12 0.85 0.32 3 1, 2, 12 0.44 0.31 4 1, 2, 12, 13 0.30 0.18 6 1, 12, 13 0.24 0.16 62.35 0.26 0.02 92,31 29.55 0.19 0.02 89,47 40.00 0.29 0.01 96,55 33.33 0.22 0.01 95,45 Fig. 4. Predicción con una red CASCOR optimizada con Supernova y ConRprop para la serie de pasajeros de una aerolínea Para este caso de estudio, los resultados del SSE se comprara con ANN y con ConRprop, los resultados se muestras en la Tabla 2. Se observa una reducción consistente para todos los modelos. Los mejores resultados para la fase de entrenamiento corresponden a loas modelos 1,4 y 5, consistentemente para los modelos 1 y 4 se nota una también una notable mejoría para la validación; pero, es en el modelo 6 donde se presenta la mayor reducción del SSE para la validación. En la Tabla 3, se presenta el porcentaje de mejoramiento al comparar supernova con DANN2 donde se observa que al igual que en la comparación anterior la mejora es consistente para todos los modelos. El modelo 4 presenta las mayores reducciones del error tanto en la fase de entrenamiento como en la validación. En este caso supernova presenta unos errores de validación mucho menores con un rango de mejora entre 89.47% y 96.55 %. En la Figura 4 se presentan los valores reales Fig. 5. de la serie de tiempo y los pronosticados con el modelo 1 de CasCor estimado con supernova y rprop de la Tabla 2, en ésta gráfica se observa que la red CasCor estimada con supernova se ajusta un poco mejor a la serie que la misma red estimada con CONRprop. C. Caso de aplicación: Linces canadienses En esta serie se encuentra registrada la cantidad de linces capturados anualmente, desde 1821 hasta 1934, en los alrededores del río Mackenzie ubicado en el distrito de Northem, Canadá. Esta serie fue estudiada por [4], [16], [17]. Los datos de la serie se transformaron utilizando la función logaritmo base 10; de sus 114 datos se tomaron los 100 primeros para entrenamiento y los últimos 14 para validación tal como se ha realizado en estudios pasados. Los parámetros utilizados para supernova se muestran en la Tabla 1. Predicción con una red CASCOR para la serie de tiempo de Linces Canadienses [espacio con la columna] TABLA IV VALORES DEL ERROR CUADRÁTICO MEDIO PARA DIFERENTES MODELOS PRONOSTICANDO LA SERIELA SERIE DE LOS LINCES CANADIENCES. MSE Entrenamiento MSE Validación Modelo Rezagos SNOVA ConRprop SNOVA ConRprop 1 1–7 0.0371 0.0503 0.0135 0.0210 2 1,2,3,8,9,10 0.0403 0.0492 0.0451 0.0224 3 1–9 0.0122 0.0124 0.0551 4 1–6 0.0383 0.0536 0.0096 5 1,2,3,4,8,9,10 0.0675 0.0468 0.0316 0.0553 0.027estamal colocada la imagen0 0.0215 6 1–8 0.0362 0.0483 0.0175 0.0242 En la Figura 5 se presentan los valores reales de la serie de tiempo y los pronosticados con el modelo 1 de CasCor estimado con supernova y CONRprop de la Tabla 4, en ésta gráfica se observa que la red CasCor estimada con supernova se ajusta mejor a la serie que la misma red estimada con CONRprop. En la Tabla 4 presentan los datos obtenidos para los diferentes modelos de la serie de linces canadienses, en este caso, supernova no es superior en todos los modelos, pero presenta mejores resultados en la sección de entrenamiento para los modelos 1-4 y 6. La mejora más sustancial la presenta para el modelo 4. En la parte del error de validación, presenta mejores comportamientos para los modelos 1,3,4 y 6 presentando la mayor disminución del error para el modelo 4. V. CONCLUSIONES En este artículo se presentó la aplicación de Supernova al problema de estimación de parámetros en una red cascada correlación. Inicialmente se implementa con éxito el manejo de restricciones, ampliando la gama de los problemas a los que se puede aplicar Supernova. Comparándola con ConRprop, Supernova muestra un mejor ajuste para la mayoría de modelos propuesto para los casos de aplicación. Además de lograr un mejor ajuste, Supernova tiene una ventaja adicional, los parámetros del algoritmo no se variaron para los diferentes modelos, lo que indica que un mismo conjunto de parámetros para el algoritmo proveen una buena respuesta en dos casos diferentes. Como trabajo futuro se propone explorar el comportamiento en otras series de tiempo. También, variando un poco la construcción de la red tipo CasCor de una construcción por aprendizaje constructivo a una con aprendizaje heurístico. REFERENCIAS [1] E. G. Talbi, Metaheuristics: from design to implementation. Wiley, 2009. [2] X.-S. Yang. Engineering Optimization An Introduction with Metaheuristics Applications. Hoboken: Wiley, 2010. [3] A. Palit and D. Popovic, Computational Intelligence in Time Series Forecasting. Springer, 2005. [4] G. Zhang, B. Eddy Patuwo, and M. Y. Hu, Forecasting with artificial neural networks: The state of the art. International Journal of Forecasting, vol. 14, no. 1, pp. 35-62, 1998. [5] F. A. Villa, J. D. Velásquez, and R. C. Souza. Una aproximación a la regularización de redes cascadacorrelación para la predicción de series de tiempo. Investigação Operacional, vol. 28, pp. 151-161, 2008. [6] M. Riedmiller and H. Braun. A Direct Adaptive Method for Faster Backpropagation Learning: The RPROP Algorithm. In: IEEE international conference on neural networks, 1993, pp. 586-591. [7] D. Ortíz, F.A. Villa, and J. D.Velásquez. 2007. Una comparación entre estrategias Evolutivas y RPROP para la Estimación de Redes Neuronales. Avances en Sistemas e Informática. Vol.4. No. 2, pp.135–144. [8] F. Villa, J. Velásquez, and P. Jaramillo. Conrprop: un algoritmo para la optimización de funciones no lineales con restricciones. Revista Facultad de Ingeniería Universidad de Antioquia, No. 50, pp. 179-185, Dec. 2009. [9] E. Mesa, Supernova : un algoritmo novedoso de optimización global. Universidad Nacional, 2010. [10] T. L. Fine. Feedforward neural network methodology. Springer, 1999. [11] X. Yao, Y. Liu, and G. Lin. Evolutionary Programming Made Faster. IEEE Transactions on Evolutionary Computation, vol. 3, pp. 82-102, 1996. [12] Z. Michalewicz and M. Schmidt. Evolutionary Optimization. Kluwer Academic Press, 2002. [13] C. A. Coello Coello. Theoretical and Numerical Constraint-Handling Techniques used with Evolutionary Algorithms: A Survey of the State of the Art. Computer Methods in Applied Mechanics and Engineering, vol. 191, no. 11-12, pp. 1245-1287, 2002. [14] J. Faraway and C. Chatfield. Time series forecasting with neural networks: A comparative study using the airline data. Applied Statistics, vol. 47, no. 2, pp. 231-250, 1998. [15] M. Ghiassi, H. Saidane, and D. K. Zimbra. A dynamic artificial neural network model for forecasting time series events. International Journal of Forecasting, vol. 21, No. 2, pp. 341-362, 2005. [16] M. J. Cambell and A. M. Walker. A survey of statistical work on the mackenzie river series of annual canadian lynx trappings for the years 1821-1934 and a new analysis. Journal of the Royal Statistical Society, vol. 140, No. 4, pp. 411-431, 1977. [17] T. S. Rao and M. M. Gabr. An introduction to bispectral analysis and bilinear time series models. No. 24. New York, NY: Springer, 1984, pp. 528-535.