C - inicio - Universidad del Zulia
Transcripción
C - inicio - Universidad del Zulia
REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD DEL ZULIA FACULTAD DE INGENIERÍA DIVISIÓN DE POSTGRADO PROGRAMA DE POSTGRADO EN MATEMÁTICA APLICADA EVALUACIÓN DE FUNCIONES DE PÉRDIDA EN LA CONSTRUCCIÓN DE MODELOS SUSTITUTOS Trabajo de Grado presentado ante la Ilustre Universidad del Zulia para optar al Grado Académico de: MAGÍSTER SCIENTIARIUM EN MATEMÁTICA APLICADA Autor: Tutor: Maracaibo, Marzo de 2.005 Egar E. Sánchez C. Salvador Pintos Sánchez Camarillo, Egar Enrique. Evaluación de Funciones de Pérdida en la Construcción de Modelos Sustitutos. Trabajo de Grado. Universidad del Zulia Facultad de Ingeniería. División de Postgrado. Venezuela. Maracaibo, 2005. RESUMEN Los modelos de simulación computacional constituyen una herramienta muy útil en el análisis y diseño de procesos complejos en la ingeniería. Sin embargo, debido a su complejidad, a menudo tienen un alto costo computacional y es necesario construir modelos sustitutos de aquellos a partir de un número pequeño de corridas del simulador. Diversos modelos tales como regresión polinomial, redes neuronales y funciones de base radial han sido usados con éxito en diferentes áreas de aplicación. Todos ellos tienen en común que la estimación de sus parámetros se basa en minimizar una función de pérdida cuadrática. Sin embargo, esta función de pérdida es sensible a valores atípicos y puede inducir modelos no robustos. Recientemente se han desarrollado las máquinas de vectores soporte para regresión (Regression SVM), que ofrecen la posibilidad de utilizar distintas funciones de pérdida y encontrar para un mismo problema, diferentes modelos con la misma estructura. En este trabajo se comparan las funciones de pérdida ε – insensible, Huber, Laplace y Cuadrática en la construcción de modelos sustitutos con datos escasos, utilizando para ello diversos problemas de prueba y datos reales provenientes de un modelo de simulación computacional, de un proceso complejo de optimización para la recuperación mejorada de petróleo por inyección de álcali, surfactantes y polímero (ASP). Los resultados indican que todas las funciones de pérdida originan modelos apropiados, ya sea como aproximadores de funciones o como reproductores de las condiciones óptimas, y que no existe supremacía de una función de pérdida en particular sobre las restantes. Palabras clave: Modelos Sustitutos, Función de Perdida, Alto Costo Computacional y Máquinas de Vectores Soporte. e-mail [email protected] Sánchez Camarillo, Egar Enrique. Loss functions evaluation in building surrogates models. Master Thesis. University of Zulia. Engineering College. Post Graduated Division. Venezuela. Maracaibo, 2005. ABSTRACT Computing simulation models are a useful tool in the design and analysis of complex processes in Engineering. Nevertheless, due to its complexity, most often have high computational costs. Therefore, it is necessary to build surrogates models from a small number of runs from a simulator. Several models, such as polynomial regression, neuronal networks and radial base functions, have been used successfully in different areas of application. All of then have in common the feature that parameter estimation is based upon minimizing a quadratic loss function. However, this loss function is sensible to extreme values and can induce no robust models. Recently, support vector machines have been developed for regression (Regression SVM) which enables the utilization of several loss functions and to find for the same problem, different models with the same structure. In this research, the ε–insensitive, Huber, Laplace y quadratic loss functions are compared in building surrogated models with few data, by using several test problems and real data from a computational simulation model, from a complex optimization problem for improved oil recuperation by alkali injection, surfactant and polymers (ASP). Results, suggest that all loss functions generates appropriated models, either by approximating functions or by reproducing the optimal conditions. Moreover, non particular loss function overcomes the others. Key words: Surrogates models, Loss functions, Computational cost and Support Vector Machines. e-mail [email protected] DEDICATORIA Este trabajo se lo dedico a mi hija, Patricia de los Ángeles Sánchez Portillo y mi difunto padre Eduardo Emiro Sánchez. AGRADECIMIENTO Deseo expresar mi sincero agradecimiento, por su asesoramiento en la investigación, dedicación, atención y amistad, al profesor Salvador Pintos. Extiendo este agradecimiento al profesor Nestor Queipo por sus precisas observaciones durante la realización de este trabajo, al Profesor Juan Colmenares por recibirme en el ICA, al profesor Luis Zerpa por su colaboración en las corridas con el simulador, al profesor Carlos Vinante por su apoyo y en general, al Instituto de Calculo Aplicado ICA. TABLA DE CONTENIDO Página LISTA DE TABLAS LISTA DE FIGURAS NOMENCLATURA CAPÍTULO I INTRODUCCIÓN………………………………………………………... 15 CAPÍTULO II MARCO TEÓRICO……………………………………………………... 18 2.1 Modelos sustitutos……………………………………………………………………. 18 2.2 Simulación computacional del proceso de recuperación mejorada de petróleo……... 20 2.3 El algoritmo de optimización DIRECT……………………………………………… 21 2.4 Función de pérdida…………………………………………………………………… 22 2.4.1 La función de pérdida cuadrática……………………………………………….. 23 2.4.2 la función de pérdida de Laplace……………………………………………….. 24 2.4.3 La función de pérdida de Huber………………………………………………… 25 2.4.4 La función de pérdida ε – insensible……………………………………………. 25 2.5 El problema de aprendizaje supervisado……………………………………………... 26 2.5.1 Regularización………………………………………………………………….. 28 2.6 Funciones de pérdida y regularización……………………………………………….. 31 2.6.1 Máquinas de vectores soporte para regresión. Caso lineal……………………... 31 2.6.2 Máquinas de vectores soporte para regresión. Caso no lineal………………….. 36 2.6.2.1 Formulación matricial……………………………………………………... 40 2.7 Forma general de las máquinas de vectores soporte para regresión…………………. 42 2.8 Resumen……………………………………………………………………………… 48 CAPÍTULO III METODOLOGÍA………………………………………………………. 50 3.1 Metodología. Caso datos artificiales…………………………………………………. 51 3.2 Metodología. Caso datos reales……………………………………………………… 56 3.2.1 El gradiente de los modelos sustitutos………………………………………….. 57 CAPÍTULO IV CASOS DE ESTUDIO………………………………………………….. 60 4.1 Funciones de prueba…………………………………………………………………. 60 4.1.1 Conjuntos de entrenamiento……………………………………………………... 62 4.2 El modelo de simulación……………………………………………………………... 63 4.2.1 Conjuntos de entrenamiento……………………………………………………... 64 CAPÍTULO V PRESENTACIÓN Y ANÁLISIS DE LOS RESULTADOS……………. 65 5.1 Caso datos artificiales………………………………………………………………... 65 5.1.1 Función de prueba F1…………………………………………………………… 66 5.1.2 Función de prueba F2…………………………………………………………… 69 5.1.3 Función de prueba F3…………………………………………………………... 72 5.2 Caso datos reales……………………………………………………………………... 75 5.2.1 Datos ASP1……………………………………………………………………... 76 5.2.2 Datos ASP2……………………………………………………………………... 77 5.2.3 El gradiente……………………………………………………………………... 79 CAPÍTULO V I CONCLUSIONES……………………………………………………... 81 REFERENCIAS BIBLIOGRÁFICAS……………………………………………………. 83 ANEXOS………………………………………………………………………………….. 85 Anexo 1 Versión modificada del método SVM para regresión. Código en MATLAB….. 85 Anexo 2 Gradiente del modelo estimado en el punto tstX. Código en MATLAB………. 87 LISTA DE FIGURAS Figura Página 1 Cinco puntos de muestreo utilizando un diseño en Hipercubo Latino………….. 20 2 Funciones de pérdida mas utilizadas en regresión ……………………………… 26 3 Presentación simultanea de las diferentes funciones de pérdida. ε = μ = 0.5…… 27 4 Ilustración del problema del sobre entrenamiento………………………………. 29 5 Ilustración esquemática de la aproximación dada por una función f(x) con λ = ∞ en el funcional de riesgo regularizado……………………........................ 30 6 Error de predicción en la función de pérdida ε – insensible…………………….. 32 7 Ilustración esquemática de la transformación del espacio de entrada al espacio característico…………………………………………………………………….. 37 8 Secuencia de pasos en la metodología utilizada………………………………… 52 9 Ilustración del valor disty para el caso de datos reales………………………….. 58 10 Gráfica de la función de prueba F1……………………………………………… 61 11 Gráfica de la función de prueba F2……………………………………………… 62 12 Desempeño de los modelos como aproximadores de la función de prueba F1……………………………………………………………………………....... 13 66 Desempeño de los modelos como reproductores del óptimo. Función de prueba F1………………………………………………………………………………... 67 14 Diagrama de contornos de la función de prueba F1…………………………....... 67 15 Superficie de los residuales entre F1 y Cd. Conjunto de entrenamiento 1……… 70 16 Desempeño de los modelos como aproximadores de la función de prueba F2……………………………………………………………………………....... 17 70 Desempeño de los modelos como reproductores del óptimo. Función de prueba F2………………………………………………………………………………... 71 18 Superficie de los residuales entre F2 y Cd. Conjunto de entrenamiento 1..…...... 73 19 Desempeño de los modelos como aproximadores de la función de prueba F3……………………………………………………………………………....... 20 73 Desempeño de los modelos como reproductores del óptimo. Función de prueba F3………………………………………………………………………………... 74 21 Desempeño de los modelos como aproximadores del modelo de simulación computacional. Datos ASP1…………………………………………………….. 22 77 Desempeño de los modelos como aproximadores del modelo de simulación computacional. Datos ASP2…………………………………………………...... 78 LISTA DE TABLAS Tabla Página 1 Diferentes tipos de funciones núcleo……………………………………….. 2 Medidas de desempeño (SL) para la función f(x) según el tipo de máquina de aprendizaje………………………………………………………………. 3 40 54 Valores de precisión utilizados en las funciones de pérdida ε – insensible y Huber……………………………………………………………………….. 55 4 Algunas características de las funciones de prueba………………………… 61 5 Resumen del caso de estudio en las funciones de prueba y modelos obtenidos en los conjuntos de entrenamiento………………………………. 6 Dominio de las variables de diseño en el problema de optimización para la recuperación de petróleo por inyección de químicos ASP…………………. 7 63 64 Resumen del caso de estudio para el simulador computacional y modelos obtenidos en los conjuntos de entrenamiento………………………………. 64 8 Mejores aproximadores de la función de prueba F1……………………….. 66 9 Mejores modelos para la función de prueba F1…………………………… 68 10 Parámetros y valores óptimos del modelo sustituto para la función de prueba F1…………………………………………………………………… 69 11 Mejores aproximadores de la función de prueba F2……………………….. 71 12 Mejores modelos para la función de prueba F2……………………………. 71 13 Parámetros y valores óptimos del modelo sustituto para la función de prueba F2…………………………………………………………………… 72 14 Mejores aproximadores de la función de prueba F3……………………….. 74 15 Mejores modelos para la función de prueba F3……………………………. 75 16 Parámetros y valores óptimos del modelo sustituto para la función de prueba F3…………………………………………………………………… 75 17 Mejores aproximadores del modelo de simulación. Datos ASP1................. 76 18 Parámetros y valores óptimos del modelo sustituto del simulador 19 computacional. Datos ASP1………………………………………………... 77 Mejores aproximadores del modelo de simulación. Datos ASP2………….. 78 20 Parámetros y valores óptimos del modelo sustituto del simulador computacional. Datos ASP2………………………………………………... 79 21 Gradiente de los modelos sustitutos del simulador computacional………… 79 22 Incrementos en la producción acumulada de petróleo producto de incrementar un 1% en las variables con valores en el borde……………….. 80 NOMENCLATURA x Vector de entradas en el espacio original yi Respuesta del sistema debido a una entrada xi ŷ i Respuesta estimada por f ( xi ) y opt Respuesta óptima del sistema debido a la entrada xopt ŷ opt Respuesta estimada por f ( xˆ opt ) X Dominio del espacio de entrada ℜ Conjunto de los números reales d Dimensión del espacio de entrada yi ,t Respuesta del sistema debido a una entrada xi transformada al espacio [− 1 1]d yˆ i ,t Respuesta estimada debido a una entrada xi transformada al espacio [− 1 1]d Y Rango de la variable respuesta N Conjunto de números naturales N = {1,2,...} L(⋅) e p (⋅) Función de pérdida Ruido gaussiano Densidad de probabilidad ε Parámetro de la función ε - insensible µ Parámetro de la función de Huber X Conjunto de entrenamiento l Tamaño del conjunto de entrenamiento S Espacio de funciones w Vector de pesos λ Constante de regularización C Constante de regularización en maquinas de vectores soporte ξ ,ξ * h α ,α * ⋅ Pérdida o variables de relajación Parámetro de la función de base radial Multiplicadores de Lagrange Producto escalar Lg Función de Lagrange F Espacio característico x Vector de entrada en el espacio característico φ Función para x → x k (⋅) ζ (ξ ) Función núcleo Forma genérica de la función de pérdida Ei Modelo generado utilizando la función de pérdida ε – insensible Hb Modelo generado utilizando la función de pérdida de Huber Lp Modelo generado utilizando la función de pérdida de Laplace Cd Modelo generado utilizando la función de pérdida Cuadrática CAPÍTULO I INTRODUCCIÓN Los modelos de simulación computacional constituyen una herramienta muy útil en el análisis de diversos procesos complejos y en la solución de problemas de diseño en la ingeniería. Sin embargo, debido a la complejidad de estos procesos, generalmente los modelos de simulación son altamente costosos desde el punto de vista computacional y, en consecuencia, su utilización en el análisis y optimización del proceso se ve muy limitada. Como alternativa a este problema, se ha propuesto disminuir significativamente el número de corridas del simulador y a partir de los pocos datos generados, aplicar técnicas de aproximación de funciones para construir modelos sustitutos del modelo de simulación original. Estos modelos sustitutos representan una mayor simplificación de la relación entrada–salida del sistema, resultan económicos desde el punto de vista computacional, facilitan el análisis del proceso, la exploración del espacio de diseño y la optimización. Modelos sustitutos de estructura muy diversa han sido usados eficientemente en el análisis y diseño óptimo de procesos complejos en ingeniería. En el área de optimización de procesos de recuperación mejorada de petróleo, por ejemplo, en un estudio reciente, Zerpa y col [1] proponen la utilización integrada de múltiples modelos (regresión polinomial, funciones de base radial, kriging) en un modelo adaptativo para sustituir al simulador computacional UTCHEM, el cual es uno de los simuladores más reconocidos del proceso de recuperación mejorada de petróleo por inyección de químicos. Otra reciente aplicación relacionada con la simulación numérica computacionalmente costosa, es la de Queipo y col [2], en la cual utilizan un modelo sustituto compuesto por la suma de una red neuronal y un modelo DACE para la optimización de procesos de recuperación mejorada de petróleo por SAGD (Drenaje Gravitacional Asistido por Vapor). Tradicionalmente, en el proceso de aprendizaje de estos modelos sustitutos, se ha utilizado la función de pérdida cuadrática y se han obtenido buenos resultados en diferentes áreas de aplicación, pero existen dos aspectos que permiten anticipar que, en algunas situaciones, el uso Capítulo I Introducción de la función de pérdida cuadrática no es lo más adecuado. El primer aspecto se refiere a que el uso de la función de pérdida cuadrática es idóneo cuando las variables observadas tienen una componente de ruido aditivo gaussiano, pero esta hipótesis no es necesariamente válida para todos los procesos. El otro aspecto es el hecho, bien conocido, de que la función de pérdida cuadrática es muy sensible a la presencia de valores extremos y que esto tiene una gran influencia en el ajuste del modelo. Esta sensibilidad a valores considerados extremos y la limitada cantidad de datos con que se deben construir los modelos sustitutos, pueden tener como resultado modelos poco robustos. En los últimos años Vapnik y col [3] desarrollaron un nuevo método para resolver problemas de aproximación de funciones basado en la teoría clásica de regularización, utilizando otras funciones de pérdida y espacios generados por funciones núcleo. Este método, llamado máquinas de vectores soporte (SVM) para regresión, además de la función de pérdida cuadrática, también ofrece la posibilidad de utilizar las funciones de pérdida ε – insensible, Huber y Laplace. Por la posibilidad de usar diversas funciones de pérdida y encontrar para un mismo problema diferentes modelos sustitutos con la misma estructura y con el mismo algoritmo de entrenamiento y por su flexibilidad para describir modelos complejos no lineales, las SVM para regresión abren nuevas oportunidades y alternativas en la construcción de modelos sustitutos. Es por ello que hoy se realizan grandes esfuerzos en evaluar las distintas funciones núcleo y las funciones de pérdida. El propósito del presente trabajo es evaluar y comparar las funciones de pérdida ε – insensible, Huber, Laplace y Cuadrática en la construcción de modelos sustitutos con datos escasos, utilizando para ello diversos problemas de prueba y datos reales provenientes de un modelo de simulación computacional de un proceso complejo de optimización para la recuperación mejorada de petróleo por inyección de álcali, surfactantes y polímeros (ASP). La comparación de las funciones de pérdida se realizará observando el desempeño relativo de los modelos asociados a aquéllas, ya sea como aproximadores de funciones o como reproductores de las condiciones óptimas. El presente trabajo está estructurado de la siguiente manera: el Capítulo II presenta los diferentes aspectos teóricos que son necesarios para la mejor comprensión del trabajo. El 16 Capítulo I Introducción Capítulo III muestra la secuencia de pasos para cumplir con los objetivos del presente trabajo. En el Capítulo IV se describen los casos de estudio donde se desarrolla la metodología propuesta. En el Capítulo V se presentan y discuten los resultados obtenidos y, por último, el Capítulo VI contiene las Conclusiones. 17 CAPÍTULO II MARCO TEÓRICO Este capítulo tiene por finalidad, presentar algunos aspectos teóricos que han motivado la perspectiva del presente trabajo y que son necesarios para la mejor comprensión del mismo. Como primeros aspectos se plantean: la necesidad de los modelos sustitutos como alternativa a los modelos de simulación computacional, la simulación computacional del proceso de recuperación mejorada de petróleo y el algoritmo de optimización DIRECT. Después se define la función de pérdida y se presentan las cuatro funciones de pérdida mas utilizadas en regresión. Se define el problema de aprendizaje supervisado, para el cual es necesario definir la función de pérdida y aplicar la técnica de regularización para evitar el sobre ajuste. Posteriormente, se plantea en la técnica de regularización la utilización de otras funciones de pérdida diferentes a la función cuadrática, caso que corresponde al método conocido como: máquinas de vectores soporte (SVM) para regresión, y luego, se presenta la formulación general de este método en forma matricial. Finalmente se presenta un resumen del problema de regresión basado en las máquinas de aprendizaje de vectores soporte. 2.1 Modelos sustitutos Los modelos de simulación computacional, son una de las herramientas mas importantes y útiles para el diseño y análisis de procesos altamente complejos. A pesar del continuo crecimiento de la capacidad y velocidad del computador, los modelos desarrollados en muchos diseños de ingeniería tienen un elevado costo computacional y como consecuencia de esto, resultan poco prácticos y su utilización en el análisis y optimización del proceso se ve muy limitada. Como alternativa a este problema, se ha propuesto evitar la excesiva utilización de estos modelos costosos de simulación disminuyendo significativamente el número de corridas del simulador y a partir de los pocos datos así generados, aplicar técnicas de aproximación de funciones para construir modelos sustitutos del modelo de simulación original. Estos modelos sustitutos representan una mayor simplificación de la relación entrada – salida del sistema, pero Capítulo II Marco Teórico resultan económicos desde el punto de vista computacional, facilitan el análisis del proceso, la exploración del espacio de diseño y la optimización. La construcción de modelos sustitutos requiere considerar dos aspectos: a) la selección de un diseño experimental para muestrear la región de interés y b) la construcción de modelos aproximados basados en los datos provenientes del muestreo y la respuesta del simulador en estos puntos. En relación al punto a) el diseño del experimento tiene como propósito fundamental, muestrear eficientemente el espacio de diseño usando pocos puntos. Un experimento adecuadamente diseñado es indispensable para la mínima utilización del modelo de simulación. En los experimentos que utilizan simulaciones con el computador, el muestreo utilizando un Hipercubo Latino es uno de los métodos mas populares. Las razones de esta popularidad se deben a que posee menor error estándar que otros métodos de muestreo y ofrece la flexibilidad de fijar el numero de puntos de muestreo según las limitaciones del experimento, manteniendo una distribución uniforme de los puntos en todo el espacio de diseño. En un muestreo utilizando un diseño en Hipercubo Latino, el rango de cada variable es dividido en p intervalos iguales. Para d variables de diseño esta partición produce un total de p d hipercubos en el espacio de las variables. Seguidamente, p puntos son seleccionados aleatoriamente con la siguiente característica: cada punto es aleatoriamente colocado dentro de un hipercubo de manera que toda proyección unidimensional de los p hipercubos, contenga uno y sólo un punto. La figura 1 muestra un ejemplo en dos dimensiones, para p = 5 hay cinco particiones iguales en x1 y x2 , en este caso, esto da un total de 25 cuadrículas de las cuales 5 serán seleccionadas aleatoriamente, que de acuerdo al criterio descrito arriba, sólo una cuadrícula podrá ser seleccionada en cada fila y en cada columna de manera que en la proyección sobre cada eje, exista un punto en cada cuadrícula. Hay más de un arreglo posible de puntos en las cuadrículas que cumplen con la condición del diseño en Hipercubo Latino, además no hay restricciones sobre el número de casillas y el rango de cada variable. 19 Capítulo II Marco Teórico • • X2 • • • X1 Figura 1. Cinco puntos de muestreo utilizando un diseño en Hipercubo Latino Con respecto al punto b) existe una gran variedad de técnicas y modelos de aproximación para la construcción de modelos sustitutos en experimentos que provienen de códigos de simulación. Los métodos tradicionales lo constituyen las superficies de respuesta utilizando modelos polinomiales de segundo orden los cuales han demostrado tener limitada capacidad para modelar funciones de forma arbitraria. Otros modelos bien conocidos son las redes neuronales, regresión spline multivariada, funciones de base radial e interpolación utilizando modelos kriging. En los últimos años se ha desarrollado un nuevo método para resolver problemas de aproximación de funciones basado en la teoría clásica de regularización, en funciones núcleo y en otras funciones de pérdida diferentes a la tradicional función de pérdida cuadrática. En un contexto general, este método es llamado máquinas de aprendizaje basadas en núcleos, donde las máquinas de vectores soporte (SVM) para regresión son un caso particular, y son capaces de detectar diferentes tipos de relaciones (regresión, clasificación, correlación, componentes principales), abriendo nuevas oportunidades y alternativas para la construcción de modelos sustitutos. 2.2 Simulación computacional del proceso de recuperación mejorada de petróleo Zerpa y col [1] mencionan que después de aplicar el método convencional de recuperación secundaria de petróleo por inyección de agua, el volumen de petróleo que aún permanece atrapado en el interior del yacimiento es alto y puede estar en el orden del 70% del petróleo original en sitio (POES). Para recuperar esta cantidad considerable de petróleo, se utilizan métodos orientados a contrarrestar los fenómenos responsables del entrampamiento del crudo. 20 Capítulo II Marco Teórico Estos métodos son conocidos como métodos de recuperación mejorada de petróleo, los cuales consisten en inyectar al yacimiento algunos químicos tales como: álcali, surfactante y polímero (ASP). El proceso de inyección de ASP se debe realizar de manera que se obtenga el mejor uso y resultado de las propiedades individuales de estos aditivos químicos para maximizar el recobro de petróleo. El problema es entonces, un problema de optimización de la etapa de inyección de la solución de ASP cuyo objetivo es encontrar las concentraciones adecuadas de ASP y el tiempo de inyección de estos químicos, que maximicen la producción de petróleo. Precisamente, se desea max sujeto a f ( x) (1) x ∈ X ⊆ ℜd Donde f (x) es la producción acumulada de petróleo, x representa las d variables de diseño (concentraciones de ASP y el tiempo de inyección) y X la región factible. La simulación del proceso de inyección de ASP, es considerado uno de los aspectos más importantes del método de recuperación mejorada de petróleo y es un paso previo e indispensable para la aplicación de este proceso a nivel de campo. Para este propósito se han desarrollado simuladores altamente complejos que se basan en resolver el conjunto de ecuaciones que gobiernan y describen todo este proceso químico. Estos simuladores tienen un alto costo computacional y como consecuencia, su utilización en la solución del problema de optimización planteado en (1) se ve muy limitada porque resulta poco práctico considerar al simulador como función objetivo, por lo tanto, el problema a resolver es la construcción de modelos sustitutos que faciliten y agilicen el problema de encontrar las concentraciones óptimas de ASP. 2.3 El algoritmo de optimización global DIRECT Este algoritmo fue desarrollado por Jones y col [4] para encontrar el mínimo global en problemas como el dado en (1). Es un algoritmo determinístico y es una modificación del enfoque Lipschitziano, que elimina el problema de especificar la constante de Lipschitz. 21 Capítulo II Marco Teórico Su nombre se deriva de la estrategia de búsqueda utilizada, que consiste en la división de rectángulos. En términos generales, el algoritmo realiza primero un proceso de búsqueda global y después local, la búsqueda global asegura que el espacio factible sea todo cubierto y la búsqueda local es realizada en el área de la mejor solución. Una descripción general del algoritmo DIRECT se presenta a continuación: 1. Se trasforma el espacio de búsqueda en un hipercubo unitario de dimensión d 2. Este espacio es luego dividido estratégicamente en hiper-rectángulos donde cada uno es evaluado en su centro. 3. Mediante una cota mínima se identifican los hiper-rectángulos potencialmente óptimos. 4. Se profundiza la búsqueda en aquellos hiper-rectángulos potencialmente óptimos, dividiendo nuevamente como en el paso 2 y aplicando otra vez el paso 3. 5. El algoritmo termina cuando se ha alcanzado el número máximo de iteraciones, u otro criterio de parada, en caso contrario se va al paso 2. 2.4 Función de pérdida Es una función utilizada para evaluar la calidad de la respuesta producida por una función f (x) obtenida a partir de un conjunto de datos. Es denotada por L( x, y, f ( x)) ∈ X × Y × Y , X ⊆ ℜ d y Y ⊆ ℜ , donde y es la respuesta del sistema a una entrada x y f (x) es una predicción del modelo que relaciona a x e y. La función de pérdida L es una función no negativa e igual cero cuando la predicción es exacta, por lo tanto, L : X × Y × Y → [0, ∞) . En regresión, la función de pérdida mide de alguna manera la discrepancia entre la respuesta y del sistema a una entrada x , y la respuesta producida por f (x) . Esta discrepancia es llamada el error de predicción, está dada por la diferencia ( f ( x) − y ) y la función de pérdida penaliza esta diferencia que corresponde con predicciones incorrectas. Por razones de eficiencia en el proceso de aprendizaje, implementación del proceso con el computador y de sencillez, la función de pérdida debe poseer las siguientes características: a) con el fin de garantizar que el problema de optimización tenga solución única debe ser una función 22 Capítulo II Marco Teórico convexa b) resistente a valores extremos c) simétrica y d) de bajo costo computacional. En regresión, las funciones de pérdida mas utilizadas son: La función de pérdida Cuadrática, la función de pérdida de Laplace, la de Huber y la ε – insensible. 2.4.1 La función de pérdida cuadrática Está dada por: L( x, y, f ( x)) = ( f ( x) − y ) 2 (2) Es la función de pérdida tradicionalmente utilizada en los procesos de aprendizajes clásicos, donde se busca minimizar la suma del cuadrado del error de predicción, bien conocida como SCE. Bishop [5] señala que SCE tiene su origen en los problemas tradicionales de regresión cuya meta es modelar la distribución condicional de la variable respuesta al hacer el supuesto de que esta variable respuesta, se puede representar por una función determinística más ruido gaussiano con media cero y desviación estándar σ, de esta manera y i = f ( xi ) + ei (3) Donde la distribución de la variable ei está dada por: p ( ei ) = 1 (2πσ 2 ) 1 2 ⎛ e ⎞ exp⎜ − i 2 ⎟ ⎝ 2σ ⎠ (4) y como consecuencia, la distribución de probabilidad de la variable respuesta y es p ( y i / xi ) = 1 (2πσ 2 ) 1 2 ⎛ ( f ( xi ) − y i ) 2 exp⎜⎜ 2σ 2 ⎝ ⎞ ⎟ ⎟ ⎠ (5) 23 Capítulo II Marco Teórico A partir de la expresión anterior, asumiendo que los diferentes valores de la variable respuesta son independientes, para una muestra de tamaño l la función de verosimilitud es l p ( y / x ) = ∏ p ( y i / xi ) = i =1 1 (2πσ ) 2 l 2 ⎛ 1 exp⎜⎜ − 2 ⎝ 2σ l ⎞ i =1 ⎠ ∑ ( f ( xi ) − yi ) 2 ⎟⎟ (6) Haciendo SCE = − ln( p( y / x)) SCE = l l 1 ln(2π ) + ln(σ 2 ) + 2 2 2σ 2 l ∑ ( f ( xi ) − y i ) 2 (7) i =1 Maximizar la función de verosimilitud dada en (6) es equivalente a minimizar (7). Omitiendo en (7) los términos 1 1 ln(2π ), ln(σ 2 ) y , se obtiene la expresión para SCE llamada también 2 2σ 2 función de pérdida L2 , es decir l SCE = ∑ ( f ( x) − y ) 2 = f ( x) − y 2 (8) i =1 2.4.2 La función de pérdida de Laplace La función de pérdida de Laplace propone cambiar los errores cuadráticos por errores en valor absoluto, en este sentido la penalización a grandes y pequeños errores es lineal. Esta función es llamada también función de pérdida L1 y está dada por L( x, y, f ( x)) = f ( x) − y (9) La función de pérdida de Laplace pertenece al campo de la regresión robusta, el cual está constituido por métodos que son modificaciones de los mínimos cuadrados y surgieron como una alternativa al problema de ajustar modelos resistentes a la presencia de valores extremos. 24 Capítulo II Marco Teórico 2.4.3 La función de pérdida de Huber Igual que la función de pérdida Laplaciana, esta función también pertenece al campo de la estadística robusta. Fue propuesta por Huber en 1973 y es una combinación de las funciones de pérdida L1 y L2 . La idea se basa en que errores de predicción pequeños se penalizan con una fracción de la función cuadrática y errores grandes de manera lineal. Específicamente, la función está dada por: ⎧ 1 ( f ( x) − y ) 2 para f ( x) − y ≤ μ ⎪⎪ 2μ L( x, y, f ( x)) = ⎨ μ ⎪ ( ) f x − y − en otro caso ⎪⎩ 2 (10) donde μ es un valor que debe ser fijado por el usuario 2.4.4 La función de pérdida ε – insensible Fue propuesta por Vapnik en 1995 y es similar a la función robusta de Huber en el sentido de que considera zonas diferentes de penalización según los errores sean pequeños o grandes. Se diferencia de la función de Huber en que no penaliza errores que sean menores que un valor ε y los castiga linealmente si son mayores. La función de pérdida de Vapnik define un tubo de radio ε alrededor de f (x) , de manera que si el valor de predicción está dentro del tubo, la pérdida es considerada igual a cero. Para los puntos fuera del tubo, la pérdida es igual a la magnitud de la diferencia entre el error de predicción y el radio ε. La función ε - insensible está dada por ⎧ 0 para L( x, y, f ( x)) = ⎨ ⎩ f ( x) − y − ε f ( x) − y ≤ ε en otro caso (11) donde ε debe especificarse a priori, si ε = 0 la función conduce a la función de pérdida de Laplace. 25 Capítulo II Marco Teórico La figura 2 muestra por separado las cuatro funciones de pérdida mencionadas y la figura 3 muestra estas funciones de manera simultánea. Las gráficas fueron construidas en la escala de -3 a 3 y tomando μ = ε = 0.5. CUADRATICA LAPLACE 10 3 8 2.5 2 6 1.5 4 1 2 0 -3 0.5 -2 -1 0 1 2 3 0 -3 -2 -1 HUBER 0 1 2 3 2 3 e-INSENSIBLE 2 3 2.5 1.5 2 1 1.5 1 0.5 0.5 0 -3 -2 -1 0 1 2 3 0 -3 -2 -1 0 1 Figura 2. Funciones de pérdida mas utilizadas en regresión 2.5 El problema de aprendizaje supervisado Sea L( x, y, f ( x)) una función de pérdida que mide el error de predecir una respuesta y con el modelo f(x) y X = {( x1 , y1 ), ( x 2 , y 2 ),...( xl , y l )} con x∈ X y y ∈Y un conjunto de entrenamiento generado por una distribución de probabilidad p( x, y ) , se define el funcional de riesgo R[ f ] como el valor esperado del error de predicción, por lo tanto R[ f ] = ∫ L( x, y, f ( x))dp ( x, y ) (12) 26 Capítulo II Marco Teórico 7 Cuadratica Laplace Huber e-insensible 6 5 4 3 2 1 0 -3 -2 -1 0 1 2 3 Figura 3. Presentación simultanea de las diferentes funciones de pérdida. ε = μ = 0.5 Como la densidad de probabilidad conjunta p( x, y ) es desconocida y la única información con la que se cuenta es el conjunto de entrenamiento X , un valor aproximado de R[ f ] es llamado funcional de riesgo empírico y es obtenido por: Remp [ f ] = 1 l ∑ L( x, y, f ( x)) l i =1 (13) A partir del conjunto de entrenamiento X y de una función f (x) , por ejemplo una red neuronal, el problema de aprendizaje estadístico consiste en calcular el conjunto de parámetros w de la función f (x) , minimizando el funcional de riesgo empírico Remp [ f ] . Para el aprendizaje estadístico es necesario entonces, considerar dos aspectos: 1- Definir la función de pérdida a utilizar y 2- Elegir, entre un conjunto de funciones, aquella función f (x) que minimiza el funcional 27 Capítulo II Marco Teórico min Remp [ f ] = 1 l ∑ L( x, y, f ( x)) l i =1 (14) donde f ( x) ∈ M y M es un subespacio del espacio de funciones dado por: { } S = f ( x, w) : x ∈ X ⊆ ℜ d , w ∈ Ω y Ω es el espacio de parámetros (15) En los procesos de aprendizaje clásicos, el método mas comúnmente utilizado es el principio de minimización del riesgo empírico utilizando la función de pérdida cuadrática, de esta manera, f (x) es la función que minimiza el siguiente funcional: 1 l min Remp [ f ] = ∑ ( f ( x) − y ) 2 l i =1 (16) El proceso de aprendizaje utilizando la expresión (16) es propenso a conducir el entrenamiento a una relación exacta entre los ejemplos de entrada y salida del conjunto de datos (función de interpolación). Este problema conocido como sobre entrenamiento, es habitualmente solucionado mediante el uso de dos técnicas: a) parada temprana y b) regularización. La figura 4 ilustra el problema del sobre entrenamiento. La línea continua muestra la función de interpolación producto del sobre entrenamiento de los datos y la línea punteada representa el ajuste que debería resultar de un adecuado entrenamiento. En el marco del presente trabajo sólo es necesario mencionar la técnica de regularización, la cual se presenta a continuación. 2.5.1 Regularización. En el proceso de aprendizaje para encontrar la función que aproxima relaciones no lineales multivariadas, la técnica de regularización resuelve el problema del sobre ajuste agregando al error empírico un termino de penalización. El aprendizaje estadístico consiste entonces en encontrar la función f (x) que minimiza el siguiente funcional de riesgo regularizado 28 Capítulo II Marco Teórico min Rreg [ f ] = Remp [ f ] + λ 2 w 2 (17) 1.2 Sobre entrenamiento Adecuado entrenamiento 1 0.8 Y 0.6 0.4 0.2 0 -0.2 0 0.1 0.2 0.3 0.4 0.5 X 0.6 0.7 0.8 0.9 1 Figura 4. Ilustración del problema del sobre entrenamiento. En su formulación clásica, el riesgo regularizado dado en (17) utiliza en Remp [ f ] la función de pérdida cuadrática, w 2 es la penalización que se agrega al error empírico y es un término que caracteriza la complejidad del modelo, donde los wi son los parámetros del modelo utilizado. El parámetro λ (λ > 0), llamado constante de regularización, controla la fuerza o magnitud de la penalización, por lo tanto, representa un balance entre el error de entrenamiento medido por el 2 riesgo empírico y la complejidad del modelo dado por w , de tal manera que, el problema del aprendizaje utilizando el funcional de riesgo regularizado, consiste en encontrar el óptimo balance entre el error de entrenamiento y la complejidad del modelo. 29 Capítulo II Marco Teórico El significado de la constante de regularización se puede ilustrar considerando dos casos extremos: a) si λ = 0, se tiene el caso donde no se toma en cuenta la complejidad del modelo, se toma en cuenta sólo el error de predicción el cual, como se dijo antes, es propenso a conducir el entrenamiento a una función f ( x) que sobre ajusta los datos (figura 4) y como consecuencia, f ( x) resulta un modelo muy complejo con demasiada flexibilidad y b) λ = ∞ se asocia con el caso contrario, es decir, el entrenamiento conduce a un modelo f ( x) muy simple y poco flexible que dará una respuesta muy suave. Ambos casos representan un modelo que no generaliza bien los datos o hacen pobres predicciones para nuevos datos, la minimización del funcional de riesgo regularizado es entonces un compromiso entre el ajuste de los datos y la complejidad del modelo, cuya influencia es controlada por λ. La figura 5 es un ilustración del mismo caso presentado en la figura 4, pero ahora se muestra la pobre aproximación de los datos dada por la función f ( x) cuando λ = ∞ en el funcional de riesgo regularizado. 1 Aproximacion con lambda = Inf Aproximacion con lambda adecuado 0.9 0.8 0.7 Y 0.6 0.5 f (x) 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 X 0.6 0.7 0.8 0.9 1 Figura 5. Ilustración esquemática de la aproximación dada por f(x) con λ = ∞ en el funcional de riesgo regularizado. 30 Capítulo II Marco Teórico 2.6 Funciones de pérdida y regularización Además de la posibilidad de utilizar la función de pérdida cuadrática en la técnica de regularización para aproximación de funciones, también existe la posibilidad de utilizar las otras funciones de pérdida ya mencionadas. La función de pérdida cuadrática en la expresión (17) corresponde a la técnica de regularización clásica donde regresión con spline y redes de funciones de base radial son casos específicos. Esta función de pérdida conduce al tradicional método de mínimos cuadrados donde la solución al funcional de riesgo regularizado resulta en la inversión de una matriz A dada por: A = H T H + λI (18) ˆ = A −1H T y W (19) Con pesos estimados por donde H es la matriz de diseño A diferencia de la función de pérdida cuadrática, la utilización de las funciones de pérdida, Laplace, ε - insensible y Huber en la expresión del riesgo regularizado dada en (17), conducen a la solución de un problema de programación cuadrática. La utilización de la función de pérdida ε - insensible corresponde al problema estándar del método llamado máquinas de vectores soporte (SVM) para regresión. Este será el problema a desarrollar de manera detallada en la presente sección, el cual se presenta a su vez en dos casos: 1) el caso válido para funciones lineales y 2) su generalización al caso no lineal. 2.6.1 Máquinas de vectores soporte para regresión. Caso lineal Al sustituir la función de pérdida ε - insensible en la expresión (17) y haciendo C.l = 1 , se λ tiene 31 Capítulo II Marco Teórico min Rreg [ f ] = l 1 2 w + C ∑ f ( xi ) − y i 2 i =1 (20) ε Como la función ε- insensible de Vapnik define un tubo de ancho ε alrededor de la función f(x), ver figura 6, la pérdida o error de predicción de un punto cualquiera fuera del tubo está dada por f ( xi ) − y i ε = Max(0, f ( xi ) − y i − ε ) = ξ i + ξ i* (21) ⎧ξ i = Max(0, y i − f ( xi ) − ε ) donde ⎨ * ⎩ξ i = Max(0, f ( xi ) − y i − ε ) yi • ε ξi f ( x) ε yk • ξ *j yj • Figura 6 Error de predicción en la función de pérdida ε - insensible Definida las variables ξ i y ξ i* , llamadas variables de relajación porque permiten flexibilizar el error de predicción, el problema de minimización planteado en (20) puede ser 32 Capítulo II Marco Teórico expresado de manera equivalente como un problema de minimización con restricciones min G ( w, b, ξ , ξ * ) = l 1 2 w + C ∑ (ξ i + ξ i* ) 2 i =1 (22) sujeto a y i − f ( xi ) ≤ ε + ξ i f ( xi ) − yi ≤ ε + ξ i* ξ i , ξ i* ≥ 0 donde la función f (x) está dada por f ( x) = w, x + b (23) La expresión (22) es la formulación estándar del problema SVM para regresión propuesto por Vapnik. El término l C ∑ (ξ i + ξ i* ) (24) i =1 es una cota superior para el error de los datos de entrenamiento, donde C (C > 0) es un parámetro seleccionado por el usuario y determina el balance entre la suavidad de la función y el error permitido. Para los puntos dentro del tubo las variables ξ i = ξ i* = 0 y por lo tanto no participan en la función objetivo. El problema de optimización expresado en (22) es resuelto en su formulación dual utilizando la función de Lagrange, la cual, como tiene un punto de silla en su solución óptima permite definir dos problemas matemáticos equivalentes. La función de Lagrange del problema de optimización dado en (22) es: 33 Capítulo II Marco Teórico Lg = l l l 1 2 w + C ∑ (ξ i + ξ i* ) − ∑ α i (ε + ξ i − y i + w, xi + b) −∑ α i* (ε + ξ i* + y i − w, xi − b)... 2 i =1 i =1 i =l l − ∑ (η i ξ i + η i*ξ i* ) (25) i =1 α i , α i* ,η i ,η i* ≥ 0 En la función de Lagrange las variables primales son w,b, ξ y ξ * y las variables α , α * ,η y η * son los multiplicadores de Lagrange. De la condición del punto de silla, las derivadas parciales de Lg con respecto a las variables primales deben ser igual a cero. l l ∂Lg = w − ∑ α i xi + ∑ α i* xi = 0 ∂w i= i =1 ⇒ w = ∑ (α i − α i* ) xi l l ∂Lg = −∑ α i + ∑ α i* = 0 ∂b i =1 i =1 ⇒ ∑ (α i* − α i ) = 0 (27) ∂Lg = C − α i − ηi = 0 ∂ξ i ⇒ ηi = C − α i (28) ∂Lg = C − α i* − η i* = 0 ∂ξ i* ⇒ η i* = C − α i* (29) l (26) i =1 l i =1 Sustituyendo (26), (27), (28) y (29) en la función de Lagrange dada en (25) se obtiene el problema de optimización dual sólo en términos de las variables α i , α i* max − l l 1 l * * * * ∑ (α i − α i )(α j − α j ) xi , x j − ε ∑ (α i + α i ) + ∑ yi (α i − α i ) 2 i , j =1 i =1 i =1 (30) sujeto a las restricciones l * ∑ (α i − α i ) = 0 i =1 α i , α i* ∈ [0, C ] Al resolver (30), se determinan los multiplicadores de lagrange α i , α i* y la función de 34 Capítulo II Marco Teórico regresión según las ecuaciones (23) y (26), es una función lineal dada por l f ( x) = ∑ (α i − α i* ) xi , x + b (31) i =1 En el problema dual, para puntos de entrenamiento por encima o por debajo del tubo incluyendo la frontera, los multiplicadores de lagrange α i , α i* correspondientes a ξ i , ξ i* serán valores diferentes de cero. Como un i-ésimo punto de entrenamiento no pueden estar en ambos lados del tubo, α i o α i* será diferente de cero, es decir α i .α i* = 0 , los puntos de entrenamiento que corresponden a valores de α i o α i* diferentes de cero son llamados vectores soporte. Para puntos dentro del tubo, como por ejemplo el punto y k de la figura 4, ambos multiplicadores serán iguales a cero. La restricción α i , α i* ∈ [0, C ] y el cálculo del valor de b, surgen de una de las condiciones de Karush – Kuhn – Tucker, la cual establece que en la solución óptima, el producto de las variables duales y las restricciones es igual a cero, así α i (ε + ξ i − y i + w, xi + b) = 0 (32) α i* (ε + ξ i* + y i − w, xi − b) = 0 (33) η iξ i = 0 (34) η i*ξ i* = 0 (35) Al sustituir (28) y (29) en (34) y (35) (C − α i )ξ i = 0 (36) (C − α i* )ξ i* = 0 (37) Para que se cumplan las expresiones (36) ó (37) ξ i , ξ i* = 0 ó (C − α i ), (C − α i* ) = 0 , por lo 35 Capítulo II Marco Teórico tanto, puntos ( xi , y i ) con valores de α i , α i* = C están fuera del tubo alrededor de f (x) porque ξ i , ξ i* ≠ 0 . Por el contrario, para α i , α i* ∈ (0, C ) → ξ i , ξ i* = 0 y el valor de b puede ser calculado por las expresiones (32) y (33) b = y i − ε − w, xi si α i ∈ (0, C ) (38) b = y i + ε − w, xi si α i* ∈ (0, C ) (39) Si bien, basta un punto cualquiera que satisfaga las ecuaciones (38) y (39) para hallar b, este es determinado de la siguiente manera: si nvs es el número de vectores soporte que ∈ (0, C ) , b puede ser calculado tomando el promedio de estos vectores b= 1 nvs ∑ yi − sign(α i − α i* ).ε − w, ( x1 + x2, ..., xnvs ) nvs i =1 (40) donde w esta dada por la ecuación (26) Además de (40), existe otra manera de calcular el sesgo b la cual es parte del algoritmo de optimización del Punto Interior. En términos muy generales, El algoritmo del Punto Interior consiste en lograr de manera iterativa que se cumplan las condiciones de Karush-Kuhn-Tucker presentadas en las ecuaciones (26), (27), (28) y (29), es por esto que el algoritmo resuelve de manera simultánea el problema dual y el primal al encontrar por aproximaciones sucesivas un punto (x, α ) , llamado punto interior, que satisface las restricciones de ambos problemas. El hecho de resolver el problema primal y el dual de manera simultanea permite determinar los parámetros de ambos problemas y entre ellos el sesgo b. 2.6.2 Máquinas de vectores soporte para regresión. Caso no lineal Generalmente en regresión, el modelo buscado y necesario para describir adecuadamente los datos es un modelo no lineal que no tiene una estructura simple. Las funciones núcleo ofrecen la posibilidad de tratar con funciones no lineales, reduciéndolas a relaciones lineales en un espacio 36 Capítulo II Marco Teórico F de mayor dimensión al espacio X de las variables de entrada. El espacio F es conocido como espacio característico o espacio de Hilbert generado por núcleos y es donde la regresión lineal es ejecutada. Los algoritmos que permiten la utilización de funciones núcleos, son aquellos algoritmos de entrenamiento que están expresados en términos del producto escalar xi , x j . Tres aspectos importantes es necesario entonces resaltar sobre las SVM para regresión: a) utilizan una representación dual del problema b) solo dependen del producto escalar entre los patrones de entrada, expresiones (26) y (31), y como consecuencia c) pueden operar en un espacio característico implícitamente inducido por una función núcleo, en el cual se detectan relaciones lineales. Sea φ una función que realiza la transformación del espacio de entrada al espacio característico F , la figura 7 muestra gráficamente esta transformación. φ:X →F x a x = φ ( x) • • • • • • • • • • (41) φ (x) • • • • •• • • • • X • •• • • •• •• • • • F Espacio de entrada Espacio característico Figura 7 Ilustración esquemática de la transformación del espacio de entrada al espacio característico 37 Capítulo II Marco Teórico El producto punto de los datos de entrada dentro del espacio característico estará dado entonces por φ ( x), φ ( x ′) (42) Usar una función núcleo en lugar del producto punto en el espacio de entrada X , es equivalente al producto punto de los datos de entrada dentro del espacio característico de dimensión F , es decir K ( x, x ′) = φ ( x), φ ( x ′) (43) La expresión (43) es llamada el truco Kernel y es la que proporciona potencialidades a las SVM para describir modelos de regresión no lineales, ya que el uso de núcleos no requiere encontrar o conocer la función φ y por lo tanto las operaciones son realizadas en el espacio de entrada sin considerar el espacio característico F y sin importar su dimensión. Por lo antes explicado, es posible utilizar (43) en las expresiones (30) y (31) lo cual es la extensión de SVM para regresión al caso no lineal, así se tiene max − l l 1 l * * * * ∑ (α i − α i )(α j − α j )k ( xi , x j ) − ε ∑ (α i + α i ) + ∑ yi (α i − α i ) 2 i , j =1 i =1 i =1 (44) sujeto a las restricciones l * ∑ (α i − α i ) = 0 i =1 α i , α i* ∈ [0, C ] Al resolver (44), se determinan los multiplicadores de lagrange α i , α i* . El vector w queda 38 Capítulo II Marco Teórico l w = ∑ (α i − α i* )φ ( xi ) (45) i =1 pero se puede tomar l l i =1 i =1 w, φ ( x) = ∑ (α i − α i* ) φ ( xi ), φ ( x) = ∑ (α i − α i* )k (xi , x) (46) la función de regresión es dada por l f ( x) = ∑ (α i − α i* )k ( xi , x) + b (47) i =1 y el sesgo será b= 1 nvs y i + sign(α i − α i* )ε − (α i − α i* )(k ( xi , x1 ) + k ( xi , x 2 ) + ... + k ( xi , x nvs ) ∑ nvs i =1 (48) El problema de aprendizaje visto desde esta perspectiva, derivado desde el marco de la teoría de la regularización y mediante el uso de espacios generados por funciones núcleos, es llamado regresión basada en núcleos, es un caso particular de una familia de algoritmos llamados métodos de aprendizajes basados en núcleos, donde las SVM para regresión son un caso particular, y por su flexibilidad para aproximar modelos complejos no lineales pueden representar una buena alternativa en problemas de modelos sustitutos. Bajo este enfoque, el funcional de riesgo regularizado está expresado por min Rreg [ f ] = 1 w 2 2 +C l ∑ L( x, y, f ( x)) (49) i =1 donde el problema planteado en (49) se resuelve en su forma dual, en un espacio característico (generado implícitamente por funciones núcleos) y como un problema de programación cuadrática, donde L( x, y, f ( x)) , como se verá en las próximas secciones, puede ser cualquiera de 39 Capítulo II Marco Teórico las funciones de pérdida mencionadas. Además de la posibilidad de utilizar diferentes funciones de pérdida, para estos problemas existe la posibilidad de utilizar diferentes funciones núcleo, las cuales deben cumplir ciertas condiciones llamadas condiciones de Mercer. También es posible la construcción de otras funciones núcleo a través de las operaciones de sumas y productos entre ellas. La tabla 1 muestra algunos tipos de funciones núcleo. Tabla 1. Diferentes tipos de funciones núcleo Función Núcleo Expresión Polinomial k ( x, x ′) = ( x, x ′ + c) d Spline k ( x, x ′) = 1 + x, x ′ + 1 B Spline k ( x, x ′) = B2 n +1 ( x − x ′ ) Función de base radial k ( x, x ′) = exp(− x − x′ d ∈ N,c ≥ 0 2 x, x ′ min( x, x ′) − 1 ( x, x ′) 3 6 k Bk = ⊕1[−1 i =1 2 ,1 2 ] 2 2h 2 ) h>0 2.6.2.1 Formulación matricial La expresión (44) es un problema de programación cuadrática que no está expresado en su forma estándar, el cual usualmente se expresa como un problema de minimización, entonces, una alternativa para (44) es min l l 1 l * * * * ∑ (α i − α i )(α j − α j )k ( xi , x j ) + ε ∑ (α i + α i ) − ∑ yi (α i − α i ) 2 i, j = 1 i =1 i =1 (50) sujeto a las restricciones 40 Capítulo II Marco Teórico l * ∑ (α i − α i ) = 0 i =1 α i , α i* ∈ [0, C ] Para resolver (50) es necesario encontrar l pares de multiplicadores de lagrange (α i , α i* ) . Para cada punto de entrenamiento xi existe un par (α i , α i* ) donde uno de ellos α i ó α i* será igual a cero. Un xi que corresponda a un α i o α i* diferente de cero es llamado un vector soporte, entonces pueden existir como máximo l vectores soporte. Si β es el vector que contiene los vectores soporte, entonces α 1xl ⎡α 1 ⎤ = ⎢⎢ M ⎥⎥ , ⎢⎣α l ⎥⎦ α 1*xl ⎡α 1*+l ⎤ ⎢ ⎥ =⎢ M ⎥ ⎢ α 2*l ⎥ ⎣ ⎦ ⇒ ⎡α ⎤ β = ⎢ *⎥ ⎣α ⎦ (51) En términos matriciales, (50) se expresa min 1 T β Qβ + c T β 2 (52) donde c T = [ε − y1 , ε − y 2 ,..., ε − y l , ε + y1 , ε + y 2 ,..., ε + yl ] ⎡ H − H⎤ Q=⎢ ⎥ ⎣− H H ⎦ sujeto a las restricciones con H = k ( xi , x j ) [1,1,...,1,−1,−1,...,−1].β = 0, ⇒ ⎡ε − y ⎤ c=⎢ ⎥ ⎣ε + y ⎦ i, j = 1,..., l α i , α i* ∈ [0, C ] Cuando ε = 0 se presenta el caso de la función de pérdida Laplaciana y el problema de optimización (50) se reduce a 41 Capítulo II Marco Teórico min 1 l * * ∑ (α i − α i )(α j − α j )k ( xi , x j ) + 2 i, j = 1 l ∑y i =1 i (α − α * ) i i (53) sujeto a las restricciones l * ∑ (α i − α i ) = 0 i =1 α i , α i* ∈ [0, C ] ⎡− y ⎤ En términos matriciales el problema es similar a (52) pero con c = ⎢ ⎥ ⎣+ y ⎦ 2.7 Forma general de las máquinas de vectores soporte para regresión El problema de optimización dual dado en (31) se puede expresar en forma general de tal manera que bajo ciertas condiciones, represente el caso particular de cada función de pérdida. El modelo general para una función de pérdida ζ (ξ ) es min l 1 2 w + C ∑ (ζ i (ξ i ) + ζ i (ξ i* )) 2 i =1 (54) sujeto a las restricciones y i − w, xi − b ≤ ε + ξ i w, xi + b − y i ≤ ε + ξ i* ξ i , ξ i* ≥ 0 La función de Lagrange con variables duales α i , α i* , γ i , γ i* ≥ 0 es Lg = l l 1 2 w + C ∑ (ζ i (ξ i ) + ζ i (ξ i* )) − ∑ α i (ε + ξ i − yi + w, xi + b)... 2 i =1 i =1 l l i =1 i =1 − ∑ α i* (ε + ξ i* + yi − w, xi − b) − ∑ (γ i ξ i + γ i*ξ i* ) (55) 42 Capítulo II Marco Teórico Las derivadas parciales de Lg con respecto a las variables primales son l l l ∂Lg = w − ∑ α i xi + ∑ α i* xi = 0 ⇒ w = ∑ (α i − α i* ) xi ∂w i =1 i= i =1 (56) l l ∂Lg = −∑ α i + ∑ α i* = 0 ∂b i =1 i =1 ⇒ ∑ (α i* − α i ) = 0 (57) ∂ζ (ξ ) ∂Lg = C i i − αi − γ i ∂ξ i ∂ξ i ⇒ γi = C ∂ζ i* (ξ i* ) ∂Lg C − α i* − γ i* = * * ∂ξ i ∂ξ i ⇒ γ i* = C l i =1 ∂ζ i (ξ i ) − αi ∂ξ i ∂ζ i* (ξ i* ) ∂ξ i* − α i* (58) (59) Sustituyendo las derivadas parciales en (55) − l l 1 l * * * ( α − α )( α − α ) ( x , x ) + y ( α − α ) − ε ∑ i i j j i j ∑ i i i ∑ (α i + α i* ) L 2 i , j =1 i =1 i =1 * ⎞ ⎛ ∂ζ i (ξ i ) * * ∂ζ i (ξ i ) ⎟ ⎜ + C ∑ ⎜ ζ i (ξ i ) + ζ i (ξ i ) − ξ i − ξi ∂ξ i ∂ξ i* ⎟⎠ i =1 ⎝ l (60) El problema que surge ahora en (60) es, resolver en término de las variables duales, la parte que depende de ζ i (ξ i ), ζ i* (ξ i* ), ξ i , ξ i* para luego sustituir. Considerando (58), (59), (60) y omitiendo los índices i y * se tiene T (ξ ) = ζ (ξ ) − ξ C ∂ζ (ξ ) ∂ξ (61) ∂ζ (ξ ) =α +γ ∂ξ (62) α ,γ ,ξ ≥ 0 (63) 43 Capítulo II Marco Teórico Ahora será considerada como función de pérdida ζ (ξ ) un polinomio por piezas de grado p > 1 en el intervalo [0, μ ] y lineal para ( μ , ∞) ⎧ 1− p 1 p ξ para ξ ≤ μ ⎪⎪ μ p ζ (ξ ) = ⎨ ⎛ ⎞ ⎪ξ + ⎜ 1 − 1⎟ μ para ξ > μ ⎪⎩ ⎜⎝ p ⎟⎠ (64) Aplicando (61) ⎧ 1− p ⎛ 1⎞ p ⎪− μ ⎜⎜1 − ⎟⎟ξ p⎠ ⎝ ⎪ T (ξ ) = ⎨ ⎪− μ ⎛⎜1 − 1 ⎞⎟ ⎪ ⎜⎝ p ⎟⎠ ⎩ para ξ ≤ μ (65) para ξ > μ Según (62) ⎧ Cμ 1− p ξ p −1 α +γ = ⎨ ⎩C para ξ ≤ μ para ξ > μ (66) Ahora es necesario colocar T (ξ ) en término de las variables duales. Para esto se utiliza la expresión (66). Cμ 1− p ξ p −1 = α + γ C p p −1 μ −( p −1) p p −1 ξ p −1 p p −1 = (α + γ ) ξ = (α + γ ) p (67) p p −1 p p −1 (68) μ C p − p p −1 (69) Sustituyendo (69) en (55) se tiene 44 Capítulo II Marco Teórico p p ⎧ ⎛ − 1⎞ ⎪− μ ⎜⎜1 − ⎟⎟(α + γ ) p −1 C p −1 ⎪ p⎠ T (α , γ ) = ⎨ ⎝ ⎪ − μ ⎛⎜1 − 1 ⎞⎟ ⎜ ⎪ p ⎟⎠ ⎝ ⎩ para ξ ≤ μ (70) para ξ > μ Como se desea maximizar (60) y el término γ solo aparece en la expresión T la cual es máxima para γ = 0 , entonces por (66) α = C para ξ > μ y α ∈ [0, C ] ⎧ ⎛ 1⎞ ⎪− μ ⎜⎜1 − ⎟⎟α ⎪ p⎠ T (α ) = ⎨ ⎝ ⎪ − μ ⎛⎜1 − 1 ⎞⎟ ⎜ ⎪ p ⎟⎠ ⎝ ⎩ p p −1 − C p p −1 para ξ ≤ μ (71) para ξ > μ Al tomar p = 2 ⎧ 1 2 ⎪− 2C 2 μα T (α ) = ⎨ ⎪− 1 μ ⎩ 2 para ξ ≤ μ para ξ > μ (72) Sustituyendo en (60) se tiene el caso general del problema de optimización para las funciones de pérdida ε – insensible, Laplace y Huber max − l l 1 l * * * ( α − α )( α − α ) x , x + y ( α − α ) − ε (α i + α i* ) L ∑ ∑ ∑ i j j i j i i i i 2 i, j i =1 i =1 − μ l ∑ (α i2 + (α i* ) 2 ) 2C (73) i =1 l sujeto a ∑ (α i − α i* ) = 0 i =1 α i , α i* ∈ [0, C ] 45 Capítulo II Marco Teórico Para μ = 0 se tiene el caso de la función de pérdida ε – insensible, para ε = 0 y μ = 0 se tiene el caso de la función de pérdida de Laplace y por último, cuando ε = 0 se está en el caso de la función de Huber. Haciendo ε = 0, caso Huber, el problema (73) expresado como un problema de minimización y en términos matriciales, es min sujeto a las restricciones 1 T β Qβ − c T β 2 [1,1,...,1,−1,−1,...,−1].β = 0, (74) α i , α i* ≥ 0 ⎡ H − H⎤ ⎡− y ⎤ μ con H = k ( xi , x j ) + I Donde c = ⎢ ⎥ , Q = ⎢ ⎥ 2C ⎣− H H ⎦ ⎣+ y ⎦ i, j = 1,..., l e I la matriz identidad. Bajo este mismo enfoque se puede tratar el problema de optimización utilizando la función de pérdida polinómica de grado p > 1 ζ (ξ ) = 1 p ξ p (75) T (ξ ) = ⎛ 1 p 1⎞ ξ − ξξ p −1 = −⎜⎜1 − ⎟⎟ξ p p p⎠ ⎝ (76) Cξ p −1 = α + γ (77) p p ⎛ 1⎞ − T (α , γ ) = −⎜⎜1 − ⎟⎟C p −1 (α + γ ) p −1 p⎠ ⎝ (78) Por la misma razón mencionada antes γ = 0 46 Capítulo II Marco Teórico p p ⎛ 1⎞ − T (α ) = −⎜⎜1 − ⎟⎟C p −1 (α ) p −1 p⎠ ⎝ (79) Para p = 2 se tiene el caso de la función de pérdida cuadrática T (α ) = − 1 α2 2 2C (80) Sustituyendo (80) en (60), con ε = 0, se tiene el caso del problema de optimización para la función de pérdida cuadrática max − l 1 l 1 l * * * x x y ( α − α )( α − α ) , + ( α − α ) − ∑ i i j j i j ∑ i i i 2C ∑ (α i2 +(α i* ) 2 ) 2 i , j =1 i i =1 (81) l sujeto a ∑ (α i − α i* ) = 0 i =1 α i , α i* ∈ [0, ∞ ) Cuando la función de pérdida es la función cuadrática, es indiferente que un punto cualquiera esté por arriba o por debajo de f(x), por lo que no existe la posibilidad de un α i o de α i* , la perdida ξ i en cada punto estará medida por una variable dual β i . Dicho esto, se puede expresar (81) como un problema de minimización de la siguiente manera min l sujeto a ∑ βi l 1 l 1 l 2 x x y , β β − β + ∑ i j i j ∑ i i 2C ∑ β i 2 i , j =1 i =1 i =1 (82) =0 i =1 β i ∈ [0, ∞ ) En términos matriciales: 47 Capítulo II Marco Teórico min sujeto a las restricciones 1 T β Qβ − c T β 2 [1,1,...,1].β = 0, (83) βi ≥ 0 donde c = −y , Q = [H ] con H = k ( xi , x j ) + I 1 2C i, j = 1,..., l e I la matriz identidad. 2.8 Resumen El problema de regresión basado en funciones núcleo, está formulado como el proceso de entrenar una máquina de aprendizaje para encontrar entre un conjunto de funciones, aquella que minimiza la discrepancia con la respuesta del sistema. La maquina de aprendizaje es entrenada en su representación dual y en un espacio característico implícitamente inducido por una función núcleo. La máquina de aprendizaje en el espacio original de las variables de entrada está dada por el funcional de riesgo regularizado min Rreg [ f ] = l 1 2 w + C ∑ L( x, y, f ( x)) 2 i =1 (84) donde L( x, y, f ( x)) es cualquiera de las funciones de pérdida expuesta anteriormente y w son los parámetros del modelo. En su forma dual y en el espacio característico, las máquinas de aprendizaje para el caso de las funciones de pérdida ε - insensible, Laplace y Huber están dadas por min l l 1 l (α i − α i* )(α j − α *j ) k ( xi , x j ) − ∑ y i (α i − α i* ) +ε ∑ (α i + α i* ) L ∑ 2 i, j i =1 i =1 48 Capítulo II Marco Teórico K+ μ l ∑ (α i2 + (α i* ) 2 ) 2C i =1 (85) l sujeto a ∑ (α i − α i* ) = 0 i =1 α i , α i* ∈ [0, C ] Para μ = 0 se tiene el caso de la función de pérdida ε – insensible, para ε = 0 y μ = 0 se tiene el caso de la función de pérdida de Laplace y por último, cuando ε = 0 se está en el caso de la función de Huber. Para el caso de la función de pérdida cuadrática la maquina está dada por min l 1 l 1 l ( α i − α i* )(α j − α *j )k ( xi , x j ) − ∑ y i (α i − α i* ) + (α i2 + (α i* ) 2 ) ∑ ∑ 2 i , j =1 2C i i =1 (86) l sujeto a ∑ (α i − α i* ) = 0 i =1 α i , α i* ∈ [0, ∞ ) El entrenamiento de las diferentes maquinas de aprendizaje expresadas en términos matriciales, es equivalente a resolver un problema de programación cuadrática. Para todas las funciones de pérdida mencionadas, la solución de los problemas (85) y (84) es una ecuación lineal de la forma: l f ( x) = ∑ (α i − α i* )k ( xi , x) + b (87) i =1 donde los α i , α i* son los multiplicadores de lagrange. 49 CAPÍTULO III METODOLOGÍA En este trabajo se utilizaron las máquinas de vectores soporte (SVM) para regresión las cuales están expresadas por el siguiente funcional de riesgo regularizado min Rreg [ f ] = donde: ½ w 2 l 1 2 w + C ∑ L( x, y, f ( x)) 2 i =1 (88) es un término que controla la complejidad del modelo, L( x, y, f ( x)) es una función de pérdida que penaliza el error de predicción y C, es una constante que controla la magnitud de la penalización del error de predicción. Las diferentes funciones de pérdida utilizadas en (88) son: Función de pérdida cuadrática L( x, y, f ( x)) = ( f ( x) − y ) 2 (89) Función de pérdida de Laplace L( x, y, f ( x)) = f ( x) − y (90) Función de pérdida ε - insensible ⎧ 0 para L( x, y, f ( x)) = ⎨ ⎩ f ( x) − y − ε Función de pérdida de Huber f ( x) − y ≤ ε en otro caso (91) Capítulo III Metodología ⎧ 1 ( f ( x) − y ) 2 para f ( x) − y ≤ μ ⎪⎪ 2μ L( x, y, f ( x)) = ⎨ μ ⎪ f ( x) − y − en otro caso ⎪⎩ 2 (92) El problema de optimización expresado en (88), para las diferentes funciones de pérdida, es resuelto en su formulación dual, en un espacio característico implícitamente inducido por una función núcleo y como un problema de programación cuadrática. Para todas las funciones de pérdida mencionadas, la solución del problema (88) es un modelo de la forma: l f ( x) = ∑ (α i − α i* )k ( xi , x) + b (93) i =1 donde k es una función núcleo, α i , α i* son las variables del problema de optimización dual y b el sesgo. Para cumplir con los objetivos planteados en el presente trabajo, se utilizaron las SVM para regresión en datos generados artificialmente y en datos reales provenientes de un modelo de simulación computacional. La metodología utilizada básicamente comprende cinco etapas: 1- Selección del conjunto de entrenamiento y de validación 2- Pre-procesamiento de los datos 3- Construcción de los modelos y selección óptima de sus parámetros 4- Evaluación del desempeño de los modelos y 5- Elección del modelo sustituto. La figura 8 muestra esta secuencia de pasos, donde una diferencia en la metodología debido al tipo de datos (artificiales o reales) se presenta en las etapas 1 y 5. Esta diferencia se origina porque se dispone de una limitada cantidad de datos reales, limitación que no existe en el caso de datos artificiales. 3.1 Metodología. Caso datos artificiales 1. Para este caso, dos conjuntos del mismo tamaño, uno de entrenamiento y el otro de validación, fueron generados por el muestreo del dominio de las funciones de prueba utilizando un diseño en 51 Capítulo III Metodología Hipercubo Latino. Como se mencionó en el marco teórico, este diseño experimental es muy utilizado porque permite muestrear eficientemente el espacio de diseño utilizando pocos puntos. Caso datos artificiales 1. Selección del conjunto de entrenamiento y de validación Caso datos reales 2. Pre-procesamiento 3. Construcción de los modelos y selección óptima de sus parámetros Caso datos artificiales 4. Evaluación del desempeño de los modelos Caso datos reales 5. Elección del modelo sustituto Figura 8. Secuencia de pasos en la metodología utilizada 2. Para el entrenamiento de las SVM es necesario transformar los datos a una nueva representación. Esta transformación resulta muy útil porque coloca en una misma escala las diferentes unidades de medida de las variables de entrada, las cuales generalmente tienen diferente orden de magnitud. Otro beneficio que se deriva de estandarizar los datos de entrenamiento, es que permite fijar valores de precisión (funciones de Vapnik y Huber) que afectan por igual a todas las variables de entrada. En este trabajo fue seleccionado uno de los preprocesamiento mas utilizados, el cual consiste en una transformación lineal de los datos al espacio [− 1 1]d 52 Capítulo III Metodología 3. Para cada conjunto de entrenamiento fueron construidos cuatro modelos sustitutos. Estos modelos corresponden a las máquinas de aprendizaje basadas en las funciones de pérdida: 1) ε – insensible 2) Huber 3) Laplace y 4) Cuadrática. Los modelos de regresión producto de estas máquinas de aprendizaje requieren para su entrenamiento una adecuada selección de los siguientes parámetros: a) la constante C de regularización b) el parámetro h si se utiliza la función de base radial como función núcleo y c) la precisión ( ε o μ ) en los casos de las funciones ε – insensible y Huber respectivamente. De estos tres parámetros, C y h son los que ofrecen mayor incertidumbre para su selección. Como la función de base radial es la función núcleo mas utilizada en la literatura sobre SVR para regresión, en este trabajo se decidió utilizar la función de base radial y determinar los valores de C y h por el siguiente procedimiento: i) Fijado un valor de precisión, los mejores valores de C y h para una máquina de aprendizaje se obtuvieron por la solución del siguiente problema de optimización: v min SL = ∑ L( x, y, f ( x)) (94) i =1 Donde L( x, y, f ( x)) es la función de pérdida utilizada por cada máquina de aprendizaje y evaluada sobre el conjunto v de validación. La evaluación de la función SL requiere primero encontrar f(x) a través del entrenamiento de la máquina de aprendizaje, por lo tanto, SL es una medida del desempeño del modelo estimado f(x), desempeño medido por la función de pérdida utilizada en la máquina de aprendizaje y en un conjunto distinto al conjunto de entrenamiento. La tabla 2 muestra las diferentes medidas de desempeño SL según la función de pérdida utilizada. El entrenamiento para hallar f(x) fue realizado para un valor fijo de precisión y para valores de C y h dentro de una región de búsqueda. La solución del problema planteado en (94) consiste entonces en, dado un valor de precisión, encontrar los valores de C y h que producen el modelo 53 Capítulo III Metodología con el mejor desempeño, medido por su propia función de pérdida en un conjunto de validación. Tabla 2. Medidas de desempeño (SL) para la función f ( x) según el tipo de máquina de aprendizaje. Máquina de aprendizaje con Medida de desempeño (SL) función de pérdida: Cuadrática l ∑ ( yi ,t − yˆ i ,t ) 2 i =1 Laplace l ∑ yi,t − yˆ i ,t i =1 ε – insensible l ∑ ( yi ,t − yˆ i,t ) i =1 ⎧⎪ 0 para yi ,t − yˆ i ,t ≤ ε Con ( y i ,t − yˆ i ,t ) = ⎨ ⎪⎩ y i ,t − yˆ i ,t − ε en otro caso Huber l ∑ ( yi ,t − yˆ i,t ) i =1 ⎧ 1 2 para y i ,t − yˆ i ,t ≤ μ ⎪⎪ 2μ ( y i ,t − yˆ i ,t ) Con ( yi ,t − yˆ i ,t ) = ⎨ μ ⎪ yi ,t − yˆ i ,t − en otro caso ⎪⎩ 2 d Donde y i ,t y yˆ i ,t son las respuestas reales y estimadas en el espacio [− 1 1] debido a un conjunto de validación. ii) La región de búsqueda para C y h se definió en 0.1 ≤ h ≤ 3 y 1 ≤ C ≤ 3000 tomando como referencia la región considerada por el programa LS - SVMLab versión 1.5 [6]. Por lo mencionado en el marco teórico, el problema de encontrar los valores óptimos de C y h en una región acotada fue resuelto utilizando el algoritmo de optimización global DIRECT [4]. Para el entrenamiento fue utilizada la implementación del método SVR para regresión realizada en MATLAB por S. Gunn [7], pero como ésta no contenía el caso para la función de pérdida de Huber, esta implementación fue ampliada para así cubrir con todos los casos de funciones de pérdidas propuestos en este trabajo. Como en las máquinas de aprendizajes con función de pérdida ε – insensible y Huber se requiere también la selección adecuada de la precisión, el 54 Capítulo III Metodología problema presentado en (94) fue resuelto para diferentes valores de precisión (ver tabla 3) y en cada caso fue elegido aquel modelo cuyos parámetros C, h y ε (ó μ) minimizaron en el conjunto de validación el siguiente estadístico: l ∑ yi,t − yˆ i ,t (95) i =1 donde yi ,t y yˆ i ,t corresponden a las i-ésimas respuestas reales y estimadas en el espacio [− 1 1]d Tabla 3. Valores de precisión utilizados en las funciones de pérdida ε – insensible y Huber Valores de precisión 0.02 0.04 0.06 0.08 y 0.10 4. La evaluación de los modelos se realizó midiendo su desempeño en un conjunto de prueba de mayor tamaño que el utilizado en su construcción. El tamaño de este conjunto de prueba fue tres veces mayor que el conjunto de entrenamiento y generado por un diseño en Hipercubo Latino. Los estadísticos utilizados para medir el desempeño se formularon según dos puntos de vista: acomo aproximadores de las funciones y b- como reproductores del óptimo. Para poder evaluar el desempeño de estos modelos como aproximadores de las funciones se formularon los siguientes estadísticos: l mediad = ∑ yi − yˆ i i =1 l (96) l ∑ ( yi − yˆ i ) 2 dstd = i =1 l −1 max d = max yi − yˆ i (97) (98) 55 Capítulo III Metodología donde y i y ŷi son las respuestas reales y estimadas en el espacio original de las variables. Los estadísticos propuestos para evaluar los modelos como reproductores del óptimo fueron las siguientes medidas de distancia relativa: distx = disty = xopt − xˆ opt xopt y opt − yˆ opt y opt (99) (100) donde: xopt y y opt son los verdaderos óptimos de la función de prueba y x̂opt y ŷ opt son los estimados por el algoritmo de optimización global DIRECT . 5. La elección del modelo sustituto se llevó a cabo de la siguiente manera: Primero, un grupo de buenos modelos fue seleccionado tomando en cuenta las mejores medidas de desempeño como aproximador de funciones y como reproductor de los valores óptimos y luego, el mejor modelo del grupo, llamado modelo sustituto de la función de prueba, fue seleccionado considerando las medidas de ajuste global dadas en la expresiones (96), (97) y (98). 3.2 Metodología. Caso datos reales 1. En este caso, del conjunto de datos disponible fue seleccionado aleatoriamente un conjunto de entrenamiento igual al 80% de los datos, quedando un 20% como conjunto de validación. 2. Igual que en el punto 2 de la sección anterior, se aplicó una transformación lineal a los datos para llevarlos al espacio [− 1 1]d . 56 Capítulo III Metodología 3. De la misma manera que el punto 3 de la sección anterior, se decidió la función de base radial como función núcleo y la misma estrategia para la elección de los valores de C, h y ε (o μ). 4. Por la necesidad de evaluar el desempeño de los modelos obtenidos se generó un conjunto de prueba utilizando el método de Validación Cruzada Uno Fuera. Este método se basa en remover un dato del conjunto de entrenamiento, construir el modelo sobre la base de los restantes datos y entonces, utilizar como dato de prueba el elemento removido. Con este procedimiento son utilizados todos los datos del conjunto de entrenamiento como conjunto de prueba. Como en este caso los óptimos reales xopt y y opt son desconocidos, las medidas para evaluar el desempeño de los modelos en el conjunto de prueba, fueron solamente las dadas por las expresiones (96), (97) y (98). 5. El modelo sustituto del simulador computacional, fue seleccionado tomando en cuenta y analizando de manera integral las mejores medidas de desempeño. Para este caso, la bondad del modelo sustituto en el punto x̂opt se evaluó por la siguiente expresión: disty = yˆ opt − y opt (101) donde y opt es la respuesta del simulador en x̂opt . La figura 9 ilustra gráficamente este valor. 3.2.1 El gradiente de los modelos sustitutos Zerpa [8], utilizando estos mismos datos para la construcción de modelos sustitutos, encontró óptimos en la región de diseño con valores en el borde. Como una situación similar se espera encontrar en este trabajo, se decidió determinar y evaluar el vector gradiente en estos puntos y así, conocer la dirección de la máxima respuesta y estudiar la posibilidad de mover la región de diseño. 57 Capítulo III Metodología ⋅ ⋅ ŷ opt disty optimo real ⋅ y opt Modelo Modelo estimado real x̂opt Figura 9. Ilustración del valor disty para el caso de datos reales Recordando que los modelos estimados por SVM para regresión son de la forma l f ( x) = ∑ (α i − α i* )k ( xi , x) + b (102) i =1 o también l f ( x ) = ∑ ( β i ) k ( xi , x ) + b (103) i =1 donde k es la función de base radial dada por k ( x, xi ) = exp( − x − xi 2h 2 2 ) (104) Se sabe que para obtener (103) las variables de entrada y de salida son transformadas al espacio [− 1 1]d , es decir 58 Capítulo III Metodología y = F (x) ↓ ↓ w = F (u ) (105) donde y = F (x) representa la relación real entre la entrada y salida del sistema. w = F (u ) es la relación que estima la relación real y está dada por (103), con y transformada a w y x transformada a u utilizando la siguiente expresión w=2 ( y − Miny ) −1 ( Maxy − Miny ) u=2 ( x − Minx) −1 ( Maxx − Minx) (106) Por la regla de la cadena, el gradiente de y = F (x) vendrá dado por dy dy dw du = dx dw du dx (107) Por (106) dy Maxy − Miny = dw 2 y du 2 = dx Maxx − Minx (108) y por (103) y (104) l dw = du ∑ β i exp(− i =1 1 2 x − xi ) 2 2h [ xi − x ] h2 (109) Sustituyendo (108) y (109) en (107) se tiene que el gradiente es l ∇f ( x ) = dy ( Maxy − Miny ) = dx ( Maxx − Minx) ∑ β i exp(− i =1 1 2 x − xi ) 2 2h [ xi − x ] h2 (110) 59 CAPÍTULO IV CASOS DE ESTUDIO Con el propósito de desarrollar la metodología propuesta se utilizaron datos generados artificialmente por el muestreo de tres funciones de prueba (F1, F2 y F3) y dos conjuntos de datos reales (ASP1 y ASP2) provenientes de un modelo de simulación computacional de un proceso de recuperación mejorada de petróleo por inyección de álcali, surfactante y polímero (ASP). 4.1 Funciones de prueba A continuación se presentan las diferentes funciones de prueba utilizadas para evaluar y comparar los cuatro modelos producto de las diferentes funciones de pérdida. La selección de estas funciones obedeció a su uso frecuente en la literatura para la verificación de la efectividad de algoritmos de búsqueda global [9] y porque representan una severa prueba para cualquier método de aproximación de funciones no lineales. A continuación se listan las expresiones matemáticas para las diferentes funciones. [ ] F1 f ( x) = [30 + x1 . sin( x1 )]. 4 + exp(− x 22 ) , 0 ≤ x1 ≤ 9 0 ≤ x 2 ≤ 6 F2 ⎛ π .x ⎞ ⎛ π .x 2 ⎞ f ( x) = sin ⎜ 1 ⎟. cos⎜ ⎟ , − 10 ≤ x1 ≤ 10 ⎝ 12 ⎠ ⎝ 16 ⎠ F3 f ( x) = −∑ ci exp(− ∑ aij ( x j − pij ) 2 ⎡3 ⎢0.1 A=⎢ ⎢3 ⎢ ⎣0.1 4 3 i =1 j =1 10 10 10 10 30⎤ 35⎥⎥ , 30⎥ ⎥ 35⎦ − 20 ≤ x 2 ≤ 20 0 ≤ xj ≤1 ⎡1.0 ⎤ ⎡ 0.3689 ⎢1.2 ⎥ ⎢ 0.4699 ⎢ ⎥ c= , p=⎢ ⎢3.0⎥ ⎢ 0.1091 ⎢ ⎥ ⎢ ⎣3.2⎦ ⎣0.03815 j = 1,2,3 0.1170 0.4387 0.8732 0.5743 0.2673⎤ 0.7470⎥⎥ 0.5547⎥ ⎥ 0.8828⎦ Capítulo IV Casos de Estudio En la tabla siguiente, tabla 4, se presentan algunas características de las funciones de prueba y las figuras 10 y 11 muestran gráficamente las funciones F1 y F2 respectivamente. Tabla 4. Algunas características de las funciones de prueba Nombre Dimensión F1 2 F2 2 F3 3 xopt [4.9074 5.9959] 0 ⎤ ⎡− 6 ⎢ 6 − 16⎥ ⎢ ⎥ ⎢⎣ 6 16 ⎥⎦ [0.1153 0.5555 0.8518] y opt (mínimo) y max Rango 100.7426 189.5721 88.8295 −1 1 2 −1 1 2 −1 1 2 − 3.8628 0.00 3.8628 Figura 10. Gráfica de la función de prueba F1 61 Capítulo IV Casos de Estudio Figura 11. Grafica de la función de prueba F2 4.1.1 Conjuntos de entrenamiento Utilizando un diseño en Hipercubo Latino, para cada función de prueba se generaron tres conjuntos de entrenamiento, de esta manera, cada uno de estos conjuntos representa un muestreo diferente del dominio de las funciones de prueba. El tamaño de los conjuntos de entrenamiento fue pequeño según la clasificación realizada por Jin R. y col [10]. De acuerdo a este trabajo, el número de puntos de muestreo para el diseño en Hipercubo Latino fue entonces de 10.d, siendo d la dimensión del espacio de las variables de entrada. La tabla 5 muestra un resumen relativo a este caso de estudio y a los modelos obtenidos para cada conjunto de entrenamiento. 62 Capítulo IV Casos de Estudio Tabla 5. Resumen del caso de estudio en las funciones de prueba y modelos obtenidos en los conjuntos de entrenamiento. Funciones de prueba F1 F2 F3 Total: 3 Conjuntos de entrenamiento 1 2 3 1 2 3 1 2 3 9 Numero de puntos de muestreo 20 20 20 20 20 20 30 30 30 Modelos obtenidos 4 (uno/maquina) 4 (uno/maquina) 4 (uno/maquina) 4 (uno/maquina) 4 (uno/maquina) 4 (uno/maquina) 4 (uno/maquina) 4 (uno/maquina) 4 (uno/maquina) 36 Modelos elegidos 1 1 1 1 1 1 1 1 1 9 4.2 El modelo de simulación Para este trabajo se consideraron datos provenientes de una prueba piloto del modelo de simulación UTCHEM de la Universidad de Texas en Austin [11], el cual es uno de los simuladores computacionales mas reconocidos para la simulación de procesos de recuperación mejorada de petróleo por inyección de químicos. En este proceso de recuperación de petróleo, el problema de interés es encontrar los valores óptimos de las concentraciones de álcali, surfactante, polímero y tiempo de inyección de estos químicos que maximicen la cantidad acumulada de petróleo recuperado, pero es conocido que el simulador tiene un alto costo desde el punto vista computacional y que resolver este problema de optimización considerando como función objetivo la ejecución del simulador es un procedimiento poco práctico, por lo tanto, para la evaluación de la función objetivo se requiere de modelos sustitutos del simulador computacional UTCHEM. En este trabajo se consideró la construcción de modelos sustitutos utilizando las funciones de pérdida ε – insensible, Huber, Laplace y Cuadrática en dos conjuntos de datos provenientes del simulador UTCHEM: ASP1, un conjunto de 64 datos generados a través de un diseño en Hipercubo latino y ASP2, un conjunto de 88 datos compuesto por el conjunto de datos anterior mas 24 puntos adicionales correspondientes a las caras y vértices del Hipercubo de dimensión 4d. La variable respuesta (producción acumulada de petróleo) fue calculada a los 487 días a partir del inicio de la simulación y como una fracción del petróleo original del sitio (POES). El dominio de 63 Capítulo IV Casos de Estudio las variables de diseño para este problema de optimización se presenta en la tabla 6. Tabla 6. Dominio de las variables de diseño en el problema de optimización para la recuperación de petróleo por inyección de químicos ASP Variables de Diseño Concentración de Alcali Concentración de Surfactante Concentración de Polimero Tiempo de Inyección Min Max Unidad 0.00 0.5898 meq/ml 1.815 x10 −3 0.005 Fracc.Vol 0.0487 0.12 Wt % 111 326 días 4.2.1 Conjuntos de entrenamiento Para los conjuntos ASP1 y ASP2 fueron seleccionados aleatoriamente un conjunto de entrenamiento igual al 80% de los datos. Igual que en el caso de las funciones de prueba, este procedimiento fue realizado tres veces, de tal manera que, cada uno de estos conjuntos de entrenamiento representa un muestreo diferente del espacio de diseño de las variables del problema. La tabla 7 muestra un resumen relativo a este caso de estudio y a los modelos obtenidos para los conjuntos de entrenamiento. Tabla 7. Resumen del caso de estudio para el simulador computacional y modelos obtenidos en los conjuntos de entrenamiento. Conjunto de datos reales ASP1 ASP2 Total: 2 Conjuntos de entrenamiento 1 2 3 1 2 3 6 Numero de puntos de muestreo 51 51 51 70 70 70 # de modelos obtenidos 4 (uno/maquina) 4 (uno/maquina) 4 (uno/maquina) 4 (uno/maquina) 4 (uno/maquina) 4 (uno/maquina) 24 Modelos elegidos 1 1 1 1 1 1 6 64 CAPÍTULO V PRESENTACIÓN Y ANÁLISIS DE LOS RESULTADOS Primero se presentan y analizan los resultados obtenidos al utilizar los datos generados artificialmente en las diferentes funciones de prueba y luego, los correspondientes a los datos reales provenientes del simulador computacional UTCHEM. Los resultados son presentados en diagramas de barras, donde las alturas corresponden a las medidas utilizadas para evaluar el desempeño de cada modelo, por lo tanto, modelos con barras de poca altura revelan ajustes relativamente buenos. Para los datos artificiales las medidas de desempeño de los modelos fueron de dos tipos: a) medidas que permitieron evaluar la capacidad del modelo para aproximar la función y b) medidas que permitieron evaluar la capacidad para reproducir el óptimo de la región del espacio de diseño y el óptimo de la función. Las medidas para evaluar las bondades de los modelos como aproximadores estuvieron basadas en la diferencia absoluta de ( y i − yˆ i ) y fueron: la máxima diferencia (maxd), el promedio (mediad) y la desviación estándar (dstd). Como medidas relacionadas con el óptimo se utilizaron las distancias relativas ( xˆ opt − xopt ) xopt (distx) y ( yˆ opt − y opt ) y opt (disty). En el caso de los datos reales, como xopt y y opt son desconocidos, no se pudo evaluar la capacidad de los modelos para reproducir el óptimo, como alternativa se verificó la bondad del mejor modelo en el punto x̂opt utilizando yˆ opt − y opt , donde y opt es la respuesta del simulador en x̂opt . 5.1 Caso datos artificiales Para cada conjunto de entrenamiento fueron obtenidos cuatro modelos: 1- modelo generado al utilizar la función de pérdida ε – insensible (Ei) 2- modelo generado al utilizar la función de pérdida de Huber (Hb) 3- modelo generado al utilizar la función de pérdida de Laplace (Lp) y 4modelo generado al utilizar la función de pérdida Cuadrática (Cd). Capítulo V. Presentación y Análisis de los Resultados 5.1.1 Función de prueba F1 La figura 12 permite visualizar el desempeño de los cuatro modelos arriba mencionados como aproximadores de la función de prueba F1. La figura muestra que en el conjunto 1, Lp y Cd parecen bastante similares y por el pequeño contraste entre las alturas de las barras correspondientes a maxd parecen también levemente superiores a Ei, en consecuencia, para el conjunto 1, el grupo de modelos que mejor aproximan a F1 está formador por LP, Cd y Ei. En el conjunto 2 se aprecia de manera clara que el mejor en este sentido es Hb, ocupando Lp el segundo lugar por una diferencia de aproximadamente 2.5 unidades en el valor de maxd. En el conjunto 3 el mejor desempeño fue para Cd, seguido por Hb y finalmente Ei. En la tabla 8 se muestra un resumen de lo anteriormente señalado. 40 35 30 25 20 15 10 5 0 Conjunto 2 Conjunto 1 Conjunto 3 mediad dstd maxd Ei Hb Lp Cd Ei Hb Lp Cd Ei Hb Lp Cd Figura 12. Desempeño de los modelos como aproximadores de la función de prueba F1. Tabla 8. Mejores aproximadores de la función de prueba F1 1 Mejores aproximadores Lp Cd Ei 2 Hb Lp 3 Cd Hb Ei Conjunto La figura 13 presenta las medidas que permiten evaluar la capacidad que tienen los modelos para reproducir el óptimo de las variables de diseño y el correspondiente valor funcional. A primera vista la figura parece mostrar, por la magnitud de las barras del estadístico distx, que 66 Capítulo V. Presentación y Análisis de los Resultados en los tres conjuntos de datos x̂opt resultó en un valor muy alejado del real, sin embargo, por el diagrama de contornos de la función mostrado en la figura 14, se puede aclarar que esta situación es debido a que F1 presenta un valle en la región donde se encuentra xopt y por lo tanto, grandes diferencias de distx no producen grandes diferencias en disty. 0,5 Conjunto 2 Conjunto 1 Conjunto 3 0,4 0,3 distx 0,2 disty 0,1 0 Ei Hb Lp Cd Ei Hb Lp Cd Ei Hb Lp Cd Figura 13. Desempeño de los modelos como reproductores del optimo. Función de prueba F1 6 * Minimo 5 de F1 X2 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 X1 Figura 14. Diagrama de contornos de la función de prueba F1 67 Capítulo V. Presentación y Análisis de los Resultados La figura 13 muestra que en el conjunto 1 Ei presenta el mejor desempeño, mostrando el menor valor de distx y un valor de disty prácticamente igual a cero. Muy cercanos a Ei están Hb y Cd pudiéndose incluir también dentro del grupo de los mejores reproductores del óptimo para este conjunto 1. En el conjunto 2 el mejor desempeño fue claramente para Hb y en el conjunto 3 la decisión fue para Lp y Cd, la cual se basó al considerar que Ei y Hb presentan valores de distx de casi el 50% y que los de disty, aun cuando son menores que los de Lp y Cd es una diferencia estimada según la grafica en 1% y por lo tanto poco significativa. En la tabla 9 se amplia la tabla 8 y se resume lo antes expuesto. Como un modelo sustituto debe poseer características de buen aproximador de la función y buen reproductor del optimo, la tabla 9 incluye además los modelos que poseen ambas características. Tabla 9. Mejores modelos para la función de prueba F1 Como reproductor del óptimo Modelos con ambas características Mejores modelos Conjunto Como aproximador de la función 1 Lp Cd Ei Ei Hb Cd Ei Cd 2 Hb, Lp Hb Hb 3 Cd Hb Ei Lp Cd Cd La tabla 9 revela que por el procedimiento de selección realizado, de los tres conjuntos de entrenamiento generados para la función de prueba F1, Cd fue seleccionado es dos de ellos como buen modelo para la función F1, por lo tanto, Cd tuvo mayor presencia que los otros modelos. Al observar nuevamente la figura 12, se evidencia que en el conjunto 1 y en el 3 se presentan los mejores desempeños y por lo tanto, el mejor modelo sustituto para la función F1 está entre Ei y Cd del conjunto 1 y Cd del conjunto 3, quedando descartado Hb del conjunto 2. Al comparar Cd con Ei en el conjunto 1, la diferencia mas notable está en la maxd siendo aproximadamente igual a una unidad y a favor de Cd. Esta diferencia puede considerarse poco significativa, sin embargo Cd resulta el mejor en el conjunto 1. Una situación muy similar sucede al comparar Cd del conjunto 1 y Cd del conjunto 3, donde la diferencia a favor de Cd del conjunto 1 es del orden de una unidad en la maxd, en consecuencia, la superioridad de Cd del 68 Capítulo V. Presentación y Análisis de los Resultados conjunto 1 no parece contundente sobre la del conjunto 2, pero resulta el mejor modelo sustituto de la función de prueba F1. En la tabla10 se presentan los parámetros y los valores óptimos estimados para este modelo. Tabla 10. Parámetros y valores óptimos del modelo sustituto para la función de prueba F1 Conjunto Modelo sustituto h C ε,μ x̂opt ŷ opt yˆ opt − y opt 1 Cd 0.5515 112.3026 - 4.8004 4.4787 100.3075 0.4251 Finalmente es necesario mencionar, que el procedimiento de selección utilizado conduce a Cd del conjunto 1 como el mejor modelo sustituto de F1, pero al observar nuevamente las graficas 12 y 13, Ei del conjunto 1 y Lp del conjunto 3 pueden considerarse modelos similares al modelo sustituto Cd. La diferencia entre Ei y Lp a favor de Cd, es que estos dos modelos muestran leves valores superiores de maxd (una y dos unidades respectivamente), lo cual los llevó a no ser considerados, pero Cd está en desventaja respecto a Ei y Lp, en que estos dos modelos poseen mejores valores de distx y disty. La figura 15 presenta la superficie de los residuales ( y i − yˆ i ) entre la función de prueba F1 y Cd al utilizar una malla de puntos. La figura 15 sirve para ilustrar el ajuste entre el modelo estimado y el real, un buen ajuste debería mostrar una superficie alrededor del cero. En la figura se observa un buen ajuste salvo en la región del espacio de diseño donde se encuentra el borde del lado derecho de la función, borde que como puede verse en la figura 10 del Capítulo III, es difícil de modelar. 5.1.2 Función de prueba F2 La figura 16 muestra para esta función de prueba el desempeño, como aproximadores de funciones, de los cuatro modelos obtenidos. Al observar la figura se puede notar que para el conjunto 1 claramente el mejor desempeño fue para Cd, en el conjunto 2 parecen coincidir bastante Hb y Cd y en el conjunto 3, el desempeño de Hb fue superior al de Cd por una diferencia muy pequeña de aproximadamente de 0.05 en el valor de maxd. 69 Capítulo V. Presentación y Análisis de los Resultados Figura 15. Superficie de los residuales entre F1 y Cd. Conjunto de entrenamiento 1 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Conjunto 1 Conjunto 2 Conjunto 3 mediad dstd maxd Ei Hb Lp Cd Ei Hb Lp Cd Ei Hb Lp Cd Figura 16. Desempeño de los modelos como aproximadores de la función de prueba F2. La tabla 11 muestra de manera resumida todo lo antes dicho sobre los mejores modelos como aproximadores de la función de prueba F2. Respecto al desempeño de los modelos como reproductores del óptimo, la figura 17 muestra que en los conjuntos 1 y 3, Cd presentó una visible superioridad sobre los otros modelos y en el 70 Capítulo V. Presentación y Análisis de los Resultados conjunto 2, Hb y Cd se muestran prácticamente iguales como reproductores del óptimo de esta función. Tabla 11. Mejores aproximadores de la función de prueba F2 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Conjunto Mejores aproximadores 1 Cd 2 Cd Hb 3 Hb Cd Conjunto1 Conjunto 2 Conjunto 3 dist1 dist2 Ei Hb Lp Cd Ei Hb Lp Cd Ei Hb Lp Cd Figura 17. Desempeño de los modelos como reproductores del óptimo. Función de prueba F2. Un resumen de los mejores modelos reproductores de las condiciones óptimas se presenta ahora en la tabla 12. Esta tabla incluye los mejores modelos aproximadores de F2 que fueron presentados en la tabla 11 y los que poseen ambas características. Tabla 12. Mejores modelos para la función de prueba F2 Como reproductor del óptimo Modelos con ambas características Mejores modelos Conjunto Como aproximador de la función 1 Cd Cd Cd 2 Cd Hb Hb Cd Hb Cd 3 Hb Cd Cd Cd 71 Capítulo V. Presentación y Análisis de los Resultados En la tabla 12 se observa que Cd siempre estuvo involucrado dentro de los mejores modelos para representar a la función de prueba F2, y de los otros modelos, solamente Hb estuvo presente en el conjunto 2 y compitiendo con Cd. Al observar nuevamente la figura 16 para decidir el mejor modelo sustituto de F2, se nota que este es claramente Cd del conjunto 1. En la tabla 13 se presentan los parámetros y los valores óptimos estimados para este modelo. Tabla 13. Parámetros y valores óptimos del modelo sustituto para la función de prueba F2 Conjunto Modelo Sustituto h C ε,μ x̂opt ŷ opt yˆ opt − y opt 1 Cd 0.4000 2993.8 - 5.4412 16.6282 -1.0112 0.0112 Una situación parecida a la presentada con la función de prueba F1 se presenta también en esta función F2, donde el procedimiento de selección conduce a Cd como modelo sustituto de F2, pero un examen de las figuras 16 y 17 revela que Hb y Cd del conjunto 2 se desempeñan de manera similar. La diferencia entre Hb y Cd respecto al modelo sustituto seleccionado solamente está presente en los estadísticos mediad, dstsd y maxd, siendo 0.05 unidades en maxd y dstd, y de 0.02 en la mediad, los cuales comparados con el rango de la función (tabla 4) no representan una franca superioridad del modelo sustituto seleccionado sobre Hb y Cd del conjunto 2. La figura 18 presenta para el modelo de la tabla 13 la superficie de los residuales entre la función de prueba F2 y Cd y para lo cual fue utilizada una malla de puntos. La apariencia de la superficie de los residuales parece mostrar un ajuste satisfactorio de la función de prueba F2, salvo en la región de diseño que corresponde con la esquina izquierda de la grafica donde parecen presentarse los residuales con los mas altos valores. 5.1.3 Función de prueba F3 Siguiendo el mismo proceso de análisis llevado a cabo en las dos funciones de pruebas anteriores, se presenta la figura 19 la cual muestra que para el conjunto 1, Ei representan la mejor alternativa de este conjunto como aproximador de la función F3, le siguen Hb y Lp por pequeñas diferencias en dstd y maxd respectivamente. Para el conjunto 2 Lp y Ei son los mas destacados 72 Capítulo V. Presentación y Análisis de los Resultados existiendo solo entre ellos una pequeña diferencia de aproximadamente 0.02 unidades y en el conjunto 3 se aprecia un comportamiento bastante homogéneo para todos los modelos. La tabla 14 presenta en resumen lo dicho anteriormente. Figura 18. Superficie de los residuales entre F2 y Cd. Conjunto de entrenamiento 1 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 Conjunto 1 Conjunto 2 Conjunto 3 mediad dstd maxd Ei Hb Lp Cd Ei Hb Lp Cd Ei Hb Lp Cd Figura 19. Desempeño de los modelos como aproximadores de la función de prueba F3. 73 Capítulo V. Presentación y Análisis de los Resultados Tabla 14. Mejores aproximadores de la función de prueba F3 1 Mejores aproximadores Ei Hb Lp 2 Ei Lp 3 Ei Hb Lp Cd Conjunto Con respecto al desempeño como reproductores del óptimo, en la figura 20 se observa como en el conjunto 1 las mejores alternativas fueron para Lp y Ei, mostrando ambos un valor bastante alto para el estadístico distx (en el orden del 45% de la distancia total). En el conjunto 2 claramente se destacan Ei y Lp mostrando un mejor valor de distx (alrededor del 9%) y en el conjunto 3, la decisión de los mejores fue para Lp y Cd notándose una situación similar a la del conjunto 1, es decir, un estadístico distx superior al 40%. 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Conjunto 1 Conjunto 2 Conjunto 3 distx disty Ei Hb Lp Cd Ei Hb Lp Cd Ei Hb Lp Cd Figura 20. Desempeño de los modelos como reproductores del óptimo. Función de prueba F3. La tabla 15 presenta para la función de prueba F3, un resumen de los mejores modelos como aproximadores, como reproductores del óptimo y con ambas características. Contrario a lo ocurrido en las funciones de prueba F1 y F2, en esta función no es muy notable la presencia de Cd, mayor presencia tuvieron Lp y Ei. Al observar de nuevo la figura 19, con el fin de seleccionar el modelo sustituto de F3 entre el grupo de los mejores modelos, primero se descartan los del conjunto 3 (Ei y Lp) que son los que 74 Capítulo V. Presentación y Análisis de los Resultados muestran mayores desempeños, quedando solamente Lp y Cd de los conjuntos 1 y 2. Entre estos dos conjuntos, se visualiza Lp en el conjunto 2 con el desempeño mas favorable y en consecuencia se toma como el modelo sustituto de F3. En la tabla 16 se presentan los parámetros y los valores óptimos estimados para este modelo. Tabla 15. Mejores modelos para la función de prueba F3 Como reproductor del óptimo Mejores modelos con ambas características Mejores modelos Conjunto Como aproximador de la función 1 Ei Hb Lp Lp Ei Ei Lp 2 Ei Lp Ei Lp Ei Lp 3 Ei Hb Lp Cd Lp Cd Lp Cd Tabla 16. Parámetros y valores óptimos del modelo sustituto para la función de prueba F3 Conjunto Modelo sutituto 2 Lp h C 0.5833 56.5370 ε,μ x̂opt ŷ opt yˆ opt − y opt 0.00 .1914 .5700 .8141 -3.6827 0.1801 Igual que en los dos casos anteriores donde además de seleccionar un modelo sustituto de la función de prueba también fue posible encontrar un modelo similar, de la misma manera se presenta esta situación para la función F3. Al observar de nuevo la figura 19 y con la ayuda de la figura 20, se aprecia que otro modelo muy similar al modelo sustituto seleccionado es Ei perteneciente al mismo conjunto 2. La diferencia fundamental entre Ei y el modelo sustituto Lp sólo es apreciable en el valor de maxd, el cual está en el orden de 0.02 unidades y a favor de Lp, obviamente un valor que marca una gran diferencia entre los dos modelos y en consecuencia, resultan similares. 5.2 Caso datos reales Igual que el caso de datos artificiales, para cada conjunto de entrenamiento fueron obtenidos los cuatro modelos Ei, Hb,Lp y Cd. 75 Capítulo V. Presentación y Análisis de los Resultados 5.2.1 Datos ASP1 La figura 21 muestra el desempeño de los cuatro modelos obtenidos como aproximadores del modelo de simulación computacional. Puede visualizarse en la figura que las medidas de desempeño para este caso resultaron mas homogéneas que las observadas en las funciones de prueba. En el conjunto 1 se observan desempeños muy similares entre Ei, Lp y Cd. Considerando que Hb respecto a los otros modelos presenta en su contra una pequeña discrepancia en el valor de maxd ( aproximadamente1% del Poes), pero 0.5% a favor en el valor de mediad, es posible considerar también a Hb dentro del grupo de mejores modelos para el conjunto 1. Una situación similar entre Hb, Ei y Cd se presenta en el conjunto 2, donde Cd y Hb tienen en su contra respecto a Ei una diferencia del 1% y 0.5%, respectivamente, en el valor de maxd, de la misma manera, se decidió seleccionar entonces a ambos modelos en el conjunto 2. Por un razonamiento similar al anterior, para el conjunto 3 se seleccionaron los modelos Ei, Hb y Cd. La tabla 17 hace un resumen de los modelos seleccionados como mejores aproximadores del simulador computacional, pero a través de la figura 21, es posible apreciar que el modelo sustituto para ASP1 en base a todos los estadísticos de desempeño es Ei del conjunto 3, sin embargo, es posible también apreciar que existen otros modelos similares como son por ejemplo: Hb en el mismo conjunto 2, Cd del conjunto 3 y Ei en el conjunto 1, donde la diferencia entre ellos y en cualquiera de los estadísticos puede estar alrededor del 1% del Poes, por lo tanto, nuevamente se presenta una situación donde diferentes modelos producen ajustes similares. La tabla 18 muestra los parámetros y óptimos estimados por el modelo sustituto del simulador computacional. La tabla también muestra información sobre la respuesta del simulador en el punto x̂opt Tabla 17. Mejores aproximadores del modelo de simulación. Datos ASP1 1 Mejores aproximadores Ei Hb Lp Cd 2 Ei Hb Cd 3 Ei Hb Cd Conjunto 76 Capítulo V. Presentación y Análisis de los Resultados Tabla 18. Parámetros y valores óptimos del modelo sustituto del simulador computacional. Datos ASP1 Modelo sustituto h C ε x̂opt ŷ opt Simulador Ei 2.9999 17.227 0.06 .3057 .0050 .1200 325.9508 30.9131 29.49 Conjunto 1 14 12 10 8 6 4 2 0 Conjunto 2 Conjunto 3 mediad dstd maxd Ei Hb Lp Cd Ei Hb Lp Cd Ei Hb Lp Cd Figura 21. Desempeño de los modelos como aproximadores del modelo de simulación computacional. Datos ASP1 5.2.2 Datos ASP2 Al examinar la figura 22 se observa una situación similar a la encontrada con los datos ASP1 del caso anterior, en el sentido de que ajustes similares se pueden apreciar entre los conjuntos de datos, pero al comparar la figura 22 con la 21, se nota que en términos del estadístico mediad los modelos en ASP2 fueron ligeramente superiores. En el conjunto 1 los mas destacados como aproximadores del modelo de simulación fueron Ei, Lp y Cd, pero las diferencias entre los estadísticos dstd y maxd de estos modelos con respecto a los de Hb parecen estar en el orden de 0.5% y por tanto, es posible que tal diferencia sea poco significativa. La misma situación se presenta en el conjunto 2 donde Ei, Hb, y Lp son prácticamente iguales estando en desventaja con respecto a Cd solamente en el valor de maxd, desventaja que puede estimarse en menos del 1%, pero en ventaja respecto a Cd en el valor de mediad donde esa ventaja se estima por el orden 0.5%, en consecuencia, en este conjunto 2 cualquier modelo puede ser un modelo sustituto del 77 Capítulo V. Presentación y Análisis de los Resultados modelo computacional. En el conjunto 3 el mas evidente parece Ei, pero por las mismas razones anteriores pueden considerarse también H y Cd. La tabla 19 resume lo expuesto anteriormente sobre la figura 22. 14 12 10 8 6 4 2 0 Conjunto 1 Conjunto 2 Conjunto 3 mediad dstd maxd Ei Hb Lp Cd Ei Hb Lp Cd Ei Hb Lp Cd Figura 22. Desempeño de los modelos como aproximadores del modelo de simulación computacional. Datos ASP2 Tabla 19. Mejores aproximadores del modelo de simulación. Datos ASP2 1 Mejores aproximadores Ei Hb Lp Cd 2 Ei Hb Lp Cd 3 Ei Hb Cd Conjunto De todos los modelos mostrados en la figura 22, el mas evidente como modelo sustituto del simulador es Hb en el Conjunto 3, donde también es posible apreciar que existen otros modelos similares como son por ejemplo: Ei en el mismo conjunto 3 y Cd y Ei del conjunto 1. La tabla 20 muestra los parámetros y óptimos estimados por el modelo sustituto Hb, la tabla también muestra información sobre la respuesta del simulador en el punto x̂opt . Al comparar las respuestas estimadas x̂opt y ŷ opt por los modelos sustitutos Ei y Hb (tablas 18 y 20), se puede notar que éstas no difieren de manera significativa y en consecuencia, no 78 Capítulo V. Presentación y Análisis de los Resultados hubo diferencia en la respuesta de los modelos sustitutos debido a la diferencia de tamaño entre los conjuntos ASP1 y ASP2. Asimismo, no hubo diferencia en la respuesta del simulador al evaluar x̂opt , siendo esto otro indicio de que los modelos proporcionaron un ajuste satisfactorio. Tabla 20. Parámetros y valores óptimos del modelo sustituto del simulador computacional. Datos ASP2 Modelo sustituto h C μ x̂opt ŷ opt Simulador Hb 1.9259 1.0085 0.06 .3275 .0050 .1200 325.9508 30.6972 29.26 5.2.3 El gradiente Por último, es necesario mencionar que los óptimos estimados x̂ opt por los modelos sustitutos Ei y Hb (tablas 18 y 20) presentan en la segunda, tercera y cuarta variable valores en el borde de la región (ver tabla 6 del CAPÍTULO IV). Estas variables corresponden a las concentraciones de surfactante, polímero y al tiempo de inyección respectivamente. Es conveniente, entonces, determinar y evaluar el vector gradiente en esos puntos con el fin de obtener la dirección de la máxima producción acumulada de petróleo y estudiar la posibilidad de mover la región de diseño. La tabla 21 muestra los puntos x̂opt de los modelos Ei y Hb y el vector gradiente evaluado en esos puntos. Tabla 21. Gradiente de los modelos sustitutos del simulador computacional x̂opt ∇f ( xˆ opt ) ASP1 modelo Ei 0.3057 0.0050 0.1200 325.9508 0.0822 209.6820 137.1150 0.0100 ASP2 modelo Hb 0.3275 0.0050 0.1200 325.9508 0.1065 642.6266 134.3671 0.0114 Como el gradiente representa el máximo incremento de la respuesta, ante un pequeño incremento en cada variable ( Δy Δx ), en la tabla 22 se muestran los incrementos de la producción 79 Capítulo V. Presentación y Análisis de los Resultados acumulada de petróleo (como % del POES) producto de incrementar un 1% las variables con valores en el borde. En la tabla se observa que, el mayor incremento en el porcentaje de petróleo acumulado se obtendría al incrementar la concentración de polímero, específicamente, por cada incremento de 0.0012% de wt de polímero, se tiene un aumento del 0.16% del POES. Este resultado revela que para moverse rápidamente hacia el máximo, se recomienda ampliar la región de diseño en la dirección de la variable polímero. Tabla 22. Incrementos en la producción acumulada de petróleo producto de incrementar 1% en las variables con valores en el borde. Variables en el borde Valores del borde 1% de incremento Incremento en la respuesta ASP1 ASP2 Surfactante 0.005 0.00005 0.0105 0.0321 Polímero 0.12 0.0012 0.1646 0.1642 Tiempo de inyección 326 3.26 0.0326 0.0372 80 CAPITULO VI CONCLUSIONES 1. En el presente trabajo se comparó el desempeño de las funciones de pérdida ε – insensible, Huber, Laplace y Cuadrática, a través de los modelos de maquinas de vectores soporte para regresión que resultaron de utilizar aquellas funciones de pérdida. En la metodología propuesta, la constante de regularización y el ancho de la función de base radial fueron elegidos mediante el algoritmo de optimización global DIRECT. Se utilizaron conjuntos pequeños de datos para el entrenamiento y los resultados reflejaron que los modelos obtenidos fueron apropiados como modelos sustitutos de los modelos reales para todas las funciones de pérdida. 2. El modelo asociado a la función de pérdida cuadrática, siempre estuvo incluido entre los mejores para representar a las funciones de prueba F1 y F2. Resultó ser el mejor modelo sustituto de las funciones F1 y F2, pero muy similar al modelo proveniente de la función de pérdida ε – insensible en la función de prueba F1 y al modelo proveniente de la función de pérdida de Huber en la función F2. 3. Dentro de los modelos sustitutos de la función F3, se notó mayor participación de los modelos originados por las funciones ε – insensible y Laplace, siendo mejor el generado por la función de Laplace, pero muy similar al originado por la función de pérdida ε – insensible. 4. Con respecto a los modelos ASP1 y ASP2, sustitutos del simulador UTECHEM, resultaron ligeramente superiores los asociados a las funciones de pérdida ε – insensible y Huber, aunque los restantes tuvieron también un buen desempeño. 5. No se encontró diferencia, debido al desigual tamaño entre los dos conjuntos de datos ASP1 y ASP2, en las respuestas estimadas x̂opt y ŷ opt por los correspondientes modelos sustitutos. Capítulo VI. Conclusiones 6. La metodología utilizada en este trabajo para elegir de forma automática los parámetros de los modelos a través del algoritmo de optimización global DIRECT, resultó en un procedimiento eficiente, pero puede llegar a ser un procedimiento costoso desde el punto de vista computacional cuando el número de variables sea alto. 7. Los puntos óptimos estimados de la región de diseño del problema de ASP, presentaron en tres variables valores en el borde, la evaluación del vector gradiente en estos puntos señaló que, a fin de incrementar la producción acumulada de petróleo es necesario incrementar la concentración de polímero. 8. Los resultados encontrados en las diferentes funciones de prueba y para el caso del simulador computacional UTCHEM, no arrojan una notoria superioridad de una función de pérdida sobre las restantes. Siendo la función de pérdida cuadrática la función tradicional y cuestionada, los modelos originados por ésta no se mostraron en desventaja respecto a los otros, por el contrario, estuvieron presentes entre los mejores y compitiendo con los provenientes de las otras funciones de pérdida. Posiblemente esto se deba a la ausencia de ruido y de valores atípicos en los casos de estudio considerados. 82 REFERENCIAS BIBLIOGRÁFICAS 1. Zerpa, L. E., Queipo, N. y Pintos, S. (2004) An Optimization Methodology of Alkaline-Surfactant-Polymer Flooding Processes Using Field Scale Numerical Simulation and Multiple Surrogates. Ponencia presentada en: The 2004 SPE/DOE Fourteenth Symposium on Improved Oil recovery Held, Oklahoma, U.S.A. 17-21 April 2004. 2. Queipo, N., Goicochea, J. y Pintos, S. (2001) Surrogate Modeling-Based Optimization of SAGD Processes. Journal of Petroleum Science and Engineering, Vol. 35 (1-2), 8393. 3. Vapnik, V., Golowich S. and Smola A. (1997) Support Vector Method for Function Approximation, Regression Estimation and Signal Processing. In M. Mozer, M.Jordan and T. Petsche, editors, Advances in Neural Information Processing systems 9, Pages 281-287, Cambridge, MA, MTT Press. 4. Jones, D. R., Perttunen, C. D. and Stuckman B. E. (1993) Lipschitzian optimization without the Lipschitz Constant. Journal of Optimization Theory applications, Vol. 79 (1), 157-181 5. Bishop, C. M. (1999) Neural Networks for Pattern Recognition. United States Oxford University Press Inc, New York . 6. LS-SVMlab 1.5 (2003) Matlab/C toolbox for Least Squares Suppor Vector Machines. Disponible en http://www.kernel-machines.org 7. Gunn, S. R. (1998) Support Vector Machines for Classification and regression. Technical Report, University of Southampton, Faculty of Engineering and Applied Science, Department of Electronics and Computer Science. Disponible en http://www.kernel-machines.org 8. Zerpa, L. (2004) Multiples Modelos Sustitutos para la Optimización de Procesos de Recuperación Mejorada de Petroleo por Inyección de Alcali, Surfactante y Polimero. Trabajo de Grado. División de Postgrado. Programa de Computación Aplicada. Facultad de Ingeniería . Universidad del Zulia: Maracaibo. Venezuela. 9. Colmenares Dias, J. A. (2001) Desarrollo de un Algoritmo Eficiente de Optimización Global Bayesiana y su Integración a un Ambiente de Procesamiento Distribuido. Trabajo de Grado. Facultad de Ingeniería Division de Postgrado, Programa de Computación Aplicada. Universidad del Zulia, Maracaibo Venezuela. 10. Jin, R., Chen W., y Simpson, T.W. (2000) Comparative Studies of Metamodeling Techniques Under multiple Modeling Criterio. American Institute of Aeronautics and Astronautics. Vol. 48 (1), 1-13 11. UTCHEM-9.0 A Three-Dimensional Chemical flood Simulador, Vol.1 and 2, Reservoir Engineering Research Program, Center for Petroleum and Geosystems Engineering, The University of Texas at Austin, July 2000. 12. Schölkopf, B. and Smola, A. (2004) Learning With Kernels Support Vector Machines, Regularization, Optimization and Beyond. Muestras libres en http://www.kernelmachines.org 13. Schölkopf, B. and Smola, A. (1998) A Tutorial on Support Vector Regression. NeuroCOLT” Technical Report Series NC-TR-1998-030. Disponible en http://www.kernel-machines.org 14. Smola, A. (1996) Regression Estimation With Support Vector Learning Machines. Version 1.01. Disponible en http://www.kernel-machines.org 15. Burges, C. (1998) A Tutorial on Support Vector Machines for Pattern recognition. Data Mining and Knowledge Discovery 2,121-167. Disponible en: http://www.kernelmachines.org 84