C - inicio - Universidad del Zulia

Transcripción

REPÚBLICA BOLIVARIANA DE VENEZUELA
UNIVERSIDAD DEL ZULIA
FACULTAD DE INGENIERÍA
DIVISIÓN DE POSTGRADO
PROGRAMA DE POSTGRADO EN MATEMÁTICA APLICADA
EVALUACIÓN DE FUNCIONES DE PÉRDIDA EN LA
CONSTRUCCIÓN DE MODELOS SUSTITUTOS
Trabajo de Grado presentado ante la Ilustre Universidad del Zulia para
optar al Grado Académico de:
MAGÍSTER SCIENTIARIUM EN MATEMÁTICA APLICADA
Autor:
Tutor:
Maracaibo, Marzo de 2.005
Egar E. Sánchez C.
Salvador Pintos
Sánchez Camarillo, Egar Enrique. Evaluación de Funciones de Pérdida en la Construcción de
Modelos Sustitutos. Trabajo de Grado. Universidad del Zulia Facultad de Ingeniería. División
de Postgrado. Venezuela. Maracaibo, 2005.
RESUMEN
Los modelos de simulación computacional constituyen una herramienta muy útil en el análisis
y diseño de procesos complejos en la ingeniería. Sin embargo, debido a su complejidad, a
menudo tienen un alto costo computacional y es necesario construir modelos sustitutos de
aquellos a partir de un número pequeño de corridas del simulador. Diversos modelos tales
como regresión polinomial, redes neuronales y funciones de base radial han sido usados con
éxito en diferentes áreas de aplicación. Todos ellos tienen en común que la estimación de sus
parámetros se basa en minimizar una función de pérdida cuadrática. Sin embargo, esta
función de pérdida es sensible a valores atípicos y puede inducir modelos no robustos.
Recientemente se han desarrollado las máquinas de vectores soporte para regresión
(Regression SVM), que ofrecen la posibilidad de utilizar distintas funciones de pérdida y
encontrar para un mismo problema, diferentes modelos con la misma estructura. En este
trabajo se comparan las funciones de pérdida ε – insensible, Huber, Laplace y Cuadrática en
la construcción de modelos sustitutos con datos escasos, utilizando para ello diversos
problemas de prueba y datos reales provenientes de un modelo de simulación computacional,
de un proceso complejo de optimización para la recuperación mejorada de petróleo por
inyección de álcali, surfactantes y polímero (ASP). Los resultados indican que todas las
funciones de pérdida originan modelos apropiados, ya sea como aproximadores de funciones
o como reproductores de las condiciones óptimas, y que no existe supremacía de una función
de pérdida en particular sobre las restantes.
Palabras clave: Modelos Sustitutos, Función de Perdida, Alto Costo Computacional y
Máquinas de Vectores Soporte.
e-mail [email protected]
Sánchez Camarillo, Egar Enrique. Loss functions evaluation in building surrogates models.
Master Thesis. University of Zulia. Engineering College. Post Graduated Division.
Venezuela. Maracaibo, 2005.
ABSTRACT
Computing simulation models are a useful tool in the design and analysis of complex
processes in Engineering. Nevertheless, due to its complexity, most often have high
computational costs. Therefore, it is necessary to build surrogates models from a small
number of runs from a simulator. Several models, such as polynomial regression, neuronal
networks and radial base functions, have been used successfully in different areas of
application. All of then have in common the feature that parameter estimation is based upon
minimizing a quadratic loss function. However, this loss function is sensible to extreme
values and can induce no robust models. Recently, support vector machines have been
developed for regression (Regression SVM) which enables the utilization of several loss
functions and to find for the same problem, different models with the same structure. In this
research, the ε–insensitive, Huber, Laplace y quadratic loss functions are compared in
building surrogated models with few data, by using several test problems and real data from a
computational simulation model, from a complex optimization problem for improved oil
recuperation by alkali injection, surfactant and polymers (ASP). Results, suggest that all loss
functions generates appropriated models, either by approximating functions or by reproducing
the optimal conditions. Moreover, non particular loss function overcomes the others.
Key words: Surrogates models, Loss functions, Computational cost and Support Vector
Machines.
e-mail [email protected]
DEDICATORIA
Este trabajo se lo dedico a mi hija, Patricia de los Ángeles Sánchez Portillo y mi difunto
padre Eduardo Emiro Sánchez.
AGRADECIMIENTO
Deseo expresar mi sincero agradecimiento, por su asesoramiento en la investigación,
dedicación, atención y amistad, al profesor Salvador Pintos. Extiendo este agradecimiento al
profesor Nestor Queipo por sus precisas observaciones durante la realización de este trabajo,
al Profesor Juan Colmenares por recibirme en el ICA, al profesor Luis Zerpa por su
colaboración en las corridas con el simulador, al profesor Carlos Vinante por su apoyo y en
general, al Instituto de Calculo Aplicado ICA.
TABLA DE CONTENIDO
Página
LISTA DE TABLAS
LISTA DE FIGURAS
NOMENCLATURA
CAPÍTULO I INTRODUCCIÓN………………………………………………………...
15
CAPÍTULO II MARCO TEÓRICO……………………………………………………...
18
2.1 Modelos sustitutos…………………………………………………………………….
18
2.2 Simulación computacional del proceso de recuperación mejorada de petróleo……...
20
2.3 El algoritmo de optimización DIRECT………………………………………………
21
2.4 Función de pérdida……………………………………………………………………
22
2.4.1 La función de pérdida cuadrática………………………………………………..
23
2.4.2 la función de pérdida de Laplace………………………………………………..
24
2.4.3 La función de pérdida de Huber…………………………………………………
25
2.4.4 La función de pérdida ε – insensible…………………………………………….
25
2.5 El problema de aprendizaje supervisado……………………………………………...
26
2.5.1 Regularización…………………………………………………………………..
28
2.6 Funciones de pérdida y regularización………………………………………………..
31
2.6.1 Máquinas de vectores soporte para regresión. Caso lineal……………………...
31
2.6.2 Máquinas de vectores soporte para regresión. Caso no lineal…………………..
36
2.6.2.1 Formulación matricial……………………………………………………...
40
2.7 Forma general de las máquinas de vectores soporte para regresión………………….
42
2.8 Resumen………………………………………………………………………………
48
CAPÍTULO III METODOLOGÍA……………………………………………………….
50
3.1 Metodología. Caso datos artificiales………………………………………………….
51
3.2 Metodología. Caso datos reales………………………………………………………
56
3.2.1 El gradiente de los modelos sustitutos…………………………………………..
57
CAPÍTULO IV CASOS DE ESTUDIO…………………………………………………..
60
4.1 Funciones de prueba………………………………………………………………….
60
4.1.1 Conjuntos de entrenamiento……………………………………………………...
62
4.2 El modelo de simulación……………………………………………………………...
63
4.2.1 Conjuntos de entrenamiento……………………………………………………...
64
CAPÍTULO V PRESENTACIÓN Y ANÁLISIS DE LOS RESULTADOS…………….
65
5.1 Caso datos artificiales………………………………………………………………...
65
5.1.1 Función de prueba F1……………………………………………………………
66
5.1.2 Función de prueba F2……………………………………………………………
69
5.1.3 Función de prueba F3…………………………………………………………...
72
5.2 Caso datos reales……………………………………………………………………...
75
5.2.1 Datos ASP1……………………………………………………………………...
76
5.2.2 Datos ASP2……………………………………………………………………...
77
5.2.3 El gradiente……………………………………………………………………...
79
CAPÍTULO V I CONCLUSIONES……………………………………………………...
81
REFERENCIAS BIBLIOGRÁFICAS…………………………………………………….
83
ANEXOS…………………………………………………………………………………..
85
Anexo 1 Versión modificada del método SVM para regresión. Código en MATLAB…..
85
Anexo 2 Gradiente del modelo estimado en el punto tstX. Código en MATLAB……….
87
LISTA DE FIGURAS
Figura
Página
1
Cinco puntos de muestreo utilizando un diseño en Hipercubo Latino…………..
20
2
Funciones de pérdida mas utilizadas en regresión ………………………………
26
3
Presentación simultanea de las diferentes funciones de pérdida. ε = μ = 0.5……
27
4
Ilustración del problema del sobre entrenamiento……………………………….
29
5
Ilustración esquemática de la aproximación dada por una función f(x) con
λ = ∞ en el funcional de riesgo regularizado……………………........................
30
6
Error de predicción en la función de pérdida ε – insensible……………………..
32
7
Ilustración esquemática de la transformación del espacio de entrada al espacio
característico……………………………………………………………………..
37
8
Secuencia de pasos en la metodología utilizada…………………………………
52
9
Ilustración del valor disty para el caso de datos reales…………………………..
58
10
Gráfica de la función de prueba F1………………………………………………
61
11
Gráfica de la función de prueba F2………………………………………………
62
12
Desempeño de los modelos como aproximadores de la función de prueba
F1…………………………………………………………………………….......
13
66
Desempeño de los modelos como reproductores del óptimo. Función de prueba
F1………………………………………………………………………………...
67
14
Diagrama de contornos de la función de prueba F1………………………….......
67
15
Superficie de los residuales entre F1 y Cd. Conjunto de entrenamiento 1………
70
16
F2…………………………………………………………………………….......
17
70
F2………………………………………………………………………………...
71
18
Superficie de los residuales entre F2 y Cd. Conjunto de entrenamiento 1..…......
73
19
F3…………………………………………………………………………….......
20
73
F3………………………………………………………………………………...
74
21
Desempeño de los modelos como aproximadores del modelo de simulación
computacional. Datos ASP1……………………………………………………..
22
77
Desempeño de los modelos como aproximadores del modelo de simulación
computacional. Datos ASP2…………………………………………………......
78
LISTA DE TABLAS
Tabla
Página
1
Diferentes tipos de funciones núcleo………………………………………..
2
Medidas de desempeño (SL) para la función f(x) según el tipo de máquina
de aprendizaje……………………………………………………………….
3
40
54
Valores de precisión utilizados en las funciones de pérdida ε – insensible y
Huber………………………………………………………………………..
55
4
Algunas características de las funciones de prueba…………………………
61
5
Resumen del caso de estudio en las funciones de prueba y modelos
obtenidos en los conjuntos de entrenamiento……………………………….
6
Dominio de las variables de diseño en el problema de optimización para la
recuperación de petróleo por inyección de químicos ASP………………….
7
63
64
Resumen del caso de estudio para el simulador computacional y modelos
obtenidos en los conjuntos de entrenamiento……………………………….
64
8
Mejores aproximadores de la función de prueba F1………………………..
66
9
Mejores modelos para la función de prueba F1……………………………
68
10
Parámetros y valores óptimos del modelo sustituto para la función de
prueba F1……………………………………………………………………
69
11
71
12
Mejores modelos para la función de prueba F2…………………………….
71
13
prueba F2……………………………………………………………………
72
14
74
15
Mejores modelos para la función de prueba F3…………………………….
75
16
prueba F3……………………………………………………………………
75
17
Mejores aproximadores del modelo de simulación. Datos ASP1.................
76
18
Parámetros y valores óptimos del modelo sustituto del simulador
19
computacional. Datos ASP1………………………………………………...
77
Mejores aproximadores del modelo de simulación. Datos ASP2…………..
78
20
Parámetros y valores óptimos del modelo sustituto del simulador
computacional. Datos ASP2………………………………………………...
79
21
Gradiente de los modelos sustitutos del simulador computacional…………
79
22
Incrementos en la producción acumulada de petróleo producto de
incrementar un 1% en las variables con valores en el borde………………..
80
NOMENCLATURA
x
Vector de entradas en el espacio original
yi
Respuesta del sistema debido a una entrada xi
ŷ i
Respuesta estimada por f ( xi )
y opt
Respuesta óptima del sistema debido a la entrada xopt
ŷ opt
Respuesta estimada por f ( xˆ opt )
X
Dominio del espacio de entrada
ℜ
Conjunto de los números reales
d
Dimensión del espacio de entrada
yi ,t
Respuesta del sistema debido a una entrada xi transformada al espacio [− 1 1]d
yˆ i ,t
Respuesta estimada debido a una entrada xi transformada al espacio [− 1 1]d
Y
Rango de la variable respuesta
N
Conjunto de números naturales N = {1,2,...}
L(⋅)
e
p (⋅)
Función de pérdida
Ruido gaussiano
Densidad de probabilidad
ε
Parámetro de la función ε - insensible
µ
Parámetro de la función de Huber
X
Conjunto de entrenamiento
l
Tamaño del conjunto de entrenamiento
S
Espacio de funciones
w
Vector de pesos
λ
Constante de regularización
C
Constante de regularización en maquinas de vectores soporte
ξ ,ξ *
h
α ,α *
⋅
Pérdida o variables de relajación
Parámetro de la función de base radial
Multiplicadores de Lagrange
Producto escalar
Lg
Función de Lagrange
F
Espacio característico
x
Vector de entrada en el espacio característico
φ
Función para x → x
k (⋅)
ζ (ξ )
Función núcleo
Forma genérica de la función de pérdida
Ei
Modelo generado utilizando la función de pérdida ε – insensible
Hb
Modelo generado utilizando la función de pérdida de Huber
Lp
Modelo generado utilizando la función de pérdida de Laplace
Cd
Modelo generado utilizando la función de pérdida Cuadrática
CAPÍTULO I
INTRODUCCIÓN
Los modelos de simulación computacional constituyen una herramienta muy útil en el análisis
de diversos procesos complejos y en la solución de problemas de diseño en la ingeniería. Sin
embargo, debido a la complejidad de estos procesos, generalmente los modelos de simulación
son altamente costosos desde el punto de vista computacional y, en consecuencia, su utilización
en el análisis y optimización del proceso se ve muy limitada.
Como alternativa a este problema, se ha propuesto disminuir significativamente el número de
corridas del simulador y a partir de los pocos datos generados, aplicar técnicas de aproximación
de funciones para construir modelos sustitutos del modelo de simulación original. Estos modelos
sustitutos representan una mayor simplificación de la relación entrada–salida del sistema, resultan
económicos desde el punto de vista computacional, facilitan el análisis del proceso, la
exploración del espacio de diseño y la optimización.
Modelos sustitutos de estructura muy diversa han sido usados eficientemente en el análisis y
diseño óptimo de procesos complejos en ingeniería. En el área de optimización de procesos de
recuperación mejorada de petróleo, por ejemplo, en un estudio reciente, Zerpa y col [1] proponen
la utilización integrada de múltiples modelos (regresión polinomial, funciones de base radial,
kriging) en un modelo adaptativo para sustituir al simulador computacional UTCHEM, el cual es
uno de los simuladores más reconocidos del proceso de recuperación mejorada de petróleo por
inyección de químicos. Otra reciente aplicación relacionada con la simulación numérica
computacionalmente costosa, es la de Queipo y col [2], en la cual utilizan un modelo sustituto
compuesto por la suma de una red neuronal y un modelo DACE para la optimización de procesos
de recuperación mejorada de petróleo por SAGD (Drenaje Gravitacional Asistido por Vapor).
Tradicionalmente, en el proceso de aprendizaje de estos modelos sustitutos, se ha utilizado la
función de pérdida cuadrática y se han obtenido buenos resultados en diferentes áreas de
aplicación, pero existen dos aspectos que permiten anticipar que, en algunas situaciones, el uso
Capítulo I Introducción
de la función de pérdida cuadrática no es lo más adecuado. El primer aspecto se refiere a que el
uso de la función de pérdida cuadrática es idóneo cuando las variables observadas tienen una
componente de ruido aditivo gaussiano, pero esta hipótesis no es necesariamente válida para
todos los procesos. El otro aspecto es el hecho, bien conocido, de que la función de pérdida
cuadrática es muy sensible a la presencia de valores extremos y que esto tiene una gran influencia
en el ajuste del modelo. Esta sensibilidad a valores considerados extremos y la limitada cantidad
de datos con que se deben construir los modelos sustitutos, pueden tener como resultado modelos
poco robustos.
En los últimos años Vapnik y col [3] desarrollaron un nuevo método para resolver problemas
de aproximación de funciones basado en la teoría clásica de regularización, utilizando otras
funciones de pérdida y espacios generados por funciones núcleo. Este método, llamado máquinas
de vectores soporte (SVM) para regresión, además de la función de pérdida cuadrática, también
ofrece la posibilidad de utilizar las funciones de pérdida ε – insensible, Huber y Laplace. Por la
posibilidad de usar diversas funciones de pérdida y encontrar para un mismo problema diferentes
modelos sustitutos con la misma estructura y con el mismo algoritmo de entrenamiento y por su
flexibilidad para describir modelos complejos no lineales, las SVM para regresión abren nuevas
oportunidades y alternativas en la construcción de modelos sustitutos. Es por ello que hoy se
realizan grandes esfuerzos en evaluar las distintas funciones núcleo y las funciones de pérdida.
El propósito del presente trabajo es evaluar y comparar las funciones de pérdida ε – insensible,
Huber, Laplace y Cuadrática en la construcción de modelos sustitutos con datos escasos,
utilizando para ello diversos problemas de prueba y datos reales provenientes de un modelo de
simulación computacional de un proceso complejo de optimización para la recuperación
mejorada de petróleo por inyección de álcali, surfactantes y polímeros (ASP). La comparación de
las funciones de pérdida se realizará observando el desempeño relativo de los modelos asociados
a aquéllas, ya sea como aproximadores de funciones o como reproductores de las condiciones
óptimas.
El presente trabajo está estructurado de la siguiente manera: el Capítulo II presenta los
diferentes aspectos teóricos que son necesarios para la mejor comprensión del trabajo. El
16
Capítulo I Introducción
Capítulo III muestra la secuencia de pasos para cumplir con los objetivos del presente trabajo. En
el Capítulo IV se describen los casos de estudio donde se desarrolla la metodología propuesta. En
el Capítulo V se presentan y discuten los resultados obtenidos y, por último, el Capítulo VI
contiene las Conclusiones.
17
CAPÍTULO II
MARCO TEÓRICO
Este capítulo tiene por finalidad, presentar algunos aspectos teóricos que han motivado la
perspectiva del presente trabajo y que son necesarios para la mejor comprensión del mismo.
Como primeros aspectos se plantean: la necesidad de los modelos sustitutos como alternativa a
los modelos de simulación computacional, la simulación computacional del proceso de
recuperación mejorada de petróleo y el algoritmo de optimización DIRECT. Después se define la
función de pérdida y se presentan las cuatro funciones de pérdida mas utilizadas en regresión. Se
define el problema de aprendizaje supervisado, para el cual es necesario definir la función de
pérdida y aplicar la técnica de regularización para evitar el sobre ajuste. Posteriormente, se
plantea en la técnica de regularización la utilización de otras funciones de pérdida diferentes a la
función cuadrática, caso que corresponde al método conocido como: máquinas de vectores
soporte (SVM) para regresión, y luego, se presenta la formulación general de este método en
forma matricial. Finalmente se presenta un resumen del problema de regresión basado en las
máquinas de aprendizaje de vectores soporte.
2.1 Modelos sustitutos
Los modelos de simulación computacional, son una de las herramientas mas importantes y
útiles para el diseño y análisis de procesos altamente complejos. A pesar del continuo crecimiento
de la capacidad y velocidad del computador, los modelos desarrollados en muchos diseños de
ingeniería tienen un elevado costo computacional y como consecuencia de esto, resultan poco
prácticos y su utilización en el análisis y optimización del proceso se ve muy limitada.
Como alternativa a este problema, se ha propuesto evitar la excesiva utilización de estos
modelos costosos de simulación disminuyendo significativamente el número de corridas del
simulador y a partir de los pocos datos así generados, aplicar técnicas de aproximación de
funciones para construir modelos sustitutos del modelo de simulación original. Estos modelos
sustitutos representan una mayor simplificación de la relación entrada – salida del sistema, pero
Capítulo II Marco Teórico
resultan económicos desde el punto de vista computacional, facilitan el análisis del proceso, la
exploración del espacio de diseño y la optimización.
La construcción de modelos sustitutos requiere considerar dos aspectos: a) la selección de un
diseño experimental para muestrear la región de interés y
b) la construcción de modelos
aproximados basados en los datos provenientes del muestreo y la respuesta del simulador en estos
puntos.
En relación al punto a) el diseño del experimento tiene como propósito fundamental,
muestrear eficientemente el espacio de diseño usando pocos puntos. Un experimento
adecuadamente diseñado es indispensable para la mínima utilización del modelo de simulación.
En los experimentos que utilizan simulaciones con el computador, el muestreo utilizando un
Hipercubo Latino es uno de los métodos mas populares. Las razones de esta popularidad se deben
a que posee menor error estándar que otros métodos de muestreo y ofrece la flexibilidad de fijar
el numero de puntos de muestreo según las limitaciones del experimento, manteniendo una
distribución uniforme de los puntos en todo el espacio de diseño.
En un muestreo utilizando un diseño en Hipercubo Latino, el rango de cada variable es
dividido en p intervalos iguales. Para d variables de diseño esta partición produce un total de p d
hipercubos en el espacio de las variables. Seguidamente, p puntos son seleccionados
aleatoriamente con la siguiente característica: cada punto es aleatoriamente colocado dentro de un
hipercubo de manera que toda proyección unidimensional de los p hipercubos, contenga uno y
sólo un punto. La figura 1 muestra un ejemplo en dos dimensiones, para p = 5 hay cinco
particiones iguales en x1 y x2 , en este caso, esto da un total de 25 cuadrículas de las cuales 5
serán seleccionadas aleatoriamente, que de acuerdo al criterio descrito arriba, sólo una cuadrícula
podrá ser seleccionada en cada fila y en cada columna de manera que en la proyección sobre cada
eje, exista un punto en cada cuadrícula. Hay más de un arreglo posible de puntos en las
cuadrículas que cumplen con la condición del diseño en Hipercubo Latino, además no hay
restricciones sobre el número de casillas y el rango de cada variable.
19
•
•
X2
•
•
•
X1
Figura 1. Cinco puntos de muestreo utilizando un diseño en Hipercubo Latino
Con respecto al punto b) existe una gran variedad de técnicas y modelos de aproximación para
la construcción de modelos sustitutos en experimentos que provienen de códigos de simulación.
Los métodos tradicionales lo constituyen las superficies de respuesta utilizando modelos
polinomiales de segundo orden los cuales han demostrado tener limitada capacidad para modelar
funciones de forma arbitraria. Otros modelos bien conocidos son las redes neuronales, regresión
spline multivariada, funciones de base radial e interpolación utilizando modelos kriging. En los
últimos años se ha desarrollado un nuevo método para resolver problemas de aproximación de
funciones basado en la teoría clásica de regularización, en funciones núcleo y en otras funciones
de pérdida diferentes a la tradicional función de pérdida cuadrática. En un contexto general, este
método es llamado máquinas de aprendizaje basadas en núcleos, donde las máquinas de vectores
soporte (SVM) para regresión son un caso particular, y son capaces de detectar diferentes tipos de
relaciones (regresión, clasificación, correlación, componentes principales), abriendo nuevas
oportunidades y alternativas para la construcción de modelos sustitutos.
2.2 Simulación computacional del proceso de recuperación mejorada de petróleo
Zerpa y col [1] mencionan que después de aplicar el método convencional de recuperación
secundaria de petróleo por inyección de agua, el volumen de petróleo que aún permanece
atrapado en el interior del yacimiento es alto y puede estar en el orden del 70% del petróleo
original en sitio (POES). Para recuperar esta cantidad considerable de petróleo, se utilizan
métodos orientados a contrarrestar los fenómenos responsables del entrampamiento del crudo.
20
Estos métodos son conocidos como métodos de recuperación mejorada de petróleo, los cuales
consisten en inyectar al yacimiento algunos químicos tales como: álcali, surfactante y polímero
(ASP).
El proceso de inyección de ASP se debe realizar de manera que se obtenga el mejor uso y
resultado de las propiedades individuales de estos aditivos químicos para maximizar el recobro de
petróleo. El problema es entonces, un problema de optimización de la etapa de inyección de la
solución de ASP cuyo objetivo es encontrar las concentraciones adecuadas de ASP y el tiempo de
inyección de estos químicos, que maximicen la producción de petróleo. Precisamente, se desea
max
sujeto a
f ( x)
(1)
x ∈ X ⊆ ℜd
Donde f (x) es la producción acumulada de petróleo, x representa las d variables de diseño
(concentraciones de ASP y el tiempo de inyección) y X la región factible.
La simulación del proceso de inyección de ASP, es considerado uno de los aspectos más
importantes del método de recuperación mejorada de petróleo y es un paso previo e indispensable
para la aplicación de este proceso a nivel de campo. Para este propósito se han desarrollado
simuladores altamente complejos que se basan en resolver el conjunto de ecuaciones que
gobiernan y describen todo este proceso químico. Estos simuladores tienen un alto costo
computacional y como consecuencia, su utilización en la solución del problema de optimización
planteado en (1) se ve muy limitada porque resulta poco práctico considerar al simulador como
función objetivo, por lo tanto, el problema a resolver es la construcción de modelos sustitutos que
faciliten y agilicen el problema de encontrar las concentraciones óptimas de ASP.
2.3 El algoritmo de optimización global DIRECT
Este algoritmo fue desarrollado por Jones y col [4] para encontrar el mínimo global en
problemas como el dado en (1). Es un algoritmo determinístico y es una modificación del
enfoque Lipschitziano, que elimina el problema de especificar la constante de Lipschitz.
21
Su nombre se deriva de la estrategia de búsqueda utilizada, que consiste en la división de
rectángulos. En términos generales, el algoritmo realiza primero un proceso de búsqueda global y
después local, la búsqueda global asegura que el espacio factible sea todo cubierto y la búsqueda
local es realizada en el área de la mejor solución. Una descripción general del algoritmo DIRECT
se presenta a continuación:
1. Se trasforma el espacio de búsqueda en un hipercubo unitario de dimensión d
2. Este espacio es luego dividido estratégicamente en hiper-rectángulos donde cada uno es
evaluado en su centro.
3. Mediante una cota mínima se identifican los hiper-rectángulos potencialmente óptimos.
4. Se profundiza la búsqueda en aquellos hiper-rectángulos potencialmente óptimos,
dividiendo nuevamente como en el paso 2 y aplicando otra vez el paso 3.
5. El algoritmo termina cuando se ha alcanzado el número máximo de iteraciones, u otro
criterio de parada, en caso contrario se va al paso 2.
2.4 Función de pérdida
Es una función utilizada para evaluar la calidad de la respuesta producida por una función
f (x) obtenida a partir de un conjunto de datos. Es denotada por L( x, y, f ( x)) ∈ X × Y × Y ,
X ⊆ ℜ d y Y ⊆ ℜ , donde y es la respuesta del sistema a una entrada x y f (x) es una predicción
del modelo que relaciona a x e y. La función de pérdida L es una función no negativa e igual cero
cuando la predicción es exacta, por lo tanto, L : X × Y × Y → [0, ∞) .
En regresión, la función de pérdida mide de alguna manera la discrepancia entre la respuesta
y del sistema a una entrada x , y la respuesta producida por f (x) . Esta discrepancia es llamada el
error de predicción, está dada por la diferencia ( f ( x) − y ) y la función de pérdida penaliza esta
diferencia que corresponde con predicciones incorrectas.
Por razones de eficiencia en el proceso de aprendizaje, implementación del proceso con el
computador y de sencillez, la función de pérdida debe poseer las siguientes características: a) con
el fin de garantizar que el problema de optimización tenga solución única debe ser una función
22
convexa b) resistente a valores extremos c) simétrica y d) de bajo costo computacional.
En regresión, las funciones de pérdida mas utilizadas son: La función de pérdida Cuadrática,
la función de pérdida de Laplace, la de Huber y la ε – insensible.
2.4.1 La función de pérdida cuadrática
Está dada por:
L( x, y, f ( x)) = ( f ( x) − y ) 2
(2)
Es la función de pérdida tradicionalmente utilizada en los procesos de aprendizajes clásicos,
donde se busca minimizar la suma del cuadrado del error de predicción, bien conocida como
SCE. Bishop [5] señala que SCE tiene su origen en los problemas tradicionales de regresión cuya
meta es modelar la distribución condicional de la variable respuesta al hacer el supuesto de que
esta variable respuesta, se puede representar por una función determinística más ruido gaussiano
con media cero y desviación estándar σ, de esta manera
y i = f ( xi ) + ei
(3)
Donde la distribución de la variable ei está dada por:
p ( ei ) =
1
(2πσ 2 )
1
2
⎛ e ⎞
exp⎜ − i 2 ⎟
⎝ 2σ ⎠
(4)
y como consecuencia, la distribución de probabilidad de la variable respuesta y es
p ( y i / xi ) =
1
(2πσ 2 )
1
2
⎛ ( f ( xi ) − y i ) 2
exp⎜⎜
2σ 2
⎝
⎞
⎟
⎟
⎠
(5)
23
A partir de la expresión anterior, asumiendo que los diferentes valores de la variable respuesta
son independientes, para una muestra de tamaño l la función de verosimilitud es
l
p ( y / x ) = ∏ p ( y i / xi ) =
i =1
1
(2πσ )
2
l
2
⎛
1
exp⎜⎜ −
2
⎝ 2σ
l
⎞
i =1
⎠
∑ ( f ( xi ) − yi ) 2 ⎟⎟
(6)
Haciendo SCE = − ln( p( y / x))
SCE =
l
l
1
ln(2π ) + ln(σ 2 ) +
2
2
2σ 2
l
∑ ( f ( xi ) − y i ) 2
(7)
i =1
Maximizar la función de verosimilitud dada en (6) es equivalente a minimizar (7). Omitiendo
en (7) los términos
1
1
ln(2π ), ln(σ 2 ) y
, se obtiene la expresión para SCE llamada también
2
2σ 2
función de pérdida L2 , es decir
l
SCE = ∑ ( f ( x) − y ) 2 = f ( x) − y
2
(8)
i =1
2.4.2 La función de pérdida de Laplace
La función de pérdida de Laplace propone cambiar los errores cuadráticos por errores en valor
absoluto, en este sentido la penalización a grandes y pequeños errores es lineal. Esta función es
llamada también función de pérdida L1 y está dada por
L( x, y, f ( x)) = f ( x) − y
(9)
La función de pérdida de Laplace pertenece al campo de la regresión robusta, el cual está
constituido por métodos que son modificaciones de los mínimos cuadrados y surgieron como una
alternativa al problema de ajustar modelos resistentes a la presencia de valores extremos.
24
2.4.3 La función de pérdida de Huber
Igual que la función de pérdida Laplaciana, esta función también pertenece al campo de la
estadística robusta. Fue propuesta por Huber en 1973 y es una combinación de las funciones de
pérdida L1 y L2 . La idea se basa en que errores de predicción pequeños se penalizan con una
fracción de la función cuadrática y errores grandes de manera lineal. Específicamente, la función
está dada por:
⎧ 1
( f ( x) − y ) 2 para f ( x) − y ≤ μ
⎪⎪ 2μ
L( x, y, f ( x)) = ⎨
μ
⎪
(
)
f
x
−
y
−
en otro caso
⎪⎩
2
(10)
donde μ es un valor que debe ser fijado por el usuario
2.4.4 La función de pérdida ε – insensible
Fue propuesta por Vapnik en 1995 y es similar a la función robusta de Huber en el sentido de
que considera zonas diferentes de penalización según los errores sean pequeños o grandes. Se
diferencia de la función de Huber en que no penaliza errores que sean menores que un valor ε y
los castiga linealmente si son mayores. La función de pérdida de Vapnik define un tubo de radio
ε alrededor de f (x) , de manera que si el valor de predicción está dentro del tubo, la pérdida es
considerada igual a cero. Para los puntos fuera del tubo, la pérdida es igual a la magnitud de la
diferencia entre el error de predicción y el radio ε. La función ε - insensible está dada por
⎧ 0 para
L( x, y, f ( x)) = ⎨
⎩ f ( x) − y − ε
f ( x) − y ≤ ε
en otro caso
(11)
donde ε debe especificarse a priori, si ε = 0 la función conduce a la función de pérdida de
Laplace.
25
La figura 2 muestra por separado las cuatro funciones de pérdida mencionadas y la figura 3
muestra estas funciones de manera simultánea. Las gráficas fueron construidas en la escala de -3
a 3 y tomando μ = ε = 0.5.
CUADRATICA
LAPLACE
10
3
8
2.5
2
6
1.5
4
1
2
0
-3
0.5
-2
-1
0
1
2
3
0
-3
-2
-1
HUBER
0
1
2
3
2
3
e-INSENSIBLE
2
3
2.5
1.5
2
1
1.5
1
0.5
0.5
0
-3
-2
-1
0
1
2
3
0
-3
-2
-1
0
1
Figura 2. Funciones de pérdida mas utilizadas en regresión
2.5 El problema de aprendizaje supervisado
Sea L( x, y, f ( x)) una función de pérdida que mide el error de predecir una respuesta y con el
modelo
f(x)
y X = {( x1 , y1 ), ( x 2 , y 2 ),...( xl , y l )} con
x∈ X
y
y ∈Y
un
conjunto
de
entrenamiento generado por una distribución de probabilidad p( x, y ) , se define el funcional de
riesgo R[ f ] como el valor esperado del error de predicción, por lo tanto
R[ f ] = ∫ L( x, y, f ( x))dp ( x, y )
(12)
26
7
Cuadratica
Laplace
Huber
e-insensible
6
5
4
3
2
1
0
-3
-2
-1
0
1
2
3
Figura 3. Presentación simultanea de las diferentes funciones de pérdida. ε = μ = 0.5
Como la densidad de probabilidad conjunta p( x, y ) es desconocida y la única información con
la que se cuenta es el conjunto de entrenamiento X , un valor aproximado de R[ f ] es llamado
funcional de riesgo empírico y es obtenido por:
Remp [ f ] =
1 l
∑ L( x, y, f ( x))
l i =1
(13)
A partir del conjunto de entrenamiento X y de una función f (x) , por ejemplo una red
neuronal, el problema de aprendizaje estadístico consiste en calcular el conjunto de parámetros w
de la función f (x) , minimizando el funcional de riesgo empírico Remp [ f ] . Para el aprendizaje
estadístico es necesario entonces, considerar dos aspectos: 1- Definir la función de pérdida a
utilizar y 2- Elegir, entre un conjunto de funciones, aquella función f (x) que minimiza el
funcional
27
min Remp [ f ] =
1 l
∑ L( x, y, f ( x))
l i =1
(14)
donde f ( x) ∈ M y M es un subespacio del espacio de funciones dado por:
{
}
S = f ( x, w) : x ∈ X ⊆ ℜ d , w ∈ Ω y Ω es el espacio de parámetros
(15)
En los procesos de aprendizaje clásicos, el método mas comúnmente utilizado es el principio
de minimización del riesgo empírico utilizando la función de pérdida cuadrática, de esta manera,
f (x) es la función que minimiza el siguiente funcional:
1 l
min Remp [ f ] = ∑ ( f ( x) − y ) 2
l i =1
(16)
El proceso de aprendizaje utilizando la expresión (16) es propenso a conducir el
entrenamiento a una relación exacta entre los ejemplos de entrada y salida del conjunto de datos
(función de interpolación). Este problema conocido como sobre entrenamiento, es habitualmente
solucionado mediante el uso de dos técnicas: a) parada temprana y b) regularización. La figura 4
ilustra el problema del sobre entrenamiento. La línea continua muestra la función de
interpolación producto del sobre entrenamiento de los datos y la línea punteada representa el
ajuste que debería resultar de un adecuado entrenamiento. En el marco del presente trabajo sólo
es necesario mencionar la técnica de regularización, la cual se presenta a continuación.
2.5.1 Regularización.
En el proceso de aprendizaje para encontrar la función que aproxima relaciones no lineales
multivariadas, la técnica de regularización resuelve el problema del sobre ajuste agregando al
error empírico un termino de penalización. El aprendizaje estadístico consiste entonces en
encontrar la función f (x) que minimiza el siguiente funcional de riesgo regularizado
28
min Rreg [ f ] = Remp [ f ] +
λ
2
w
2
(17)
1.2
Sobre entrenamiento
Adecuado entrenamiento
1
0.8
Y
0.6
0.4
0.2
0
-0.2
0
0.1
0.2
0.3
0.4
0.5
X
0.6
0.7
0.8
0.9
1
Figura 4. Ilustración del problema del sobre entrenamiento.
En su formulación clásica, el riesgo regularizado dado en (17) utiliza en Remp [ f ] la función de
pérdida cuadrática, w
2
es la penalización que se agrega al error empírico y es un término que
caracteriza la complejidad del modelo, donde los wi son los parámetros del modelo utilizado.
El parámetro λ (λ > 0), llamado constante de regularización, controla la fuerza o magnitud de
la penalización, por lo tanto, representa un balance entre el error de entrenamiento medido por el
2
riesgo empírico y la complejidad del modelo dado por w , de tal manera que, el problema del
aprendizaje utilizando el funcional de riesgo regularizado, consiste en encontrar el óptimo
balance entre el error de entrenamiento y la complejidad del modelo.
29
El significado de la constante de regularización se puede ilustrar considerando dos casos
extremos: a) si λ = 0, se tiene el caso donde no se toma en cuenta la complejidad del modelo, se
toma en cuenta sólo el error de predicción el cual, como se dijo antes, es propenso a conducir el
entrenamiento a una función f ( x) que sobre ajusta los datos (figura 4) y como consecuencia, f ( x)
resulta un modelo muy complejo con demasiada flexibilidad y b) λ = ∞ se asocia con el caso
contrario, es decir, el entrenamiento conduce a un modelo f ( x) muy simple y poco flexible que
dará una respuesta muy suave. Ambos casos representan un modelo que no generaliza bien los
datos o hacen pobres predicciones para nuevos datos, la minimización del funcional de riesgo
regularizado es entonces un compromiso entre el ajuste de los datos y la complejidad del modelo,
cuya influencia es controlada por λ. La figura 5 es un ilustración del mismo caso presentado en
la figura 4, pero ahora se muestra la pobre aproximación de los datos dada por la función f ( x)
cuando λ = ∞ en el funcional de riesgo regularizado.
1
Aproximacion con lambda = Inf
Aproximacion con lambda adecuado
0.9
0.8
0.7
Y
0.6
0.5
f (x)
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
X
0.6
0.7
0.8
0.9
1
Figura 5. Ilustración esquemática de la aproximación dada por f(x) con λ = ∞ en el funcional de
riesgo regularizado.
30
2.6 Funciones de pérdida y regularización
Además de la posibilidad de utilizar la función de pérdida cuadrática en la técnica de
regularización para aproximación de funciones, también existe la posibilidad de utilizar las otras
funciones de pérdida ya mencionadas. La función de pérdida cuadrática en la expresión (17)
corresponde a la técnica de regularización clásica donde regresión con spline y redes de
funciones de base radial son casos específicos. Esta función de pérdida conduce al tradicional
método de mínimos cuadrados donde la solución al funcional de riesgo regularizado resulta en la
inversión de una matriz A dada por:
A = H T H + λI
(18)
ˆ = A −1H T y
W
(19)
Con pesos estimados por
donde H es la matriz de diseño
A diferencia de la función de pérdida cuadrática, la utilización de las funciones de pérdida,
Laplace, ε - insensible y Huber en la expresión del riesgo regularizado dada en (17), conducen a
la solución de un problema de programación cuadrática. La utilización de la función de pérdida ε
- insensible corresponde al problema estándar del método llamado máquinas de vectores soporte
(SVM) para regresión. Este será el problema a desarrollar de manera detallada en la presente
sección, el cual se presenta a su vez en dos casos: 1) el caso válido para funciones lineales y 2) su
generalización al caso no lineal.
2.6.1 Máquinas de vectores soporte para regresión. Caso lineal
Al sustituir la función de pérdida ε - insensible en la expresión (17) y haciendo C.l = 1 , se
λ
tiene
31
min Rreg [ f ] =
l
1 2
w + C ∑ f ( xi ) − y i
2
i =1
(20)
ε
Como la función ε- insensible de Vapnik define un tubo de ancho ε alrededor de la función
f(x), ver figura 6, la pérdida o error de predicción de un punto cualquiera fuera del tubo está dada
por
f ( xi ) − y i
ε
= Max(0, f ( xi ) − y i − ε ) = ξ i + ξ i*
(21)
⎧ξ i = Max(0, y i − f ( xi ) − ε )
donde ⎨ *
⎩ξ i = Max(0, f ( xi ) − y i − ε )
yi
•
ε
ξi
f ( x)
ε
yk •
ξ *j
yj
•
Figura 6 Error de predicción en la función de pérdida ε - insensible
Definida las variables ξ i y ξ i* , llamadas variables de relajación porque permiten
flexibilizar el error de predicción, el problema de minimización planteado en (20) puede ser
32
expresado de manera equivalente como un problema de minimización con restricciones
min G ( w, b, ξ , ξ * ) =
l
1 2
w + C ∑ (ξ i + ξ i* )
2
i =1
(22)
sujeto a
y i − f ( xi ) ≤ ε + ξ i
f ( xi ) − yi ≤ ε + ξ i*
ξ i , ξ i* ≥ 0
donde la función f (x) está dada por
f ( x) = w, x + b
(23)
La expresión (22) es la formulación estándar del problema SVM para regresión propuesto por
Vapnik. El término
l
C ∑ (ξ i + ξ i* )
(24)
i =1
es una cota superior para el error de los datos de entrenamiento, donde C (C > 0) es un parámetro
seleccionado por el usuario y determina el balance entre la suavidad de la función y el error
permitido. Para los puntos dentro del tubo las variables ξ i = ξ i* = 0 y por lo tanto no participan
en la función objetivo.
El problema de optimización expresado en (22) es resuelto en su formulación dual utilizando
la función de Lagrange, la cual, como tiene un punto de silla en su solución óptima permite
definir dos problemas matemáticos equivalentes.
La función de Lagrange del problema de optimización dado en (22) es:
33
Lg =
l
l
l
1 2
w + C ∑ (ξ i + ξ i* ) − ∑ α i (ε + ξ i − y i + w, xi + b) −∑ α i* (ε + ξ i* + y i − w, xi − b)...
2
i =1
i =1
i =l
l
− ∑ (η i ξ i + η i*ξ i* )
(25)
i =1
α i , α i* ,η i ,η i* ≥ 0
En la función de Lagrange las variables primales son w,b, ξ y ξ * y las variables α , α * ,η y
η * son los multiplicadores de Lagrange. De la condición del punto de silla, las derivadas parciales
de Lg con respecto a las variables primales deben ser igual a cero.
l
l
∂Lg
= w − ∑ α i xi + ∑ α i* xi = 0
∂w
i=
i =1
⇒ w = ∑ (α i − α i* ) xi
l
l
∂Lg
= −∑ α i + ∑ α i* = 0
∂b
i =1
i =1
⇒ ∑ (α i* − α i ) = 0
(27)
∂Lg
= C − α i − ηi = 0
∂ξ i
⇒ ηi = C − α i
(28)
∂Lg
= C − α i* − η i* = 0
∂ξ i*
⇒ η i* = C − α i*
(29)
l
(26)
i =1
l
i =1
Sustituyendo (26), (27), (28) y (29) en la función de Lagrange dada en (25) se obtiene el
problema de optimización dual sólo en términos de las variables α i , α i*
max
−
l
l
1 l
*
*
*
*
∑ (α i − α i )(α j − α j ) xi , x j − ε ∑ (α i + α i ) + ∑ yi (α i − α i )
2 i , j =1
i =1
i =1
(30)
sujeto a las restricciones
l
*
∑ (α i − α i ) = 0
i =1
α i , α i* ∈ [0, C ]
Al resolver (30), se determinan los multiplicadores de lagrange α i , α i* y la función de
34
regresión según las ecuaciones (23) y (26), es una función lineal dada por
l
f ( x) = ∑ (α i − α i* ) xi , x + b
(31)
i =1
En el problema dual, para puntos de entrenamiento por encima o por debajo del tubo
incluyendo la frontera, los multiplicadores de lagrange α i , α i* correspondientes a ξ i , ξ i* serán
valores diferentes de cero. Como un i-ésimo punto de entrenamiento no pueden estar en ambos
lados del tubo, α i o α i* será diferente de cero, es decir α i .α i* = 0 , los puntos de entrenamiento
que corresponden a valores de α i o α i* diferentes de cero son llamados vectores soporte. Para
puntos dentro del tubo, como por ejemplo el punto y k de la figura 4, ambos multiplicadores serán
iguales a cero.
La restricción α i , α i* ∈ [0, C ] y el cálculo del valor de b, surgen de una de las condiciones de
Karush – Kuhn – Tucker, la cual establece que en la solución óptima, el producto de las variables
duales y las restricciones es igual a cero, así
α i (ε + ξ i − y i + w, xi + b) = 0
(32)
α i* (ε + ξ i* + y i − w, xi − b) = 0
(33)
η iξ i = 0
(34)
η i*ξ i* = 0
(35)
Al sustituir (28) y (29) en (34) y (35)
(C − α i )ξ i = 0
(36)
(C − α i* )ξ i* = 0
(37)
Para que se cumplan las expresiones (36) ó (37) ξ i , ξ i* = 0 ó (C − α i ), (C − α i* ) = 0 , por lo
35
tanto, puntos ( xi , y i ) con valores de α i , α i* = C están fuera del tubo alrededor de f (x) porque
ξ i , ξ i* ≠ 0 . Por el contrario, para
α i , α i* ∈ (0, C ) → ξ i , ξ i* = 0 y el valor de b puede ser
calculado por las expresiones (32) y (33)
b = y i − ε − w, xi
si α i ∈ (0, C )
(38)
b = y i + ε − w, xi
si α i* ∈ (0, C )
(39)
Si bien, basta un punto cualquiera que satisfaga las ecuaciones (38) y (39) para hallar b, este
es determinado de la siguiente manera: si nvs es el número de vectores soporte que ∈ (0, C ) , b
puede ser calculado tomando el promedio de estos vectores
b=
1 nvs
∑ yi − sign(α i − α i* ).ε − w, ( x1 + x2, ..., xnvs )
nvs i =1
(40)
donde w esta dada por la ecuación (26)
Además de (40), existe otra manera de calcular el sesgo b la cual es parte del algoritmo de
optimización del Punto Interior. En términos muy generales, El algoritmo del Punto Interior
consiste en lograr de manera iterativa que se cumplan las condiciones de Karush-Kuhn-Tucker
presentadas en las ecuaciones (26), (27), (28) y (29), es por esto que el algoritmo resuelve de
manera simultánea el problema dual y el primal al encontrar por aproximaciones sucesivas un
punto (x, α ) , llamado punto interior, que satisface las restricciones de ambos problemas. El
hecho de resolver el problema primal y el dual de manera simultanea permite determinar los
parámetros de ambos problemas y entre ellos el sesgo b.
2.6.2 Máquinas de vectores soporte para regresión. Caso no lineal
Generalmente en regresión, el modelo buscado y necesario para describir adecuadamente los
datos es un modelo no lineal que no tiene una estructura simple. Las funciones núcleo ofrecen la
posibilidad de tratar con funciones no lineales, reduciéndolas a relaciones lineales en un espacio
36
F de mayor dimensión al espacio X de las variables de entrada. El espacio F es conocido como
espacio característico o espacio de Hilbert generado por núcleos y es donde la regresión lineal es
ejecutada. Los algoritmos que permiten la utilización de funciones núcleos, son aquellos
algoritmos de entrenamiento que están expresados en términos del producto escalar xi , x j . Tres
aspectos importantes es necesario entonces resaltar sobre las SVM para regresión: a) utilizan una
representación dual del problema b) solo dependen del producto escalar entre los patrones de
entrada, expresiones (26) y (31), y como consecuencia c) pueden operar en un espacio
característico implícitamente inducido por una función núcleo, en el cual se detectan relaciones
lineales.
Sea φ una función que realiza la transformación del espacio de entrada al espacio
característico F , la figura 7 muestra gráficamente esta transformación.
φ:X →F
x a x = φ ( x)
•
•
•
•
•
•
•
•
•
•
(41)
φ (x)
•
•
•
•
••
•
•
•
•
X
•
••
•
•
••
•• •
•
•
F
Espacio de entrada
Espacio característico
Figura 7 Ilustración esquemática de la transformación del espacio de entrada al espacio
característico
37
El producto punto de los datos de entrada dentro del espacio característico estará dado
entonces por
φ ( x), φ ( x ′)
(42)
Usar una función núcleo en lugar del producto punto en el espacio de entrada X , es
equivalente al producto punto de los datos de entrada dentro del espacio característico de
dimensión F , es decir
K ( x, x ′) = φ ( x), φ ( x ′)
(43)
La expresión (43) es llamada el truco Kernel y es la que proporciona potencialidades a las
SVM para describir modelos de regresión no lineales, ya que el uso de núcleos no requiere
encontrar o conocer la función φ y por lo tanto las operaciones son realizadas en el espacio de
entrada sin considerar el espacio característico F y sin importar su dimensión.
Por lo antes explicado, es posible utilizar (43) en las expresiones (30) y (31) lo cual es la
extensión de SVM para regresión al caso no lineal, así se tiene
max
−
l
l
1 l
*
*
*
*
∑ (α i − α i )(α j − α j )k ( xi , x j ) − ε ∑ (α i + α i ) + ∑ yi (α i − α i )
2 i , j =1
i =1
i =1
(44)
l
*
∑ (α i − α i ) = 0
i =1
α i , α i* ∈ [0, C ]
Al resolver (44), se determinan los multiplicadores de lagrange α i , α i* . El vector w queda
38
l
w = ∑ (α i − α i* )φ ( xi )
(45)
i =1
pero se puede tomar
l
l
i =1
i =1
w, φ ( x) = ∑ (α i − α i* ) φ ( xi ), φ ( x) = ∑ (α i − α i* )k (xi , x)
(46)
la función de regresión es dada por
l
f ( x) = ∑ (α i − α i* )k ( xi , x) + b
(47)
i =1
y el sesgo será
b=
1 nvs
y i + sign(α i − α i* )ε − (α i − α i* )(k ( xi , x1 ) + k ( xi , x 2 ) + ... + k ( xi , x nvs )
∑
nvs i =1
(48)
El problema de aprendizaje visto desde esta perspectiva, derivado desde el marco de la teoría
de la regularización y mediante el uso de espacios generados por funciones núcleos, es llamado
regresión basada en núcleos, es un caso particular de una familia de algoritmos llamados métodos
de aprendizajes basados en núcleos, donde las SVM para regresión son un caso particular, y por
su flexibilidad para aproximar modelos complejos no lineales pueden representar una buena
alternativa en problemas de modelos sustitutos. Bajo este enfoque, el funcional de riesgo
regularizado está expresado por
min Rreg [ f ] =
1
w
2
2
+C
l
∑ L( x, y, f ( x))
(49)
i =1
donde el problema planteado en (49) se resuelve en su forma dual, en un espacio característico
(generado implícitamente por funciones núcleos) y como un problema de programación
cuadrática, donde L( x, y, f ( x)) , como se verá en las próximas secciones, puede ser cualquiera de
39
las funciones de pérdida mencionadas.
Además de la posibilidad de utilizar diferentes funciones de pérdida, para estos problemas
existe la posibilidad de utilizar diferentes funciones núcleo, las cuales deben cumplir ciertas
condiciones llamadas condiciones de Mercer. También es posible la construcción de otras
funciones núcleo a través de las operaciones de sumas y productos entre ellas. La tabla 1 muestra
algunos tipos de funciones núcleo.
Tabla 1. Diferentes tipos de funciones núcleo
Función Núcleo
Expresión
Polinomial
k ( x, x ′) = ( x, x ′ + c) d
Spline
k ( x, x ′) = 1 + x, x ′ + 1
B Spline
k ( x, x ′) = B2 n +1 ( x − x ′ )
Función de base radial
k ( x, x ′) = exp(−
x − x′
d ∈ N,c ≥ 0
2
x, x ′ min( x, x ′) − 1 ( x, x ′) 3
6
k
Bk = ⊕1[−1
i =1
2
,1
2
]
2
2h 2
)
h>0
2.6.2.1 Formulación matricial
La expresión (44) es un problema de programación cuadrática que no está expresado en su
forma estándar, el cual usualmente se expresa como un problema de minimización, entonces, una
alternativa para (44) es
min
l
l
1 l
*
*
*
*
∑ (α i − α i )(α j − α j )k ( xi , x j ) + ε ∑ (α i + α i ) − ∑ yi (α i − α i )
2 i, j = 1
i =1
i =1
(50)
40
l
*
∑ (α i − α i ) = 0
i =1
α i , α i* ∈ [0, C ]
Para resolver (50) es necesario encontrar l pares de multiplicadores de lagrange (α i , α i* ) . Para
cada punto de entrenamiento xi existe un par (α i , α i* ) donde uno de ellos α i ó α i* será igual a
cero. Un xi que corresponda a un α i o α i* diferente de cero es llamado un vector soporte,
entonces pueden existir como máximo l vectores soporte. Si β es el vector que contiene los
vectores soporte, entonces
α 1xl
⎡α 1 ⎤
= ⎢⎢ M ⎥⎥ ,
⎢⎣α l ⎥⎦
α 1*xl
⎡α 1*+l ⎤
⎢
⎥
=⎢ M ⎥
⎢ α 2*l ⎥
⎣
⎦
⇒
⎡α ⎤
β = ⎢ *⎥
⎣α ⎦
(51)
En términos matriciales, (50) se expresa
min
1 T
β Qβ + c T β
2
(52)
donde c T = [ε − y1 , ε − y 2 ,..., ε − y l , ε + y1 , ε + y 2 ,..., ε + yl ]
⎡ H − H⎤
Q=⎢
⎥
⎣− H H ⎦
con
H = k ( xi , x j )
[1,1,...,1,−1,−1,...,−1].β = 0,
⇒
⎡ε − y ⎤
c=⎢
⎥
⎣ε + y ⎦
i, j = 1,..., l
α i , α i* ∈ [0, C ]
Cuando ε = 0 se presenta el caso de la función de pérdida Laplaciana y el problema de
optimización (50) se reduce a
41
min
1 l
*
*
∑ (α i − α i )(α j − α j )k ( xi , x j ) +
2 i, j = 1
l
∑y
i =1
i
(α − α * )
i
i
(53)
l
*
∑ (α i − α i ) = 0
i =1
α i , α i* ∈ [0, C ]
⎡− y ⎤
En términos matriciales el problema es similar a (52) pero con c = ⎢ ⎥
⎣+ y ⎦
2.7 Forma general de las máquinas de vectores soporte para regresión
El problema de optimización dual dado en (31) se puede expresar en forma general de tal
manera que bajo ciertas condiciones, represente el caso particular de cada función de pérdida. El
modelo general para una función de pérdida ζ (ξ ) es
min
l
1 2
w + C ∑ (ζ i (ξ i ) + ζ i (ξ i* ))
2
i =1
(54)
y i − w, xi − b ≤ ε + ξ i
w, xi + b − y i ≤ ε + ξ i*
ξ i , ξ i* ≥ 0
La función de Lagrange con variables duales α i , α i* , γ i , γ i* ≥ 0 es
Lg =
l
l
1 2
w + C ∑ (ζ i (ξ i ) + ζ i (ξ i* )) − ∑ α i (ε + ξ i − yi + w, xi + b)...
2
i =1
i =1
l
l
i =1
i =1
− ∑ α i* (ε + ξ i* + yi − w, xi − b) − ∑ (γ i ξ i + γ i*ξ i* )
(55)
42
Las derivadas parciales de Lg con respecto a las variables primales son
l
l
l
∂Lg
= w − ∑ α i xi + ∑ α i* xi = 0 ⇒ w = ∑ (α i − α i* ) xi
∂w
i =1
i=
i =1
(56)
l
l
∂Lg
= −∑ α i + ∑ α i* = 0
∂b
i =1
i =1
⇒ ∑ (α i* − α i ) = 0
(57)
∂ζ (ξ )
∂Lg
= C i i − αi − γ i
∂ξ i
∂ξ i
⇒ γi = C
∂ζ i* (ξ i* )
∂Lg
C
− α i* − γ i*
=
*
*
∂ξ i
∂ξ i
⇒ γ i* = C
l
i =1
∂ζ i (ξ i )
− αi
∂ξ i
∂ζ i* (ξ i* )
∂ξ i*
− α i*
(58)
(59)
Sustituyendo las derivadas parciales en (55)
−
l
l
1 l
*
*
*
(
α
−
α
)(
α
−
α
)
(
x
,
x
)
+
y
(
α
−
α
)
−
ε
∑ i i j j i j ∑ i i i
∑ (α i + α i* ) L
2 i , j =1
i =1
i =1
* ⎞
⎛
∂ζ i (ξ i )
*
* ∂ζ i (ξ i ) ⎟
⎜
+ C ∑ ⎜ ζ i (ξ i ) + ζ i (ξ i ) − ξ i
− ξi
∂ξ i
∂ξ i* ⎟⎠
i =1 ⎝
l
(60)
El problema que surge ahora en (60) es, resolver en término de las variables duales, la parte
que depende de ζ i (ξ i ), ζ i* (ξ i* ), ξ i , ξ i* para luego sustituir. Considerando (58), (59), (60) y
omitiendo los índices i y * se tiene
T (ξ ) = ζ (ξ ) − ξ
C
∂ζ (ξ )
∂ξ
(61)
∂ζ (ξ )
=α +γ
∂ξ
(62)
α ,γ ,ξ ≥ 0
(63)
43
Ahora será considerada como función de pérdida ζ (ξ ) un polinomio por piezas de grado p >
1 en el intervalo [0, μ ] y lineal para ( μ , ∞)
⎧ 1− p 1 p
ξ
para ξ ≤ μ
⎪⎪ μ
p
ζ (ξ ) = ⎨
⎛
⎞
⎪ξ + ⎜ 1 − 1⎟ μ para ξ > μ
⎪⎩ ⎜⎝ p ⎟⎠
(64)
Aplicando (61)
⎧ 1− p ⎛
1⎞ p
⎪− μ ⎜⎜1 − ⎟⎟ξ
p⎠
⎝
⎪
T (ξ ) = ⎨
⎪− μ ⎛⎜1 − 1 ⎞⎟
⎪ ⎜⎝
p ⎟⎠
⎩
para ξ ≤ μ
(65)
para ξ > μ
Según (62)
⎧ Cμ 1− p ξ p −1
α +γ = ⎨
⎩C
para ξ ≤ μ
para ξ > μ
(66)
Ahora es necesario colocar T (ξ ) en término de las variables duales. Para esto se utiliza la
expresión (66).
Cμ 1− p ξ p −1 = α + γ
C
p
p −1
μ
−( p −1)
p
p −1
ξ
p −1
p
p −1
= (α + γ )
ξ = (α + γ )
p
(67)
p
p −1
p
p −1
(68)
μ C
p
−
p
p −1
(69)
Sustituyendo (69) en (55) se tiene
44
p
p
⎧ ⎛
−
1⎞
⎪− μ ⎜⎜1 − ⎟⎟(α + γ ) p −1 C p −1
⎪
p⎠
T (α , γ ) = ⎨ ⎝
⎪ − μ ⎛⎜1 − 1 ⎞⎟
⎜
⎪
p ⎟⎠
⎝
⎩
para ξ ≤ μ
(70)
para ξ > μ
Como se desea maximizar (60) y el término γ solo aparece en la expresión T la cual es
máxima para γ = 0 , entonces por (66) α = C para ξ > μ y α ∈ [0, C ]
⎧ ⎛
1⎞
⎪− μ ⎜⎜1 − ⎟⎟α
⎪
p⎠
T (α ) = ⎨ ⎝
⎪ − μ ⎛⎜1 − 1 ⎞⎟
⎜
⎪
p ⎟⎠
⎝
⎩
p
p −1
−
C
p
p −1
para ξ ≤ μ
(71)
para ξ > μ
Al tomar p = 2
⎧ 1
2
⎪− 2C 2 μα
T (α ) = ⎨
⎪− 1 μ
⎩ 2
para ξ ≤ μ
para ξ > μ
(72)
Sustituyendo en (60) se tiene el caso general del problema de optimización para las funciones
de pérdida ε – insensible, Laplace y Huber
max −
l
l
1 l
*
*
*
(
α
−
α
)(
α
−
α
)
x
,
x
+
y
(
α
−
α
)
−
ε
(α i + α i* ) L
∑
∑
∑
i
j
j
i
j
i
i
i
i
2 i, j
i =1
i =1
−
μ
l
∑ (α i2 + (α i* ) 2 )
2C
(73)
i =1
l
sujeto a
∑ (α i − α i* ) = 0
i =1
α i , α i* ∈ [0, C ]
45
Para μ = 0 se tiene el caso de la función de pérdida ε – insensible, para ε = 0 y μ = 0 se tiene
el caso de la función de pérdida de Laplace y por último, cuando ε = 0 se está en el caso de la
función de Huber.
Haciendo ε = 0, caso Huber, el problema (73) expresado como un problema de minimización
y en términos matriciales, es
min
1 T
β Qβ − c T β
2
[1,1,...,1,−1,−1,...,−1].β = 0,
(74)
α i , α i* ≥ 0
⎡ H − H⎤
⎡− y ⎤
μ
con H = k ( xi , x j ) + I
Donde c = ⎢ ⎥ , Q = ⎢
⎥
2C
⎣− H H ⎦
⎣+ y ⎦
i, j = 1,..., l e I la matriz
identidad.
Bajo este mismo enfoque se puede tratar el problema de optimización utilizando la función de
pérdida polinómica de grado p > 1
ζ (ξ ) =
1 p
ξ
p
(75)
T (ξ ) =
⎛
1 p
1⎞
ξ − ξξ p −1 = −⎜⎜1 − ⎟⎟ξ p
p
p⎠
⎝
(76)
Cξ p −1 = α + γ
(77)
p
p
⎛
1⎞ −
T (α , γ ) = −⎜⎜1 − ⎟⎟C p −1 (α + γ ) p −1
p⎠
⎝
(78)
Por la misma razón mencionada antes γ = 0
46
p
p
⎛
1⎞ −
T (α ) = −⎜⎜1 − ⎟⎟C p −1 (α ) p −1
p⎠
⎝
(79)
Para p = 2 se tiene el caso de la función de pérdida cuadrática
T (α ) = −
1
α2
2
2C
(80)
Sustituyendo (80) en (60), con ε = 0, se tiene el caso del problema de optimización para la
función de pérdida cuadrática
max −
l
1 l
1 l
*
*
*
x
x
y
(
α
−
α
)(
α
−
α
)
,
+
(
α
−
α
)
−
∑ i i j j i j ∑ i i i 2C ∑ (α i2 +(α i* ) 2 )
2 i , j =1
i
i =1
(81)
l
sujeto a
∑ (α i − α i* ) = 0
i =1
α i , α i* ∈ [0, ∞ )
Cuando la función de pérdida es la función cuadrática, es indiferente que un punto cualquiera
esté por arriba o por debajo de f(x), por lo que no existe la posibilidad de un α i o de α i* , la
perdida ξ i en cada punto estará medida por una variable dual β i . Dicho esto, se puede expresar
(81) como un problema de minimización de la siguiente manera
min
l
sujeto a
∑ βi
l
1 l
1 l 2
x
x
y
,
β
β
−
β
+
∑ i j i j ∑ i i 2C ∑ β i
2 i , j =1
i =1
i =1
(82)
=0
i =1
β i ∈ [0, ∞ )
En términos matriciales:
47
min
1 T
β Qβ − c T β
2
[1,1,...,1].β = 0,
(83)
βi ≥ 0
donde c = −y , Q = [H ] con H = k ( xi , x j ) + I
1
2C
i, j = 1,..., l e I la matriz identidad.
2.8 Resumen
El problema de regresión basado en funciones núcleo, está formulado como el proceso de
entrenar una máquina de aprendizaje para encontrar entre un conjunto de funciones, aquella que
minimiza la discrepancia con la respuesta del sistema. La maquina de aprendizaje es entrenada en
su representación dual y en un espacio característico implícitamente inducido por una función
núcleo.
La máquina de aprendizaje en el espacio original de las variables de entrada está dada por el
funcional de riesgo regularizado
min Rreg [ f ] =
l
1 2
w + C ∑ L( x, y, f ( x))
2
i =1
(84)
donde L( x, y, f ( x)) es cualquiera de las funciones de pérdida expuesta anteriormente y w son los
parámetros del modelo.
En su forma dual y en el espacio característico, las máquinas de aprendizaje para el caso de las
funciones de pérdida ε - insensible, Laplace y Huber están dadas por
min
l
l
1 l
(α i − α i* )(α j − α *j ) k ( xi , x j ) − ∑ y i (α i − α i* ) +ε ∑ (α i + α i* ) L
∑
2 i, j
i =1
i =1
48
K+
μ
l
∑ (α i2 + (α i* ) 2 )
2C i =1
(85)
l
sujeto a
∑ (α i − α i* ) = 0
i =1
α i , α i* ∈ [0, C ]
Para μ = 0 se tiene el caso de la función de pérdida ε – insensible, para ε = 0 y μ = 0 se tiene
el caso de la función de pérdida de Laplace y por último, cuando ε = 0 se está en el caso de la
función de Huber. Para el caso de la función de pérdida cuadrática la maquina está dada por
min
l
1 l
1 l
( α i − α i* )(α j − α *j )k ( xi , x j ) − ∑ y i (α i − α i* ) +
(α i2 + (α i* ) 2 )
∑
∑
2 i , j =1
2C i
i =1
(86)
l
sujeto a
∑ (α i − α i* ) = 0
i =1
α i , α i* ∈ [0, ∞ )
El entrenamiento de las diferentes maquinas de aprendizaje expresadas en términos
matriciales, es equivalente a resolver un problema de programación cuadrática. Para todas las
funciones de pérdida mencionadas, la solución de los problemas (85) y (84) es una ecuación
lineal de la forma:
l
f ( x) = ∑ (α i − α i* )k ( xi , x) + b
(87)
i =1
donde los α i , α i* son los multiplicadores de lagrange.
49
CAPÍTULO III
METODOLOGÍA
En este trabajo se utilizaron las máquinas de vectores soporte (SVM) para regresión las cuales
están expresadas por el siguiente funcional de riesgo regularizado
min Rreg [ f ] =
donde: ½ w
2
l
1 2
w + C ∑ L( x, y, f ( x))
2
i =1
(88)
es un término que controla la complejidad del modelo, L( x, y, f ( x)) es una
función de pérdida que penaliza el error de predicción y C, es una constante que controla la
magnitud de la penalización del error de predicción.
Las diferentes funciones de pérdida utilizadas en (88) son:
Función de pérdida cuadrática
L( x, y, f ( x)) = ( f ( x) − y ) 2
(89)
Función de pérdida de Laplace
L( x, y, f ( x)) = f ( x) − y
(90)
Función de pérdida ε - insensible
⎧ 0 para
L( x, y, f ( x)) = ⎨
⎩ f ( x) − y − ε
Función de pérdida de Huber
f ( x) − y ≤ ε
en otro caso
(91)
Capítulo III Metodología
⎧ 1
( f ( x) − y ) 2 para f ( x) − y ≤ μ
⎪⎪ 2μ
L( x, y, f ( x)) = ⎨
μ
⎪
f ( x) − y −
en otro caso
⎪⎩
2
(92)
El problema de optimización expresado en (88), para las diferentes funciones de pérdida, es
resuelto en su formulación dual, en un espacio característico implícitamente inducido por una
función núcleo y como un problema de programación cuadrática. Para todas las funciones de
pérdida mencionadas, la solución del problema (88) es un modelo de la forma:
l
f ( x) = ∑ (α i − α i* )k ( xi , x) + b
(93)
i =1
donde k es una función núcleo, α i , α i* son las variables del problema de optimización dual y b el
sesgo.
Para cumplir con los objetivos planteados en el presente trabajo, se utilizaron las SVM para
regresión en datos generados artificialmente y en datos reales provenientes de un modelo de
simulación computacional.
La metodología utilizada básicamente comprende cinco etapas: 1- Selección del conjunto de
entrenamiento y de validación 2- Pre-procesamiento de los datos 3- Construcción de los modelos
y selección óptima de sus parámetros 4- Evaluación del desempeño de los modelos y 5- Elección
del modelo sustituto. La figura 8 muestra esta secuencia de pasos, donde una diferencia en la
metodología debido al tipo de datos (artificiales o reales) se presenta en las etapas 1 y 5. Esta
diferencia se origina porque se dispone de una limitada cantidad de datos reales, limitación que
no existe en el caso de datos artificiales.
3.1 Metodología. Caso datos artificiales
1. Para este caso, dos conjuntos del mismo tamaño, uno de entrenamiento y el otro de validación,
fueron generados por el muestreo del dominio de las funciones de prueba utilizando un diseño en
51
Hipercubo Latino. Como se mencionó en el marco teórico, este diseño experimental es muy
utilizado porque permite muestrear eficientemente el espacio de diseño utilizando pocos puntos.
Caso datos artificiales
1. Selección del conjunto de
entrenamiento y de validación
Caso datos reales
2. Pre-procesamiento
3. Construcción de los
modelos y selección óptima
de sus parámetros
Caso datos artificiales
4. Evaluación del desempeño
de los modelos
Caso datos reales
5. Elección del modelo
sustituto
Figura 8. Secuencia de pasos en la metodología utilizada
2. Para el entrenamiento de las SVM es necesario transformar los datos a una nueva
representación. Esta transformación resulta muy útil porque coloca en una misma escala las
diferentes unidades de medida de las variables de entrada, las cuales generalmente tienen
diferente orden de magnitud. Otro beneficio que se deriva de estandarizar los datos de
entrenamiento, es que permite fijar valores de precisión (funciones de Vapnik y Huber) que
afectan por igual a todas las variables de entrada. En este trabajo fue seleccionado uno de los preprocesamiento mas utilizados, el cual consiste en una transformación lineal de los datos al
espacio [− 1 1]d
52
3. Para cada conjunto de entrenamiento fueron construidos cuatro modelos sustitutos. Estos
modelos corresponden a las máquinas de aprendizaje basadas en las funciones de pérdida: 1)
ε – insensible 2) Huber 3) Laplace y 4) Cuadrática.
Los modelos de regresión producto de estas máquinas de aprendizaje requieren para su
entrenamiento una adecuada selección de los siguientes parámetros: a) la constante C de
regularización b) el parámetro h si se utiliza la función de base radial como función núcleo y c) la
precisión ( ε o μ ) en los casos de las funciones ε – insensible y Huber respectivamente. De estos
tres parámetros, C y h son los que ofrecen mayor incertidumbre para su selección. Como la
función de base radial es la función núcleo mas utilizada en la literatura sobre SVR para
regresión, en este trabajo se decidió utilizar la función de base radial y determinar los valores de
C y h por el siguiente procedimiento:
i) Fijado un valor de precisión, los mejores valores de C y h para una máquina de aprendizaje se
obtuvieron por la solución del siguiente problema de optimización:
v
min SL = ∑ L( x, y, f ( x))
(94)
i =1
Donde L( x, y, f ( x)) es la función de pérdida utilizada por cada máquina de aprendizaje y
evaluada sobre el conjunto v de validación.
La evaluación de la función SL requiere primero encontrar f(x) a través del entrenamiento de
la máquina de aprendizaje, por lo tanto, SL es una medida del desempeño del modelo estimado
f(x), desempeño medido por la función de pérdida utilizada en la máquina de aprendizaje y en un
conjunto distinto al conjunto de entrenamiento. La tabla 2 muestra las diferentes medidas de
desempeño SL según la función de pérdida utilizada.
El entrenamiento para hallar f(x) fue realizado para un valor fijo de precisión y para valores de
C y h dentro de una región de búsqueda. La solución del problema planteado en (94) consiste
entonces en, dado un valor de precisión, encontrar los valores de C y h que producen el modelo
53
con el mejor desempeño, medido por su propia función de pérdida en un conjunto de validación.
Tabla 2. Medidas de desempeño (SL) para la función f ( x) según el tipo de máquina de
aprendizaje.
Máquina de aprendizaje con
Medida de desempeño (SL)
función de pérdida:
Cuadrática
l
∑ ( yi ,t − yˆ i ,t ) 2
i =1
Laplace
l
∑ yi,t − yˆ i ,t
i =1
ε – insensible
l
∑ ( yi ,t − yˆ i,t )
i =1
⎧⎪ 0 para yi ,t − yˆ i ,t ≤ ε
Con ( y i ,t − yˆ i ,t ) = ⎨
⎪⎩ y i ,t − yˆ i ,t − ε en otro caso
Huber
l
∑ ( yi ,t − yˆ i,t )
i =1
⎧ 1
2
para y i ,t − yˆ i ,t ≤ μ
⎪⎪ 2μ ( y i ,t − yˆ i ,t )
Con ( yi ,t − yˆ i ,t ) = ⎨
μ
⎪
yi ,t − yˆ i ,t −
en otro caso
⎪⎩
2
d
Donde y i ,t y yˆ i ,t son las respuestas reales y estimadas en el espacio [− 1 1] debido a un
conjunto de validación.
ii) La región de búsqueda para C y h se definió en 0.1 ≤ h ≤ 3 y 1 ≤ C ≤ 3000 tomando como
referencia la región considerada por el programa LS - SVMLab versión 1.5 [6]. Por lo
mencionado en el marco teórico, el problema de encontrar los valores óptimos de C y h en una
región acotada fue resuelto utilizando el algoritmo de optimización global DIRECT [4]. Para el
entrenamiento fue utilizada la implementación del método SVR para regresión realizada en
MATLAB por S. Gunn [7], pero como ésta no contenía el caso para la función de pérdida de
Huber, esta implementación fue ampliada para así cubrir con todos los casos de funciones de
pérdidas propuestos en este trabajo. Como en las máquinas de aprendizajes con función de
pérdida ε – insensible y Huber se requiere también la selección adecuada de la precisión, el
54
problema presentado en (94) fue resuelto para diferentes valores de precisión (ver tabla 3) y en
cada caso fue elegido aquel modelo cuyos parámetros C, h y ε (ó μ) minimizaron en el conjunto
de validación el siguiente estadístico:
l
∑ yi,t − yˆ i ,t
(95)
i =1
donde yi ,t y yˆ i ,t corresponden a las i-ésimas respuestas reales y estimadas en el espacio [− 1 1]d
Tabla 3. Valores de precisión utilizados en las funciones de pérdida ε – insensible y Huber
Valores de precisión
0.02 0.04 0.06 0.08 y 0.10
4. La evaluación de los modelos se realizó midiendo su desempeño en un conjunto de prueba de
mayor tamaño que el utilizado en su construcción. El tamaño de este conjunto de prueba fue tres
veces mayor que el conjunto de entrenamiento y generado por un diseño en Hipercubo Latino.
Los estadísticos utilizados para medir el desempeño se formularon según dos puntos de vista: acomo aproximadores de las funciones y b- como reproductores del óptimo. Para poder evaluar el
desempeño de estos modelos como aproximadores de las funciones se formularon los siguientes
estadísticos:
l
mediad =
∑ yi − yˆ i
i =1
l
(96)
l
∑ ( yi − yˆ i ) 2
dstd =
i =1
l −1
max d = max yi − yˆ i
(97)
(98)
55
donde y i y ŷi son las respuestas reales y estimadas en el espacio original de las variables.
Los estadísticos propuestos para evaluar los modelos como reproductores del óptimo fueron
las siguientes medidas de distancia relativa:
distx =
disty =
xopt − xˆ opt
xopt
y opt − yˆ opt
y opt
(99)
(100)
donde: xopt y y opt son los verdaderos óptimos de la función de prueba y x̂opt y ŷ opt son los
estimados por el algoritmo de optimización global DIRECT .
5. La elección del modelo sustituto se llevó a cabo de la siguiente manera: Primero, un grupo de
buenos modelos fue seleccionado tomando en cuenta las mejores medidas de desempeño como
aproximador de funciones y como reproductor de los valores óptimos y luego, el mejor modelo
del grupo, llamado modelo sustituto de la función de prueba, fue seleccionado considerando las
medidas de ajuste global dadas en la expresiones (96), (97) y (98).
3.2 Metodología. Caso datos reales
1. En este caso, del conjunto de datos disponible fue seleccionado aleatoriamente un conjunto de
entrenamiento igual al 80% de los datos, quedando un 20% como conjunto de validación.
2. Igual que en el punto 2 de la sección anterior, se aplicó una transformación lineal a los datos
para llevarlos al espacio [− 1 1]d .
56
3. De la misma manera que el punto 3 de la sección anterior, se decidió la función de base radial
como función núcleo y la misma estrategia para la elección de los valores de C, h y ε (o μ).
4. Por la necesidad de evaluar el desempeño de los modelos obtenidos se generó un conjunto de
prueba utilizando el método de Validación Cruzada Uno Fuera. Este método se basa en remover
un dato del conjunto de entrenamiento, construir el modelo sobre la base de los restantes datos y
entonces, utilizar como dato de prueba el elemento removido. Con este procedimiento son
utilizados todos los datos del conjunto de entrenamiento como conjunto de prueba.
Como en este caso los óptimos reales xopt y
y opt
son desconocidos, las medidas para
evaluar el desempeño de los modelos en el conjunto de prueba, fueron solamente las dadas por
las expresiones (96), (97) y (98).
5. El modelo sustituto del simulador computacional, fue seleccionado tomando en cuenta y
analizando de manera integral las mejores medidas de desempeño. Para este caso, la bondad del
modelo sustituto en el punto x̂opt se evaluó por la siguiente expresión:
disty = yˆ opt − y opt
(101)
donde y opt es la respuesta del simulador en x̂opt . La figura 9 ilustra gráficamente este valor.
3.2.1 El gradiente de los modelos sustitutos
Zerpa [8], utilizando estos mismos datos para la construcción de modelos sustitutos, encontró
óptimos en la región de diseño con valores en el borde. Como una situación similar se espera
encontrar en este trabajo, se decidió determinar y evaluar el vector gradiente en estos puntos y
así, conocer la dirección de la máxima respuesta y estudiar la posibilidad de mover la región de
diseño.
57
⋅
⋅
ŷ opt
disty
optimo
real
⋅
y opt
Modelo Modelo
estimado real
x̂opt
Figura 9. Ilustración del valor disty para el caso de datos reales
Recordando que los modelos estimados por SVM para regresión son de la forma
l
f ( x) = ∑ (α i − α i* )k ( xi , x) + b
(102)
i =1
o también
l
f ( x ) = ∑ ( β i ) k ( xi , x ) + b
(103)
i =1
donde k es la función de base radial dada por
k ( x, xi ) = exp(
− x − xi
2h 2
2
)
(104)
Se sabe que para obtener (103) las variables de entrada y de salida son transformadas al
espacio [− 1 1]d , es decir
58
y = F (x)
↓
↓
w = F (u )
(105)
donde y = F (x) representa la relación real entre la entrada y salida del sistema. w = F (u ) es la
relación que estima la relación real y está dada por (103), con y transformada a w y x
transformada a u utilizando la siguiente expresión
w=2
( y − Miny )
−1
( Maxy − Miny )
u=2
( x − Minx)
−1
( Maxx − Minx)
(106)
Por la regla de la cadena, el gradiente de y = F (x) vendrá dado por
dy dy dw du
=
dx dw du dx
(107)
Por (106)
dy Maxy − Miny
=
dw
2
y
du
2
=
dx Maxx − Minx
(108)
y por (103) y (104)
l
dw
=
du
∑ β i exp(−
i =1
1
2
x − xi )
2
2h
[ xi − x ]
h2
(109)
Sustituyendo (108) y (109) en (107) se tiene que el gradiente es
l
∇f ( x ) =
dy ( Maxy − Miny )
=
dx ( Maxx − Minx)
∑ β i exp(−
i =1
1
2
x − xi )
2
2h
[ xi − x ]
h2
(110)
59
CAPÍTULO IV
CASOS DE ESTUDIO
Con el propósito de desarrollar la metodología propuesta se utilizaron datos generados
artificialmente por el muestreo de tres funciones de prueba (F1, F2 y F3) y dos conjuntos de
datos reales (ASP1 y ASP2) provenientes de un modelo de simulación computacional de un
proceso de recuperación mejorada de petróleo por inyección de álcali, surfactante y polímero
(ASP).
4.1 Funciones de prueba
A continuación se presentan las diferentes funciones de prueba utilizadas para evaluar y
comparar los cuatro modelos producto de las diferentes funciones de pérdida. La selección de
estas funciones obedeció a su uso frecuente en la literatura para la verificación de la efectividad
de algoritmos de búsqueda global [9] y porque representan una severa prueba para cualquier
método de aproximación de funciones no lineales. A continuación se listan las expresiones
matemáticas para las diferentes funciones.
[
]
F1
f ( x) = [30 + x1 . sin( x1 )]. 4 + exp(− x 22 ) , 0 ≤ x1 ≤ 9 0 ≤ x 2 ≤ 6
F2
⎛ π .x ⎞
⎛ π .x 2 ⎞
f ( x) = sin ⎜ 1 ⎟. cos⎜
⎟ , − 10 ≤ x1 ≤ 10
⎝ 12 ⎠
⎝ 16 ⎠
F3
f ( x) = −∑ ci exp(− ∑ aij ( x j − pij ) 2
⎡3
⎢0.1
A=⎢
⎢3
⎢
⎣0.1
4
3
i =1
j =1
10
10
10
10
30⎤
35⎥⎥
,
30⎥
⎥
35⎦
− 20 ≤ x 2 ≤ 20
0 ≤ xj ≤1
⎡1.0 ⎤
⎡ 0.3689
⎢1.2 ⎥
⎢ 0.4699
⎢
⎥
c=
, p=⎢
⎢3.0⎥
⎢ 0.1091
⎢ ⎥
⎢
⎣3.2⎦
⎣0.03815
j = 1,2,3
0.1170
0.4387
0.8732
0.5743
0.2673⎤
0.7470⎥⎥
0.5547⎥
⎥
0.8828⎦
Capítulo IV Casos de Estudio
En la tabla siguiente, tabla 4, se presentan algunas características de las funciones de prueba y
las figuras 10 y 11 muestran gráficamente las funciones F1 y F2 respectivamente.
Tabla 4. Algunas características de las funciones de prueba
Nombre
Dimensión
F1
2
F2
2
F3
3
xopt
[4.9074
5.9959]
0 ⎤
⎡− 6
⎢ 6 − 16⎥
⎢
⎥
⎢⎣ 6
16 ⎥⎦
[0.1153
0.5555 0.8518]
y opt (mínimo)
y max
Rango
100.7426
189.5721
88.8295
−1
1
2
−1
1
2
−1
1
2
− 3.8628
0.00
3.8628
Figura 10. Gráfica de la función de prueba F1
61
Figura 11. Grafica de la función de prueba F2
4.1.1 Conjuntos de entrenamiento
Utilizando un diseño en Hipercubo Latino, para cada función de prueba se generaron tres
conjuntos de entrenamiento, de esta manera, cada uno de estos conjuntos representa un muestreo
diferente del dominio de las funciones de prueba.
El tamaño de los conjuntos de entrenamiento fue pequeño según la clasificación realizada por
Jin R. y col [10]. De acuerdo a este trabajo, el número de puntos de muestreo para el diseño en
Hipercubo Latino fue entonces de 10.d, siendo d la dimensión del espacio de las variables de
entrada.
La tabla 5 muestra un resumen relativo a este caso de estudio y a los modelos obtenidos para
cada conjunto de entrenamiento.
62
Tabla 5. Resumen del caso de estudio en las funciones de prueba y modelos obtenidos en los
conjuntos de entrenamiento.
Funciones
de prueba
F1
F2
F3
Total:
3
Conjuntos de
entrenamiento
1
2
3
1
2
3
1
2
3
9
Numero de puntos
de muestreo
20
20
20
20
20
20
30
30
30
Modelos
obtenidos
4 (uno/maquina)
4 (uno/maquina)
4 (uno/maquina)
4 (uno/maquina)
4 (uno/maquina)
4 (uno/maquina)
4 (uno/maquina)
4 (uno/maquina)
4 (uno/maquina)
36
Modelos
elegidos
1
1
1
1
1
1
1
1
1
9
4.2 El modelo de simulación
Para este trabajo se consideraron datos provenientes de una prueba piloto del modelo de
simulación UTCHEM de la Universidad de Texas en Austin [11], el cual es uno de los
simuladores computacionales mas reconocidos para la simulación de procesos de recuperación
mejorada de petróleo por inyección de químicos. En este proceso de recuperación de petróleo, el
problema de interés es encontrar los valores óptimos de las concentraciones de álcali, surfactante,
polímero y tiempo de inyección de estos químicos que maximicen la cantidad acumulada de
petróleo recuperado, pero es conocido que el simulador tiene un alto costo desde el punto vista
computacional y que resolver este problema de optimización considerando como función objetivo
la ejecución del simulador es un procedimiento poco práctico, por lo tanto, para la evaluación de
la función objetivo se requiere de modelos sustitutos del simulador computacional UTCHEM.
En este trabajo se consideró la construcción de modelos sustitutos utilizando las funciones de
pérdida ε – insensible, Huber, Laplace y Cuadrática en dos conjuntos de datos provenientes del
simulador UTCHEM: ASP1, un conjunto de 64 datos generados a través de un diseño en
Hipercubo latino y ASP2, un conjunto de 88 datos compuesto por el conjunto de datos anterior
mas 24 puntos adicionales correspondientes a las caras y vértices del Hipercubo de dimensión 4d.
La variable respuesta (producción acumulada de petróleo) fue calculada a los 487 días a partir del
inicio de la simulación y como una fracción del petróleo original del sitio (POES). El dominio de
63
las variables de diseño para este problema de optimización se presenta en la tabla 6.
Tabla 6. Dominio de las variables de diseño en el problema de optimización para la recuperación
de petróleo por inyección de químicos ASP
Variables de Diseño
Concentración de Alcali
Concentración de Surfactante
Concentración de Polimero
Tiempo de Inyección
Min
Max
Unidad
0.00
0.5898
meq/ml
1.815 x10 −3
0.005
Fracc.Vol
0.0487
0.12
Wt %
111
326
días
4.2.1 Conjuntos de entrenamiento
Para los conjuntos ASP1 y ASP2 fueron seleccionados aleatoriamente un conjunto de
entrenamiento igual al 80% de los datos. Igual que en el caso de las funciones de prueba, este
procedimiento fue realizado tres veces, de tal manera que, cada uno de estos conjuntos de
entrenamiento representa un muestreo diferente del espacio de diseño de las variables del
problema.
La tabla 7 muestra un resumen relativo a este caso de estudio y a los modelos obtenidos para
los conjuntos de entrenamiento.
Tabla 7. Resumen del caso de estudio para el simulador computacional y modelos obtenidos en
los conjuntos de entrenamiento.
Conjunto de
datos reales
ASP1
ASP2
Total:
2
Conjuntos de
entrenamiento
1
2
3
1
2
3
6
Numero de puntos
de muestreo
51
51
51
70
70
70
# de modelos
obtenidos
4 (uno/maquina)
4 (uno/maquina)
4 (uno/maquina)
4 (uno/maquina)
4 (uno/maquina)
4 (uno/maquina)
24
Modelos
elegidos
1
1
1
1
1
1
6
64
CAPÍTULO V
PRESENTACIÓN Y ANÁLISIS DE LOS RESULTADOS
Primero se presentan y analizan los resultados obtenidos al utilizar los datos generados
artificialmente en las diferentes funciones de prueba y luego, los correspondientes a los datos
reales provenientes del simulador computacional UTCHEM.
Los resultados son presentados en diagramas de barras, donde las alturas corresponden a las
medidas utilizadas para evaluar el desempeño de cada modelo, por lo tanto, modelos con barras
de poca altura revelan ajustes relativamente buenos. Para los datos artificiales las medidas de
desempeño de los modelos fueron de dos tipos: a) medidas que permitieron evaluar la capacidad
del modelo para aproximar la función y b) medidas que permitieron evaluar la capacidad para
reproducir el óptimo de la región del espacio de diseño y el óptimo de la función. Las medidas
para evaluar las bondades de los modelos como aproximadores estuvieron basadas en la
diferencia absoluta de ( y i − yˆ i ) y fueron: la máxima diferencia (maxd), el promedio (mediad) y la
desviación estándar (dstd). Como medidas relacionadas con el óptimo se utilizaron las distancias
relativas ( xˆ opt − xopt ) xopt (distx) y ( yˆ opt − y opt ) y opt (disty). En el caso de los datos reales,
como xopt y y opt son desconocidos, no se pudo evaluar la capacidad de los modelos para
reproducir el óptimo, como alternativa se verificó la bondad del mejor modelo en el punto x̂opt
utilizando yˆ opt − y opt , donde y opt es la respuesta del simulador en x̂opt .
5.1 Caso datos artificiales
Para cada conjunto de entrenamiento fueron obtenidos cuatro modelos: 1- modelo generado al
utilizar la función de pérdida ε – insensible (Ei) 2- modelo generado al utilizar la función de
pérdida de Huber (Hb) 3- modelo generado al utilizar la función de pérdida de Laplace (Lp) y 4modelo generado al utilizar la función de pérdida Cuadrática (Cd).
Capítulo V. Presentación y Análisis de los Resultados
5.1.1 Función de prueba F1
La figura 12 permite visualizar el desempeño de los cuatro modelos arriba mencionados como
aproximadores de la función de prueba F1. La figura muestra que en el conjunto 1, Lp y Cd
parecen bastante similares y por el pequeño contraste entre las alturas de las barras
correspondientes a maxd parecen también levemente superiores a Ei, en consecuencia, para el
conjunto 1, el grupo de modelos que mejor aproximan a F1 está formador por LP, Cd y Ei. En el
conjunto 2 se aprecia de manera clara que el mejor en este sentido es Hb, ocupando Lp el
segundo lugar por una diferencia de aproximadamente 2.5 unidades en el valor de maxd. En el
conjunto 3 el mejor desempeño fue para Cd, seguido por Hb y finalmente Ei. En la tabla 8 se
muestra un resumen de lo anteriormente señalado.
40
35
30
25
20
15
10
5
0
Conjunto 2
Conjunto 1
Conjunto 3
mediad
dstd
maxd
Ei Hb Lp Cd
Ei Hb Lp Cd
Ei Hb Lp Cd
Figura 12. Desempeño de los modelos como aproximadores de la función de prueba F1.
Tabla 8. Mejores aproximadores de la función de prueba F1
1
Mejores
aproximadores
Lp Cd Ei
2
Hb Lp
3
Cd Hb Ei
Conjunto
La figura 13 presenta las medidas que permiten evaluar la capacidad que tienen los modelos
para reproducir el óptimo de las variables de diseño y el correspondiente valor funcional. A
primera vista la figura parece mostrar, por la magnitud de las barras del estadístico distx, que
66
en los tres conjuntos de datos x̂opt resultó en un valor muy alejado del real, sin embargo, por el
diagrama de contornos de la función mostrado en la figura 14, se puede aclarar que esta situación
es debido a que F1 presenta un valle en la región donde se encuentra xopt y por lo tanto, grandes
diferencias de distx no producen grandes diferencias en disty.
0,5
Conjunto 2
Conjunto 1
Conjunto 3
0,4
0,3
distx
0,2
disty
0,1
0
Ei Hb Lp Cd
Ei
Hb Lp Cd
Ei
Hb Lp Cd
Figura 13. Desempeño de los modelos como reproductores del optimo. Función de prueba F1
6
*
Minimo
5
de
F1
X2
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
X1
Figura 14. Diagrama de contornos de la función de prueba F1
67
La figura 13 muestra que en el conjunto 1 Ei presenta el mejor desempeño, mostrando el
menor valor de distx y un valor de disty prácticamente igual a cero. Muy cercanos a Ei están Hb y
Cd pudiéndose incluir también dentro del grupo de los mejores reproductores del óptimo para
este conjunto 1. En el conjunto 2 el mejor desempeño fue claramente para Hb y en el conjunto 3
la decisión fue para Lp y Cd, la cual se basó al considerar que Ei y Hb presentan valores de distx
de casi el 50% y que los de disty, aun cuando son menores que los de Lp y Cd es una diferencia
estimada según la grafica en 1% y por lo tanto poco significativa. En la tabla 9 se amplia la tabla
8 y se resume lo antes expuesto. Como un modelo sustituto debe poseer características de buen
aproximador de la función y buen reproductor del optimo, la tabla 9 incluye además los modelos
que poseen ambas características.
Tabla 9. Mejores modelos para la función de prueba F1
Como reproductor del óptimo
Modelos con
ambas
características
Mejores modelos
Conjunto Como aproximador de la función
1
Lp Cd Ei
Ei Hb Cd
Ei Cd
2
Hb, Lp
Hb
Hb
3
Cd Hb Ei
Lp Cd
Cd
La tabla 9 revela que por el procedimiento de selección realizado, de los tres conjuntos de
entrenamiento generados para la función de prueba F1, Cd fue seleccionado es dos de ellos como
buen modelo para la función F1, por lo tanto, Cd tuvo mayor presencia que los otros modelos.
Al observar nuevamente la figura 12, se evidencia que en el conjunto 1 y en el 3 se presentan
los mejores desempeños y por lo tanto, el mejor modelo sustituto para la función F1 está entre Ei
y Cd del conjunto 1 y Cd del conjunto 3, quedando descartado Hb del conjunto 2.
Al comparar Cd con Ei en el conjunto 1, la diferencia mas notable está en la maxd siendo
aproximadamente igual a una unidad y a favor de Cd. Esta diferencia puede considerarse poco
significativa, sin embargo Cd resulta el mejor en el conjunto 1. Una situación muy similar sucede
al comparar Cd del conjunto 1 y Cd del conjunto 3, donde la diferencia a favor de Cd del
conjunto 1 es del orden de una unidad en la maxd, en consecuencia, la superioridad de Cd del
68
conjunto 1 no parece contundente sobre la del conjunto 2, pero resulta el mejor modelo sustituto
de la función de prueba F1. En la tabla10 se presentan los parámetros y los valores óptimos
estimados para este modelo.
Tabla 10. Parámetros y valores óptimos del modelo sustituto para la función de prueba F1
Conjunto
Modelo
sustituto
h
C
ε,μ
x̂opt
ŷ opt
yˆ opt − y opt
1
Cd
0.5515
112.3026
-
4.8004 4.4787
100.3075
0.4251
Finalmente es necesario mencionar, que el procedimiento de selección utilizado conduce a Cd
del conjunto 1 como el mejor modelo sustituto de F1, pero al observar nuevamente las graficas 12
y 13, Ei del conjunto 1 y Lp del conjunto 3 pueden considerarse modelos similares al modelo
sustituto Cd. La diferencia entre Ei y Lp a favor de Cd, es que estos dos modelos muestran leves
valores superiores de maxd (una y dos unidades respectivamente), lo cual los llevó a no ser
considerados, pero Cd está en desventaja respecto a Ei y Lp, en que estos dos modelos poseen
mejores valores de distx y disty.
La figura 15 presenta la superficie de los residuales ( y i − yˆ i ) entre la función de prueba F1 y
Cd al utilizar una malla de puntos. La figura 15 sirve para ilustrar el ajuste entre el modelo
estimado y el real, un buen ajuste debería mostrar una superficie alrededor del cero. En la figura
se observa un buen ajuste salvo en la región del espacio de diseño donde se encuentra el borde
del lado derecho de la función, borde que como puede verse en la figura 10 del Capítulo III, es
difícil de modelar.
5.1.2
Función de prueba F2
La figura 16 muestra para esta función de prueba el desempeño, como aproximadores de
funciones, de los cuatro modelos obtenidos. Al observar la figura se puede notar que para el
conjunto 1 claramente el mejor desempeño fue para Cd, en el conjunto 2 parecen coincidir
bastante Hb y Cd y en el conjunto 3, el desempeño de Hb fue superior al de Cd por una diferencia
muy pequeña de aproximadamente de 0.05 en el valor de maxd.
69
Figura 15. Superficie de los residuales entre F1 y Cd. Conjunto de entrenamiento 1
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
Conjunto 1
Conjunto 2
Conjunto 3
mediad
dstd
maxd
Ei Hb Lp Cd
Ei Hb Lp Cd
Ei Hb Lp Cd
La tabla 11 muestra de manera resumida todo lo antes dicho sobre los mejores modelos como
aproximadores de la función de prueba F2.
Respecto al desempeño de los modelos como reproductores del óptimo, la figura 17 muestra
que en los conjuntos 1 y 3, Cd presentó una visible superioridad sobre los otros modelos y en el
70
conjunto 2, Hb y Cd se muestran prácticamente iguales como reproductores del óptimo de esta
función.
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
Conjunto
Mejores
aproximadores
1
Cd
2
Cd Hb
3
Hb Cd
Conjunto1
Conjunto 2
Conjunto 3
dist1
dist2
Ei Hb Lp Cd
Ei Hb Lp Cd
Ei Hb Lp Cd
Figura 17. Desempeño de los modelos como reproductores del óptimo. Función de prueba F2.
Un resumen de los mejores modelos reproductores de las condiciones óptimas se presenta
ahora en la tabla 12. Esta tabla incluye los mejores modelos aproximadores de F2 que fueron
presentados en la tabla 11 y los que poseen ambas características.
Modelos con
ambas
características
Mejores modelos
1
Cd
Cd
Cd
2
Cd Hb
Hb Cd
Hb Cd
3
Hb Cd
Cd
Cd
71
En la tabla 12 se observa que Cd siempre estuvo involucrado dentro de los mejores modelos
para representar a la función de prueba F2, y de los otros modelos, solamente Hb estuvo presente
en el conjunto 2 y compitiendo con Cd. Al observar nuevamente la figura 16 para decidir el
mejor modelo sustituto de F2, se nota que este es claramente Cd del conjunto 1. En la tabla 13 se
presentan los parámetros y los valores óptimos estimados para este modelo.
Conjunto
Modelo
Sustituto
h
C
ε,μ
x̂opt
ŷ opt
yˆ opt − y opt
1
Cd
0.4000
2993.8
-
5.4412 16.6282
-1.0112
0.0112
Una situación parecida a la presentada con la función de prueba F1 se presenta también en esta
función F2, donde el procedimiento de selección conduce a Cd como modelo sustituto de F2,
pero un examen de las figuras 16 y 17 revela que Hb y Cd del conjunto 2 se desempeñan de
manera similar. La diferencia entre Hb y Cd respecto al modelo sustituto seleccionado solamente
está presente en los estadísticos mediad, dstsd y maxd, siendo 0.05 unidades en maxd y dstd, y de
0.02 en la mediad, los cuales comparados con el rango de la función (tabla 4) no representan una
franca superioridad del modelo sustituto seleccionado sobre Hb y Cd del conjunto 2.
La figura 18 presenta para el modelo de la tabla 13 la superficie de los residuales entre la
función de prueba F2 y Cd y para lo cual fue utilizada una malla de puntos. La apariencia de la
superficie de los residuales parece mostrar un ajuste satisfactorio de la función de prueba F2,
salvo en la región de diseño que corresponde con la esquina izquierda de la grafica donde parecen
presentarse los residuales con los mas altos valores.
5.1.3 Función de prueba F3
Siguiendo el mismo proceso de análisis llevado a cabo en las dos funciones de pruebas
anteriores, se presenta la figura 19 la cual muestra que para el conjunto 1, Ei representan la mejor
alternativa de este conjunto como aproximador de la función F3, le siguen Hb y Lp por pequeñas
diferencias en dstd y maxd respectivamente. Para el conjunto 2 Lp y Ei son los mas destacados
72
existiendo solo entre ellos una pequeña diferencia de aproximadamente 0.02 unidades y en el
conjunto 3 se aprecia un comportamiento bastante homogéneo para todos los modelos. La tabla
14 presenta en resumen lo dicho anteriormente.
Figura 18. Superficie de los residuales entre F2 y Cd. Conjunto de entrenamiento 1
1,6
1,4
1,2
1
0,8
0,6
0,4
0,2
0
Conjunto 1
Conjunto 2
Conjunto 3
mediad
dstd
maxd
Ei Hb Lp Cd
Ei Hb Lp Cd
Ei Hb Lp Cd
73
1
Mejores
aproximadores
Ei Hb Lp
2
Ei Lp
3
Ei Hb Lp Cd
Conjunto
Con respecto al desempeño como reproductores del óptimo, en la figura 20 se observa como
en el conjunto 1 las mejores alternativas fueron para Lp y Ei, mostrando ambos un valor bastante
alto para el estadístico distx (en el orden del 45% de la distancia total). En el conjunto 2
claramente se destacan Ei y Lp mostrando un mejor valor de distx (alrededor del 9%) y en el
conjunto 3, la decisión de los mejores fue para Lp y Cd notándose una situación similar a la del
conjunto 1, es decir, un estadístico distx superior al 40%.
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
Conjunto 1
Conjunto 2
Conjunto 3
distx
disty
Ei Hb Lp Cd
Ei Hb Lp Cd
Ei Hb Lp Cd
Figura 20. Desempeño de los modelos como reproductores del óptimo. Función de prueba F3.
La tabla 15 presenta para la función de prueba F3, un resumen de los mejores modelos como
aproximadores, como reproductores del óptimo y con ambas características. Contrario a lo
ocurrido en las funciones de prueba F1 y F2, en esta función no es muy notable la presencia de
Cd, mayor presencia tuvieron Lp y Ei.
Al observar de nuevo la figura 19, con el fin de seleccionar el modelo sustituto de F3 entre el
grupo de los mejores modelos, primero se descartan los del conjunto 3 (Ei y Lp) que son los que
74
muestran mayores desempeños, quedando solamente Lp y Cd de los conjuntos 1 y 2. Entre estos
dos conjuntos, se visualiza Lp en el conjunto 2 con el desempeño mas favorable y en
consecuencia se toma como el modelo sustituto de F3. En la tabla 16 se presentan los parámetros
y los valores óptimos estimados para este modelo.
Mejores modelos
con ambas
características
Mejores modelos
1
Ei Hb Lp
Lp Ei
Ei Lp
2
Ei Lp
Ei Lp
Ei Lp
3
Ei Hb Lp Cd
Lp Cd
Lp Cd
Conjunto
Modelo
sutituto
2
Lp
h
C
0.5833 56.5370
ε,μ
x̂opt
ŷ opt
yˆ opt − y opt
0.00
.1914 .5700 .8141
-3.6827
0.1801
Igual que en los dos casos anteriores donde además de seleccionar un modelo sustituto de la
función de prueba también fue posible encontrar un modelo similar, de la misma manera se
presenta esta situación para la función F3. Al observar de nuevo la figura 19 y con la ayuda de la
figura 20, se aprecia que otro modelo muy similar al modelo sustituto seleccionado es Ei
perteneciente al mismo conjunto 2. La diferencia fundamental entre Ei y el modelo sustituto Lp
sólo es apreciable en el valor de maxd, el cual está en el orden de 0.02 unidades y a favor de Lp,
obviamente un valor que marca una gran diferencia entre los dos modelos y en consecuencia,
resultan similares.
5.2 Caso datos reales
Igual que el caso de datos artificiales, para cada conjunto de entrenamiento fueron obtenidos
los cuatro modelos Ei, Hb,Lp y Cd.
75
5.2.1 Datos ASP1
La figura 21 muestra el desempeño de los cuatro modelos obtenidos como aproximadores del
modelo de simulación computacional. Puede visualizarse en la figura que las medidas de
desempeño para este caso resultaron mas homogéneas que las observadas en las funciones de
prueba. En el conjunto 1 se observan
desempeños muy similares entre Ei, Lp y Cd.
Considerando que Hb respecto a los otros modelos presenta en su contra una pequeña
discrepancia en el valor de maxd ( aproximadamente1% del Poes), pero 0.5% a favor en el valor
de mediad, es posible considerar también a Hb dentro del grupo de mejores modelos para el
conjunto 1. Una situación similar entre Hb, Ei y Cd se presenta en el conjunto 2, donde Cd y Hb
tienen en su contra respecto a Ei una diferencia del 1% y 0.5%, respectivamente, en el valor de
maxd, de la misma manera, se decidió seleccionar entonces a ambos modelos en el conjunto 2.
Por un razonamiento similar al anterior, para el conjunto 3 se seleccionaron los modelos Ei, Hb y
Cd.
La tabla 17 hace un resumen de los modelos seleccionados como mejores aproximadores del
simulador computacional, pero a través de la figura 21, es posible apreciar que el modelo
sustituto para ASP1 en base a todos los estadísticos de desempeño es Ei del conjunto 3, sin
embargo, es posible también apreciar que existen otros modelos similares como son por ejemplo:
Hb en el mismo conjunto 2, Cd del conjunto 3 y Ei en el conjunto 1, donde la diferencia entre
ellos y en cualquiera de los estadísticos puede estar alrededor del 1% del Poes, por lo tanto,
nuevamente se presenta una situación donde diferentes modelos producen ajustes similares. La
tabla 18 muestra los parámetros y óptimos estimados por el modelo sustituto del simulador
computacional. La tabla también muestra información sobre la respuesta del simulador en el
punto x̂opt
Tabla 17. Mejores aproximadores del modelo de simulación. Datos ASP1
1
Mejores
aproximadores
Ei Hb Lp Cd
2
Ei Hb Cd
3
Ei Hb Cd
Conjunto
76
Tabla 18. Parámetros y valores óptimos del modelo sustituto del simulador computacional. Datos
ASP1
Modelo
sustituto
h
C
ε
x̂opt
ŷ opt
Simulador
Ei
2.9999
17.227
0.06
.3057 .0050 .1200 325.9508
30.9131
29.49
Conjunto 1
14
12
10
8
6
4
2
0
Conjunto 2
Conjunto 3
mediad
dstd
maxd
Ei Hb Lp Cd
Ei Hb Lp Cd
Ei Hb Lp Cd
Figura 21. Desempeño de los modelos como aproximadores del modelo de simulación
computacional. Datos ASP1
5.2.2 Datos ASP2
Al examinar la figura 22 se observa una situación similar a la encontrada con los datos ASP1
del caso anterior, en el sentido de que ajustes similares se pueden apreciar entre los conjuntos de
datos, pero al comparar la figura 22 con la 21, se nota que en términos del estadístico mediad los
modelos en ASP2 fueron ligeramente superiores. En el conjunto 1 los mas destacados como
aproximadores del modelo de simulación fueron Ei, Lp y Cd, pero las diferencias entre los
estadísticos dstd y maxd de estos modelos con respecto a los de Hb parecen estar en el orden de
0.5% y por tanto, es posible que tal diferencia sea poco significativa. La misma situación se
presenta en el conjunto 2 donde Ei, Hb, y Lp son prácticamente iguales estando en desventaja con
respecto a Cd solamente en el valor de maxd, desventaja que puede estimarse en menos del 1%,
pero en ventaja respecto a Cd en el valor de mediad donde esa ventaja se estima por el orden
0.5%, en consecuencia, en este conjunto 2 cualquier modelo puede ser un modelo sustituto del
77
modelo computacional. En el conjunto 3 el mas evidente parece Ei, pero por las mismas razones
anteriores pueden considerarse también H y Cd. La tabla 19 resume lo expuesto anteriormente
sobre la figura 22.
14
12
10
8
6
4
2
0
Conjunto 1
Conjunto 2
Conjunto 3
mediad
dstd
maxd
Ei Hb Lp Cd
Ei Hb Lp Cd
Ei Hb Lp Cd
Figura 22. Desempeño de los modelos como aproximadores del modelo de simulación
computacional. Datos ASP2
Tabla 19. Mejores aproximadores del modelo de simulación. Datos ASP2
1
Mejores
aproximadores
Ei Hb Lp Cd
2
Ei Hb Lp Cd
3
Ei Hb Cd
Conjunto
De todos los modelos mostrados en la figura 22, el mas evidente como modelo sustituto del
simulador es Hb en el Conjunto 3, donde también es posible apreciar que existen otros modelos
similares como son por ejemplo: Ei en el mismo conjunto 3 y Cd y Ei del conjunto 1. La tabla 20
muestra los parámetros y óptimos estimados por el modelo sustituto Hb, la tabla también muestra
información sobre la respuesta del simulador en el punto x̂opt .
Al comparar las respuestas estimadas x̂opt y ŷ opt por los modelos sustitutos Ei y Hb (tablas
18 y 20), se puede notar que éstas no difieren de manera significativa y en consecuencia, no
78
hubo diferencia en la respuesta de los modelos sustitutos debido a la diferencia de tamaño entre
los conjuntos ASP1 y ASP2. Asimismo, no hubo diferencia en la respuesta del simulador al
evaluar x̂opt , siendo esto otro indicio de que los modelos proporcionaron un ajuste satisfactorio.
Tabla 20. Parámetros y valores óptimos del modelo sustituto del simulador computacional. Datos
ASP2
Modelo
sustituto
h
C
μ
x̂opt
ŷ opt
Simulador
Hb
1.9259
1.0085
0.06
.3275 .0050 .1200 325.9508
30.6972
29.26
5.2.3 El gradiente
Por último, es necesario mencionar que los óptimos estimados x̂ opt por los modelos sustitutos
Ei y Hb (tablas 18 y 20) presentan en la segunda, tercera y cuarta variable valores en el borde de
la región (ver tabla 6 del CAPÍTULO IV). Estas variables corresponden a las concentraciones de
surfactante, polímero y al tiempo de inyección respectivamente. Es conveniente, entonces,
determinar y evaluar el vector gradiente en esos puntos con el fin de obtener la dirección de la
máxima producción acumulada de petróleo y estudiar la posibilidad de mover la región de diseño.
La tabla 21 muestra los puntos x̂opt de los modelos Ei y Hb y el vector gradiente evaluado en
esos puntos.
Tabla 21. Gradiente de los modelos sustitutos del simulador computacional
x̂opt
∇f ( xˆ opt )
ASP1 modelo Ei
0.3057 0.0050 0.1200 325.9508
0.0822 209.6820 137.1150 0.0100
ASP2 modelo Hb
0.3275 0.0050 0.1200 325.9508
0.1065 642.6266 134.3671 0.0114
Como el gradiente representa el máximo incremento de la respuesta, ante un pequeño
incremento en cada variable ( Δy Δx ), en la tabla 22 se muestran los incrementos de la producción
79
acumulada de petróleo (como % del POES) producto de incrementar un 1% las variables con
valores en el borde. En la tabla se observa que, el mayor incremento en el porcentaje de petróleo
acumulado se obtendría al incrementar la concentración de polímero, específicamente, por cada
incremento de 0.0012% de wt de polímero, se tiene un aumento del 0.16% del POES. Este
resultado revela que para moverse rápidamente hacia el máximo, se recomienda ampliar la región
de diseño en la dirección de la variable polímero.
Tabla 22. Incrementos en la producción acumulada de petróleo producto de incrementar 1% en
las variables con valores en el borde.
Variables en el borde
Valores del borde
1% de incremento
Incremento en la respuesta
ASP1
ASP2
Surfactante
0.005
0.00005
0.0105
0.0321
Polímero
0.12
0.0012
0.1646
0.1642
Tiempo de inyección
326
3.26
0.0326
0.0372
80
CAPITULO VI
CONCLUSIONES
1. En el presente trabajo se comparó el desempeño de las funciones de pérdida ε –
insensible, Huber, Laplace y Cuadrática, a través de los modelos de maquinas de vectores
soporte para regresión que resultaron de utilizar aquellas funciones de pérdida. En la
metodología propuesta, la constante de regularización y el ancho de la función de base
radial fueron elegidos mediante el algoritmo de optimización global DIRECT. Se
utilizaron conjuntos pequeños de datos para el entrenamiento y los resultados reflejaron
que los modelos obtenidos fueron apropiados como modelos sustitutos de los modelos
reales para todas las funciones de pérdida.
2. El modelo asociado a la función de pérdida cuadrática, siempre estuvo incluido entre los
mejores para representar a las funciones de prueba F1 y F2. Resultó ser el mejor modelo
sustituto de las funciones F1 y F2, pero muy similar al modelo proveniente de la función
de pérdida ε – insensible en la función de prueba F1 y al modelo proveniente de la
función de pérdida de Huber en la función F2.
3. Dentro de los modelos sustitutos de la función F3, se notó mayor participación de los
modelos originados por las funciones ε – insensible y Laplace, siendo mejor el generado
por la función de Laplace, pero muy similar al originado por la función de pérdida ε –
insensible.
4. Con respecto a los modelos ASP1 y ASP2, sustitutos del simulador UTECHEM,
resultaron ligeramente superiores los asociados a las funciones de pérdida ε – insensible y
Huber, aunque los restantes tuvieron también un buen desempeño.
5. No se encontró diferencia, debido al desigual tamaño entre los dos conjuntos de datos
ASP1 y ASP2, en las respuestas estimadas x̂opt y ŷ opt por los correspondientes modelos
sustitutos.
Capítulo VI. Conclusiones
6. La metodología utilizada en este trabajo para elegir de forma automática los parámetros
de los modelos a través del algoritmo de optimización global DIRECT, resultó en un
procedimiento eficiente, pero puede llegar a ser un procedimiento costoso desde el punto
de vista computacional cuando el número de variables sea alto.
7. Los puntos óptimos estimados de la región de diseño del problema de ASP, presentaron
en tres variables valores en el borde, la evaluación del vector gradiente en estos puntos
señaló que, a fin de incrementar la producción acumulada de petróleo es necesario
incrementar la concentración de polímero.
8. Los resultados encontrados en las diferentes funciones de prueba y para el caso del
simulador computacional UTCHEM, no arrojan una notoria superioridad de una función
de pérdida sobre las restantes. Siendo la función de pérdida cuadrática la función
tradicional y cuestionada, los modelos originados por ésta no se mostraron en desventaja
respecto a los otros, por el contrario, estuvieron presentes entre los mejores y compitiendo
con los provenientes de las otras funciones de pérdida. Posiblemente esto se deba a la
ausencia de ruido y de valores atípicos en los casos de estudio considerados.
82
REFERENCIAS BIBLIOGRÁFICAS
1. Zerpa, L. E., Queipo, N. y Pintos, S. (2004) An Optimization Methodology of
Alkaline-Surfactant-Polymer Flooding Processes Using Field Scale Numerical
Simulation and Multiple Surrogates. Ponencia presentada en: The 2004 SPE/DOE
Fourteenth Symposium on Improved Oil recovery Held, Oklahoma, U.S.A. 17-21 April
2004.
2. Queipo, N., Goicochea, J. y Pintos, S. (2001) Surrogate Modeling-Based Optimization
of SAGD Processes. Journal of Petroleum Science and Engineering, Vol. 35 (1-2), 8393.
3. Vapnik, V., Golowich S. and Smola A. (1997) Support Vector Method for Function
Approximation, Regression Estimation and Signal Processing. In M. Mozer, M.Jordan
and T. Petsche, editors, Advances in Neural Information Processing systems 9, Pages
281-287, Cambridge, MA, MTT Press.
4. Jones, D. R., Perttunen, C. D. and Stuckman B. E. (1993) Lipschitzian optimization
without the Lipschitz Constant. Journal of Optimization Theory applications, Vol. 79
(1), 157-181
5. Bishop, C. M. (1999) Neural Networks for Pattern Recognition. United States Oxford
University Press Inc, New York .
6. LS-SVMlab 1.5 (2003) Matlab/C toolbox for Least Squares Suppor Vector Machines.
Disponible en http://www.kernel-machines.org
7. Gunn, S. R. (1998) Support Vector Machines for Classification and regression.
Technical Report, University of Southampton, Faculty of Engineering and Applied
Science, Department of Electronics and Computer Science. Disponible en
http://www.kernel-machines.org
8. Zerpa, L. (2004) Multiples Modelos Sustitutos para la Optimización de Procesos de
Recuperación Mejorada de Petroleo por Inyección de Alcali, Surfactante y Polimero.
Trabajo de Grado. División de Postgrado. Programa de Computación Aplicada.
Facultad de Ingeniería . Universidad del Zulia: Maracaibo. Venezuela.
9. Colmenares Dias, J. A. (2001) Desarrollo de un Algoritmo Eficiente de Optimización
Global Bayesiana y su Integración a un Ambiente de Procesamiento Distribuido.
Trabajo de Grado. Facultad de Ingeniería Division de Postgrado, Programa de
Computación Aplicada. Universidad del Zulia, Maracaibo Venezuela.
10. Jin, R., Chen W., y Simpson, T.W. (2000) Comparative Studies of Metamodeling
Techniques Under multiple Modeling Criterio. American Institute of Aeronautics and
Astronautics. Vol. 48 (1), 1-13
11. UTCHEM-9.0 A Three-Dimensional Chemical flood Simulador, Vol.1 and 2,
Reservoir Engineering Research Program, Center for Petroleum and Geosystems
Engineering, The University of Texas at Austin, July 2000.
12. Schölkopf, B. and Smola, A. (2004) Learning With Kernels Support Vector Machines,
Regularization, Optimization and Beyond. Muestras libres en http://www.kernelmachines.org
13. Schölkopf, B. and Smola, A. (1998) A Tutorial on Support Vector Regression.
NeuroCOLT” Technical Report Series NC-TR-1998-030. Disponible en
http://www.kernel-machines.org
14. Smola, A. (1996) Regression Estimation With Support Vector Learning Machines.
Version 1.01. Disponible en http://www.kernel-machines.org
15. Burges, C. (1998) A Tutorial on Support Vector Machines for Pattern recognition.
Data Mining and Knowledge Discovery 2,121-167. Disponible en: http://www.kernelmachines.org
84

C - inicio - Universidad del Zulia

Transcripción

Documentos relacionados

El Instituto de Contabilidad y Auditoría de Cuentas (ICAC) ha

UNIVERSIDAD AUTÓNOMA DE BAJA CALIFORNIA SUR