Redes neuronales con funciones de base radial

Transcripción

Redes neuronales con funciones de
base radial
Diego Milone
Inteligencia Computacional
Departamento de Informática
FICH-UNL
Inteligencia Computacional - FICH - UNL
¿Otra vez el problema XOR?
x2
+1
−1
x1
−1
+1
Regiones con un perceptrón multicapa
x2
+1
−1
x1
−1
+1
Funciones sigmoideas
Funciones radiales
Regiones radiales
x2
+1
−1
x1
−1
+1
RBF-NN: introducción
Orígenes de las RBF: aproximación de funciones
φ : RN → R
d = φ(x)
φ : RN → R
d = φ(x)
Aproximación:
P
h(x) = wj φ(kx − µj k)
j
φ : RN → R
d = φ(x)
Aproximación:
P
h(x) = wj φ(kx − µj k)
j
frecuentemente se utiliza como función de base radial:
−
φ(κ) = e
κ2
2σ 2
Aproximación:
P ejemplo
p(x) = wj φ(kx − µj k)
j
RBF-NN: generalidades
Arquitectura
Arquitectura
Modelo matemático
yk (x` ) =
M
P
j=1
wkj φj (x` )
Modelo matemático
yk (x` ) =
M
P
wkj φj (x` )
j=1
donde:
−
φj (x` ) = e
kx` −µj k2
2σj2
Modelo matemático
yk (x` ) =
M
P
wkj φj (x` )
j=1
donde:
−
φj (x` ) = e
kx` −µj k2
2σj2
¿Cuáles son los parámetros a entrenar?
RBF-NN: entrenamiento (parte 1)
Diego Milone
FICH-UNL
RBF-NN: entrenamiento
• Método 1:
• Adaptación no supervisada de las RBF
• Utilizando el método k-medias
• Utilizando mapas autoorganizativos
• Otros...
• Adaptación supervisada de los wkj (LMS)
• Método 1:
• Otros...
• Método 2:
• Inicialización por el Método 1
∂ξ
∂ξ
• Adaptación supervisada de las RBF ∂µ
,
ji ∂σj
• Método 1:
• Otros...
• Método 2:
• Inicialización por el Método 1
∂ξ
∂ξ
• Adaptación supervisada de las RBF ∂µ
,
ji ∂σj
• En general se adaptan RBF y wkj por separado.
Adaptación de las RBF: k-medias
Método NO-supervisado! (uno de los más simples)
Objetivos:
• Encontrar k conjuntos Cj de forma que:
Objetivos:
• Cada conjunto Cj sea lo más diferente posible de los demás
Objetivos:
• Los patrones x` dentro de cada Cj sean lo más parecidos
posible entre ellos
Objetivos:
posible entre ellos
• Encontrar el centroide µj de cada conjunto Cj
Objetivos:
posible entre ellos
• Encontrar el centroide µj de cada conjunto Cj
(
Ecuación de optimización: min J =
k P
P
j=1 `∈Cj
)
kx` − µj
k2
Adaptación de las RBF: k-medias por lotes
1. Inicialización: se forman los k conjuntos Cj (0) con patrones
x` elegidos al aleatoriamente.
2. Se calculan los centroides:
µj (n) =
X
1
x`
|Cj (n)|
`∈Cj (n)
µj (n) =
X
1
x`
|Cj (n)|
`∈Cj (n)
3. Se reasignan los x` al Cj más cercano:
` ∈ Cj (n) ⇔ kx` − µj k2 < kx` − µi k2
∀i 6= j
µj (n) =
X
1
x`
|Cj (n)|
`∈Cj (n)
3. Se reasignan los x` al Cj más cercano:
` ∈ Cj (n) ⇔ kx` − µj k2 < kx` − µi k2
∀i 6= j
4. Volver a 2 hasta que no se realicen reasignaciones.
Adaptación de las RBF: k-medias online
Optimización por método de gradiente:


k X
X

∇µ J = ∇µ
kx` − µj k2 = 0


j=1 `∈Cj
Optimización por método de gradiente:


k X
X

∇µ J = ∇µ
kx` − µj k2 = 0


j=1 `∈Cj
µj (n + 1) = µj (n) + η(x` − µj (n))
1. Inicialización: se eligen k patrones aleatoriamente y se
usan como centroides iniciales µj (0) = x0` .
2. Selección:
j∗ = arg minj kx` − µj (n)k
2. Selección:
3. Adaptación:
µj∗ (n + 1) = µj∗ (n) + η(x` − µj∗ (n))
2. Selección:
3. Adaptación:
µj∗ (n + 1) = µj∗ (n) + η(x` − µj∗ (n))
4. Volver a 2 hasta no encontrar mejoras significativas en J.
RBF-NN: entrenamiento (parte 2)
Diego Milone
FICH-UNL
Adaptación de los pesos: generalidades
• Al entrenar los pesos, las RBF quedan fijas
• Al estar las RBF fijas se pueden obtener las salidas
intermedias para cada patrón de entrada: φ(x` )
• Con esas salidas intermedias se puede entrenar cada
perceptrón simple:
y = Wφ(x` )
Adaptación de los pesos: generalidades
• Al entrenar los pesos, las RBF quedan fijas
• Al estar las RBF fijas se pueden obtener las salidas
intermedias para cada patrón de entrada: φ(x` )
• Con esas salidas intermedias se puede entrenar cada
perceptrón simple:
y = Wφ(x` )
• Métodos de entrenamiento:
• pseudo-inversa del vector φ(x` )
• gradiente descendiente sobre el error cuadrático
instantáneo (LMS)
Adaptación de los pesos: método LMS
ek (n) = yk (n) − dk (n)
ek (n) = yk (n) − dk (n)

2
1 X X
1X 2
ek (n) =
wkj (n)φj (n) − dk (n)
ξ(n) =
2
2
k
k
j
ek (n) = yk (n) − dk (n)

2
1 X X
1X 2
ek (n) =
ξ(n) =
2
2
k
k
j


∂ξ(n)
∂ X
= (yk (n) − dk (n))
∂wkj (n)
∂wkj
j
ek (n) = yk (n) − dk (n)

2
1 X X
1X 2
ek (n) =
ξ(n) =
2
2
k
k
j


∂ξ(n)
∂ X
= (yk (n) − dk (n))
∂wkj (n)
∂wkj
j
∂ξ(n)
= ek (n)φj (n)
∂wkj (n)
Regla de aprendizaje:
wkj (n + 1) = wkj (n) − ηek (n)φj (n)
wkj (n + 1) = wkj (n) − η
P
i
wki (n)φi (n) − dk (n) φj (n)
Comparación RBF-NN vs. MLP
RBF-NN
MLP
RBF-NN
MLP
1 capa oculta
p capas ocultas
RBF-NN
MLP
1 capa oculta
p capas ocultas
distancia a prototipos gaussianos
hiperplanos sigmoideos
RBF-NN
MLP
1 capa oculta
p capas ocultas
representaciones locales sumadas
representaciones distribuidas combinadas
RBF-NN
MLP
1 capa oculta
p capas ocultas
representaciones locales sumadas
representaciones distribuidas combinadas
convergencia más simple (linealidad)
entrenamiento más rápido
arquitectura más simple
combinación de diferentes paradigmas de aprendizaje
Gaussianas N-dimensionales
Diego Milone
FICH-UNL
Anotaciones sobre gaussianas N-dimensionales
Concepto, interpretación gráfica y forma matricial
Forma general → x, µj ∈ RN , Uj ∈ RN×N :
Concepto, interpretación gráfica y forma matricial
Forma general → x, µj ∈ RN , Uj ∈ RN×N :
N (x, µj , Uj ) =
1
(2π)N/2 |Uj |1/2
1
T U−1 (x−µ )
j
j
· e− 2 [(x−µj )
]
• Caso simplificado 3 → Uj = I:
0
− 12
N (x, µj ) = e
N
P
(xk −µjk )
k=1
2
• Caso simplificado 3 → Uj = I:
− 12
0
N (x, µj ) = e
N
P
(xk −µjk )
2
k=1
• Caso simplificado 2 → Uj ∈ RN×N , diagonal igual:
N (x, µj , Uj ) =
1
−
√
·e
(2π)N/2 Nσ
1
2σ 2
N
P
k=1
(xk −µjk )
2
• Caso simplificado 1 → Uj ∈ RN×N , diagonal general:
1
s
N (x, µj , Uj ) =
(2π)N/2
·e
N
P
k=1
σjk2
− 21
(xk −µjk )2
σ2
k=1
jk
N
P
• Caso simplificado 1 → Uj ∈ RN×N , diagonal general:
1
s
N (x, µj , Uj ) =
(2π)N/2
·e
N
P
k=1
− 21
(xk −µjk )2
σ2
k=1
jk
N
P
σjk2
• Forma general → x, µj ∈ RN , Uj ∈ RN×N :
N (x, µj , Uj ) =
1
(2π)N/2 |Uj |1/2
1
· e− 2 [(x−µj )
T U−1 (x−µ )
j
j
]

Redes neuronales con funciones de base radial

Transcripción

Documentos relacionados

Descripción El edificio del Correo marca un hito que cierra el ciclo

Mercedes Luciani - Facultad de Ciencias Económicas