Redes neuronales con funciones de base radial
Transcripción
Redes neuronales con funciones de base radial
Redes neuronales con funciones de base radial Diego Milone Inteligencia Computacional Departamento de Informática FICH-UNL Inteligencia Computacional - FICH - UNL ¿Otra vez el problema XOR? x2 +1 −1 x1 −1 +1 Inteligencia Computacional - FICH - UNL Regiones con un perceptrón multicapa x2 +1 −1 x1 −1 +1 Inteligencia Computacional - FICH - UNL Funciones sigmoideas Inteligencia Computacional - FICH - UNL Funciones radiales Inteligencia Computacional - FICH - UNL Regiones radiales x2 +1 −1 x1 −1 +1 Inteligencia Computacional - FICH - UNL RBF-NN: introducción Orígenes de las RBF: aproximación de funciones φ : RN → R d = φ(x) Inteligencia Computacional - FICH - UNL RBF-NN: introducción Orígenes de las RBF: aproximación de funciones φ : RN → R d = φ(x) Aproximación: P h(x) = wj φ(kx − µj k) j Inteligencia Computacional - FICH - UNL RBF-NN: introducción Orígenes de las RBF: aproximación de funciones φ : RN → R d = φ(x) Aproximación: P h(x) = wj φ(kx − µj k) j frecuentemente se utiliza como función de base radial: − φ(κ) = e κ2 2σ 2 Inteligencia Computacional - FICH - UNL RBF-NN: introducción Aproximación: P ejemplo p(x) = wj φ(kx − µj k) j Inteligencia Computacional - FICH - UNL RBF-NN: generalidades Arquitectura Inteligencia Computacional - FICH - UNL RBF-NN: generalidades Arquitectura Inteligencia Computacional - FICH - UNL RBF-NN: generalidades Modelo matemático yk (x` ) = M P j=1 wkj φj (x` ) Inteligencia Computacional - FICH - UNL RBF-NN: generalidades Modelo matemático yk (x` ) = M P wkj φj (x` ) j=1 donde: − φj (x` ) = e kx` −µj k2 2σj2 Inteligencia Computacional - FICH - UNL RBF-NN: generalidades Modelo matemático yk (x` ) = M P wkj φj (x` ) j=1 donde: − φj (x` ) = e kx` −µj k2 2σj2 ¿Cuáles son los parámetros a entrenar? RBF-NN: entrenamiento (parte 1) Diego Milone Inteligencia Computacional Departamento de Informática FICH-UNL Inteligencia Computacional - FICH - UNL RBF-NN: entrenamiento • Método 1: • Adaptación no supervisada de las RBF • Utilizando el método k-medias • Utilizando mapas autoorganizativos • Otros... • Adaptación supervisada de los wkj (LMS) Inteligencia Computacional - FICH - UNL RBF-NN: entrenamiento • Método 1: • Adaptación no supervisada de las RBF • Utilizando el método k-medias • Utilizando mapas autoorganizativos • Otros... • Adaptación supervisada de los wkj (LMS) • Método 2: • Inicialización por el Método 1 ∂ξ ∂ξ • Adaptación supervisada de las RBF ∂µ , ji ∂σj Inteligencia Computacional - FICH - UNL RBF-NN: entrenamiento • Método 1: • Adaptación no supervisada de las RBF • Utilizando el método k-medias • Utilizando mapas autoorganizativos • Otros... • Adaptación supervisada de los wkj (LMS) • Método 2: • Inicialización por el Método 1 ∂ξ ∂ξ • Adaptación supervisada de las RBF ∂µ , ji ∂σj • En general se adaptan RBF y wkj por separado. Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias Método NO-supervisado! (uno de los más simples) Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias Método NO-supervisado! (uno de los más simples) Objetivos: • Encontrar k conjuntos Cj de forma que: Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias Método NO-supervisado! (uno de los más simples) Objetivos: • Encontrar k conjuntos Cj de forma que: • Cada conjunto Cj sea lo más diferente posible de los demás Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias Método NO-supervisado! (uno de los más simples) Objetivos: • Encontrar k conjuntos Cj de forma que: • Cada conjunto Cj sea lo más diferente posible de los demás • Los patrones x` dentro de cada Cj sean lo más parecidos posible entre ellos Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias Método NO-supervisado! (uno de los más simples) Objetivos: • Encontrar k conjuntos Cj de forma que: • Cada conjunto Cj sea lo más diferente posible de los demás • Los patrones x` dentro de cada Cj sean lo más parecidos posible entre ellos • Encontrar el centroide µj de cada conjunto Cj Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias Método NO-supervisado! (uno de los más simples) Objetivos: • Encontrar k conjuntos Cj de forma que: • Cada conjunto Cj sea lo más diferente posible de los demás • Los patrones x` dentro de cada Cj sean lo más parecidos posible entre ellos • Encontrar el centroide µj de cada conjunto Cj ( Ecuación de optimización: min J = k P P j=1 `∈Cj ) kx` − µj k2 Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias por lotes 1. Inicialización: se forman los k conjuntos Cj (0) con patrones x` elegidos al aleatoriamente. Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias por lotes 1. Inicialización: se forman los k conjuntos Cj (0) con patrones x` elegidos al aleatoriamente. 2. Se calculan los centroides: µj (n) = X 1 x` |Cj (n)| `∈Cj (n) Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias por lotes 1. Inicialización: se forman los k conjuntos Cj (0) con patrones x` elegidos al aleatoriamente. 2. Se calculan los centroides: µj (n) = X 1 x` |Cj (n)| `∈Cj (n) 3. Se reasignan los x` al Cj más cercano: ` ∈ Cj (n) ⇔ kx` − µj k2 < kx` − µi k2 ∀i 6= j Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias por lotes 1. Inicialización: se forman los k conjuntos Cj (0) con patrones x` elegidos al aleatoriamente. 2. Se calculan los centroides: µj (n) = X 1 x` |Cj (n)| `∈Cj (n) 3. Se reasignan los x` al Cj más cercano: ` ∈ Cj (n) ⇔ kx` − µj k2 < kx` − µi k2 ∀i 6= j 4. Volver a 2 hasta que no se realicen reasignaciones. Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias online Optimización por método de gradiente: k X X ∇µ J = ∇µ kx` − µj k2 = 0 j=1 `∈Cj Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias online Optimización por método de gradiente: k X X ∇µ J = ∇µ kx` − µj k2 = 0 j=1 `∈Cj µj (n + 1) = µj (n) + η(x` − µj (n)) Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias online 1. Inicialización: se eligen k patrones aleatoriamente y se usan como centroides iniciales µj (0) = x0` . Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias online 1. Inicialización: se eligen k patrones aleatoriamente y se usan como centroides iniciales µj (0) = x0` . 2. Selección: j∗ = arg minj kx` − µj (n)k Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias online 1. Inicialización: se eligen k patrones aleatoriamente y se usan como centroides iniciales µj (0) = x0` . 2. Selección: j∗ = arg minj kx` − µj (n)k 3. Adaptación: µj∗ (n + 1) = µj∗ (n) + η(x` − µj∗ (n)) Inteligencia Computacional - FICH - UNL Adaptación de las RBF: k-medias online 1. Inicialización: se eligen k patrones aleatoriamente y se usan como centroides iniciales µj (0) = x0` . 2. Selección: j∗ = arg minj kx` − µj (n)k 3. Adaptación: µj∗ (n + 1) = µj∗ (n) + η(x` − µj∗ (n)) 4. Volver a 2 hasta no encontrar mejoras significativas en J. RBF-NN: entrenamiento (parte 2) Diego Milone Inteligencia Computacional Departamento de Informática FICH-UNL Inteligencia Computacional - FICH - UNL Adaptación de los pesos: generalidades • Al entrenar los pesos, las RBF quedan fijas • Al estar las RBF fijas se pueden obtener las salidas intermedias para cada patrón de entrada: φ(x` ) • Con esas salidas intermedias se puede entrenar cada perceptrón simple: y = Wφ(x` ) Inteligencia Computacional - FICH - UNL Adaptación de los pesos: generalidades • Al entrenar los pesos, las RBF quedan fijas • Al estar las RBF fijas se pueden obtener las salidas intermedias para cada patrón de entrada: φ(x` ) • Con esas salidas intermedias se puede entrenar cada perceptrón simple: y = Wφ(x` ) • Métodos de entrenamiento: • pseudo-inversa del vector φ(x` ) • gradiente descendiente sobre el error cuadrático instantáneo (LMS) Inteligencia Computacional - FICH - UNL Adaptación de los pesos: método LMS ek (n) = yk (n) − dk (n) Inteligencia Computacional - FICH - UNL Adaptación de los pesos: método LMS ek (n) = yk (n) − dk (n) 2 1 X X 1X 2 ek (n) = wkj (n)φj (n) − dk (n) ξ(n) = 2 2 k k j Inteligencia Computacional - FICH - UNL Adaptación de los pesos: método LMS ek (n) = yk (n) − dk (n) 2 1 X X 1X 2 ek (n) = wkj (n)φj (n) − dk (n) ξ(n) = 2 2 k k j ∂ξ(n) ∂ X = (yk (n) − dk (n)) wkj (n)φj (n) − dk (n) ∂wkj (n) ∂wkj j Inteligencia Computacional - FICH - UNL Adaptación de los pesos: método LMS ek (n) = yk (n) − dk (n) 2 1 X X 1X 2 ek (n) = wkj (n)φj (n) − dk (n) ξ(n) = 2 2 k k j ∂ξ(n) ∂ X = (yk (n) − dk (n)) wkj (n)φj (n) − dk (n) ∂wkj (n) ∂wkj j ∂ξ(n) = ek (n)φj (n) ∂wkj (n) Inteligencia Computacional - FICH - UNL Adaptación de los pesos: método LMS Regla de aprendizaje: wkj (n + 1) = wkj (n) − ηek (n)φj (n) wkj (n + 1) = wkj (n) − η P i wki (n)φi (n) − dk (n) φj (n) Inteligencia Computacional - FICH - UNL Comparación RBF-NN vs. MLP RBF-NN MLP Inteligencia Computacional - FICH - UNL Comparación RBF-NN vs. MLP RBF-NN MLP 1 capa oculta p capas ocultas Inteligencia Computacional - FICH - UNL Comparación RBF-NN vs. MLP RBF-NN MLP 1 capa oculta p capas ocultas distancia a prototipos gaussianos hiperplanos sigmoideos Inteligencia Computacional - FICH - UNL Comparación RBF-NN vs. MLP RBF-NN MLP 1 capa oculta p capas ocultas distancia a prototipos gaussianos hiperplanos sigmoideos representaciones locales sumadas representaciones distribuidas combinadas Inteligencia Computacional - FICH - UNL Comparación RBF-NN vs. MLP RBF-NN MLP 1 capa oculta p capas ocultas distancia a prototipos gaussianos hiperplanos sigmoideos representaciones locales sumadas representaciones distribuidas combinadas convergencia más simple (linealidad) entrenamiento más rápido arquitectura más simple combinación de diferentes paradigmas de aprendizaje Gaussianas N-dimensionales Diego Milone Inteligencia Computacional Departamento de Informática FICH-UNL Inteligencia Computacional - FICH - UNL Anotaciones sobre gaussianas N-dimensionales Concepto, interpretación gráfica y forma matricial Forma general → x, µj ∈ RN , Uj ∈ RN×N : Inteligencia Computacional - FICH - UNL Anotaciones sobre gaussianas N-dimensionales Concepto, interpretación gráfica y forma matricial Forma general → x, µj ∈ RN , Uj ∈ RN×N : N (x, µj , Uj ) = 1 (2π)N/2 |Uj |1/2 1 T U−1 (x−µ ) j j · e− 2 [(x−µj ) ] Inteligencia Computacional - FICH - UNL Anotaciones sobre gaussianas N-dimensionales • Caso simplificado 3 → Uj = I: 0 − 12 N (x, µj ) = e N P (xk −µjk ) k=1 2 Inteligencia Computacional - FICH - UNL Anotaciones sobre gaussianas N-dimensionales • Caso simplificado 3 → Uj = I: − 12 0 N (x, µj ) = e N P (xk −µjk ) 2 k=1 • Caso simplificado 2 → Uj ∈ RN×N , diagonal igual: N (x, µj , Uj ) = 1 − √ ·e (2π)N/2 Nσ 1 2σ 2 N P k=1 (xk −µjk ) 2 Inteligencia Computacional - FICH - UNL Anotaciones sobre gaussianas N-dimensionales • Caso simplificado 1 → Uj ∈ RN×N , diagonal general: 1 s N (x, µj , Uj ) = (2π)N/2 ·e N P k=1 σjk2 − 21 (xk −µjk )2 σ2 k=1 jk N P Inteligencia Computacional - FICH - UNL Anotaciones sobre gaussianas N-dimensionales • Caso simplificado 1 → Uj ∈ RN×N , diagonal general: 1 s N (x, µj , Uj ) = (2π)N/2 ·e N P k=1 − 21 (xk −µjk )2 σ2 k=1 jk N P σjk2 • Forma general → x, µj ∈ RN , Uj ∈ RN×N : N (x, µj , Uj ) = 1 (2π)N/2 |Uj |1/2 1 · e− 2 [(x−µj ) T U−1 (x−µ ) j j ]