Influencia del Preprocesamiento de la Muestra de Entrenamiento en

Transcripción

Influencia del Preprocesamiento de la Muestra de Entrenamiento en
Influencia del Preprocesamiento de la Muestra de Entrenamiento en el Poder
de Generalización del Perceptron Multicapa
Eduardo Gasca y Ricardo Barandela
Laboratorio de Reconocimiento de Patrones
Instituto Tecnológico de Toluca, México
e-mail: [email protected]
[email protected]
Abstract
La muestra de entrenamiento es una parte importante
en el proceso de aprendizaje de la red neuronal del
Perceptron Multicapa. Por esto en el presente trabajo se
consideró de interés observar el comportamiento del poder
de generalización del algoritmo de backpropagation
cuando se utilizan diferentes técnicas de preprocesamiento
de la muestra de entrenamiento. En los experimentos
realizados se utilizaron diversas técnicas que fueron
separadas en dos grupos: el primero contiene aquellas que
seleccionan un subconjunto de elementos de la muestra
original, el segundo se formó con técnicas cuyo punto de
partida es un grupo de prototipos iniciales. Las pruebas se
realizaron
con datos reales y artificiales,
correspondientes a diferentes tipos de problemas. Como
resultado de los experimentos se observa que la
combinación de ambos tipos de técnicas presentan, en la
mayoría de los casos, el mejor comportamiento. Es decir,
cuando sé realiza un filtrado inicial con técnicas del
primer grupo, y posteriormente se aplican técnicas del
segundo grupo.
1. Introducción
Uno de los problemas fundamentales en reconocimiento
de patrones (RP) es el asociar correctamente un objeto no
identificado a una clase dentro de un conjunto de clases
predefinido (poder de generalización). Tal asociación se
realiza de acuerdo a la medida de un cierto número de
atributos físicos (patrón) del objeto. Esto implica que un
sistema de reconocimiento de patrones se forma por: un
conjunto de clases de patrones, un espacio de observación,
y un mecanismo de decisión (clasificador). Un ejemplo de
mecanismo de decisión son las redes neuronales artificiales
(RNA) que en los últimos años han despertado el interés
por parte de los investigadores que trabajan en RP [3, 10,
16, 18, 27]. Tal popularidad se debe a que no requieren de
un modelo a priori de la tarea a desarrollar (no
paramétrico), y a su potencial para alcanzar un alto poder
de generalización. En particular, el Perceptron Multicapa
(PM) ha sido una de las RNA más estudiada y utilizada.
Por ser una red supervisada requiere de una muestra de
entrenamiento (ME): un conjunto de tuplas, formadas por
el patrón y la identificación de su clase. El PM requiere de
una cantidad importante de recursos de almacenamiento y
tiempo de procesamiento cuando la ME es grande.
Tradicionalmente, los clasificadores estadísticos son los
métodos más utilizados en tareas de reconocimiento de
patrones. De éstos, la regla del Vecino Más Cercano ha
adquirido popularidad debido a que es un método no
paramétrico, cuyo error asintótico (cuando el conjunto de
entrenamiento es infinito) está acotado por el doble del
error de Bayes [7]. La regla NN basa su funcionamiento en
considerar a los patrones más cercanos, como aquellos que
tienen la mayor probabilidad de pertenecer a una misma
clase. A pesar de las ventajas mencionadas, cuando el
número de muestras de referencia aumenta, la carga
computacional se vuelve excesiva dificultando su uso. Han
surgido diferentes caminos para resolver tal situación [9,
13, 14], uno de éstos son las propuestas que centran su
atención en el procesamiento de la muestra de
entrenamiento con el fin de conservar, o mejorar, el
comportamiento de la regla NN con una menor carga
computacional. Algunos de tales métodos son: Edición
[30], Subconjunto Mínimo Consistente [15], Subconjunto
Selectivo Modificado [1], entre otros. El punto en común
de estas técnicas radica en que seleccionan patrones,
contenidos en la muestra de entrenamiento original, para
formar un subconjunto que genere fronteras de decisión lo
más cercano posible a las creadas por la muestra completa.
Por otro lado, se han propuesto métodos (por ejemplo;
Learning Vector Quantization [19] y Decision Surface
Mapping[12]) en los cuales se modifica, progresivamente,
un conjunto de vectores prototipo para cubrir el espacio de
entrada. Su interés es aproximar la distribución de
probabilidad de la muestra de entrenamiento. Estudios
realizados [1, 2] han demostrado la conveniencia del
preprocesamiento ya que, además de la reducción en la
carga computacional por la disminución del tamaño de la
ME, se obtiene un porcentaje mayor de acierto en la
clasificación, por ejemplo la regla NN y la muestra editada
cuando se compara con el clasificador de Máxima
Verosimilitud y la muestra original.
Dada la similitud de la regla NN y el Perceptron
Multicapa en cuanto a sus debilidades, y al hecho de que
ambos son clasificadores no paramétricos supervisados, se
propone aplicar algunas de las técnicas de
preprocesamiento propuestas para la regla NN, o
combinación de ellas, al PM y observar como influyen en
el poder de generalización, y en la rapidez de aprendizaje
de este último.
En la sección 2 se describirá el funcionamiento del PM
haciendo énfasis en el algoritmo de Backpropagation (BP),
el cual se utilizó para realizar los experimentos. La sección
3 trata las técnicas de preprocesamiento tanto las basadas
en la selección de un subconjunto de la muestra original,
como aquellas que parten de un conjunto de prototipos.
Los datos utilizados en las pruebas, y los resultados
obtenidos se presentan en la sección 4. Por último, la
sección 5 contiene las conclusiones.
2. Perceptron Multicapa
Existen diversos algoritmos para realizar el
entrenamiento del PM, uno de ellos es el Backpropagation
cuyo objetivo es determinar los valores de los pesos que
minimicen, a partir de la ME, la función de error. Esta
última representada por el error cuadrático medio entre la
respuesta de la red neuronal y su valor real. El algoritmo
de BP realiza la modificación de los pesos mediante la
expresión:
∆w ( t ) = − η∇E p + α∆w ( t − 1)
donde ∆w(t) y ∆w(t-1) representan la variación de los
pesos en la iteración t y t-1 respectivamente, ∇Ep el
gradiente de la función de error, η razón de aprendizaje, y
α el momento. Estos dos últimos parámetros son
introducidos para controlar la magnitud del ajuste de los
pesos a lo largo de la dirección descendente. Los valores
de la razón de aprendizaje y momento son determinados
empíricamente en el BP convencional. Sin embargo, varias
investigaciones [6, 8, 24, 26] han mostrado que los valores
de 0.7 y 0.9, para la razón de aprendizaje y momento
respectivamente, exhiben un comportamiento adecuado en
la disminución del error.
2.1. Topología de la red.
La inclusión de capas, entre las de entrada y salida, dotó
al Perceptron Multicapa de la capacidad de afrontar con
éxito problemas en los que las clases no son linealmente
separables. Trabajos previos [5, 11, 17, 20, 21] han
mostrado las ventajas de utilizar perceptrones de tres capas
(TLP) -formados por una capa de entrada, una oculta, y
una de salida- en lugar de perceptrones con un número
mayor de capas. Esto debido a su menor carga
computacional cuando se compara con redes de más de
una capa oculta, y a su capacidad para formar
aproximaciones arbitrariamente cercanas a cualquier
relación entre los patrones de entrada y las clases [29]. Así
como de su habilidad para separar regiones no convexas y
desconectadas [22] en el espacio de observación. Además,
las unidades de la capa oculta con función de activación
sigmoidal producen salidas linealmente independientes
capaces de formar una base para la generación de las
salidas de la red [28]. En este trabajo se utilizó un
Perceptron Multicapa constituido por tres capas, con Nn +
1 nodos en la capa oculta (Nn es el número de
características de los patrones), y función de activación
sigmoidal.
3.
Técnicas
Estadísticas
para
Preprocesamiento de la Muestra
Entrenamiento.
el
de
Las técnicas de preprocesamiento de la muestra de
entrenamiento nacieron como respuesta a las debilidades
de la regla NN, y en la mayoría de los casos con el objetivo
de reducir el numero de patrones en la ME. Para este
trabajo tales métodos se aglutinaron en dos grupos que
serán descritos en las siguientes secciones.
3.1. Métodos de selección de un subconjunto de la
ME original.
De entre las técnicas del grupo que seleccionan un
subconjunto de la muestra de entrenamiento en este trabajo
utilizaremos: edición (E), selectivo modificado (SM), y
subconjunto consistente mínimo (MCS). A grandes rasgos
su funcionamiento es el siguiente.
El método de Edición [30], propone eliminar los
elementos atípicos de la muestra de entrenamiento
mediante la aplicación del procedimiento k-NN (k vecinos
más cercanos). Esto es, dado un patrón contenido en la ME
original, determina sus k vecinos más cercanos. Si la clase
a la cual pertenece la mayoría de estos k vecinos no es
igual a la clase del patrón de prueba, este último es
eliminado de la ME. Wilson [30] demostró que la regla
NN, con la muestra editada, tiene un error asintótico menor
que el de la regla k-NN con la muestra de entrenamiento
original. Aún cuando este método persigue la creación de
una muestra con los patrones que representen mejor a las
clases, también se logra una disminución en el tamaño de
la muestra de entrenamiento. Investigaciones previas [1,3]
encontraron disminuciones de entre 10 y 20 por ciento del
número de patrones en ME.
Buscando una reducción en la carga computacional,
Hart [15] propone la creación de un subconjunto de la ME
(subconjunto consistente) con las propiedades: debe estar
formado por el menor número posible de patrones y ser
capaz de clasificar correctamente la ME completa. Aún
cuando adolece de serias deficiencias, el algoritmo de Hart
ha servido como generador de procedimientos alternativos
para resolver sus carencias. Uno de ellos es conocido como
Subconjunto Selectivo Modificado [1], cuyo objetivo es la
creación de un subconjunto consistente, que determine las
fronteras de decisión lo más cercano posible a las
generadas por la ME completa.
Por otro lado, Dasarathy [7], presentó un método de
selección denominado subconjunto consistente mínimo
(MCS). Éste se basa en el concepto de NUNS (nearest
unlike neighbor subsets). Por definición, un subconjunto
NUN es un conjunto formado por todos los vecinos más
cercanos de clase diferente a la de un patrón dado en la ME
original. Apoyado en este concepto, la condición para
obtener un conjunto consistente se reduce a incluir en
MCS un patrón de su misma clase, el cual se encuentre
más cercano que sus NUNS. Entre las ventajas
mencionadas por su autor se encuentra la de generar una
solución única e independiente del orden inicial de
presentación de los datos.
3.2. Métodos basados en prototipos
Existen técnicas de preprocesamiento cuyo resultado
final no es un subconjunto de la muestra de entrada,
ejemplos de éstas son LVQ (learning vector quantization)
y DSM (decision surface mapping). LVQ fue propuesto
por Kohonen [19], con el fin de representar la frontera de
decisión entre clases, más que la distribución de clases.
Para esto, parte de un conjunto de prototipos iniciales que
modifica mediante las siguientes reglas de actualización:
dado un objeto x, el prototipo mc, más cercano a éste, es
actualizado acercándolo al objeto si es clasificado
correctamente por el prototipo, o alejándolo en caso
contrario. El efecto de la actualización es mover los
prototipos hacia los patrones de su propia clase, y alejarlos
de los de otra clase.
Un representante más de las técnicas que utilizan
prototipos es el método propuesto por Geva y Sitte [12], al
cual llamaron DSM (decision surface mapping). Su
objetivo es adaptar, gradualmente, las fronteras de decisión
que definen los prototipos a las establecidas por la muestra
de entrenamiento. Para esto, los elementos de ME son
presentados cíclicamente a los prototipos y se procede a su
clasificación mediante la regla NN. Si el patrón x es
clasificado correctamente, no se aplica modificación
alguna. Por el contrario, si la clasificación no fuere
correcta un procedimiento de premio/castigo entra en
juego, el prototipo más cercano con la clase equivocada lo
Tabla 1. Número de patrones resultantes al aplicar las técnicas de preprocesamiento. Cuando se aplica una
sola técnica se utiliza como muestra de entrada el archivo original. Si se ejecuta más de un método, el archivo
de entrada es el generado por el método que le antecede. Los archivos Iris y Glass no poseen muestra de
control, por lo cual se utilizo validación cruzada en las pruebas.
200
1-3
138
Glass
1-2
145
2-3
145
1-2
100
Iris
1-3
100
2-3
100
182
141
97
98
99
94
98
93
266
19
73
62
68
61
10
4
13
LVQ
1,025
59
60
40
43
43
30
30
31
DSM
1,025
59
60
40
43
43
30
30
31
Selectivo Modificado
702
30
96
68
75
67
12
9
16
Edición + SM
281
23
27
37
35
23
6
6
6
Edición + MCS
92
13
18
-
-
-
3
3
3
Edición + LVQ
847
55
42
40
43
43
27
29
29
Edición + DSM
847
55
42
27
29
30
27
29
29
Edición + SM + LVQ
91
7
9
9
11
9
4
4
4
Edición + SM + DSM
91
7
9
9
11
9
4
4
4
Método de Preprocesamiento
Cayo
Mu
Pima
Muestra Original
3,086
196
Edición
2,826
MCS
Tabla 2. Porcentaje de error en la clasificación de la muestra de control con
backpropagation. La red se entrena con los archivos resultado de las
diferentes técnicas de preprocesamiento
Método de Preprocesamiento
Muestra Original
Cayo
50.09
Glass
71.99
Iris
3.33
Mu
5.26
Pima
29.22
Edición
44.08
63.83*
3.33
5.87
24.40
MCS
62.33
72.91
4.00
12.15 26.51
LVQ
39.69
64.17
2.00
11.54 23.19
DSM
33.69
70.81
1.33
12.35 37.65
Selectivo Modificado
61.61
65.76
6.67
11.54 22.29
Edición + SM
38.60
67.17*
4.67
9.11
23.49
Edición + MCS
45.24
-
4.67
8.30
27.11
Edición + LVQ
34.27
66.20*
3.33
11.13 22.59
Edición + DSM
33.86
61.80*
2.67
9.31
Edición + SM+ LVQ
12.48
83.41*
1.33°
10.73 21.69
21.99
Edición + SM + DSM
31.71 75.29* 44.67° 8.91 24.70
* al aplicar Edición fueron suprimidos totalmente los patrones de una clase.
° se eliminaron por completo los patrones de una clase durante la selección
de los prototipos iniciales, propinit.
aleja y el más cercano de la misma clase lo aproxima. El
algoritmo modifica los prototipos solo cuando hay una
mala clasificación, lo cual hace diferente a DSM de todas
las variantes de LVQ.
Las técnicas de preprocesamiento fueron aplicadas
individualmente, o en conjunto, a las diferentes muestras
de entrenamiento originales. El resultado se presentó a la
red neuronal de BP para determinar su influencia en el
poder de generalización.
multiespectral de una región de la cayería norte de Cuba,
incluye patrones de 11 clases y 4 características. El archivo
Glass [25] contiene patrones que representan a 6 diferentes
tipos de vidrio, con nueve atributos. Iris [25] es una de las
bases de datos más estudiada en RP, tiene información
correspondiente a tres diferentes tipos de planta Iris, cada
patrón con 4 de sus características. Mu es muestra artificial
formada por patrones de dos clases con dos características,
similar a la utilizada por Hart [15]. La base de datos Pima
[25] se obtuvo de un estudio sobre diabetes, realizado en
un grupo indígena, cada patrón se forma de 6
características y pertenecen a dos clases.
4.1. Datos
4.2. Descripción de los experimentos
Los archivos empleados se identificaron con los
nombres: Cayo, Glass, Iris, Pima, y Mu. De éstos, los 4
primeros contienen datos reales y el último datos
artificiales. Algunos de ellos presentan, además de la ME
una muestra de control (MC); Cayo, Pima, y Mu. En éstos
casos, se utilizaron los archivos MC para las pruebas de
generalización. Los archivos sin muestra de control (Iris y
Glass) fueron procesados mediante el método de
validación cruzada con tres repeticiones. Todas las
muestras fueron normalizadas dividiendo cada una de las
características entre su valor máximo. La tabla 1 presenta
la cantidad de patrones en cada archivo.
La muestra de entrenamiento Cayo [2] es una imagen
Los experimentos se realizaron con un Perceptron
Multicapa ejecutando el algoritmo de Backpropagation,
por evento. La RNA fue entrenada partiendo de 10,000
iteraciones hasta 100,000. El error del sistema se fijo, para
todos los archivos, igual a 0.00001.
En el caso de LVQ y DSM no existe una regla simple
para determinar la mejor distribución de los prototipos
iniciales [19]. La selección de éstos se realizó mediante la
ejecución de herramientas contenidas en el software
LVQ_PAK[19], propinit y balance. Ambos programas se
utilizaron para seleccionar del archivo de entrada los
prototipos iniciales, el número de éstos se determino igual
al 30% del número de patrones del archivo de entrada.
4. Desarrollo Experimental y Resultados
clase 1
clase 2
caracteristica 2
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
caracteristica 1
Figura. 1 Distribución espacial de patrones de la muestra Mu.
Sin embargo, el uso de este tipo de criterios trae
consigo cierto riesgo como por ejemplo, el de eliminar
todos los elementos de una clase, sobre todo cuando la
muestra inicial es el resultado de la aplicación previa de
algún método como Edición, Selectivo Modificado, etc..
Para esta situación, se propuso que al archivo con los
prototipos iniciales se le adicionara el total de los patrones
de la clase eliminada. OLVQ1 fue la versión de LVQ
utilizada en el desarrollo de este trabajo.
4.3. Resultados
La tabla 1 muestra los resultados de BP para los
archivos preprocesados. En ésta se puede observar la
reducción en el número de patrones de cada ME original.
Tal decremento resulta considerable cuando se combinan
diferentes técnicas, en algunos casos alcanza más del
90%. Por ende, hay un efecto importante sobre el tiempo
de aprendizaje.
La aplicación de BP a cada uno de los archivos
generados da como resultado los valores presentados en la
tabla 2. En ésta se exhibe el menor porcentaje de error en
la muestra de control (mayor poder de generalización).
Dicho valor se obtuvo de la comparación entre los
resultados del entrenamiento con diferente cantidad de
iteraciones. Examinando la tabla 2 se advierte que, salvo
el caso de la muestra artificial, los mejores resultados se
obtienen aplicando la unión de ambos tipos de métodos.
Para la mayoría de casos, la combinación Edición +
Selectivo Modificado + LVQ (E+SM+LVQ) produce
excelentes resultados.
Desde el punto de vista estadístico de RP, se
recomienda determinar el número de patrones por clase,
en la ME, guardando la proporción que representa cada
clase en el espacio de observación [23]. Tal situación se
puede interpretar como una probabilidad a priori de los
patrones de esa clase [10]. Sin embargo, los resultados
obtenidos con E+SM+LVQ pueden ser interpretados de
diferente manera. Para esto, se debe considerar la Edición
como un procedimiento mediante el cual se eligen
aquellos patrones cuya cercanía a los de su misma clase es
mayor que a elementos de otra clase. En otras palabras,
favorece la eliminación de patrones en la frontera. Por
ejemplo, si se tiene una clase cuyos elementos formen un
grupo compacto y aplicamos Edición, los patrones con
una mayor probabilidad de ser eliminados serán aquellos
que se localicen en la frontera. Como el número de
patrones en la frontera es mucho menor que el total de
elementos, la proporción inicial de esa clase, en la ME,
sufrirá una pequeña variación. Lo contrario se presenta
cuando la clase no es compacta, ya que la cantidad de
elementos en la frontera puede representar un porcentaje
significativo del total y se produciría una reducción
importante del número de patrones al emplear la Edición.
Tal situación genera la perdida de la proporción inicial de
la clase en la muestra de entrenamiento. En el caso, del
procedimiento Selectivo Modificado su aplicación
propicia la elección de miembros de la frontera entre
clases. El número de patrones seleccionado por clase no
dependerá de la concentración de integrantes, sino más
bien de la longitud de su frontera. Por lo anterior, el
conjunto
Selectivo
Modificado
no conserva la
ponderación inicial del número de patrones por clase.
Como se explicó, antes de aplicar LVQ se ejecutan los
programas propinit y balance. Éstos, fueron diseñados
para preservar la densidad de patrones por clase igual a la
del archivo de entrada [19], consecuentemente al aplicar
LVQ no se modifica significativamente la proporción
inicial. Resumiendo, se puede indicar que la combinación
E+SM+LVQ normalmente no preserva la proporción
entre los patrones de diferente clase. Además, como tal
combinación produce los mejores resultados en el
poder de generalización, podemos inferir que para
Backpropagation y los archivos de prueba no es
Tabla 3. Porcentaje de proporción, por clase, de los patrones
contenidos en las muestras de entrenamiento para los archivos
Cayo, Iris, y Pima.
e+sm+lvq
Edición.
Muestra Pima
Original
e+sm+lvq
Edición.
Muestra Iris *
Original
e+sm+lvo
Edición.
Original
Número de
Clase
Muestra Cayo
Clase 0 14.1 15.2 6.59 33.3 35.1 25.0 34.0 23.4 44.4
Clase 1 5.6 5.3 6.6 33.3 32.6 41.7 66.0 76.6 55.6
Clase 2 11.2 11.0 9.9 33.3 32.6 33.3
Clase 3 6.0 6.1 8.8
Clase 4 3.4 3.0 9.9
Clase 5 7.8 7.4 12.1
Clase 6 3.2 2.6 5.5
Clase 7 11.7 12.6 9.9
Clase 8 13.4 14.5 3.3
Clase 9 13.0 12.5 17.6
Clase 10 10.7 9.9 9. 9
* el valor presentado corresponde al promedio de los tres grupos
necesario elegir el número de patrones, para la muestra de
entrenamiento, en función de la proporción que cada clase
presenta en el espacio de observación. La tabla 3 presenta
la densidad de patrones, por clase, para los archivos Cayo,
Iris y Pima, como puede observarse, el cambio en la
proporción original del número de patrones confirma las
aseveraciones realizadas en el párrafo anterior. Que BP
muestre un poder de generalización mayor cuando usamos
E+SM+LVQ en cierta forma sugiere el tipo de patrones
más adecuados para su entrenamiento. La aplicación de
E+SM+LVQ genera dos líneas de división, formadas por
los prototipos de cada clase, la región entre estas líneas
corresponde al solape de clases. La fig.2 presenta el
resultado del empleo de E+SM+LVQ a la muestra Mu.
Aún cuando los resultados del poder de generalización
para este caso no son favorables al preprocesamiento,
desde el punto de vista gráfico resulta interesante su
análisis. En la fig.2 se observan las líneas de división
generadas, por E+SM+LVQ, para cada una de las clases, al
igual que los patrones mal clasificados (en MC) por la red.
Resulta claro que la aproximación a la frontera de decisión
presenta serias deficiencias, ver fig.1. Una de ellas es la
falta de representatividad a lo largo de toda la frontera, por
ejemplo el conjunto de prototipos de la clase 1 se restringe
a una pequeña región del espacio de observación, algo
similar aunque en menor grado se presenta en la clase 2. Es
posible, que la ausencia de una distribución uniforme de
los prototipos a lo largo de toda la frontera, produzca un
Prototip os clase 1
Prototip os clase 2
Patrones mal clasificados, clase 1
Patrones mal clasificados, clase 2
característica 2
1
0.8
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
característica 1
Figura 2. Prototipos generados por E+SM+LVQ para la muestra de
entrenamiento Mu. Los patrones mal clasificados corresponden a la
muestra de control.
Prototipos clase 1
Patrones mal clasificados, clase 1
Prototipos clase 2
Patrones mal clasificados, clase 2
caracteristíca 2
1
0.8
0.6
0.4
0.2
0
0.1
0.2
0.3
0.4
0.5
característica 1
0.6
0.7
0.8
Figura 3. Resultado de aumentar el porcentaje de prototipos iniciales
del 30% al 80%. El porcentaje de error en la MC es igual a 7.29%.
aumento en el porcentaje de error. Independientemente de
la fidelidad con la cual las líneas de división reproducen el
comportamiento de la frontera de decisión, es razonable
suponer que los patrones contenidos en la región entre
tales líneas tienen una mayor probabilidad de ser mal
clasificadas por Backpropagation (ver fig.2 y 3). Esto es, la
mayor cantidad de errores de la red deben presentarse en la
vecindad de las líneas de división generadas por
E+SM+LVQ. Siguiendo este criterio es posible alcanzar un
mayor poder de generalización si se logra distribuir
uniformemente los prototipos a lo largo de toda la frontera
de decisión y/o se reduce la región entre las líneas de
división.
Con el fin de probar el efecto de la primera condición se
realizaron algunas pruebas con la muestra Mu, las cuales,
básicamente, consistieron en aumentar el número de
prototipos iniciales. La fig.3 muestra los resultados
obtenidos cuando se elige el número de prototipos iniciales
igual al 80% de los patrones generados mediante el empleo
de las técnicas de edición y selectivo modificado. La
mejora en el poder de generalización fue de un 32%
aproximadamente, además se puede observar como una
gran cantidad de los patrones mal clasificados se
encuentran entre las líneas de división generadas por
E+SM+LVQ.
5. Conclusiones
Del análisis de los resultados se desprende que el
preprocesamiento de la muestra de entrenamiento no solo
disminuye el tiempo de entrenamiento, sino también
mejora el poder de generalización de Backpropagation.
Cuando se aplican las técnicas de Edición, Selectivo
Modificado y OLVQ1 en ese orden, el archivo creado
exhibe los mejores resultados en el poder de generalización
de Backpropagation. Esto se debe, en gran medida, a la
separación de clases que implícitamente realiza el
preprocesamiento al eliminar de la muestra de
entrenamiento los patrones localizados en los solapes entre
clases, y a su eficiencia para representar la frontera de
decisión a través de las líneas de división
Por otro lado, los experimentos muestran que la
selección del número de patrones por clase, en la muestra
de entrenamiento, depende en un alto grado de la longitud
de su frontera de decisión, más que de la probabilidad a
priori con la cual se presente la clase en el espacio de
observación.
Aún cuando, los resultados obtenidos son alentadores,
se requiere profundizar en como homogeneizar la
distribución de los prototipos a lo largo de la frontera de
decisión. Además, las líneas de división abren la
posibilidad de detectar elementos atípicos, lo cual puede
ser utilizado para la creación de una opción de rechazo en
Backpropagation.
Referencias
1. Barandela, Ricardo (1987). “The nearest neighbor rule: an
empirical study of its methodological aspects”, Tesis
Doctoral, Berlin.
2. Barandela, Ricardo (1995). “Una metodología para el
reconocimiento de patrones en la solución de tareas geologogeofísicas”, Geofísica Internacional, vol.34, no.4, pp.399405.
3. Barandela, Ricardo (1997). “Aspectos del aprendizaje en las
redes neuronales”, II Taller Iberoamericano de
Reconocimiento de Patrones, La Habana, Cuba.
4. Cover, M. T. And P. E. Hart (1967). “Nearest neighbor
pattern classification”, IEEE Trans. Inf. Theory, vol.13,
pp.21-22.
5. Cybenco, G. (1989). “Approximation by superposition of a
sigmoid function”, Mathematics of Control, Signals and
Systems, 2, pp.303-314.
6. Dai, Hengchang and C. MacBeth (1997). “Effects of learning
parameters on learning procedure and performance of a
BPNN”, Neural Networks, vol.10, no.8, pp.1505-1521.
7. Dasarathy, Belur V. (1995). “Minimal consistent set (MCS)
identification for optimal nearest neighbor decision system
desing”, IEEE Trasactions on Systems Man and Cybernetics,
vol.24, no.1.
8. Demuth, H. and Beale, M. (1993). “Neural networks toolbox
for use with MATLAB: user’s guide”, Natick, MA: The Math
Works, Inc.
9. Djouadi, Abdelhamid, and Essaid Bouktache (1997). “A fast
algorithm for the nearest-neighbor classifier”, IEEE Trans. on
Pattern Analysis and Machine Intelligence, vol.19, no.3,
pp.277-282.
10. Foody, M. G., M. B. McCulloch, and W. B. Yates (1995).
“The effect of training set size and composition on artificial
neural networks classification”, Int. J. Remote Sensing,
vol.16, no.9, pp.1707-1723.
11. Funahashi, K. (1989). “On the aproximate realization of
continuous mapping by neural networks”, Neural Networks,
vol.2, pp.183-192.
12. Geva, Shlomo, and Joaquin Sitte (1991). “Adaptive nearest
neighbor pattern classification”, IEEE Trans. on Neural
Networks, vol.2, no.2, pp.318-322.
13. Grother, J. Patrick, Gerald T. Candela, and James L. Blue
(1997). “Fast implementations of nearest neighbor
classifiers”, Pattern Recognition, vol.30, no.3, pp.459-465.
14. Hamamoto, Yoshihiko, Shunji Uchimura, and Shingo Tomita
(1997). “A bootstrap technique for nearest neighbor classifier
design”, IEEE Trans. on Pattern Analysis and Machine
Intelligence, vol.19, no.1, pp.73-79.
15. Hart, P. E. (1968). “The condensed nearest neightbor rule”,
IEEE Trans. Info. Theory, IT-14, pp.505-516.
16. Haykin, Simon (1999). “Neural networks: a comprehensive
foundations”, Prentice Hall, USA.
17. Irie, B., and S. Miyake (1988). “Capabilities of three-layered
perceptrons”, en Proc. of the IEEE Conference on Neural
Networks, vol.I, pp.641-6
18. Kanellopoulos, I., and G. G. Wilkinson (1997). “Strategies
and best practice for neural networks image classification”,
Int. J. Remote Sensing, vol.18, no.4, pp.711-725.
19. Kohonen, T., J. Kangas, J. Laaksonen and K. Torkkola
(1992). “LVQ_PAK: a program package for correct
application of learning vector quantization algorithm”, Proc.
IEEE Int. Joint Conf. on Neural Networks, Baltimore,
pp.I.725 - I.730.
20. Lin, Che-Chern and Amor El-Jaroudi (1998). “An algorithm
to determine the feasibilities and weights of two-layer
perceptrons for partitioning and classification”, Pattern
Recognition, vol.31, no.11, pp.1613-1625.
21. Lippmann, R. P. (1987). “An introduction to computing with
neural nets”, IEEE Acoust. Speech Signal Process. Mag., 4,
pp.4-22.
22. Makhoul, J., A. El-Jaroudi and R. Schwartz (1991).
“Partitioning capabilities of two-layer neural networks”,
IEEE Trans. Signal Process., vol.39, no.6, pp.436-1440.
23. Mather, P. M. (1987). “Cumputer processing of remotely
sensed images”, Wiley, Chichester.
24. McClelland, J. And Rumelhart, D. (1988). “Explorations in
parallel distributed processing, a handbook of model,
program, and exercises”, Cambridge, MA.
25. Murphy, P. M., and D.W. Aha (1991), “UCI repository of
machine learning databases”, Irvine, University of California,
anonynous
FTP:/pub/machine-learning-database
in
ics.uci.edu.
26. Pao, Y. H. (1989). “Adaptive pattern recognition and neural
networks”, Ed. Addison-Wesley, MA.
27. Paola, J. D. and R. A. Schowengerdt (1995). “A review and
analysis of backpropagation neural networks for classification
of remotely-sensed multispectral imagery”, Int. J. Remote
Sensing, vol.16, no.16, pp.3033-3058.
28. Shah, Jagesh V. and Chi-Sang Poon (1999), “Linear
independence of internal representations in multilayer
perceptrons”, IEEE Trans. on Neural Networks, vol.10, no.1,
pp.10-18.
29. Wilson, Charles L., J. L. Blue and O. M. Omidvar (1997).
“Training dynamics and neural network performance”,
Neural Networks, vol.10, no.5, pp.907-923.
30. Wilson, Dennis L. (1972). “Asymptotic properties of nearest
neighbor rules using edited data”, IEEE Trans. on Systems,
Man, an Cybernetics, vol. SMC-2, no.3, pp.408-421.

Documentos relacionados