Influencia del Preprocesamiento de la Muestra de Entrenamiento en
Transcripción
Influencia del Preprocesamiento de la Muestra de Entrenamiento en
Influencia del Preprocesamiento de la Muestra de Entrenamiento en el Poder de Generalización del Perceptron Multicapa Eduardo Gasca y Ricardo Barandela Laboratorio de Reconocimiento de Patrones Instituto Tecnológico de Toluca, México e-mail: [email protected] [email protected] Abstract La muestra de entrenamiento es una parte importante en el proceso de aprendizaje de la red neuronal del Perceptron Multicapa. Por esto en el presente trabajo se consideró de interés observar el comportamiento del poder de generalización del algoritmo de backpropagation cuando se utilizan diferentes técnicas de preprocesamiento de la muestra de entrenamiento. En los experimentos realizados se utilizaron diversas técnicas que fueron separadas en dos grupos: el primero contiene aquellas que seleccionan un subconjunto de elementos de la muestra original, el segundo se formó con técnicas cuyo punto de partida es un grupo de prototipos iniciales. Las pruebas se realizaron con datos reales y artificiales, correspondientes a diferentes tipos de problemas. Como resultado de los experimentos se observa que la combinación de ambos tipos de técnicas presentan, en la mayoría de los casos, el mejor comportamiento. Es decir, cuando sé realiza un filtrado inicial con técnicas del primer grupo, y posteriormente se aplican técnicas del segundo grupo. 1. Introducción Uno de los problemas fundamentales en reconocimiento de patrones (RP) es el asociar correctamente un objeto no identificado a una clase dentro de un conjunto de clases predefinido (poder de generalización). Tal asociación se realiza de acuerdo a la medida de un cierto número de atributos físicos (patrón) del objeto. Esto implica que un sistema de reconocimiento de patrones se forma por: un conjunto de clases de patrones, un espacio de observación, y un mecanismo de decisión (clasificador). Un ejemplo de mecanismo de decisión son las redes neuronales artificiales (RNA) que en los últimos años han despertado el interés por parte de los investigadores que trabajan en RP [3, 10, 16, 18, 27]. Tal popularidad se debe a que no requieren de un modelo a priori de la tarea a desarrollar (no paramétrico), y a su potencial para alcanzar un alto poder de generalización. En particular, el Perceptron Multicapa (PM) ha sido una de las RNA más estudiada y utilizada. Por ser una red supervisada requiere de una muestra de entrenamiento (ME): un conjunto de tuplas, formadas por el patrón y la identificación de su clase. El PM requiere de una cantidad importante de recursos de almacenamiento y tiempo de procesamiento cuando la ME es grande. Tradicionalmente, los clasificadores estadísticos son los métodos más utilizados en tareas de reconocimiento de patrones. De éstos, la regla del Vecino Más Cercano ha adquirido popularidad debido a que es un método no paramétrico, cuyo error asintótico (cuando el conjunto de entrenamiento es infinito) está acotado por el doble del error de Bayes [7]. La regla NN basa su funcionamiento en considerar a los patrones más cercanos, como aquellos que tienen la mayor probabilidad de pertenecer a una misma clase. A pesar de las ventajas mencionadas, cuando el número de muestras de referencia aumenta, la carga computacional se vuelve excesiva dificultando su uso. Han surgido diferentes caminos para resolver tal situación [9, 13, 14], uno de éstos son las propuestas que centran su atención en el procesamiento de la muestra de entrenamiento con el fin de conservar, o mejorar, el comportamiento de la regla NN con una menor carga computacional. Algunos de tales métodos son: Edición [30], Subconjunto Mínimo Consistente [15], Subconjunto Selectivo Modificado [1], entre otros. El punto en común de estas técnicas radica en que seleccionan patrones, contenidos en la muestra de entrenamiento original, para formar un subconjunto que genere fronteras de decisión lo más cercano posible a las creadas por la muestra completa. Por otro lado, se han propuesto métodos (por ejemplo; Learning Vector Quantization [19] y Decision Surface Mapping[12]) en los cuales se modifica, progresivamente, un conjunto de vectores prototipo para cubrir el espacio de entrada. Su interés es aproximar la distribución de probabilidad de la muestra de entrenamiento. Estudios realizados [1, 2] han demostrado la conveniencia del preprocesamiento ya que, además de la reducción en la carga computacional por la disminución del tamaño de la ME, se obtiene un porcentaje mayor de acierto en la clasificación, por ejemplo la regla NN y la muestra editada cuando se compara con el clasificador de Máxima Verosimilitud y la muestra original. Dada la similitud de la regla NN y el Perceptron Multicapa en cuanto a sus debilidades, y al hecho de que ambos son clasificadores no paramétricos supervisados, se propone aplicar algunas de las técnicas de preprocesamiento propuestas para la regla NN, o combinación de ellas, al PM y observar como influyen en el poder de generalización, y en la rapidez de aprendizaje de este último. En la sección 2 se describirá el funcionamiento del PM haciendo énfasis en el algoritmo de Backpropagation (BP), el cual se utilizó para realizar los experimentos. La sección 3 trata las técnicas de preprocesamiento tanto las basadas en la selección de un subconjunto de la muestra original, como aquellas que parten de un conjunto de prototipos. Los datos utilizados en las pruebas, y los resultados obtenidos se presentan en la sección 4. Por último, la sección 5 contiene las conclusiones. 2. Perceptron Multicapa Existen diversos algoritmos para realizar el entrenamiento del PM, uno de ellos es el Backpropagation cuyo objetivo es determinar los valores de los pesos que minimicen, a partir de la ME, la función de error. Esta última representada por el error cuadrático medio entre la respuesta de la red neuronal y su valor real. El algoritmo de BP realiza la modificación de los pesos mediante la expresión: ∆w ( t ) = − η∇E p + α∆w ( t − 1) donde ∆w(t) y ∆w(t-1) representan la variación de los pesos en la iteración t y t-1 respectivamente, ∇Ep el gradiente de la función de error, η razón de aprendizaje, y α el momento. Estos dos últimos parámetros son introducidos para controlar la magnitud del ajuste de los pesos a lo largo de la dirección descendente. Los valores de la razón de aprendizaje y momento son determinados empíricamente en el BP convencional. Sin embargo, varias investigaciones [6, 8, 24, 26] han mostrado que los valores de 0.7 y 0.9, para la razón de aprendizaje y momento respectivamente, exhiben un comportamiento adecuado en la disminución del error. 2.1. Topología de la red. La inclusión de capas, entre las de entrada y salida, dotó al Perceptron Multicapa de la capacidad de afrontar con éxito problemas en los que las clases no son linealmente separables. Trabajos previos [5, 11, 17, 20, 21] han mostrado las ventajas de utilizar perceptrones de tres capas (TLP) -formados por una capa de entrada, una oculta, y una de salida- en lugar de perceptrones con un número mayor de capas. Esto debido a su menor carga computacional cuando se compara con redes de más de una capa oculta, y a su capacidad para formar aproximaciones arbitrariamente cercanas a cualquier relación entre los patrones de entrada y las clases [29]. Así como de su habilidad para separar regiones no convexas y desconectadas [22] en el espacio de observación. Además, las unidades de la capa oculta con función de activación sigmoidal producen salidas linealmente independientes capaces de formar una base para la generación de las salidas de la red [28]. En este trabajo se utilizó un Perceptron Multicapa constituido por tres capas, con Nn + 1 nodos en la capa oculta (Nn es el número de características de los patrones), y función de activación sigmoidal. 3. Técnicas Estadísticas para Preprocesamiento de la Muestra Entrenamiento. el de Las técnicas de preprocesamiento de la muestra de entrenamiento nacieron como respuesta a las debilidades de la regla NN, y en la mayoría de los casos con el objetivo de reducir el numero de patrones en la ME. Para este trabajo tales métodos se aglutinaron en dos grupos que serán descritos en las siguientes secciones. 3.1. Métodos de selección de un subconjunto de la ME original. De entre las técnicas del grupo que seleccionan un subconjunto de la muestra de entrenamiento en este trabajo utilizaremos: edición (E), selectivo modificado (SM), y subconjunto consistente mínimo (MCS). A grandes rasgos su funcionamiento es el siguiente. El método de Edición [30], propone eliminar los elementos atípicos de la muestra de entrenamiento mediante la aplicación del procedimiento k-NN (k vecinos más cercanos). Esto es, dado un patrón contenido en la ME original, determina sus k vecinos más cercanos. Si la clase a la cual pertenece la mayoría de estos k vecinos no es igual a la clase del patrón de prueba, este último es eliminado de la ME. Wilson [30] demostró que la regla NN, con la muestra editada, tiene un error asintótico menor que el de la regla k-NN con la muestra de entrenamiento original. Aún cuando este método persigue la creación de una muestra con los patrones que representen mejor a las clases, también se logra una disminución en el tamaño de la muestra de entrenamiento. Investigaciones previas [1,3] encontraron disminuciones de entre 10 y 20 por ciento del número de patrones en ME. Buscando una reducción en la carga computacional, Hart [15] propone la creación de un subconjunto de la ME (subconjunto consistente) con las propiedades: debe estar formado por el menor número posible de patrones y ser capaz de clasificar correctamente la ME completa. Aún cuando adolece de serias deficiencias, el algoritmo de Hart ha servido como generador de procedimientos alternativos para resolver sus carencias. Uno de ellos es conocido como Subconjunto Selectivo Modificado [1], cuyo objetivo es la creación de un subconjunto consistente, que determine las fronteras de decisión lo más cercano posible a las generadas por la ME completa. Por otro lado, Dasarathy [7], presentó un método de selección denominado subconjunto consistente mínimo (MCS). Éste se basa en el concepto de NUNS (nearest unlike neighbor subsets). Por definición, un subconjunto NUN es un conjunto formado por todos los vecinos más cercanos de clase diferente a la de un patrón dado en la ME original. Apoyado en este concepto, la condición para obtener un conjunto consistente se reduce a incluir en MCS un patrón de su misma clase, el cual se encuentre más cercano que sus NUNS. Entre las ventajas mencionadas por su autor se encuentra la de generar una solución única e independiente del orden inicial de presentación de los datos. 3.2. Métodos basados en prototipos Existen técnicas de preprocesamiento cuyo resultado final no es un subconjunto de la muestra de entrada, ejemplos de éstas son LVQ (learning vector quantization) y DSM (decision surface mapping). LVQ fue propuesto por Kohonen [19], con el fin de representar la frontera de decisión entre clases, más que la distribución de clases. Para esto, parte de un conjunto de prototipos iniciales que modifica mediante las siguientes reglas de actualización: dado un objeto x, el prototipo mc, más cercano a éste, es actualizado acercándolo al objeto si es clasificado correctamente por el prototipo, o alejándolo en caso contrario. El efecto de la actualización es mover los prototipos hacia los patrones de su propia clase, y alejarlos de los de otra clase. Un representante más de las técnicas que utilizan prototipos es el método propuesto por Geva y Sitte [12], al cual llamaron DSM (decision surface mapping). Su objetivo es adaptar, gradualmente, las fronteras de decisión que definen los prototipos a las establecidas por la muestra de entrenamiento. Para esto, los elementos de ME son presentados cíclicamente a los prototipos y se procede a su clasificación mediante la regla NN. Si el patrón x es clasificado correctamente, no se aplica modificación alguna. Por el contrario, si la clasificación no fuere correcta un procedimiento de premio/castigo entra en juego, el prototipo más cercano con la clase equivocada lo Tabla 1. Número de patrones resultantes al aplicar las técnicas de preprocesamiento. Cuando se aplica una sola técnica se utiliza como muestra de entrada el archivo original. Si se ejecuta más de un método, el archivo de entrada es el generado por el método que le antecede. Los archivos Iris y Glass no poseen muestra de control, por lo cual se utilizo validación cruzada en las pruebas. 200 1-3 138 Glass 1-2 145 2-3 145 1-2 100 Iris 1-3 100 2-3 100 182 141 97 98 99 94 98 93 266 19 73 62 68 61 10 4 13 LVQ 1,025 59 60 40 43 43 30 30 31 DSM 1,025 59 60 40 43 43 30 30 31 Selectivo Modificado 702 30 96 68 75 67 12 9 16 Edición + SM 281 23 27 37 35 23 6 6 6 Edición + MCS 92 13 18 - - - 3 3 3 Edición + LVQ 847 55 42 40 43 43 27 29 29 Edición + DSM 847 55 42 27 29 30 27 29 29 Edición + SM + LVQ 91 7 9 9 11 9 4 4 4 Edición + SM + DSM 91 7 9 9 11 9 4 4 4 Método de Preprocesamiento Cayo Mu Pima Muestra Original 3,086 196 Edición 2,826 MCS Tabla 2. Porcentaje de error en la clasificación de la muestra de control con backpropagation. La red se entrena con los archivos resultado de las diferentes técnicas de preprocesamiento Método de Preprocesamiento Muestra Original Cayo 50.09 Glass 71.99 Iris 3.33 Mu 5.26 Pima 29.22 Edición 44.08 63.83* 3.33 5.87 24.40 MCS 62.33 72.91 4.00 12.15 26.51 LVQ 39.69 64.17 2.00 11.54 23.19 DSM 33.69 70.81 1.33 12.35 37.65 Selectivo Modificado 61.61 65.76 6.67 11.54 22.29 Edición + SM 38.60 67.17* 4.67 9.11 23.49 Edición + MCS 45.24 - 4.67 8.30 27.11 Edición + LVQ 34.27 66.20* 3.33 11.13 22.59 Edición + DSM 33.86 61.80* 2.67 9.31 Edición + SM+ LVQ 12.48 83.41* 1.33° 10.73 21.69 21.99 Edición + SM + DSM 31.71 75.29* 44.67° 8.91 24.70 * al aplicar Edición fueron suprimidos totalmente los patrones de una clase. ° se eliminaron por completo los patrones de una clase durante la selección de los prototipos iniciales, propinit. aleja y el más cercano de la misma clase lo aproxima. El algoritmo modifica los prototipos solo cuando hay una mala clasificación, lo cual hace diferente a DSM de todas las variantes de LVQ. Las técnicas de preprocesamiento fueron aplicadas individualmente, o en conjunto, a las diferentes muestras de entrenamiento originales. El resultado se presentó a la red neuronal de BP para determinar su influencia en el poder de generalización. multiespectral de una región de la cayería norte de Cuba, incluye patrones de 11 clases y 4 características. El archivo Glass [25] contiene patrones que representan a 6 diferentes tipos de vidrio, con nueve atributos. Iris [25] es una de las bases de datos más estudiada en RP, tiene información correspondiente a tres diferentes tipos de planta Iris, cada patrón con 4 de sus características. Mu es muestra artificial formada por patrones de dos clases con dos características, similar a la utilizada por Hart [15]. La base de datos Pima [25] se obtuvo de un estudio sobre diabetes, realizado en un grupo indígena, cada patrón se forma de 6 características y pertenecen a dos clases. 4.1. Datos 4.2. Descripción de los experimentos Los archivos empleados se identificaron con los nombres: Cayo, Glass, Iris, Pima, y Mu. De éstos, los 4 primeros contienen datos reales y el último datos artificiales. Algunos de ellos presentan, además de la ME una muestra de control (MC); Cayo, Pima, y Mu. En éstos casos, se utilizaron los archivos MC para las pruebas de generalización. Los archivos sin muestra de control (Iris y Glass) fueron procesados mediante el método de validación cruzada con tres repeticiones. Todas las muestras fueron normalizadas dividiendo cada una de las características entre su valor máximo. La tabla 1 presenta la cantidad de patrones en cada archivo. La muestra de entrenamiento Cayo [2] es una imagen Los experimentos se realizaron con un Perceptron Multicapa ejecutando el algoritmo de Backpropagation, por evento. La RNA fue entrenada partiendo de 10,000 iteraciones hasta 100,000. El error del sistema se fijo, para todos los archivos, igual a 0.00001. En el caso de LVQ y DSM no existe una regla simple para determinar la mejor distribución de los prototipos iniciales [19]. La selección de éstos se realizó mediante la ejecución de herramientas contenidas en el software LVQ_PAK[19], propinit y balance. Ambos programas se utilizaron para seleccionar del archivo de entrada los prototipos iniciales, el número de éstos se determino igual al 30% del número de patrones del archivo de entrada. 4. Desarrollo Experimental y Resultados clase 1 clase 2 caracteristica 2 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 caracteristica 1 Figura. 1 Distribución espacial de patrones de la muestra Mu. Sin embargo, el uso de este tipo de criterios trae consigo cierto riesgo como por ejemplo, el de eliminar todos los elementos de una clase, sobre todo cuando la muestra inicial es el resultado de la aplicación previa de algún método como Edición, Selectivo Modificado, etc.. Para esta situación, se propuso que al archivo con los prototipos iniciales se le adicionara el total de los patrones de la clase eliminada. OLVQ1 fue la versión de LVQ utilizada en el desarrollo de este trabajo. 4.3. Resultados La tabla 1 muestra los resultados de BP para los archivos preprocesados. En ésta se puede observar la reducción en el número de patrones de cada ME original. Tal decremento resulta considerable cuando se combinan diferentes técnicas, en algunos casos alcanza más del 90%. Por ende, hay un efecto importante sobre el tiempo de aprendizaje. La aplicación de BP a cada uno de los archivos generados da como resultado los valores presentados en la tabla 2. En ésta se exhibe el menor porcentaje de error en la muestra de control (mayor poder de generalización). Dicho valor se obtuvo de la comparación entre los resultados del entrenamiento con diferente cantidad de iteraciones. Examinando la tabla 2 se advierte que, salvo el caso de la muestra artificial, los mejores resultados se obtienen aplicando la unión de ambos tipos de métodos. Para la mayoría de casos, la combinación Edición + Selectivo Modificado + LVQ (E+SM+LVQ) produce excelentes resultados. Desde el punto de vista estadístico de RP, se recomienda determinar el número de patrones por clase, en la ME, guardando la proporción que representa cada clase en el espacio de observación [23]. Tal situación se puede interpretar como una probabilidad a priori de los patrones de esa clase [10]. Sin embargo, los resultados obtenidos con E+SM+LVQ pueden ser interpretados de diferente manera. Para esto, se debe considerar la Edición como un procedimiento mediante el cual se eligen aquellos patrones cuya cercanía a los de su misma clase es mayor que a elementos de otra clase. En otras palabras, favorece la eliminación de patrones en la frontera. Por ejemplo, si se tiene una clase cuyos elementos formen un grupo compacto y aplicamos Edición, los patrones con una mayor probabilidad de ser eliminados serán aquellos que se localicen en la frontera. Como el número de patrones en la frontera es mucho menor que el total de elementos, la proporción inicial de esa clase, en la ME, sufrirá una pequeña variación. Lo contrario se presenta cuando la clase no es compacta, ya que la cantidad de elementos en la frontera puede representar un porcentaje significativo del total y se produciría una reducción importante del número de patrones al emplear la Edición. Tal situación genera la perdida de la proporción inicial de la clase en la muestra de entrenamiento. En el caso, del procedimiento Selectivo Modificado su aplicación propicia la elección de miembros de la frontera entre clases. El número de patrones seleccionado por clase no dependerá de la concentración de integrantes, sino más bien de la longitud de su frontera. Por lo anterior, el conjunto Selectivo Modificado no conserva la ponderación inicial del número de patrones por clase. Como se explicó, antes de aplicar LVQ se ejecutan los programas propinit y balance. Éstos, fueron diseñados para preservar la densidad de patrones por clase igual a la del archivo de entrada [19], consecuentemente al aplicar LVQ no se modifica significativamente la proporción inicial. Resumiendo, se puede indicar que la combinación E+SM+LVQ normalmente no preserva la proporción entre los patrones de diferente clase. Además, como tal combinación produce los mejores resultados en el poder de generalización, podemos inferir que para Backpropagation y los archivos de prueba no es Tabla 3. Porcentaje de proporción, por clase, de los patrones contenidos en las muestras de entrenamiento para los archivos Cayo, Iris, y Pima. e+sm+lvq Edición. Muestra Pima Original e+sm+lvq Edición. Muestra Iris * Original e+sm+lvo Edición. Original Número de Clase Muestra Cayo Clase 0 14.1 15.2 6.59 33.3 35.1 25.0 34.0 23.4 44.4 Clase 1 5.6 5.3 6.6 33.3 32.6 41.7 66.0 76.6 55.6 Clase 2 11.2 11.0 9.9 33.3 32.6 33.3 Clase 3 6.0 6.1 8.8 Clase 4 3.4 3.0 9.9 Clase 5 7.8 7.4 12.1 Clase 6 3.2 2.6 5.5 Clase 7 11.7 12.6 9.9 Clase 8 13.4 14.5 3.3 Clase 9 13.0 12.5 17.6 Clase 10 10.7 9.9 9. 9 * el valor presentado corresponde al promedio de los tres grupos necesario elegir el número de patrones, para la muestra de entrenamiento, en función de la proporción que cada clase presenta en el espacio de observación. La tabla 3 presenta la densidad de patrones, por clase, para los archivos Cayo, Iris y Pima, como puede observarse, el cambio en la proporción original del número de patrones confirma las aseveraciones realizadas en el párrafo anterior. Que BP muestre un poder de generalización mayor cuando usamos E+SM+LVQ en cierta forma sugiere el tipo de patrones más adecuados para su entrenamiento. La aplicación de E+SM+LVQ genera dos líneas de división, formadas por los prototipos de cada clase, la región entre estas líneas corresponde al solape de clases. La fig.2 presenta el resultado del empleo de E+SM+LVQ a la muestra Mu. Aún cuando los resultados del poder de generalización para este caso no son favorables al preprocesamiento, desde el punto de vista gráfico resulta interesante su análisis. En la fig.2 se observan las líneas de división generadas, por E+SM+LVQ, para cada una de las clases, al igual que los patrones mal clasificados (en MC) por la red. Resulta claro que la aproximación a la frontera de decisión presenta serias deficiencias, ver fig.1. Una de ellas es la falta de representatividad a lo largo de toda la frontera, por ejemplo el conjunto de prototipos de la clase 1 se restringe a una pequeña región del espacio de observación, algo similar aunque en menor grado se presenta en la clase 2. Es posible, que la ausencia de una distribución uniforme de los prototipos a lo largo de toda la frontera, produzca un Prototip os clase 1 Prototip os clase 2 Patrones mal clasificados, clase 1 Patrones mal clasificados, clase 2 característica 2 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 característica 1 Figura 2. Prototipos generados por E+SM+LVQ para la muestra de entrenamiento Mu. Los patrones mal clasificados corresponden a la muestra de control. Prototipos clase 1 Patrones mal clasificados, clase 1 Prototipos clase 2 Patrones mal clasificados, clase 2 caracteristíca 2 1 0.8 0.6 0.4 0.2 0 0.1 0.2 0.3 0.4 0.5 característica 1 0.6 0.7 0.8 Figura 3. Resultado de aumentar el porcentaje de prototipos iniciales del 30% al 80%. El porcentaje de error en la MC es igual a 7.29%. aumento en el porcentaje de error. Independientemente de la fidelidad con la cual las líneas de división reproducen el comportamiento de la frontera de decisión, es razonable suponer que los patrones contenidos en la región entre tales líneas tienen una mayor probabilidad de ser mal clasificadas por Backpropagation (ver fig.2 y 3). Esto es, la mayor cantidad de errores de la red deben presentarse en la vecindad de las líneas de división generadas por E+SM+LVQ. Siguiendo este criterio es posible alcanzar un mayor poder de generalización si se logra distribuir uniformemente los prototipos a lo largo de toda la frontera de decisión y/o se reduce la región entre las líneas de división. Con el fin de probar el efecto de la primera condición se realizaron algunas pruebas con la muestra Mu, las cuales, básicamente, consistieron en aumentar el número de prototipos iniciales. La fig.3 muestra los resultados obtenidos cuando se elige el número de prototipos iniciales igual al 80% de los patrones generados mediante el empleo de las técnicas de edición y selectivo modificado. La mejora en el poder de generalización fue de un 32% aproximadamente, además se puede observar como una gran cantidad de los patrones mal clasificados se encuentran entre las líneas de división generadas por E+SM+LVQ. 5. Conclusiones Del análisis de los resultados se desprende que el preprocesamiento de la muestra de entrenamiento no solo disminuye el tiempo de entrenamiento, sino también mejora el poder de generalización de Backpropagation. Cuando se aplican las técnicas de Edición, Selectivo Modificado y OLVQ1 en ese orden, el archivo creado exhibe los mejores resultados en el poder de generalización de Backpropagation. Esto se debe, en gran medida, a la separación de clases que implícitamente realiza el preprocesamiento al eliminar de la muestra de entrenamiento los patrones localizados en los solapes entre clases, y a su eficiencia para representar la frontera de decisión a través de las líneas de división Por otro lado, los experimentos muestran que la selección del número de patrones por clase, en la muestra de entrenamiento, depende en un alto grado de la longitud de su frontera de decisión, más que de la probabilidad a priori con la cual se presente la clase en el espacio de observación. Aún cuando, los resultados obtenidos son alentadores, se requiere profundizar en como homogeneizar la distribución de los prototipos a lo largo de la frontera de decisión. Además, las líneas de división abren la posibilidad de detectar elementos atípicos, lo cual puede ser utilizado para la creación de una opción de rechazo en Backpropagation. Referencias 1. Barandela, Ricardo (1987). “The nearest neighbor rule: an empirical study of its methodological aspects”, Tesis Doctoral, Berlin. 2. Barandela, Ricardo (1995). “Una metodología para el reconocimiento de patrones en la solución de tareas geologogeofísicas”, Geofísica Internacional, vol.34, no.4, pp.399405. 3. Barandela, Ricardo (1997). “Aspectos del aprendizaje en las redes neuronales”, II Taller Iberoamericano de Reconocimiento de Patrones, La Habana, Cuba. 4. Cover, M. T. And P. E. Hart (1967). “Nearest neighbor pattern classification”, IEEE Trans. Inf. Theory, vol.13, pp.21-22. 5. Cybenco, G. (1989). “Approximation by superposition of a sigmoid function”, Mathematics of Control, Signals and Systems, 2, pp.303-314. 6. Dai, Hengchang and C. MacBeth (1997). “Effects of learning parameters on learning procedure and performance of a BPNN”, Neural Networks, vol.10, no.8, pp.1505-1521. 7. Dasarathy, Belur V. (1995). “Minimal consistent set (MCS) identification for optimal nearest neighbor decision system desing”, IEEE Trasactions on Systems Man and Cybernetics, vol.24, no.1. 8. Demuth, H. and Beale, M. (1993). “Neural networks toolbox for use with MATLAB: user’s guide”, Natick, MA: The Math Works, Inc. 9. Djouadi, Abdelhamid, and Essaid Bouktache (1997). “A fast algorithm for the nearest-neighbor classifier”, IEEE Trans. on Pattern Analysis and Machine Intelligence, vol.19, no.3, pp.277-282. 10. Foody, M. G., M. B. McCulloch, and W. B. Yates (1995). “The effect of training set size and composition on artificial neural networks classification”, Int. J. Remote Sensing, vol.16, no.9, pp.1707-1723. 11. Funahashi, K. (1989). “On the aproximate realization of continuous mapping by neural networks”, Neural Networks, vol.2, pp.183-192. 12. Geva, Shlomo, and Joaquin Sitte (1991). “Adaptive nearest neighbor pattern classification”, IEEE Trans. on Neural Networks, vol.2, no.2, pp.318-322. 13. Grother, J. Patrick, Gerald T. Candela, and James L. Blue (1997). “Fast implementations of nearest neighbor classifiers”, Pattern Recognition, vol.30, no.3, pp.459-465. 14. Hamamoto, Yoshihiko, Shunji Uchimura, and Shingo Tomita (1997). “A bootstrap technique for nearest neighbor classifier design”, IEEE Trans. on Pattern Analysis and Machine Intelligence, vol.19, no.1, pp.73-79. 15. Hart, P. E. (1968). “The condensed nearest neightbor rule”, IEEE Trans. Info. Theory, IT-14, pp.505-516. 16. Haykin, Simon (1999). “Neural networks: a comprehensive foundations”, Prentice Hall, USA. 17. Irie, B., and S. Miyake (1988). “Capabilities of three-layered perceptrons”, en Proc. of the IEEE Conference on Neural Networks, vol.I, pp.641-6 18. Kanellopoulos, I., and G. G. Wilkinson (1997). “Strategies and best practice for neural networks image classification”, Int. J. Remote Sensing, vol.18, no.4, pp.711-725. 19. Kohonen, T., J. Kangas, J. Laaksonen and K. Torkkola (1992). “LVQ_PAK: a program package for correct application of learning vector quantization algorithm”, Proc. IEEE Int. Joint Conf. on Neural Networks, Baltimore, pp.I.725 - I.730. 20. Lin, Che-Chern and Amor El-Jaroudi (1998). “An algorithm to determine the feasibilities and weights of two-layer perceptrons for partitioning and classification”, Pattern Recognition, vol.31, no.11, pp.1613-1625. 21. Lippmann, R. P. (1987). “An introduction to computing with neural nets”, IEEE Acoust. Speech Signal Process. Mag., 4, pp.4-22. 22. Makhoul, J., A. El-Jaroudi and R. Schwartz (1991). “Partitioning capabilities of two-layer neural networks”, IEEE Trans. Signal Process., vol.39, no.6, pp.436-1440. 23. Mather, P. M. (1987). “Cumputer processing of remotely sensed images”, Wiley, Chichester. 24. McClelland, J. And Rumelhart, D. (1988). “Explorations in parallel distributed processing, a handbook of model, program, and exercises”, Cambridge, MA. 25. Murphy, P. M., and D.W. Aha (1991), “UCI repository of machine learning databases”, Irvine, University of California, anonynous FTP:/pub/machine-learning-database in ics.uci.edu. 26. Pao, Y. H. (1989). “Adaptive pattern recognition and neural networks”, Ed. Addison-Wesley, MA. 27. Paola, J. D. and R. A. Schowengerdt (1995). “A review and analysis of backpropagation neural networks for classification of remotely-sensed multispectral imagery”, Int. J. Remote Sensing, vol.16, no.16, pp.3033-3058. 28. Shah, Jagesh V. and Chi-Sang Poon (1999), “Linear independence of internal representations in multilayer perceptrons”, IEEE Trans. on Neural Networks, vol.10, no.1, pp.10-18. 29. Wilson, Charles L., J. L. Blue and O. M. Omidvar (1997). “Training dynamics and neural network performance”, Neural Networks, vol.10, no.5, pp.907-923. 30. Wilson, Dennis L. (1972). “Asymptotic properties of nearest neighbor rules using edited data”, IEEE Trans. on Systems, Man, an Cybernetics, vol. SMC-2, no.3, pp.408-421.