U IVERSIDAD DE EXTREMADURA Ingeniería Informática

Transcripción

UIVERSIDAD DE EXTREMADURA
Escuela Politécnica
Ingeniería Informática
Proyecto Fin de Carrera
Caracterización de imágenes hiperespectrales
utilizando Support Vector Machines y técnicas de
extracción de características
Marta Rojas Muriel
Diciembre, 2009
Proyecto Fin de Carrera. Autora: Marta Rojas Muriel.
UIVERSIDAD DE EXTREMADURA
Escuela Politécnica
Ingeniería Informática
Proyecto Fin de Carrera
Caracterización de imágenes hiperespectrales
utilizando Support Vector Machines y técnicas de
extracción de características
Autora: Marta Rojas Muriel
Fdo.:
Director: Antonio Plaza Miguel
Fdo.:
Co-director: Paolo Gamba
Fdo.:
Tribunal Calificador
Presidente: Pablo Bustos García de Castro
Fdo.:
Vocal: Juan Carlos Díaz Martín
Fdo.:
Secretario: Javier Plaza Miguel
Fdo.:
CALIFICACIÓN:
FECHA:
3
Caracterización de imágenes hiperespectrales utilizando Support Vector Machines
4
5
AGRADECIMIETOS
El presente Proyecto Fin de Carrera (PFC) no habría podido realizarse sin la
colaboración de las siguientes personas, varias de las cuales aportaron importante
soporte y ayuda durante la realización del mismo:
•
Los profesores Antonio Plaza de la Universidad de Extremadura y Paolo
Gamba de la Universidad de Pavía en Italia, el primero de los cuales supervisó
el desarrollo del proyecto y el segundo de los cuales proporcionó soporte y
valiosas sugerencias durante la estancia de 9 meses realizada en dicha
Universidad en el marco del programa EC ERASMUS.
•
El investigador Karoly Bakos de la Universidad de Pavía en Italia, el cual
proporcionó una de las imágenes hiperespectrales consideradas en el presente
estudio (Tatras) así como soporte con las diferentes implementaciones y
técnicas de análisis utilizadas.
•
Los investigadores Mario Fornaroli y Jacopo Nairoukh de la Universidad de
Pavía en Italia, los cuales me
proporcionaron soporte relativo a la
implementación de los algoritmos considerados durante las primeras etapas del
proyecto.
•
El grupo del Profesor David Landgrebe en la Universidad de Purdue, Indiana,
por proporcionar a la comunidad científica la imagen hiperespectral sobre la
región Indian Pines, así como las medidas verdad-terreno disponibles sobre esta
imagen.
•
En último lugar, y no por ello menos importante, gracias a mi familia, con
especial atención a mi hermano, a mis amigas y amigos de toda la vida por su
apoyo y comprensión durante la realización del proyecto, además del grupo
ERASMUS 08/09 de Pavia por acompañarme en uno de los mejores años de mi
vida.
6
RESUME
La presente memoria resume el trabajo de investigación realizado por Marta Rojas
Muriel con motivo de su proyecto fin de carrera (PFC). En concreto, el presente trabajo
describe una comparativa de diferentes cadenas de procesamiento de imágenes
hiperespectrales
de
la
superficie
terrestre,
obtenidas
mediante
sensores
aerotransportados para la observación remota de la tierra. El documento sigue la
estructura clásica de un trabajo de investigación en dicho campo, presentando en primer
lugar las motivaciones y objetivos que han motivado la comparativa de diferentes
técnicas de análisis hiperespectral respondiendo a una necesidad claramente existente en
este campo de estudio. A continuación se realiza un estudio en profundidad del estado
del arte en dicho campo, desde el concepto de píxel hiperespectral hasta los algoritmos
existentes que fundamentan la base de este estudio. Posteriormente se detallan los
módulos de pre-procesado, clasificación y post-procesado que se han combinado en
forma de diferentes cadenas de procesamiento orientadas a clasificar datos
hiperespectrales de forma supervisada. En este sentido, el núcleo del presente trabajo
viene dado por la comparativa de las cadenas de procesamiento consideradas en el
marco de dos casos de estudio centrados en la utilización de imágenes hiperespectrales
de referencia en la literatura, obtenidas por los sensores Airborne Visible Infra-Red
Imaging Spectrometer (AVIRIS) de NASA/JPL y Digital Airborne Imaging
Spectrometer (DAIS 7915) de la agencia espacial alemana (DLR). Como resultado del
estudio cuantitativo y comparativo realizado al analizar los resultados de clasificación
obtenidos utilizando diferentes cadenas de procesamiento en relación con información
de referencia (verdad-terreno) disponible para dichas imágenes, se ofrecen una serie de
conclusiones y recomendaciones generales acerca del mejor uso posible de los módulos
de pre-procesado, clasificación y post-procesado que integran dichas cadenas. Dichas
recomendaciones suponen un aspecto innovador en la literatura especializada dedicada
al análisis de datos hiperespectrales, y pensamos que serán de gran utilidad para los
usuarios de este tipo de datos interesados en aplicaciones relacionadas con la
clasificación supervisada de los mismos.
7
ÍDICE DE COTEIDOS
La distribución de contenidos en el presente documento se organiza de la siguiente
forma:
1. Motivaciones y objetivos..............................................................................................9
1.1.
Motivaciones............................................................................................................9
1.2.
Objetivos................................................................................................................10
2. Introducción al análisis hiperespectral ..................................................................13
2.1. Concepto de imagen hiperespectral ............................................................................14
2.2. Sensores hiperespectrales............................................................................................16
2.2.1. Resolución espectral ............................................................................................16
2.2.2. Resolución radiométrica ......................................................................................17
2.2.2.1. El sensor AVIRIS de NASA/JPL .................................................................17
2.2.2.2. El sensor DAIS 7915 de DLR.......................................................................19
2.3. Técnicas de análisis hiperespectral .............................................................................20
2.4. Clasificación de datos hiperespectrales ......................................................................23
2.4.1. Algoritmos de clasificación no supervisados.......................................................25
2.4.2. Algoritmos de clasificación supervisados............................................................26
2.4.3. Técnicas de evaluación de algoritmos de clasificación .......................................26
3. Técnicas de procesamiento.......................................................................................30
3.1. Métodos de pre-procesado ..........................................................................................32
3.1.1. Técnicas de pre-procesado espectral....................................................................32
3.1.1.1 Análisis de componentes principales (PCA)..................................................34
3.1.1.2 Fracción mínima de ruido (MNF)..................................................................36
3.1.1.3 Selección de características (FS) ...................................................................38
3.1.2. Técnicas de pre-procesado espacial .....................................................................40
3.1.2.1 Morfología matemática..................................................................................42
3.1.2.2 Análisis de texturas ........................................................................................46
3.2. Métodos de clasificación ............................................................................................51
3.2.1. El clasificador Support Vector Machine (SVM)..................................................51
3.3. Métodos de post-procesado ........................................................................................56
4. Cadenas de procesamiento .......................................................................................58
4.1. Cadena de procesamiento #1 ......................................................................................59
8
5. Resultados experimentales .......................................................................................66
5.1. Metodología de análisis ..............................................................................................67
5.2. Imágenes hiperespectrales consideradas.....................................................................69
5.2.1. Imagen hiperespectral AVIRIS Indian Pines.......................................................69
5.2.2. Imagen hiperespectral DAIS 7915 sobre Tatras ..................................................71
5.3. Resultados de las cadenas de procesamiento ..............................................................73
5.3.1. Resultados imagen hiperespectral AVIRIS Indian Pines.....................................73
5.3.1.1 Resultados cadena procesamiento #1 con AVIRIS Indian Pines...................74
5.3.1.6 Combinación de resultados de todas las cadenas...........................................86
5.3.2. Resultados imagen hiperespectral DAIS 7915 Tatras..........................................88
5.3.2.1 Resultados cadena procesamiento #1 con DAIS 7915 Tatras........................89
5.3.2.6 Combinación de resultados de todas las cadenas.........................................101
5.4. Discusión global de resultados..................................................................................103
6. Conclusiones y líneas futuras de trabajo ............................................................109
6.1. Conclusiones.............................................................................................................109
6.2. Líneas futuras............................................................................................................110
7. Referencias ..................................................................................................................112
9
1. Motivaciones y objetivos
1.1. Motivaciones
El trabajo objeto del presente Proyecto Fin de Carrera (PFC) consiste en el análisis y
estudio de diferentes técnicas de procesamiento automáticas para procesamiento de
datos hiperespectrales de la superficie terrestre utilizando metodologías supervisadas. El
trabajo desarrollado se enmarca dentro de las líneas de investigación actuales del Grupo
de Redes Neuronales y Procesamiento de Señal (GRNPS) del Departamento de
Informática de la Universidad de Extremadura. En sus inicios, la investigación realizada
en el GRNPS estaba orientada al desarrollo de algoritmos de computación neuronal para
la cuantificación de espectros. Esta línea de investigación fue pronto extendida al caso
de imágenes hiperespectrales obtenidas de forma remota.
El presente trabajo de investigación también se enmarca en las actividades
desarrolladas en el contexto del europeo HYPER-I-NET (Hyperspectral imaging
network) [1], financiado por el programa Marie Curie Research Training etworks de
la Comisión Europea (EC), y en el marco del programa de movilidad de intercambio de
estudiantes EC ERASMUS. En particular, las actividades relacionadas con el mismo
han sido realizadas de forma conjunta entre la Universidad de Extremadura y la
Universidad de Pavía, en Italia, siendo los supervisores del trabajo los profesores
Antonio Plaza (Extremadura) y Paolo Gamba (Pavía).
Las imágenes hiperespectrales obtenidas por satélite suponen una extensión del
concepto de imagen digital, en el sentido de que sus pixels no están formados por un
único valor discreto, sino por un conjunto amplio de valores correspondientes a las
diferentes mediciones espectrales realizadas por un sensor o instrumento de medida en
diferentes longitudes de onda. Este hecho supone la disposición de una gran cantidad de
información con un alto nivel de detalle. La comunidad científica dedicada al análisis de
datos hiperespectrales ha identificado la necesidad de interpretar estos datos de manera
adecuada y obtener información relevante para distintos escenarios con poco esfuerzo
[2]. Por tanto, se deben fijar las bases para la definición y testeo de una flexible cadena
de recogida y procesamiento de datos hiperespectrales que produzca unos resultados
eficientes.
10
En la literatura, existen gran variedad de metodologías y técnicas aplicables, que
pueden ser considerados como bloques funcionales, combinables dentro de la cadena
completa de procesamiento. Considerando como fin principal del procesamiento, la
clasificación o caracterización de los pixels hiperespectrales para elaborar un mapa
temático que identifique distintas clases o regiones de interés en la imagen, los pasos
que se ejecuten a priori y a posteriori, se conocen como técnicas de pre-procesamiento y
post-procesamiento respectivamente. En este trabajo se ha tenido en cuenta gran parte
de la investigación realizada para esta disciplina y se pretende aumentar o profundizar
en el conocimiento de cómo afecta la elección de un determinado pre- y post-procesado,
además del algoritmo de clasificación, para obtener altos niveles de precisión y realizar
un acercamiento a la secuencia de aplicaciones mas adecuada para definir una cadena de
procesamiento estándar general o aplicable a un determinado caso.
En el presente estudio se han utilizado dos imágenes hiperespectrales distintas
recogidas por satélite donde se pretenden clasificar diversos tipos de terreno o
superficie, en su mayoría vegetación, utilizando una arquitectura supervisada y
novedosa denominada Support Vector Machine (SVM) o máquina de vectores de
soporte. Por último, conviene destacar que los experimentos realizados suponen una
parte de todo el proceso que sufre una imagen hiperespectral desde que es recogida por
el sensor hasta que el usuario saca provecho de la interpretación realizada. Por tanto, la
precisión que se pueda obtener siempre estará condicionada por las transformaciones
realizadas sobre los datos con anterioridad y la efectividad en la definición de los
parámetros que se apliquen, factores que conciernen a otras áreas de investigación
(altamente multidisciplinares) dentro de la comunidad científica.
1.2. Objetivos
El principal objetivo del presente trabajo es analizar distintos tipos de cadenas de
procesamiento de imágenes hiperespectrales que permitan obtener unos resultados
precisos y eficientes para este tipo de datos. Para ello se plantea el siguiente objetivo
global: estudiar, evaluar y comparar las diferentes técnicas existentes para realizar
una clasificación de datos hiperespectrales, así como extraer conclusiones relativas
a la eficiencia y conveniencia de dichas técnicas. Para la consecución de este objetivo
global, se han llevado a cabo los siguientes objetivos específicos:
11
Adquirir conocimientos sobre el análisis hiperespectral, necesarios para poder
llevar a cabo el estudio (formato y representación de los datos…).
Adquirir conocimientos sobre el manejo de herramientas y programas
adecuados para trabajar con este tipo de datos en el procesamiento.
Analizar las imágenes utilizadas para comprender mejor su comportamiento
antes determinadas aplicaciones (procedencia, características, tipos de terreno,
propiedades especiales de la vegetación…)
Investigar sobre las técnicas disponibles de procesado de los datos y establecer
aquellas que proporcionen mejores resultados o sean mas precisas.
Investigar sobre los métodos de clasificación supervisada disponibles, con
especial atención al novedoso algoritmo supervisado SVM.
Implementar una serie de cadenas de procesamiento con las técnicas elegidas y
realizar pruebas de clasificación.
Estudiar, de forma comparativa, los experimentos realizados, centrando la
atención en la influencia de utilizar diferentes tipos de pre-procesado antes de
realizar la clasificación.
Obtener conclusiones a partir del estudio cuantitativo y comparativo realizado,
y plantear posibles trabajos futuros.
El documento se encuentra organizado de la siguiente forma. En el capítulo 2 se
ofrece una introducción y revisión del estado del arte en el contexto de la teledetección
hiperespectral, prestando especial atención a las técnicas de clasificación supervisadas
en este ámbito y a diferentes métodos de pre-procesado y post-procesado, los cuales se
describen en más detalle en el capítulo 3. El capítulo 4 presenta las diferentes cadenas
de procesamiento consideradas en el presente estudio. El capítulo 5 realiza una
exhaustiva validación experimental de los resultados obtenidos tras aplicar las diferentes
cadenas de procesamiento consideradas a datos hiperespectrales reales de referencia en
la literatura. Este capítulo también incluye una discusión general de los resultados
obtenidos por las diferentes cadenas en diferentes casos de estudio, extrapolando
conclusiones acerca del rendimiento de cada cadena (en términos de la precisión
obtenida en la clasificación) en diferentes casos de estudio. El capítulo 6 ofrece una
serie de conclusiones sobre los estudios realizados y plantea una serie de posibles líneas
12
futuras de trabajo. El documento concluye con la presentación de las referencias
bibliográficas que se han tenido en cuenta en la elaboración del mismo y otras
referencias que permiten ampliar los conceptos presentados en el trabajo.
13
2. Introducción al análisis hiperespectral
La disponibilidad de información digital acerca de la superficie terrestre, obtenida de
forma remota a partir de satélites o plataformas aerotransportadas, ha supuesto una
auténtica revolución en nuestra concepción actual del mundo. Esta observación remota
de la tierra constituye el marco de estudio de la teledetección, traducción latina del
término inglés remote sensing, que surgió a principios de los años 50 para designar
cualquier medio de observación remota, si bien se aplicó fundamentalmente a la
fotografía aérea, principal sensor de aquel momento [3].
No obstante, la llegada de la era dorada de la teledetección tuvo que esperar hasta
que confluyeron una serie de circunstancias bien diferenciadas. En primer lugar, el
desarrollo
del
computador
digital
permitió
optimizar
los
mecanismos
de
almacenamiento, procesamiento y transmisión de los datos proporcionados por
dispositivos remotos. En segundo lugar, el desarrollo de las técnicas de reconocimiento
de patrones, propiciado en parte por la creciente capacidad de cómputo de los
computadores digitales, ha supuesto que, en la actualidad, la extracción de información
significativa y relevante a partir de los datos de observación remota sea una tarea simple
y cada vez más automatizada [4]. Finalmente, no podemos olvidar otras circunstancias
clave como el desarrollo tecnológico en los instrumentos de medida y en las técnicas de
aerotransporte y navegación espacial.
Históricamente, las técnicas de análisis de datos obtenidos de forma remota han
seguido una serie de etapas marcadas por la evolución en los instrumentos de
observación remota. En etapas tempranas, los medios de observación remota se
caracterizaban por estar montados sobre plataformas exclusivamente espaciales, por lo
que las técnicas de análisis derivadas se basaron en enfoques fundamentalmente
espaciales. Posteriormente, la disponibilidad de instrumentos capaces de medir
singularidades en el espectro de la luz reflejada por los diferentes materiales presentes
en el mundo real trajo como consecuencia la introducción de técnicas basadas en
espectroscopia.
En la actualidad, existen instrumentos que permiten un enfoque integrado en el que
se considera tanto la información espacial como la espectral [4]. En este sentido, es muy
importante destacar que la integración de ambas fuentes de información constituye en la
14
actualidad uno de los mayores desafíos a la hora de desarrollar nuevas técnicas de
análisis de este tipo de datos, ya que la mayor parte de las aproximaciones clásicas
existentes en la literatura se centran en la utilización de la información espectral y
prestan menos atención a la correlación espacial de los datos, la cual puede proporcionar
interesantes prestaciones.
2.1. Concepto de imagen hiperespectral
La observación remota de un determinado objeto está basada en la captación, por parte
de un instrumento de medida o sensor, de la radiación electromagnética proveniente de
la interacción entre el objeto y la fuente de la radiación. La radiación electromagnética
recibe varios nombres dependiendo de la longitud de onda que la caracteriza, como
puede apreciarse en la figura 2.1. Para medir la radiación emitida o reflejada por una
determinada superficie es preciso cuantificar la cantidad de flujo energético que procede
de la misma. Para ello se utiliza la medida de la radiancia, que depende de factores
como la percepción de brillo, reflectancia, ángulos de observación, entre otros.
0.4 µm
Rayos X
Rayos γ
10-7
10-5
0.7 µm
Ultravioleta
10-3
Microondas
Visible
10-1
Radar
Infrarrojo
10
103
105
103
Longitud de onda (µ
µm)
Figura 2. 1: El espectro electromagnético
Las técnicas de teledetección espectral se basan en el hecho de que todos los
materiales presentes en el mundo real reflejan, absorben y emiten energía
electromagnética de forma distinta en diferentes longitudes de onda [5].
15
En la actualidad, existe un amplio conjunto de instrumentos o sensores capaces de
medir singularidades espectrales en diferentes longitudes de onda a lo largo de áreas
espaciales extensas [4]. La disponibilidad de estos instrumentos ha facilitado una
redefinición del concepto de imagen digital a través de la extensión de la idea de pixel.
Recordamos que el valor asociado a cada pixel viene definido por un valor numérico
denominado nivel digital (ND). El nombre se justifica por tratarse de un valor numérico,
no visual, pero que puede fácilmente traducirse a una intensidad visual o nivel de gris
mediante cualquier convertidor digital-analógico. Así, en un esquema puramente
espacial, un pixel está constituido por un único valor discreto, mientras que, en un
esquema espectral, un pixel consta de un conjunto de valores. Estos valores pueden ser
entendidos como vectores N-dimensionales [6], siendo N el número de bandas
espectrales en las que el sensor mide información.
La ampliación del concepto de pixel da lugar a lo que se conoce como imagen multidimensional, como aparece ilustrado en la figura 2.2. En dicha figura, el orden de
magnitud de N permite realizar una distinción a la hora de hablar de imágenes multidimensionales. Así, cuando el valor de N es reducido, típicamente unas cuantas bandas
espectrales [7], se habla de imágenes multiespectrales, mientras que, cuando el orden de
magnitud de N es de cientos de bandas [8], se habla de imágenes hiperespectrales.
a
nd
a
B
s1
4
ND en banda 4
Muestras
ND en banda 3
ND en banda 2
ND en banda 1
Pixel en
posición (x,y)
Líneas
Figura 2. 2: Ejemplo ilustrativo de una imagen multi-dimensional de 4 bandas.
16
2.2. Sensores hiperespectrales
El concepto de resolución puede estar referido a diferentes aspectos, entre los que se
encuentran la resolución espacial, ya comentada, y las resoluciones espectral y
radiométrica, que se describen a continuación, para dar paso a información detallada de
los sensores remotos que han proporcionado las imágenes utilizadas en este trabajo.
2.2.1. Resolución espectral
La resolución espectral está relacionada con los siguientes parámetros [9]:
Número de canales espectrales en los que el sensor adquiere datos.
Anchura de las bandas espectrales correspondientes a dichos canales.
De forma intuitiva, cuanto mayor sea el número de bandas disponibles, mejor será la
caracterización de los materiales presentes en la escena. Además, conviene que estas
bandas sean estrechas, puesto que la utilización de bandas anchas introduce un
promediado de valores que puede encubrir la diferenciación espectral entre cubiertas
[10].
Llegados a este punto, podemos introducir el concepto de firma espectral de un
determinado material o superficie como el conjunto de valores de radiancia o
reflectancia en los diferentes canales espectrales del sensor. Si el número de bandas
espectrales del sensor es muy grande y las bandas son muy estrechas, la firma espectral
puede ser considerada como un espectro casi continuo [4].
La figura 2.3 muestra un ejemplo de dos firmas espectrales asociadas a una cubierta
vegetal. La primera de ellas (parte izquierda) fue adquirida por un sensor multiespectral,
en concreto, Landsat Thematic Mapper [11], que dispone de un total de 7 bandas en el
rango 0.48 – 2.21 µm. La firma espectral mostrada en la parte derecha de la figura 2.3
fue adquirida por el sensor hiperespectral AVIRIS [8], con 224 bandas espectrales en el
rango 0.4 a 2.4 µm. Como puede apreciarse en la figura, la firma espectral obtenida
mediante un sensor hiperespectral se asemeja a un espectro continuo de valores,
mientras que la firma proporcionada por un sensor multiespectral es mucho menos
detallada [11]. De hecho, los sensores hiperespectrales también reciben el nombre de
“espectrómetros de imagen” en la literatura, pues son instrumentos capaces de combinar
17
las propiedades de los sensores de imagen con las propiedades analíticas de un espectroradiómetro de altas prestaciones [8].
Figura 2. 3: Firmas espectrales de vegetación obtenidas por el sensor multiespectral Landsat TM (7
bandas) y el sensor hiperespectral AVIRIS (224 bandas).
2.2.2. Resolución radiométrica
Esta resolución indica la sensibilidad del sensor, entendiendo ésta como la capacidad de
detectar variaciones en los valores de radiancia espectral recibida. El número máximo
de valores que pueden ser detectados y, por tanto, la resolución radiométrica, viene
habitualmente limitado por el número de bits utilizado para codificar los valores de
radiancia [12]. A continuación, detallamos brevemente algunas de las principales
peculiaridades de dos tipos de sensores específicos.
2.2.2.1. El sensor AVIRIS de ASA/JPL
Las siglas AVIRIS son un acrónimo de Airborne Visible-InfraRed Imaging
Spectrometer. Como su nombre indica, AVIRIS es un sensor hiperespectral
aerotransportado con capacidades analíticas en las zonas visible e infrarroja del espectro
[8].
El sensor entró en funcionamiento en 1987 como el primer sistema de adquisición de
imágenes capaz de obtener información en una gran cantidad de bandas espectrales
estrechas y casi contiguas. En realidad, AVIRIS es un instrumento único en el mundo
de la teledetección, pues permite obtener información espectral en 224 canales
18
espectrales contiguos, cubriendo un rango de longitudes de onda entre 0.4 y 2.5 µm,
siendo el ancho entre las bandas muy pequeño, aproximadamente 0.01 µm.
A partir de 1989, AVIRIS se convirtió en un instrumento aerotransportado. Desde
ese momento, se realizan varias campañas de vuelo cada año con objeto de tomar datos
mediante AVIRIS. En concreto, el sensor ha realizado tomas de datos en Estados
Unidos, Canadá y Europa, utilizando para ello dos plataformas diferentes:
Un avión ER-2 perteneciente a NASA/Jet Propulsion Laboratory. El ER-2
puede volar a un máximo de 20 km sobre el nivel del mar, a una velocidad
máxima de aproximadamente 730 km/h.
Un avión denominado Twin Otter, capaz de volar a un máximo de 4 km sobre
el nivel del mar, a velocidades de 130 km/h.
Algunas de las características más relevantes del sensor AVIRIS son las que se
detallan a continuación:
El sensor utiliza un explorador de barrido (whiskbroom) que permite obtener
un total de 614 pixels por cada oscilación.
La cobertura de la parte visible del espectro es realizada por un espectrómetro
EFOS- A, compuesto por un array de 32 detectores lineales.
La cobertura en el infrarrojo es realizada por los espectrómetros EFOS-B,
EFOS-C y EFOS-D, compuestos todos ellos por arrays de 64 detectores
lineales.
La señal medida por cada detector se amplifica y se codifica utilizando 12 bits.
Esta señal se almacena en una memoria intermedia donde es sometida a una
etapa de pre-procesado, siendo registrada a continuación en una cinta de alta
densidad de 10.4 Gb a velocidad de 20.4 Mb/s.
El sensor dispone de un sistema de calibración a bordo (on-board calibrator),
que utiliza una lámpara halógena de cuarzo que proporciona la radiación de
referencia necesaria para comprobar el estado de los diferentes espectrómetros.
A lo largo de los últimos años, el sensor ha ido mejorando notablemente sus
prestaciones en cuanto a la relación señal-ruido [13].
19
2.2.2.2. El sensor DAIS 7915 de DLR
El sensor DAIS 7915 (Digital Airborne Imaging Spectrometer) fue desarrollado por la
compañía Geophysical Environmental Research, GER [14] y, en la actualidad, su
mantenimiento y explotación es realizada por la Agencia Espacial Alemana, DLR.
Desde 1994 este sensor ha realizado numerosas campañas [15, 16]. El sensor DAIS
7915 se caracteriza por cubrir un amplio rango del espectro, mediante 79 bandas
espectrales entre 0.4 y 12.5 µm. No obstante, la separación de las bandas en este
intervalo no es regular. En concreto, el sensor está formado por un conjunto de cuatro
detectores con diferentes características [17], las cuales aparecen descritas en la tabla
2.1.
Detector
Rango espectral
úmero bandas
Separación entre bandas
1
0.5 - 1 µm
32
15-30 nm
2
1. - 1.8 µm
45
45 nm
3
2 - 2.5 µm
32
20 nm
3 - 5 µm
1
2 µm
8 - 12.5 µm
6
0.9 µm
4
Tabla 2. 1: Características de los detectores del sensor DAIS 7915.
Algunas características destacables del sensor DAIS 7915 son las que se enumeran a
continuación:
El sensor se encuentra montado sobre un avión Do228, operado por personal
de DLR.
Se trata de un sensor con mecanismo de adquisición de datos de tipo
whiskbroom que proporciona un total de 512 pixels por línea.
El sensor dispone de dos fuentes de calibración externa que permiten obtener
una elevada precisión a la hora de determinar el nivel promedio de energía de
los datos registrados.
La relación SNRλ es reducida para las longitudes de onda comprendidas entre
2 y 2.5 nm, debido a fuentes de ruido en el detector 3 [17].
20
2.3. Técnicas de análisis hiperespectral
El análisis hiperespectral se basa en la capacidad de los sensores hiperespectrales,
descritos anteriormente, para adquirir imágenes digitales en una gran cantidad de
canales espectrales muy cercanos entre sí, obteniendo, para cada pixel, una firma
espectral característica de cada material [4]. Este proceso facilita la identificación y
cuantificación de los materiales presentes en la escena [18, 19].
Sensor hiperespectral
Reflectancia
Imagen hiperespectral
0.4Longitud de onda (µm)2.5
Firma espectral
224
bandas
Pixel hiperespectral
Figura 2. 4: Procedimiento de análisis hiperespectral.
El resultado de la toma de datos por parte de un sensor hiperespectral sobre una
determinada escena puede ser representado en forma de cubo de datos, con dos
dimensiones para representar la ubicación espacial de un pixel, y una tercera dimensión
que representa la singularidad espectral de cada pixel en diferentes longitudes de onda.
La figura 2.4 ilustra el procedimiento de análisis hiperespectral mediante un sencillo
diagrama, en el que se ha considerado como ejemplo el sensor AVIRIS. Como puede
apreciarse, la capacidad de observación de este sensor es mucho más avanzada que la de
otros dispositivos, y permite la obtención de pixels formados por 224 valores
espectrales, a partir de los cuales puede obtenerse una firma espectral característica que
será utilizada en el proceso de análisis.
Ya sabemos que el potencial de estas imágenes es la gran cantidad de información y
que permite distinguir clases y objetivos de manera mas detallada. Pero esta gran
21
ventaja se convierte también en una desventaja cuando no se dispone de suficiente
capacidad computacional para tratar y almacenar estas cientos de bandas. Nos
enfrentamos entonces a los problemas de alta dimensionalidad de los datos, y de
redundancia. La alta dimensionalidad podemos apreciarla si nos hacemos una idea del
tamaño total de una imagen de este tipo, multiplicando el tamaño del pixel en bits, por
el tamaño de una imagen o banda individual, por el número de bandas totales. La
redundancia de la información, es decir, la repetición de muchos patrones espectrales,
puede llegar a ser bastante significativa, resultando en muchos casos un inconveniente
cuando se quieren utilizar métodos estadísticos de clasificación. De ahí, que las
aproximaciones o técnicas geométricas y no-paramétricas sean mas apropiadas en
muchos casos.
Por tanto, se hace necesario realizar un conjunto de actividades y técnicas de
procesamiento tanto hardware como software capaz de encargarse de la complejidad
intrínseca de los datos hiperespectrales de manera efectiva (gran dimensionalidad) [20].
A pesar de que la cadena de procesamiento de datos hiperespectrales no resulta un
procedimiento fácil de definir de manera consistente, en el marco del proyecto HYPERI-NET [1] se han introducido una serie de recomendaciones en cuanto a la definición de
una cadena de procesamiento adecuada para datos hiperespectrales [21], la cual viene
dada por dos partes claramente diferenciadas: la cadena desde el punto de vista del
proveedor (provider’s side), y la cadena desde el punto de vista del usuario (user’s
side). La primera parte de la cadena, lado del proveedor (recuadro azul en la figura 2.5)
es un proceso específico del sensor para proporcionar una imagen libre de ruido e
obstáculos atmosféricos y geométricos y dejar la imagen lista para su procesamiento e
identificación de objetivos. Está a su vez dividida en los siguientes pasos:
•
Calibración radiométrica, donde nuevos algoritmos necesitan ser
desarrollados como por ejemplo, para los sensores térmicos.
•
Corrección geométrica.
•
Corrección atmosférica.
Evaluación objetiva de la precisión del producto, donde se sufre la falta de
estándares para el formato de los datos y la descripción de los metadatos.
CALIBRACIÓN
RADIOMÉTRICA
TRANSFORMACIÓN DE LOS DATOS
Y
SELECCIÓN DE CARACTERÍSTICAS
CORRECCIÓN
GEOMÉTRICA
BÚSQUEDA ESPECTRAL
Y LIBRERIAS
CORRECCIÓN
ATMOSFÉRICA
CLASIFICACIÓN
EVALUACIÓN
DE LA PRECISIÓN
DETECCIÓN DE
CARACTERÍSTICAS
22
Figura 2. 5: Cadenas de procesamiento de datos hiperespectrales.
Una vez que los datos de interés han sido pre-procesados y corregidos, existe la
necesidad de extraer información relevante de los conjuntos de datos recogidos. La
segunda parte de la cadena de procesamiento de datos (lado usuario o recuadro rojo en
la figura 2.5) se repartirá además en 4 pasos más:
•
Transformación de datos, para reducir la dimensionalidad.
•
Spectral matching, que implica la creación de librerías centralizadas con
los datos de los múltiples materiales.
•
Clasificación.
•
Detección de características.
Sobre esta parte, es importante destacar que cualquier cadena de procesamiento de
datos en cualquier ámbito científico tiene que ser flexible y adecuarse no solo a su
aplicación sobre distintos escenarios, sino también a los distintos tipos de resolución
que proporcionan diversas variaciones espectrales y espaciales de los instrumentos.
En el presente proyecto trabajamos únicamente sobre este segundo aspecto relativo
al procesamiento. En el próximo apartado se explica en qué consiste el paso principal: la
23
clasificación de datos hiperespectrales, mientras que los métodos (cadenas de
procesamiento) utilizados a priori se describirán en detalle en el próximo capítulo.
2.4. Clasificación de datos hiperespectrales
La forma más simple de abordar el problema de la clasificación de pixels en una imagen
hiperespectral es considerar que los pixels de interés están compuestos por un solo
material, utilizando las técnicas convencionales de clasificación de patrones [22] pero
con mayor precisión, debido al elevado número de bandas espectrales disponibles.
En la práctica, el uso de sensores hiperespectrales permite una mejor determinación
de la composición interna de cada pixel, que raramente estará compuesto por un único
material, pues el fenómeno de la mezcla es muy habitual en el mundo real,
independientemente de cuál sea la escala espacial considerada [23].
Existe un conjunto de técnicas de clasificación de patrones que realizan la
interpretación de una escena obtenida de forma remota en base a la asignación de una
etiqueta o clasificación individual a cada uno de los pixels de la misma. Estas técnicas
ofrecen resultados interesantes en determinadas aplicaciones, particularmente en las que
se destacan a continuación.
• Clasificación temática. Las técnicas de clasificación han sido utilizadas de
forma satisfactoria en aplicaciones que tienen como objetivo la obtención de un
mapa temático en el que cada pixel de la imagen hiperespectral está
debidamente etiquetado como perteneciente a una clase concreta [24]. Puede
existir una clase adicional denominada "fondo" o "resto" que representa a los
pixels que no han sido clasificados en ninguna de las clases anteriores. El
resultado ideal se obtiene cuando todas las clases, incluyendo la clase "fondo",
son mutuamente excluyentes entre sí. La tarea clave en este tipo de
aplicaciones suele ser la determinación del número de clases y la
caracterización de las mismas en términos de datos de entrenamiento o
información de verdad-terreno.
• Detección de targets. Las técnicas de clasificación también han sido utilizadas
de forma muy extensa en aplicaciones de detección de objetivos o targets en
imágenes hiperespectrales [25]. En este tipo de aplicaciones, el objetivo
24
fundamental es la identificación de un material u objeto específico
(denominado target en la bibliografía) entre todos los pixels de la imagen.
Conceptualmente, los dos problemas mencionados pueden considerarse como un
problema de clasificación binario:
En la detección de targets, los pixels son clasificados en dos clases,
denominadas "objeto" y "fondo", dependiendo de si contienen o no el target
buscado.
En la clasificación temática, hay varias clases posibles asociadas a distintos
objetos. El objetivo es, en última instancia, determinar la existencia o no de
cada uno de los objetos considerados en cada pixel, situación que puede
expresarse como un problema de clasificación binario [26].
Imagen hiperespectral
X
Y
Radiancia
6000
Árbol
Suelo
Árbol
4000
2000
0
Banda Y (1050 nm)
Suelo
300
600
900
1200
1500
1800
2100
2400
Longitud de onda (nm)
Suelo
Árbol
Espacio de patrones
Banda X (600 nm)
Figura 2. 6: Ilustración gráfica del problema de clasificación en imágenes hiperespectrales.
El problema de clasificación binaria se puede formular matemáticamente del
siguiente modo. Sea R el espacio -dimensional formado por todos los pixels de la
imagen hiperespectral. Sea u = (u 1 , u 2 ,..., u N )T un vector -dimensional, asociado a un
pixel concreto. La clasificación binaria consiste en dividir el espacio R en dos regiones,
25
Ro y Rf, de forma que u es clasificado como "objeto" si u∈Ro y como "fondo" si u∈Rf.
Este problema puede ilustrarse de forma gráfica utilizando un diagrama de dispersión
entre dos bandas poco correlacionadas de la imagen hiperespectral, como se muestra en
la figura 2.6.
El diagrama mostrado en la figura 2.6 se denomina “diagrama de dispersión”. Como
puede apreciarse en la figura, la situación ideal en un problema de clasificación se
produce cuando la separación entre objeto y fondo está claramente definida en
agrupaciones o clusters claramente diferenciables.
Los algoritmos de clasificación de imágenes hiperespectrales pueden dividirse en
dos grandes categorías [24]: algoritmos supervisados y algoritmos no supervisados:
• Algoritmos no supervisados. Presuponen que no existe ningún tipo de
conocimiento a priori sobre las clases existentes. El objetivo de estas técnicas
es identificar, de forma automatizada, clases o agrupaciones de pixels,
utilizando para ello una métrica de similaridad.
• Algoritmos supervisados. Parten de un cierto conocimiento sobre las clases
existentes, a partir del cual pueden derivarse criterios de clasificación. Esta
aproximación suele venir dada por un paso previo en el que se seleccionan
firmas espectrales características de las clases existentes.
2.4.1. Algoritmos de clasificación no supervisados
Las técnicas de clasificación de pixels de forma no supervisada en imágenes
hiperespectrales se encuentran en plena fase de desarrollo [4]. Entre las técnicas
existentes, destaca el método K-Means [28], que supone la existencia de K clases
(parámetro que debe ser determinado a priori) y realiza una agrupación de los pixels de
la imagen en dichas clases utilizando los vectores métodos puramente estadísticos
basados en los espectros promedio de dichas clases.
Por otra parte, el método ISODATA [29] también requiere la inicialización de un
parámetro K relativo al número de clases deseadas, de forma previa a la ejecución del
algoritmo. Además, este método necesita información relativa al número mínimo de
firmas pertenecientes a una clase. Si el valor inicial de K es bajo, la dispersión entre
clases diferentes puede ser muy alta. Por el contrario, si el valor inicial de K es alto, la
distancia entre clases puede ser muy pequeña, provocando el particionamiento de una
26
misma clase en varias clases similares entre sí. En general, la literatura reciente
demuestra que los resultados obtenidos por estas dos técnicas no han sido demasiado
satisfactorios, salvo en aplicaciones muy concretas [30].
2.4.2. Algoritmos de clasificación supervisados
Dentro de las técnicas de clasificación supervisadas, destacamos los filtros de
similaridad (matched filters) y el método SAM (Spectral Angle Mapper), ambos
basados en estadísticas de primer orden [1]. Dentro de esta categoría también pueden
encontrarse otros clasificadores como las técnicas nearest neighbour (vecino mas
cercano), minimun distance (distancia mínima), parallelepiped o maximum likelihood
(ML, máxima probabilidad). En el presente trabajo, no obstante, nos centramos en la
técnica Support Vector Machine (SVM) la cual ha demostrado excelentes prestaciones a
la hora de trabajar con datos altamente dimensionales como los datos hiperespectrales.
Una vez presentadas las técnicas más habituales de clasificación de imágenes
hiperespectrales, concluimos el presente apartado destacando algunas técnicas utilizadas
para evaluar la actuación de dichos algoritmos.
2.4.3. Técnicas de evaluación de algoritmos de clasificación
La gran cantidad de técnicas existentes, así como la continua proliferación de nuevas
metodologías, hace patente la necesidad de esquemas comparativos o métricas que
permitan analizar de forma cualitativa el rendimiento de las nuevas metodologías
planteadas, contrastando sus resultados con los proporcionados por las ya existentes. La
mayor parte de las técnicas de evaluación de algoritmos de análisis de imágenes
digitales de teledetección se basan en el concepto de verdad terreno, ampliamente
utilizado en análisis de imágenes obtenidas de forma remota [31]. Podemos definir
idealmente el concepto de verdad terreno como el resultado de clasificación o
interpretación óptimo al que debe llegar un algoritmo [32][33].
La verdad terreno suele venir caracterizada por información relevante acerca de las
propiedades en el mundo real de un conjunto de objetos que se desean identificar o
caracterizar. Esta información suele obtenerse mediante mediciones realizadas
directamente en la zona de estudio cubierta por la imagen [34], aunque también es
posible obtener información de verdad terreno mediante la aplicación de técnicas
algorítmicas [5]. En todo caso, la primera alternativa es la más fiable, aunque puede
27
resultar costosa debido a la necesidad de organizar campañas con instrumentación de
medidas sobre el terreno [35].
Asumiendo la existencia de la información de verdad terreno, existen varias
metodologías que permiten comparar el resultado proporcionado por un algoritmo de
análisis de imágenes con dicha información. En este apartado se presenta una breve
descripción de las diferentes métricas que se pueden aplicar para evaluar la habilidad de
un algoritmo computacional en cuanto a la clasificación e identificación de objetos de
interés en una imagen digital obtenida de forma remota. En concreto, a continuación
destacamos una de las aproximaciones más ampliamente utilizadas y que servirá para el
posterior estudio comparativo de este trabajo, la matriz de confusión, a partir de la cual
se derivan otras métricas como el porcentaje de acierto en la clasificación.
La matriz de confusión [36] es una técnica que permite evaluar la precisión de
algoritmos de clasificación de imágenes digitales obtenidas de forma remota. Esta
técnica presupone que la información verdad terreno viene expresada en forma de un
mapa temático [37, 38], caracterizado por las siguientes propiedades:
2.-
Cada pixel se encuentra etiquetado como perteneciente a una determinada
clase, de forma que se tienen N clases o regiones de referencia {R i }i=1 .
N
3.-
Las regiones de referencia son mutuamente excluyentes entre sí, es decir, dos
regiones diferentes no tienen ningún pixel en común: R i ∩ R j = ∅, ∀i ≠ j .
Supongamos que cada píxel i de la imagen a evaluar, I, es asignado por el algoritmo
como perteneciente a una determinada clase Ci, de forma que se tienen N clases. Los
conjuntos Ci
determinan una partición de la imagen a evaluar, es decir, la unión de
todos ellos da como resultado la imagen y dos conjuntos distintos no tienen ningún
elemento en común:
N
U C i = I y C i ∩ C j = ∅, ∀i ≠ j
(2.1)
i =1
Teniendo en cuenta las anteriores consideraciones, la figura 2.7 muestra un ejemplo
del proceso de construcción de una matriz de confusión. En la figura, se muestra el
mapa temático de clasificación verdad terreno asociado a la imagen a clasificar, el
resultado de clasificación proporcionado por un determinado algoritmo para dicha
28
imagen, y la matriz de confusión que cuantifica la precisión del algoritmo en la tarea de
clasificación. Como puede apreciarse, las entradas de la matriz vienen expresadas en la
forma a jk , siendo a jk = cardinal{C j ∩ R k }, el número de pixels de la región resultante al
efectuar la intersección entre una clase C j obtenida por el algoritmo y una clase verdad
terreno R k [36].
Mapa temático
(verdad terreno)
Clasificación
(Algoritmo)
Lago (C0)
Lago (R0)
Carretera (R1)
Carretera (C1)
Árboles (R2)
Árboles (C2)
Suelo (R3)
Suelo (C3)
Matriz de confusión
R0
R1
R2
R3
C0
a00=|C0∩R0|
a01=|C0∩R1|
a02=|C0∩R2|
a03=|C0∩R3|
C1
a10=|C1∩R0|
a11=|C1∩R1|
a12=|C1∩R2|
a13=|C1∩R3|
C2
a20=|C2∩R0|
a21=|C2∩R1|
a22=|C2∩R2|
a23=|C2∩R3|
C3
a30=|C3∩R0|
a31=|C3∩R1|
a32=|C3∩R2|
a33=|C3∩R3|
Figura 2. 7: Ejemplo de construcción de una matriz de confusión.
A partir de la matriz de confusión pueden derivarse algunas medidas de precisión
genéricas [39] como:
• Porcentaje de acierto global: tanto por ciento de pixels clasificados de forma
correcta en todas las clases. Nos referiremos a él con las siglas: OA (del inglés:
Overall accuracy):
∑
OA =
∑
i
a ii
× 100
(2.2)
a
ij ij
• Porcentaje de acierto medio: tanto por ciento medio de precisión de
clasificación de clase para todas las clases (AA, average accuracy).
AA =
a ii
∑
aAi
j
× 100
(2.3)
29
Existen otras medidas (no consideradas en el presente estudio) como los errores de
comisión, los errores de omisión, o el coeficiente Kappa. Sobre OA y AA, se tratan de
porcentajes que deben acercarse al 100%, cifra que supondría la clasificación perfecta.
Cuando el conjunto de referencia no está bien definido, el OA no será representativo
con respecto a la verdadera actuación del clasificador. Por ejemplo, si una clase tiene
muy pocos píxels de referencia, su influencia sobre la computación del OA será muy
baja, mientras que el AA adquirirá más importancia, ya que es una media hecha con el
numero de clases no con el numero total de píxels. Si las diferencias producidas entre
estas dos medidas son altas, entonces, puede indicar que se ha realizado una mala
clasificación para una clase específica, la cual puede afectar a los resultados globales de
clasificación.
30
3. Técnicas de procesamiento
En apartados previos de la presente memoria hemos visto que una cadena de
procesamiento de datos hiperespectrales está formada por dos fases principales:
proveedor y usuario. Dado que el trabajo se centrará en la segunda parte,
consideraremos ésta como una cadena de procesamiento en general, sin tener en cuenta
las aplicaciones realizadas a priori, por tanto, partimos de la imagen ya corregida. El
lado de usuario puede ser dividido a su vez en diferentes etapas, dentro de las cuales es
posible elegir entre una gran cantidad de técnicas de procesado. Estos pasos de manera
general, aparecen reflejados en la figura 3.1:
Figura 3. 1: Etapas de la cadena de procesamiento de datos hiperespectrales.
Dentro del primer paso de la cadena de procesamiento, extracción de
características, existen varias metodologías aplicables que podemos dividir en 5
categorías:
•
Algoritmos de desmezclado y extracción de endmembers, de los cuales existen
investigaciones para el análisis de imágenes hiperespectrales. El desmezclado
hiperespectral es un problema de separación de fuentes (materiales de la escena)
que son dependientes estadísticamente hablando y deben combinarse en una
función no lineal. Existen diferentes estrategias (espectrales frente a técnicas
híbridas) que están siendo comparadas en busca de una solución eficiente
teniendo en cuenta la alta dimensionalidad de los datos.
•
Transformaciones espectrales, de los datos actuando sobre los vectores para
conseguir nuevos conjuntos o bandas componentes de la imagen. Estos nuevos
componentes representarán una descripción alternativa de los datos, en los
cuales un vector pixel esta relacionado con su anterior valor de brillo de la
imagen original mediante una transformación lineal de las bandas espectrales.
Estas técnicas buscan preservar la información esencial de la imagen original
31
reduciendo el número de dimensiones transformadas. Son usadas antes del
proceso de clasificación con el fin de aumentar la precisión. En lo que concierne
a la percepción remota hiperespectral la reducción de la información es muy
importante. Así, en literatura se han investigado varios métodos para solventar el
problema de la información repetitiva original y realizar una caracterización más
eficiente. Algunos como PCA o Análisis de Componentes Principales, Análisis
de componentes independientes, MNF (Minimum noise fraction) fracción
minima de ruido; son conocidas como ‘métodos de reducción’. PCA y MNF
serán vistas en detalle en apartados posteriores. Mientras que existen otras
llamadas ‘de transformación’ como DAFE (Discriminant Analisys Feature
Extraction) que es la mas conocida, pero que sin embargo tenía algunos
problemas. Por lo que mas tarde fue propuesta DBFE (Decision Boundary
Feature Extraction), basado en la idea de discriminar información redundante,
que a diferencia del anterior, no limitaba el número de características en función
del número de clases.
•
Contextos espaciales, donde se tiene en cuenta la vecindad o entorno espacial
del píxel considerado, ya que contienen mucha mas información que el propio
píxel. Más incluso, cuando hablamos de datos hiperespectrales, donde la gran
variabilidad debido la alta sensibilidad a cambios de las características
espectrales hacen del pixel único, poco fiable. Se presenta la necesidad de
definir el tamaño de ventana o de pixeles vecinos a tener en cuenta, importante
en la resolución espacial. Hablando de la escala, que podemos notar a nivel
global o local, se refiere a las relaciones espaciales, y muchos métodos han sido
propuestos en literatura para proporcionar una medida de tales relaciones entre
pixels vecinos: usando la matriz de co-ocurrencia, wavelets, filtros Gabor, y
semivariogramas. Las matrices de co-ocurrencia son utilizadas en este trabajo en
la parte de análisis de texturas, según las propiedades estadísticas de la vecindad
del pixel.
•
Análisis multiescala, debido a la falta de información de las diferentes escalas de
los objetos en la escena. El análisis de texturas, por ejemplo, en muchos casos
asume que la medida es única para toda la imagen en conjunto, lo que es
claramente falso en muchas situaciones prácticas. Para mejorar estos resultados,
el procesamiento espacial puede ser definido desde otro punto de vista, por
32
ejemplo, con métodos basados en morfología matemática. De hecho,
recientemente ha sido probado la eficiencia de éstos métodos analizando con
operadores morfológicos imágenes urbanas para su posterior clasificación [1]. El
uso de morfología matemática se explica con mas detalles en posteriores
apartados.
La siguiente etapa de la cadena se basa en la selección de características, también
importante a la hora de reducir la alta dimensionalidad de los datos. El hecho de elegir
un conjunto de características cuya dimensionalidad se la mas apropiada y razonable es
un tema muy discutido en literatura, por lo que se necesitan algoritmos eficientes y
rápidos que realicen el proceso de combinación de bandas o características para un
determinado problema. Se trata de un proceso complejo que no puede ser definido con
una única aproximación. Existen varias técnicas de índices estadísticos para selección
de características que se verán en detalle en el correspondiente apartado.
Finalmente, una vez que los datos han sido reducidos y/o transformados, y con
ciertos análisis realizados, se procede a la clasificación de los mismos. Como se
comentó en el capitulo anterior, la clasificación es en términos generales un
procedimiento en el cual los ítems o elementos individuales son diferenciados en grupos
basados en información cuantitativa de una o mas características inherentes a los
elementos. Normalmente mediante ítems etiquetados previamente con conjuntos o
patrones de entrenamiento. Finalmente, y con carácter opcional, los datos resultantes de
la clasificación pueden ser post-procesados (por ejemplo, utilizando técnicas
espaciales) para mejorar la coherencia de los mismos.
3.1. Métodos de pre-procesado
En este apartado describimos en mayor profundidad algunos de los métodos de preprocesado comentados con anterioridad, ya que dichos métodos serán utilizados en el
presente trabajo como bloques constituyentes de las cadenas de procesamiento
consideradas.
3.1.1. Técnicas de pre-procesado espectral
El hecho de utilizar técnicas de pre-procesado de imágenes hiperespectrales orientadas a
la reducción de la dimensionalidad de los datos de entrada viene propiciado, entre otros
33
motivos, por el conocido como fenómeno de Hughes [40], descrito a continuación. En
un problema de clasificación típico, el objetivo es asignar una etiqueta de clase a los
datos de entrada. El error mínimo esperado que se puede alcanzar al realizar la
clasificación es lo que se conoce como el error de Bayes [41]. El error de Bayes es una
función que decrece con la dimensionalidad de los datos. Una nueva característica
añade información sobre el ejemplo y entonces, uno esperaría que la clasificación fuese
tan buena como cuando esta información no se había introducido. Sin embargo, en la
práctica esto no es así, cuando se añade una nueva característica a los datos el error de
Bayes disminuye, pero al mismo tiempo las desviaciones del error de la clasificación
aumentan. Este incremento se debe al hecho de que se necesitan calcular más
parámetros partiendo del mismo número de ejemplos. Si el incremento de las
desviaciones en la clasificación del error es mayor que el decremento del error de
Bayes, entonces el uso de la característica adicional degrada la regla de decisión. Y este
fenómeno es lo que se conoce como el efecto Hughes [40]. Además, cuando la
dimensionalidad de los datos y la complejidad de la regla de decisión aumentan, el
efecto Hughes puede llegar a ser más grave [4].
En resumen, el rendimiento de un clasificador supervisado decrece con la
dimensionalidad de los datos a menos que el número de muestras sea infinito [40]. Esta
reducción dimensional que se plantea es un paso utilizado por con objeto de reducir la
carga computacional de pasos sucesivos mediante la eliminación de ruido e información
redundante en la imagen. Estos métodos realizan una disminución del número de
bandas, el objetivo es obtener una representación mínima de la imagen que contenga la
información indispensable para realizar el análisis sobre un sub-conjunto reducido de la
imagen original [42]. Por otra parte, las técnicas de reducción dimensional suelen traer
como consecuencia una mejora de la relación SNR en los datos a través de la
eliminación de ruido [43], lo cual hace atractiva su utilización de forma previa al paso
de clasificación. El inconveniente que presenta esta alternativa es la dificultad para
interpretar los datos espectrales tras la etapa de reducción.
Es importante distinguir las técnicas de reducción dimensional de las técnicas de
compresión de imágenes hiperespectrales [44]. Contrariamente al objetivo de los
métodos de compresión, el proceso de simplificación dimensional no permite, por regla
general, reconstruir la imagen original. Al contrario, el objetivo de la reducción
dimensional es obtener una representación mínima de la imagen que contenga la
34
información indispensable para realizar el análisis sobre un sub-conjunto reducido de la
imagen original. De este modo, los algoritmos de reducción dimensional suelen estar
diseñados de forma que minimizan los errores cometidos al trabajar con dicho subconjunto, despreocupándose de la posibilidad de recuperar la imagen original [45].
3.1.1.1 Análisis de componentes principales (PCA)
El método de análisis de componentes principales o Principal Component Analysis
(PCA) aprovecha la elevada correlación existente entre bandas consecutivas de una
imagen hiperespectral [46]. La transformación PCA permite obtener un conjunto
reducido de bandas (denominadas autovectores) poco correlacionadas entre sí,
(ortogonales, en el caso ideal) que contienen la mayor parte de la información presente
en la imagen original. Así, el primer autovector contiene el mayor porcentaje de la
varianza de la imagen original; el segundo contiene mayor porcentaje de varianza que el
tercero, y así sucesivamente.
Las últimas bandas de la descomposición suelen venir caracterizadas por un escaso
contenido en cuanto a información relevante, estando en su mayor parte compuestas por
el ruido presente en la imagen original). De esta forma, la transformación PCA permite
separar ruido de información útil [47]. Es importante destacar que el conjunto de bandas
resultante de la transformación PCA es obtenido a partir de combinaciones lineales de
las bandas originales de la imagen. El procedimiento utilizado se basa en la
identificación de un nuevo sistema de ejes ortogonales sobre el que se proyectan los
datos. Estos ejes tienen su origen en el vector promedio de los datos, y son rotados de
forma sucesiva con objeto de maximizar la varianza. Los ejes se identifican a partir de
la descomposición de la matriz de covarianza de la imagen, Γ, según la expresión que se
muestra a continuación:
Γ=
1 P
T
∑ (ui − µ )(ui − µ ) ,
P i =1
(3. 1)
donde los ui hacen referencia a pixels de la imagen, µ es el vector promedio de todos los
pixels y P es el número de pixels de la imagen. El resultado de proyectar los pixels de la
imagen hiperespectral sobre los nuevos ejes obtenidos es una nueva imagen
35
hiperespectral, formada por bi, i=1..N bandas (siendo N es el número de bandas de la
imagen original). Estas bandas, también denominadas componentes principales, pueden
obtenerse como proyecciones de un conjunto de autovectores que indican la
ponderación a aplicar a cada una de las bandas originales. Además, se obtiene un
conjunto de λi, i=1..N autovalores (escalares) asociados, cuya magnitud indica la
cantidad de información contenida en los datos del autovector correspondiente [48]. De
esta forma, la matriz de covarianza puede expresarse de la siguiente forma:
Γ = VΣV T ,
(3. 2)
donde V es la matriz unitaria de autovectores y Σ es la matriz diagonal de autovalores
de Γ. La transformación PCA aparece ilustrada de forma gráfica en la figura 3.2. Como
puede apreciarse en la figura, esta transformación permite obtener un nuevo sistema de
coordenadas sobre el que se proyectan los datos.
Banda Y
Componente 1
Componente 2
Banda X
Figura 3. 2: Ilustración gráfica de la transformación PCA
En la figura 3.3 se muestra un ejemplo de la aplicación de la transformación PCA a
una imagen hiperespectral real. La figura muestra las primeras 20 bandas obtenidas a
partir de la transformada PCA. Visualmente, puede comprobarse que la presencia de
ruido es mucho menor en las primeras bandas, aumentando de forma considerable en las
últimas.
36
Banda PCA 1
Banda PCA 2
Banda PCA 3
Banda PCA 4
Banda PCA 5
Banda PCA 6
Banda PCA 7
Banda PCA 8
Banda PCA 9
Banda PCA 10
Banda PCA 11
Banda PCA 12
Banda PCA 13
Banda PCA 14
Banda PCA 15
Banda PCA 16
Banda PCA 17
Banda PCA 18
Banda PCA 19
Banda PCA 20
Figura 3. 3: Ejemplo de aplicación de la transformada PCA sobre una imagen hiperespectral.
3.1.1.2 Fracción mínima de ruido (MF)
La transformación Minimum oise Fraction, MNF, es un método de reducción
dimensional de imágenes hiperespectrales que consiste en la realización de los pasos
que se describen a continuación [49].
1.-
En primer lugar, se aplica una transformación PCA sobre la imagen original, a
través de la cual se separa la señal del ruido, que queda aislado en las últimas
bandas.
2.-
A continuación, se estima la matriz de covarianza de la señal, ΓS, y la matriz de
covarianza del ruido, ΓR, utilizando la expresión 3.3.
3.-
Seguidamente, se obtiene un conjunto de componentes que contienen
información ponderada sobre la varianza presente en el conjunto de datos
original. Para ello, se utiliza un índice MNF que estima la proporción entre
señal y ruido presente en las componentes proporcionadas por la transformada
37
PCA. La componente que presenta la fracción mínima de ruido es aquella cuyo
autovector asociado, v, maximiza la siguiente expresión:
v T ΓS v
v T ΓR v
,
(3. 3)
La principal diferencia entre la transformación PCA y la transformación MNF es el
hecho de que, en el segundo caso, se realiza una descripción más detallada de la
relación existente entre la cantidad de señal presente en la imagen y la cantidad de ruido
[50]. De este modo, la primera banda resultante de la transformación MNF es la que
presenta mayor relación SNR. La segunda banda presenta mejor SNR que la tercera, y
así sucesivamente.
Banda MNF 1
Banda MNF 2
Banda MNF 3
Banda MNF 4
Banda MNF 5
Banda MNF 6
Banda MNF 7
Banda MNF 8
Banda MNF 9
Banda MNF 10
Banda MNF 11
Banda MNF 12
Banda MNF 13
Banda MNF 14
Banda MNF 15
Banda MNF 16
Banda MNF 17
Banda MNF 18
Banda MNF 19
Banda MNF 20
Figura 3. 4: Ejemplo de aplicación de la transformada MF sobre una imagen hiperespectral.
Como consecuencia de la estimación más precisa de las condiciones de ruido
presentes en la imagen, en determinadas aplicaciones la descomposición MNF puede
ofrecer resultados más robustos que la transformada PCA [51], pues es menos sensible a
38
outliers y pixels ruidosos. La transformación MNF realiza una traslación de los datos,
de forma que el origen de coordenadas es el centroide de la nube de puntos resultante.
En ocasiones, esta característica permite obtener una mejor descripción de los datos. A
título comparativo, la figura 3.4 muestra las primeras 20 bandas obtenidas a partir de la
aplicación de la transformada MNF sobre la imagen hiperespectral real anteriormente
utilizada.
3.1.1.3 Selección de características (FS)
La Selección de Características (FS, feature selection) tiene como fin elegir de entre el
conjunto de bandas espectrales iniciales de una imagen hiperespectral, aquellas que
permiten, dado un conjunto de patrones de entrenamiento, obtener mayor información
para realizar una clasificación más eficiente. Para tratar el problema de cómo elegir este
subconjunto d de características de un conjunto inicial de D medidas, con d<D, se han
estudiado diversos métodos en literatura. Existe documentación sobre un número de
métodos óptimos que han sido estudiados, pero la búsqueda exhaustiva es a menudo
cara desde el punto de vista computacional. No se encuentran técnicas apropiadas para
problemas con grandes dimensiones, y por esta razón los investigadores han centrado su
atención en métodos no tan buenos, como SBS (sequential backward selection o
selección secuencial hacia atrás) y su versión contraria llamada SFS (sequential foward
selection o selección secuencial hacia delante). Es importante el hecho de que ambos
sufren el llamado “efecto nesting”; de hecho, en el método SFS una vez una
característica ha sido descartada, no puede volver a ser seleccionada, mientras en el caso
del SBS la característica no puede ser descartada una vez seleccionada.
Para prevenir estos efectos Stearns [52] desarrolló la búsqueda Plus-l-Minus-r, y
Devijver y Kittler [53] propusieron la generalización de los algoritmos SBS, SFS y de
Plus-l-Minus-r, de tal forma que no existe un medio teórico para predecir los valores de
l y r
para conseguir el mejor conjunto de características. Además, un estudio
comparativos anteriores [54] sugieren que la manera mas efectiva en cuanto a métodos
no tan buenos se refiere, actualmente son los métodos de búsqueda secuencial flotante
(SFFS o SBFS) [55]. La búsqueda “floating” o flotante trata el “problema nesting” aun
mejor que Plus-l-Minus-r, ya que no se deben especificar unos parámetros, como l o r.
Estos métodos determinan el numero de foward (añadir) / backward (eliminar) pasos
dinámicamente durante la ejecución de los algoritmos con el fin de maximizar la
39
función criterio. Continuando con la evolución de estos algoritmos, los métodos de
búsqueda flotante (SFFS y SBFS) pasan a ser llamados “clásicos”, para ser utilizados
dentro de otro algoritmo mas eficiente de forma generalizada: AFS o selección flotante
adaptativa.
Por último, en la cima de eficiencia y evolución de los algoritmos de selección
encontramos ASFFS (búsqueda secuencial adaptativa flotante hacia delante) que será el
utilizado, y cuyo complejo funcionamiento, puede ser profundizado con la bibliografía
[56]. Sin embargo, encontrar la combinación de canales que permitirá una mejor
separación de las clases requiere un buen índice de separibilidad de clase.
Para encontrar la mejor combinación de bandas y/o características para un problema
determinado se necesitan algoritmos rápidos. La combinación de estas características es
compleja, y no se puede garantizar una solución óptima mediante una única
transformación de datos. Se han propuesto muchos índices estadísticos para selección
de características y deberían ser comparados, debido a los problemas en las diferentes
estadísticas de tanto características espectrales como espaciales. Ejemplos de tales
medidas de separabilidad son:
•
Índice de separabilidad de Distancia euclídea, donde el valor cuadrado se da
por la distancia de pitágoras entre las medias de las clases.
•
Índice de sep. de distancia de Mahalanobis, computada como el cuadrado de
la distancia entre dos clases expresadas en términos de varianzas.
•
La divergencia transformada, basada en conceptos similares a la anterior, pero
permite conseguir un rendimiento superior como medida de separabilidad.
•
El índice de separación de distancia de Jeffries-Matsushita (J-M), muy
similar a la anterior pero con problemas relacionados con el hecho de que tiende
a enfatizar demasiado los resultados para pequeñas separaciones inter-clases y al
contrario con las grandes separaciones.
•
La distancia Bhattacharyya, mas apropiada para problemas de separación
inter-clases que el índice de divergencia cuando la distribución de probabilidad
de las clases amplia; sin embargo, cuando las clases se encuentran bien definidas
ambos métodos producen resultados similares.
•
El índice de distancia de histograma, basado en la separabilidad de los
histogramas en vez de en las funciones de probabilidad y dirigido a dichos
histogramas cuantificando su solapamiento. Debe ser considerado como un
40
promedio estadístico del grado de separación entre cualquier par de clases del
conjunto de entrenamiento.
En los experimentos realizados se utilizó el índice de divergencia transformada,
debido a que tanto éste como el índice de J-M dieron buenos resultados en
investigaciones anteriores, según [56]. Este algoritmo implementado en un ejecutable
FeatureSelection.exe se eligió por tener un buen tiempo computacional. Sus índices
asumen valores entre 0 y 2. Donde un valor cercano a 0 indica correlación, mientras que
cercano a 2 indica máxima separabilidad.
3.1.2. Técnicas de pre-procesado espacial
Una de las técnicas más ampliamente utilizadas en el dominio espacial es el filtrado.
Esta técnica se basa en un procesamiento de grupo en el que el nivel digital (ND) para el
pixel de la imagen resultante depende del ND del pixel correspondiente en la imagen
original y de los ND’s de los pixels que lo rodean (es decir, se trata de una operación
sensible al contexto).
Matemáticamente, un operador de filtrado se puede representar como un operador Ψ
que, aplicado a la imagen de entrada, I, da lugar a una función de salida O=Ψ(I) [57].
De forma conceptual, podemos distinguir entre dos tipos de filtros espaciales: lineales y
no lineales.
Los filtros lineales se utilizan de forma habitual debido a su simplicidad [58].
Cuando el filtrado es lineal e invariante frente a desplazamientos espaciales, el operador
Ψ se corresponde con la operación de convolución espacial.
La figura 3.5 muestra un ejemplo que ilustra una operación de convolución sobre
una imagen I. Puede apreciarse cómo el ND del pixel I(x, y) en la imagen original y los
de sus 8 vecinos se multiplican por los correspondientes coeficientes de convolución
definidos en una ventana cuadrada que rodea al pixel. Este tipo de ventanas son
características de las técnicas de procesamiento espacial, y aparecen normalmente
denominadas como kernels en la literatura [59]. Posteriormente, los resultados
obtenidos se suman y el resultado promediado define el valor del pixel O(x, y) en la
imagen resultante. El proceso se realiza para cada pixel en la imagen original. El
conjunto de coeficientes en la figura 3.5 se conoce como kernel de convolución, de
forma que dichos coeficientes define los diferentes tipos de filtros espaciales lineales
41
existentes en la literatura, tales como filtros pasa-alta, filtros pasa-baja, filtros de
gradiente, filtros de detección de borde, etc. [60].
a = K(-1,-1)
Kernel de b = K(0,-1)
convolución c = K(1,-1)
a b c
K d e f
g h i
Operación de convolución
a I(x − 1, y − 1) + b I(x , y − 1) + c I(x + 1, y − 1) + 
1

d I(x − 1, y ) + e I(x , y ) + f I(x + 1, y ) +

9
 g I(x − 1, y + 1) + h I(x , y + 1) + i I(x + 1, y + 1) 
d = K(-1,0)
e = K(0,0)
f = K(1,0)
g = K(-1,1)
h = K(0,1)
i = K(1,1)
I
O
I(x,y)
O(x,y)
Imagen original
Imagen resultante
Figura 3. 5: Operación de convolución sobre una imagen digital
Si suponemos que K denota un kernel de convolución cuadrado de n pixels de alto
por n pixels de ancho, podemos formalizar la operación de convolución espacial antes
ilustrada mediante la siguiente expresión:
O( x , y ) =
[n / 2 ]
∑ I( x + i, y + j) ⋅ K (i, j) ,
n i = −[n / 2 ] j= −[n / 2 ]
1
2
[n / 2 ]
∑
(3. 4)
A la hora de seleccionar un determinado tamaño de kernel, es preciso analizar en
detalle las características espaciales concretas de las formas y objetos de la imagen que
se desean caracterizar. Si no se dispone de información previa sobre los rasgos de
interés en la imagen, o bien si las características espaciales de los objetos de interés son
variables, la utilización de un único tamaño de kernel puede no resultar suficiente para
caracterizar la totalidad de los objetos presentes en la imagen.
Una de las técnicas más utilizadas para solventar las limitaciones anteriormente
descritas consiste en utilizar un conjunto de kernels de tamaño variable. En la literatura,
esta opción aparece englobada dentro del conjunto de técnicas denominadas
42
descomposición multi-escala de una imagen. Conviene destacar que existen múltiples
formas de realizar descomposiciones de este tipo, aunque, ciertamente, el uso de kernels
de tamaño variable es una de las más populares.
Además de las técnicas de filtrado lineal comentadas anteriormente, existen otras
cuyo principio de funcionamiento sigue un comportamiento no lineal. Entre estas
técnicas destacan las operaciones de morfología matemática [61], que presentan algunas
características en común con la operación de convolución, como el uso de kernels.
3.1.2.1 Morfología matemática
La matemática morfológica es una teoría para el análisis de estructuras espaciales dentro
de una imagen. Su lenguaje es el de la teoría de conjuntos, de forma que los conjuntos
en matemática morfológica representan formas, tanto en imágenes binarias como en
imágenes en niveles de gris [62]. En morfología binaria, las imágenes se representan
según la teoría de conjuntos [61]. Si dividimos los pixels de una imagen binaria I en dos
conjuntos: objetos y fondo, los pixels pertenecientes a los objetos formarán parte de un
conjunto que denominamos X, mientras que los pixels pertenecientes al fondo
pertenecen al conjunto complementario XC.
Las dos operaciones básicas de la morfología binaria son la erosión y la dilatación
[61]. Estas operaciones se basan en la transformación de los objetos de la imagen por
medio de un nuevo conjunto K, conocido como elemento estructural, que realiza una
función similar a la del kernel utilizado en la operación de convolución espacial. Así, la
forma y tamaño del elemento estructural van a determinar las características espaciales
de la imagen resultante de la transformación. De este modo, podemos definir la
operación de dilatación de un objeto X utilizando un elemento estructural K mediante la
siguiente expresión:
X ⊕ K = {a ∈ I : K a ∩ X ≠ ∅} ,
(3. 5)
Donde Ka es el kernel o elemento estructural que rodea al pixel a de la imagen. Es
decir, el resultado de la dilatación de un determinado objeto es una nueva forma,
definida por los elementos estructurales que rodean a cada pixel del objeto, tales que su
intersección con el objeto inicial es distinta del conjunto vacío. Por su parte, la erosión
de un objeto X utilizando un elemento estructural K puede denotarse como:
X ⊗ K = {a ∈ I : K a ⊆ X} ,
43
(3. 6)
De este modo, el resultado de la erosión de un objeto es una nueva forma, definida
por los elementos estructurales que rodean a cada pixel del objeto, tales que pueden
incluirse de forma completa en el objeto inicial. Conviene destacar que las operaciones
de erosión y dilatación son duales y complementarias entre sí. El resultado de la
dilatación es el ensanchamiento espacial del objeto según las propiedades espaciales
(forma y tamaño) del elemento estructural. Por el contrario, la erosión consiste en una
operación de contracción (shrinking) del objeto dependiendo de la morfología del
elemento estructural utilizado. En la práctica, los elementos estructurales más utilizados
debido a su simetría y sencillez son, precisamente, estas formas cuadradas.
Además de la erosión y la dilatación, la morfología matemática dispone de otras
operaciones más complejas [62]. Así, la apertura morfológica de un objeto X respecto
de un elemento estructural K puede definirse de la siguiente forma:
X K = (X ⊗ K ) ⊕ K ,
(3. 7)
De forma similar, definimos la clausura morfológica de un objeto X utilizando un
elemento estructural K como:
X K = (X ⊕ K ) ⊗ K ,
(3. 8)
Como puede apreciarse en las expresiones (3.7) y (3.8), la apertura consiste en una
operación de erosión seguida de una dilatación. Por su parte, la clausura se obtiene
mediante la realización de una dilatación seguida de una erosión. En ambos casos, se
recomienda utilizar el mismo elemento estructural en las dos operaciones con el
objetivo de no alterar en gran medida el tamaño y forma del objeto original.
Los conceptos de la morfología binaria han sido extendidos al caso de imágenes en
niveles de gris o ND’s [63]. La idea fundamental de estas operaciones puede expresarse
considerando la imagen en ND’s como una función f(x,y), en la que el valor en las
coordenadas (x,y) viene dado por el ND en dicho punto. Esta función puede ser también
entendida como un relieve sobre el que se desliza un elemento estructural K.
44
En la figura 3.6 se muestra el efecto obtenido al deslizar un elemento estructural
sencillo sobre una sección unidimensional del relieve. Si el elemento estructural se
desliza por la parte exterior de la función tenemos el caso de la dilatación, mientras que
si se desliza por la parte interior de la función tenemos el caso de la erosión. La figura
3.6 pone de manifiesto que la variación del tamaño y forma del elemento estructural en
operaciones morfológicas es crítica: así, la utilización de un elemento estructural
pequeño permite conservar de forma muy aproximada el aspecto de los rasgos de la
imagen original, mientras que la utilización de un elemento estructural grande tiende a
eliminar los rasgos de la imagen original más pequeños que el elemento estructural. La
alteración del tamaño del elemento estructural permite por tanto conservar o eliminar
determinadas frecuencias espaciales en la imagen.
(f ⊕ K )( x ) = Max {f ( x − s) + k(s)}
s∈K
Dilataciones
max
k(s)
f(x-1)
min
f(x)
f(x+1)
Erosiones
(f ⊗ K )( x ) = Min {f ( x + s) − k(s)}
s∈K
Figura 3. 6: Interpretación gráfica de las operaciones morfológicas de erosión y dilatación en
niveles digitales.
Una vez introducidos estos conceptos previos, procedemos a definir las operaciones
básicas de la morfología matemática en ND’s. La dilatación de una imagen f(x, y)
utilizando un elemento estructural K se define de la siguiente forma:
(f ⊕ K )( x , y) = Max {f ( x − s, y − t) + k(s, t)} ,
45
(3. 9)
(s, t ) ∈ K
Por otra parte, la erosión de f(x, y) utilizando K se define como:
(f ⊗ K )( x , y) = Min {f ( x + s, y + t) − k(s, t)} ,
(3. 10)
(s, t ) ∈ K
De forma similar a las operaciones en morfología binaria, la apertura y la clausura de
f(x, y) mediante K se definen, respectivamente, de la siguiente forma:
f K ( x , y) = ((f ⊗ K ) ⊕ K )( x , y)
(3. 11)
f K ( x , y) = ((f ⊕ K ) ⊗ K )( x , y)
(3. 12)
Como puede deducirse a partir de las expresiones (3.9) y (3.10), las operaciones de
dilatación y erosión en ND’s son semejantes a la operación de convolución, descrita en
la expresión (3.2.4). En concreto, las diferencias entre las operaciones de dilatación y
erosión sobre imágenes en niveles de grises y la expresión de convolución son las
siguientes:
El producto entre los pixels de la imagen y los pixels del kernel es reemplazado
por una operación de resta en el caso de la dilatación y una operación de suma
en el caso de la erosión.
El doble sumatorio es reemplazado por el cálculo del elemento máximo en el
caso de la dilatación y del mínimo en la operación de erosión.
Finalmente, el kernel de convolución suele recibir el nombre de elemento
estructural en las operaciones morfológicas.
Por razones ilustrativas, la figura 3.7 muestra un sencillo ejemplo de aplicación de
las operaciones de erosión y dilatación descritas a una imagen en ND’s muy simple. En
el ejemplo, se utiliza un elemento estructural plano, de forma cuadrada y dimensiones
3x3 pixels.
46
Imagen original
P
Max
Dilatación
Elemento estructural
de tamaño 3x3
alrededor del pixel P
Min
Erosión
Figura 3. 7: Ejemplo de aplicación de las operaciones de erosión y dilatación a una imagen en D’s.
Como puede apreciarse en la figura 3.7, la operación de erosión consiste en
seleccionar el pixel con ND mínimo en una vecindad alrededor del pixel considerado en
un momento dado en la imagen original. Este pixel se coloca en una posición
equivalente a la del pixel considerado en la imagen original, pero en una imagen nueva
que denominamos imagen erosionada. De forma similar, la operación de dilatación
selecciona el pixel con ND máximo en la vecindad que rodea al pixel considerado en la
imagen original. Este pixel se coloca en la misma posición que el original en una nueva
imagen, denominada imagen dilatada. El efecto de la erosión es reducir las zonas más
claras de la imagen, permitiendo el crecimiento de las zonas más oscuras, caracterizadas
por un ND bajo. El efecto de la operación de dilatación es el contrario; en este caso, las
zonas con ND alto se ensanchan, mientras que las zonas oscuras se encogen.
3.1.2.2 Análisis de texturas
Las texturas pueden jugar un papel importante en el proceso de clasificación o
segmentación de terrenos. Podemos definir las cualidades de textura como la variación
de intensidad en una imagen debido a variaciones físicas como por ejemplo las ondas
procedidas por el agua, o las superficies urbanas, y que ocupan regiones homogéneas en
las imágenes [64]. Modelar este tipo de variaciones no resulta sencillo a nivel
47
computacional y aquí es cuando entra en juego en análisis de las texturas. Sin embargo,
se pueden extraer unas características generales [65]:
•
La textura es una propiedad de un área (región), no de un punto (píxel). Así que
esta propiedad es de tipo contextual y su definición conlleva tener en cuenta los
valores de gris de un entorno espacial.
•
Con la textura se tiene en cuenta los niveles de gris de la distribución espacial.
De manera que histogramas de dos dimensiones o matrices de co-ocurrencia son
herramientas razonables para su realización
•
La textura de una imagen puede ser percibida desde diferentes escalas o niveles
de resolución.
•
Se percibe que una región tiene textura cuando el número de objetos primitivos
identificables es grande, es decir, si se perciben solo unos pocos entonces se
puede considerar que se tratan de objetos contables en vez de una textura. En
una textura las formas individuales no están presentes.
Los filtros de textura dependerán de la configuración local del píxel considerado,
procesando para ello 4 direcciones (0o ,45o, 90o y 135o) mediante valores estadísticos o
de co-ocurrencia [64]. Se tiene en cuenta entonces el tono de gris de los vecinos o su
distribución estadística. Estos valores son calculados con esos pixels situados en un
bloque o ventana determinados localizados alrededor del principal. Por tanto, el tamaño
de este bloque es un valor importante a tener en cuenta como hemos visto en las
características anteriores. Estos aspectos aparecen ilustrados gráficamente mediante un
ejemplo en la figura 3.8.
Figura 3. 8: Ventana general de 3x3 para análisis de texturas
48
La textura de una imagen tiene un número de cualidades (sobre todo de tonalidad
y espacialidad) a percibir que juega un importante rol a la hora de describirla. Las reglas
que identifican estas propiedades son muy importantes para describir las regiones
homogéneas: la uniformidad, la densidad, la direccionalidad, linealidad, rugosidad,
dirección, frecuencia, fase, etc. Muchas de estas propiedades no son independientes. El
hecho de que la percepción de las texturas tenga tantas dimensiones distintas es una
importante razón que explica por qué no existe un único método de representación de
textura, el cual debe adaptarse a una gran variedad de éstas.
En el presente proyecto se extraen 18 tipos distintos de características texturales.
Estas características contienen información sobre las propiedades que se extienden a
homogeneidad, dependencias de tonos de grises con estructuras lineales, contraste,
número y naturaleza de las fronteras o limites presentes, y complejidad de la imagen. Es
importante notar que el número de operaciones a tener en cuenta para procesar cada una
de estas características es proporcional al número de celdas de resolución en los bloques
de la imagen. A continuación se exponen las formulas de las 18 diferentes medidas
matemáticas [64] aplicables a los bloques de la imagen para obtener distintos tipos de
texturas (nombre correspondiente en inglés y fórmula) considerando el píxel formado
por las coordenadas x e y:
Mean :
f1[ x, y ] = ∑i =0
g
∑
g
ip[i, j ]
(3. 13)
(i − f1[ x, y ]) p[i, j ]
(3. 14)
j =0
Variance :
f 2 [ x, y ] = ∑i =0
∑
g
f 3 [ x, y ] = ∑i =0
∑
1
p[i, j ]
j =0
1 + (i − j )
f 4 [ x, y ] = ∑i =0
∑
g
j =0
Homogeneity:
g
g
(3. 15)
Contrast:
g
Dissimilarity:
g
j =0
(i − j ) 2 p 2 [i, j ]
(3. 16)
49
f 5 [ x, y ] = ∑i =0
∑
g
f 6 [ x, y ] = ∑i =0
∑
g
f 7 [ x, y ] = ∑i =0
∑
g
g
j =0
(i − j ) p[i, j ]
(3. 17)
p[i, j ] log( p[i, j ])
(3. 18)
( p[i, j ]) 2
(3. 19)
Entropy:
g
j =0
Second moment:
g
j =0
Correlation:
∑ ∑
f [ x, y ] =
g
g
i =0
j =0
(i, j ) p[i, j ] − ( f1[ x, y ]) 2
8
f 2 [ x, y ]
(3. 20)
Sum Average:
f 9 [ x, y ] = ∑i =2 ip x + y (i )
2 g
(3. 21)
Sum variance:
f10 [ x, y ] = ∑i =2 (i − f11 ) 2 p x + y (i )
(3. 22)
f11[ x, y ] = ∑i =2 p x + y (i ) log( p x + y (i ))
(3. 23)
2 g
Sum Entropy:
2 g
Difference variance:
f12 = VARIAZA( p x − y ))
(3. 24)
Difference entropy:
g −1
f13 = − ∑i =0 p x − y (i ) log( p x − y (i )))
(3. 25)
Correlation Measure 1:
f15 = (1 − exp[−2.0( HXY 2 − HXY )]) 2
(3. 26)
Correlation Measure 2:
f14 =
HXY − HXY1
MAXIMO( HX , HY )
50
(3. 27)
Data Range:
f16 = MAXIMO − MIIMO
(3. 28)
Skewness:
1
g
g  ( p[i , j ] − f1 ) 


f17 =
∑
i =1 ∑ j =1 

g
f2


3
(3. 29)
Kurtosis:
4
1
f18 =
g
 ( p[i, j ] − f 1 ) 
 −3
∑i=1 ∑ j =1 

f2


g
g
(3. 30)
Conviene destacar que, en las anteriores definiciones, p[i, j ], la entrada i, j, es una
matriz normalizada de dependencia espacial y tonos de gris. Por su parte, p x (i ), es la iésima entrada en la matriz de probabilidad obtenida sumando las filas de p[i, j ] . Por su
parte, Ng, es el número de distintos niveles de gris en la imagen. Finalmente, tenemos:
g
-
p x+ y (k ) = ∑
i =1
g
-
p x − y (k ) = ∑
i =1
g
-
HXY = −∑
i =1
g
∑ p[i, j]
i + j = k,
k = 2,3,...,2 g
(3. 31)
i − j = k,
k = 0,1,..., g − 1
(3. 32)
j =1
g
∑ p[i, j]
j =1
g
∑ p[i, j ] log( p[i, j])
(3. 33)
j =1
-
Siendo HX y HY la entropía de px y py, las cuales pueden definirse como se indica a
continuación [1]:
51
-
HXY 1 = −∑i =1 ∑ j =1 p[i, j ] log( p x (i ) p y ( j ))
(3. 34)
-
HXY 2 = −∑i =1 ∑ j =1 p x (i ) p y ( j ) log( p x (i ) p y ( j ))
(3. 35)
g
g
g
g
3.2. Métodos de clasificación
El objetivo de un clasificador supervisado es usar un conjunto de observaciones
llamadas conjunto de entrenamiento para encontrar una función de decisión. Esta
función clasifica todo nuevo objeto en una clase pre-definida. Esto se consigue
mediante un aprendizaje a medida que se van clasificando los objetos de entrenamiento.
Con los recientes avances tecnológicos en teledetección, y la gran cantidad de datos
hiperespectrales, se disponen de los medios necesarios para realizar una eficiente
clasificación para discriminar las clases según la resolución espectral para cada pixel de
una imagen recogida. Sin embargo, el gran número de bandas es la característica que
produce mayor complejidad en las técnicas de análisis.
En este sentido, métodos de clasificación convencionales como el algoritmo ML
pueden ser aplicados a datos hiperespectrales pero necesitan un procesamiento
complejo, debido a la alta dimensionalidad. La dificultad que posee muchos métodos
basados en aproximaciones estadísticas convencionales es que emplean una matriz de
covarianza especifica de cada clase [66]. Otra desventaja de éste tipo funciones con las
matrices de covarianza es que las clasificaciones realizadas con un número pequeño o
limitado de conjuntos de entrenamiento cuando trabajamos con datos de tan alta
dimensionalidad es que dan lugar a procesos de generalización (clasificación) pobres
[40].
3.2.1. El clasificador Support Vector Machine (SVM)
A comienzos del siglo XXI se comprobó la gran eficacia de los métodos basados en la
teoría del aprendizaje estadístico al trabajar con ambos problemas: alta dimensionalidad
y escaso conjunto de entrenamiento. El entrenamiento de los clasificadores, tanto
estadísticos como de redes neuronales hacen uso del principio de Minimización de la
Riqueza Empírica (Empirical Risk Minimization, ERM), que consiste en permitir la
minimización de la tasa de error para un conjunto de entrenamiento dado. El problema
52
viene cuando hay que extender o generalizar esa clasificación al resto de objetos,
entonces no se consigue una buena actuación, es decir, el resultado es una tasa de error
mas alta que para el conjunto de entrenamiento.
La máquina de vectores de soporte (Support vector machines) o SVM, es un
método supervisado de reconocimiento de patrones introducido recientemente en el
marco de la Teoría del Aprendizaje estadístico de Vladimir Vapnik y su equipo en los
laboratorios AT&T [67]. Combina tres ideas: la técnica de búsqueda de hiperplanos
óptimos como solución, la idea de convolución de producto escalar, la extensión de las
funciones lineares a no lineares, la noción de margen ligero o soft margin, para permitir
errores en los patrones de entrenamiento. Una ventaja importante es que trabaja con el
principio de Minimización de la Riqueza Estructural (Structural Risk Minimization) o
SRM, mejor que ERM como hacen otros muchas técnicas. SVM permite entonces una
mejor generalización, antes que una mejor clasificación del conjunto de entrenamiento
(a nivel de errores).
Existen otras dos razones más que han hecho crecer el interés por este novedoso
clasificador. SVM puede ser reducido a un problema de programación cuadrática
convexa (convex quadratic programming o QP), más fácil de resolver con respecto a los
métodos clásicos y que parecen tener un mejor comportamiento (más robustos) con
altas cantidades de datos. Hasta ahora, SVM ha sido utilizado en muchos campos, tales
como: Categorización de textos, reconocimiento de textos escritos a mano, clasificación
de imágenes, bioinformática, y por supuesto en percepción remota, donde parece haber
tenido un mayor rendimiento respecto a las clásicas técnicas utilizadas [68]. A
continuación se presentan los fundamentos teóricos del clasificador SVM.
Este clasificador pertenece a la familia de los clasificadores lineales puesto que
inducen separadores lineales o hiperplanos en espacios de características de muy alta
dimensionalidad, a pesar de que se pueden adaptar de forma sencilla para actuar como
clasificadores no lineales mediante la aplicación de una función o kernel no lineal sobre
los datos de entrada. Su principal objetivo es obtener una superficie (o hiperplano)
capaz de separar las diferentes clases en las que se puede agrupar una distribución de
datos en un espacio N-dimensional, utilizando para ello un proceso de optimización
basado en la obtención de vectores que definen los límites de las clases. Estos vectores
se denominan normalmente vectores soporte o support vectors [69]. Si vemos los datos
de entrada como dos conjuntos de vectores en un espacio N-dimensional, el objetivo del
53
algoritmo SVM simplemente es construir un hiperplano de separación en ese espacio, el
cual maximice el margen de distancia a los dos conjuntos de datos [70].
Figura 3. 9: Esquema de funcionamiento del clasificador SVM
En la figura 3.9 podemos apreciar como calcular este hiperplano de separación,
construyendo otros dos hiperplanos paralelos, uno a cada lado del primero. Los dos
hiperplanos paralelos son empujados o ensanchados, para aproximarse lo más posible a
los conjuntos de datos. Intuitivamente, se alcanza una buena separación cuando el
hiperplano de separación se encuentra a la mayor distancia de ambas clases [69]. Cuanto
mayor sea la distancia menor será en general el error del clasificador. En términos
matemáticos, dado un conjunto de entrenamiento de la ecuación (3.36):
{
}
D = ( xi , c i ) | xi ∈ R p , c i ∈ {− 1,1} i = n
n
(3. 36)
Donde ci es 1 ó −1, indicando la clase a la que el xi pertenece. Cada xi es un vector
real p-dimensional, queremos obtener un hiperplano de distancia máxima a los
conjuntos de entrenamiento y que los divida aquellos pertenecientes a ci = 1 de
aquellos que tengan el valor ci = −1 . Cualquier hiperplano puede ser escrito como un
conjunto de puntos x que satisfaga la ecuación (3.37):
w⋅ x −b = 0
El vector w es un vector normal perpendicular al hiperplano. El parámetro
54
(3. 37)
b
w
determina el desplazamiento del hiperplano sobre el origen. Nosotros queremos elegir
la w y la b que maximicen la distancia entre los dos hiperplanos paralelos, que
estarán tan apartados como sea posible en función de los datos. Estos hiperplanos
pueden ser descritos con las fórmulas descritas a continuación:
w⋅ x −b =1
(3. 38)
y, w ⋅ x
(3. 39)
− b = −1
Nótese que si el conjunto de entrenamiento es linealmente separable podemos elegir
dos hiperplanos en el borde de los conjuntos de modo que no hay puntos entre ellos y
entonces intentar maximizar su distancia. Usando la geometría, podemos encontrar que
la distancia entre ellos es
2
, por lo que se pretende minimizar w . Como tenemos que
w
evitar que los puntos se sitúen en la zona límite, añadimos la restricción de la ecuación
(3.40) a los xi pertenecientes a la primera clase y la restricción de la ecuación (3.41) a
los xi de la segunda:
w ⋅ xi − b ≥ 1
(3. 40)
w ⋅ x i − b ≤ −1
(3. 41)
Esto puede ser escrito como:
ci ( w ⋅ xi − b) ≥ 1 , para todo 1 ≤ i ≤ n
(3. 42)
Podemos compactar la expresión para llegar al problema de optimización: Elegir w , b
para minimizar w :
Sujeto a
ci ( w ⋅ xi − b) ≥ 1 , para todo 1 ≤ i ≤ n
(3. 43)
El problema de optimización presentado anteriormente es difícil debido a que solo
depende de un valor |w|. La razón es que es un problema de optimización no convexo, el
55
cual se sabe que es mucho más difícil de resolver que el problema de optimización
convexo. Afortunadamente es posible sustituir w por
1
2
w sin cambiar la solución.
2
Esto es un problema de optimización de programación cuadrática. Más claramente, el
problema de optimización puede reformularse de la siguiente forma:
minimizar
1
2
w , Sujeto a ci ( w ⋅ xi − b) ≥ 1 , para todo 1 ≤ i ≤ n
2
(3. 44)
El factor 1/2 se usa como una conveniencia matemática. Ahora el problema que se
nos presenta se puede resolver mediante programas y técnicas de programación
cuadrática estándar. Escribiendo la regla de clasificación en su forma dual extendida
revela que la distancia máxima al hiperplano, y por tanto la tarea de clasificación, es
solo una función de los vectores soporte, es decir, los datos que están en el límite. La
segunda forma de SVM se puede derivar como la siguiente expresión:
n
max ∑ α i −
i =1
1
α iα j ci c j xiT x j
∑
2 i, j
Sujeto a α i ≥ 0 , y
n
∑ αc
i i
=0
(3. 45)
(3. 46)
i =1
Donde los términos α constituyen otra representación del vector de pesos en
términos del conjunto de entrenamiento:
w = ∑ α i ci x i
(3. 47)
i
El algoritmo original especifica un clasificador lineal, sin embargo, puede
modificarse para resolver problemas de clasificación no lineal reemplazando el producto
escalar por una función kernel no lineal. Esto permite al algoritmo fijar la máxima
distancia al hiperplano en un espacio de características transformado. La transformación
podría ser no lineal y el espacio transformado de alta dimensionalidad; de este modo
aunque el clasificador es un hiperplano en un espacio de características de alta
dimensionalidad podría no ser lineal en el espacio de entrada original [71]. Si el kernel
utilizado es de tipo Gaussian radial basis function, el espacio de características
56
correspondiente es un espacio de Hilbert de dimensión infinita. La máxima distancia
esta regulada, por lo que la dimensión infinita no estropeará los resultados [72].
Algunos de los kernels habitualmente utilizados en clasificadores de tipo SVM se
enumeran a continuación:
k ( x, x ' ) = ( x ⋅ x ' ) d
•
Polynomial (homogéneo):
•
Polynomial (heterogéneo): k ( x, x' ) = ( x ⋅ x'+1) d
•
Radial Basis Function:
•
 x − x'
Gaussian Radial basis function: k ( x, x' ) = exp
 2σ 2

•
Sigmoide:
(3. 48)
(3. 49)
2
k ( x, x' ) = exp( −γ x − x' ) , para γ > 0
2




k ( x, x' ) = tan( kx ⋅ x'+ c) , para algunos k > 0 y c < 0
(3. 50)
(3. 51)
(3. 52)
En la literatura, podemos encontrar también ejemplos de kernels basados en
métricas espectrales comúnmente utilizadas en análisis hiperespectral [73]. Como se
dijo al inicio, el procesamiento empleado por las SVM no requiere de un gran número
de patrones de entrenamiento, siempre y cuando los patrones escogidos sean realmente
representativos [74].
3.3. Métodos de post-procesado
Además de las etapas de pre-procesado y clasificación disponibles en cadenas clásicas
de procesamiento de datos hiperespectrales, en el presente trabajo se ha empleado
también una técnica de post-procesado utilizado en proyectos anteriores [75]. Se trata de
un algoritmo llamado ARTMAP 3.01 que se basa en el algoritmo de clasificación Fuzzy
Artmap. La fase de post-procesado constituye el último bloque o paso considerado en la
cadena de procesamiento de los datos hiperespectrales, que servirá de algún modo para
unificar las clases predominantes en una determinada zona o región de la imagen,
produciendo un mapa temático mas claramente diferenciado. La lógica que emplea este
programa es bastante simple: para cada pixel de la imagen clasificada, se crea una
ventana considerando los pixels vecinos (Figura 3.10). A continuación se construye un
vector donde cada elemento es el porcentaje de pixels de cada clase en dicha ventana, y
finalmente asigna la clase con mayor porcentaje a dicho pixel.
57
Figura 3. 10: Representación gráfica del método de post-procesado considerado
En la figura 3.10 se muestra un ejemplo de post-procesamiento aplicando una
ventana cuadrada de 3x3. En este caso el píxel correspondiente al centro de la ventana,
cambiara su valor asociado por aquel que sea mayoritario dentro de su vecindad (pasará
de la clase 3 a la clase 2). Para elegir el mejor tamaño de ventana se realizaron diversas
pruebas variando este valor hasta conseguir aquel que producía mejores resultados en
cuanto a porcentaje de acierto o precisión en comparación con la verdad-terreno.
Para concluir este apartado, es importante destacar que, cuando todas las cadenas de
procesamiento han sido testeadas, hemos probado también un “método combinado”.
Éste sencillo método toma como entrada los mapas temáticos finales obtenidos para
cada una de las cadenas de procesamiento anteriormente realizadas, de las cuales
hablaremos en el siguiente capítulo, y asigna una etiqueta para cada píxel de la imagen
utilizando un proceso de la etiqueta mayoritaria o majority voting utilizado ampliamente
en la literatura [75]. En este sentido, la etiqueta final asignada a cada píxel consiste en la
etiqueta mayoritaria en cada caso tras comparar los resultados obtenidos para cada
imagen final clasificada de cada cadena de procesamiento, para dicho píxel en concreto.
Se pretende integrar o fusionar los resultados obtenidos por las diferentes cadenas
probadas, tiene la ventaja de ser muy rápido y sencillo ya que únicamente trabaja con
los mapas temáticos y no con la información contenida en la imagen original, la cual ya
ha sido caracterizada de distintas formas mediante las diferentes cadenas de
procesamiento aplicadas.
58
4. Cadenas de procesamiento
En los últimos años la tecnología de la teledetección hiperespectral ha avanzado
velozmente proporcionando datos con muy alta fidelidad espectral en comparación con
los sistemas multiespectrales. Mientras que estos sensores facilitan la identificación y
clasificación, la alta dimensionalidad y volumen de los datos aumenta en ancho de
banda de la transmisión y la complejidad computacional del análisis. Además, nos
encontramos con una gran cantidad de redundancia en los datos hiperespectrales debido
a la gran correlación entre las bandas adyacentes. Con el fin de hacer una clasificación
óptima y minimizar el tiempo computacional, es necesario encontrar un método para
reducir la dimensionalidad de los datos, y al mismo tiempo, mantener las características
espectrales más claras y necesarias para clasificar los datos.
La cadena de procesamiento más general puede ser descrita con un pequeño grupo
de macro-bloques elaborados. De hecho, después de la corrección del proveedor
(calibración radiométrica, corrección geométrica, corrección atmosférica, etc.) la
información relevante ya puede ser extraída de los datos hiperespectrales. Comenzando
por los datos de entrada corregidos, tres pasos principales pueden ser descritos en el
procesamiento:
transformación
y
extracción
de
características,
selección
de
características y clasificación. Ésta es la descripción mas general posible, pero cada
bloque puede ser obtenido de diferentes maneras. Por ejemplo, extracción de
características puede estar formado por un análisis espectral (la media, la varianza,
áreas, picos, y valles en las firmas espectrales), transformación espectral (PCA, MNF,
DBFE, DAFE, etc), elaboración espacial (texturas...) o análisis multi-escala (diferentes
perfiles morfológicos). El bloque de selección de características proporciona las mejores
combinaciones de bandas y/o características para un determinado problema. La
combinación de éstas características es compleja, así, algoritmos rápidos y eficientes
son necesarios para realizarlo. Por último, el paso de la clasificación produce un
resultado de alto nivel listo para interpretación del usuario.
En éste trabajo, extracción de características viene implementado de dos formas
distintas para reducir las dimensiones de los datos: PCA o análisis de componentes
principales y MNF o fracción mínima de ruido. Además, la elaboración de texturas y
contextos morfológicos han sido incluidos en alguna cadena para obtener buenos
resultados a partir de información espacial también. El paso de selección de
59
característica aparece implementado mediante un análisis del índice de separación, el
cuál, permite un procedimiento eficiente y selectivo para elegir los mejores
subconjuntos, partiendo de los datos de grandes dimensiones. Cada cadena contiene un
bloque de clasificación que es realizado por el algoritmo de reconocimiento de patrones
supervisado llamado máquina de vectores de soporte o SVM.
En éste capítulo, presentamos todas las posibles combinaciones de cadenas
seleccionadas para la experimentación. El motivo de la elección de las cadenas de
procesamiento que veremos a continuación se fundamenta en estudios previos, tales
como los desarrollados en el marco del proyecto HYPER-I-NET [1]. Dichas cadenas
demostraron buen rendimiento a nivel de porcentaje de precisión en la clasificación con
respecto a otras. Sin embargo, no deja de haber un mundo de posibilidades pudiendo
sustituir, adicionar, o quitar un bloque de la cadena, o investigar sobre nuevas técnicas
siempre con el fin de obtener buenos resultados a la hora de caracterizar la imagen.
Basándonos en experimentos anteriores realizados con distintos tipos de imágenes o
conjuntos de datos (urbanos, de vegetación) y utilizando distintos porcentajes de
conjuntos de entrenamiento, se han considerado las cadenas que se describen a
continuación.
4.1. Cadena de procesamiento #1
Esta primera cadena se caracteriza por contener en la parte de pre-procesado de la
imagen solo el bloque de Selección de características a partir de la imagen original
proporcionada. En términos de implementación, la cadena tiene como parámetros de
entrada: la imagen hiperespectral original con todo el contenido de sus bandas y un
archivo de bitmap que contiene el conjunto de entrenamiento (como puede verse en la
figura 4.1). Otros parámetros a fijar serán, el tamaño final elegido para la imagen
resultante después de la selección, es decir, el número de bandas final; y por otra parte,
el criterio de selección o índice de separatibilidad elegido.
El bloque FS por tanto, partiendo de la imagen original formada por decenas o
cientos de bandas espectrales, seleccionará un subconjunto de aquellas que
proporcionen información de mayor utilidad en la tarea de distinguir o etiquetar los
pixels (clasificar), siguiendo un
determinado criterio o índice de separabilidad de
clases. Se realizaron procesamientos para distintos valores de bandas resultantes para
60
identificar el conjunto mas adecuado. Ya que en experimentaciones previas se observó
una buena actuación por parte de los índices de Distancia de Jeffries-Matsushita y el de
Divergencia Transformada [56], fue éste último el elegido para todos los casos en los
que se hace uso del algoritmo de selección de características. Una vez obtenido el
subconjunto de características del bloque FS, se procede a la Clasificación de los pixels,
mediante el algoritmo SVM, de reconocimiento de patrones a partir del archivo de
imagen que contiene el conjunto de entrenamiento. Este paso producirá un mapa
temático o imagen clasificada con cada píxel asignado a una determinada clase y
etiquetado con el color correspondiente a ésta. Por último, utilizando un adecuado
tamaño de ventana, se unifican los conjuntos de píxels cercanos en espacio formando
regiones más o menos extensas donde todos los píxels pertenecen a una clase
determinada. Éste último paso de post-procesado, posterior a la clasificación servirá
para obtener una precisión de acierto en la clasificación más alta en comparación con el
fichero de verdad-terreno. Los dos últimos pasos son coincidentes en todas las cadenas,
así que en los próximos apartados donde se explican el resto de cadenas de
procesamiento es posible que se obvie desarrollar estos dos bloques.
Imagen hiperespectral original
Selección de características
VerdadTerreno
Conjunto de
entrenamiento
Subconjunto de bandas
Clasificador SVM
Resultados de precisión
y Matriz Confusión
(imagen clasificada)
Mapa temático
Post-procesado ARTMAP
y Matriz Confusión
(imagen post-procesada)
Figura 4. 1: Esquema de los pasos realizados en la cadena de procesamiento #1
61
La elegida como cadena numero dos, tiene como paso previo a la clasificación una
transformación PCA o de análisis de componentes principales a partir de los datos de
entrada originales. Recordamos que PCA se trata de un proceso de transformación y/o
reducción de la dimensionalidad de la imagen original. Los datos de entrada son
sometidos un pre-procesado en el cual se busca obtener la información con menor
correlación y redundancia de la imagen y agruparlo mediante combinaciones lineales en
un subconjunto de bandas. De tal manera que al aplicar PCA sobre los datos, la primera
banda resultante contendrá la mayor parte de la información relevante o mayor varianza,
será la primera componente principal. La segunda banda, contendrá un porcentaje
también alto de varianza, pero será mejor que la primera, y mayor que la siguiente o
tercera, y así sucesivamente.
PCA
VerdadTerreno
Conjunto de
entrenamiento
Bandas PCA
Clasificador SVM
y Matriz Confusión
Mapa temático
y Matriz Confusión
La función principal de este pre-procesado es eliminar la redundancia facilitando la
clasificación de la imagen. El algoritmo de clasificación utilizado, siempre SVM,
procederá a caracterizar la imagen, asignando una clase de terreno a cada uno de los
pixels de la nueva imagen PCA, para dar como resultado un mapa temático. SVM se
basará en un archivo de conjunto de entrenamiento con algunos pixels de ejemplo para
realizarlo. Por último, el post-procesado de la imagen que ayudará a obtener un mayor
62
porcentaje de precisión en el proceso de clasificado, comparando con la verdad-terreno.
Esta cadena de procesamiento aparece ilustrada de forma gráfica en la figura 4.2.
La cadena numero 3 realiza un pre-procesado partiendo de los datos de entrada que
consiste en aplicar la operación de reducción de dimensionalidad llamada Fracción
Mínima de Ruido (siglas en inglés MNF). Esta operación es básicamente una
transformación PCA, pero mejorada, ya que como su propio nombre indica obtenemos
un subconjunto de bandas, con una mejor relación de señal ruido, por lo tanto, imágenes
o bandas más nítidas y robustas. De ahí que los resultados proporcionados por este
bloque sean mas precisos en cuanto a clasificación se refiere.
MNF
VerdadTerreno
Conjunto de
entrenamiento
Bandas MNF
Clasificador SVM
y Matriz Confusión
Mapa temático
y Matriz Confusión
Se prueban entonces diferentes conjuntos de bandas MNF como entrada para la
clasificación, y una vez obtenido el mapa temático en cada caso se aplica el postprocesado utilizando distintos tamaños de ventana hasta encontrar aquél que mejor se
adapta produciendo los resultados mas precisos, comparando con la verdad terreno. La
cadena de procesamiento 3 (ver figura 4.3) constituye por tanto un módulo similar al
empleado en la cadena de procesamiento 2, puesto que dichas cadenas únicamente se
diferencian en el módulo aplicado para llevar a cabo la reducción dimensional. Sin
embargo, como observaremos a la hora de analizar los resultados experimentales, dicho
63
módulo de pre-procesado puede tener una influencia crucial en los resultados de
clasificación proporcionados por el método SVM.
La cadena 4 o cadena de procesamiento de análisis de texturas parte de los datos de
entrada y produce un pequeño subconjunto de bandas mediante la transformación MNF,
que como ya hemos visto, es una de las operaciones de reducción mas precisas. A partir
de ese pequeños subconjunto de características extraeremos una serie de bandas de
textura para cada banda MNF, mas concretamente, un total de 18 imágenes cada una
con una operación de análisis de textura distinta, según las fórmulas vistas en el
correspondiente capítulo y apartado. Dada la gran dimensionalidad de los datos
resultantes, ya que si por ejemplo, decidimos obtener un total de 4 bandas MNF de los
datos originales, el total de texturas obtenidas será de 4 x 18 = 72.
MNF
Bandas MNF
Análisis de Texturas
Bandas de Textura
Conjunto de
entrenamiento
Selección de características
VerdadTerreno
Bandas Textura + MNF(externas)
Clasificador SVM
y Matriz Confusión
Mapa temático
y Matriz Confusión
64
Por tanto, aplicados los dos bloques de procesamiento mencionados, volvemos a hacer
uso del bloque de Selección de características para elegir aquellas que sean mas
relevantes, en cuanto a características de texturas se refiere. Una vez seleccionadas un
conjunto de bandas de texturas conveniente, se procede a realizar una operación que
viene omitida como bloque en la cadena de procesamiento, ya que no es una operación
que modifique los datos propiamente. Se realiza una adición de un determinado número
de características MNF con el subconjunto de características de textura. De esta manera,
la imagen que dará paso a la clasificación estará formada por datos tanto espectrales,
como espaciales. Aplicando el algoritmo SVM de clasificación se obtendrá un mapa de
clases que mas tarde se verá post-procesado mediante el algoritmo de ARTMAP. La
cadena de procesamiento 4 aparece ilustrada de forma gráfica en la figura 4.4.
La principal característica común de las cadenas 4 y 5 es la fusión de información
espectral y espacial como origen para la clasificación. El hecho de mezclar estos dos
tipos de datos, comenzó a realizarse recientemente en un intento de proporcionar más
información al clasificador, también contando con que el terreno está formado por
elementos estructurales que contienen texturas, y por perturbaciones que de algún modo
hay que resaltar para permitir una mejor identificación de regiones en la imagen. Se
utilizan también los operadores morfológicos, con la función de ensalzar determinadas
zonas de la imagen mediante operaciones de apertura y clausura (ver detalles en el
capitulo y apartado de morfología).
Partiendo de un subconjunto de bandas MNF, se realizan una operación de
apertura y otra de clausura para cada una de ellas, utilizando un determinado tamaño de
ventana que variará según la imagen y que no es fácil identificar, y que habría que
analizar los elementos en detalle. Una vez obtenidas las imágenes morfológicas, éstas se
adicionan con un subconjunto de bandas MNF, (que no tiene por qué ser el mismo que
les dio origen), para formar una imagen espectro-espacial como ya hemos mencionado.
Se procede entonces a la identificación de todos los pixels con ésta información y un
conjunto de patrones de entrenamiento para determinar a qué clase pertenece cada uno.
Finalmente un post-procesamiento aplicando una ventana sobre cada píxel del mapa
temático obtenido nos dará una nueva imagen con las distintas regiones o clases más
65
diferenciadas. La cadena de procesamiento 5 aparece ilustrada de forma gráfica en la
figura 4.5.
MNF
Bandas MNF
Análisis Morfológico
VerdadTerreno
Bandas morfológicas +MNF (ext.)
Conjunto de
entrenamiento
Clasificador SVM
y Matriz Confusión
Mapa t emático
y Matriz Confusión
66
5. Resultados experimentales
En el presente capítulo realizamos una evaluación experimental de las diferentes
cadenas de procesamiento de datos hiperespectrales descritas en apartados previos. Las
cadenas de procesamiento son evaluadas atendiendo a diferentes criterios, tales como
precisión en los resultados de clasificación obtenidos o su rendimiento computacional, y
para ello utilizamos imágenes hiperespectrales de referencia en la literatura, las cuales
disponen de información de referencia (verdad-terreno) acerca de la composición de los
píxels de la escena. La disponibilidad de dicha información, así como el hecho de que
las imágenes consideradas son ampliamente utilizadas en la comunidad científica
dedicada al análisis de datos hiperespectrales, posibilita que el estudio comparativo y
cuantitativo presentado en este capítulo resulte de interés a la hora de evaluar el
rendimiento combinado de varias técnicas de análisis hiperespectral de gran relevancia
en la literatura. El capítulo se encuentra estructurado de la siguiente forma:
1. Inicialmente, exponemos de forma resumida algo ya explicado en capítulos
anteriores, la metodología de análisis seguida a la hora de mostrar y discutir los
resultados. Este apartado ofrece una visión introductoria sobre el diseño de los
experimentos y las medidas de comparación utilizadas, el cual será desarrollado
en profundidad en apartados sucesivos.
2. A continuación se describen las imágenes hiperespectrales consideradas en el
estudio y sus particularidades, así como las principales características de la
información verdad-terreno asociada a las mismas.
3. Seguidamente presentamos un detallado estudio cuantitativo y comparativo
analizando los resultados obtenidos por las diferentes cadenas de procesamiento
sobre las imágenes hiperespectrales utilizadas. Dado que los clasificadores
considerados en el presente trabajo son de carácter supervisado, el estudio
comparativo presta especial atención a un aspecto fundamental en aplicaciones
de análisis hiperespectral: la cantidad de datos etiquetados que el clasificador
supervisado necesita durante la fase de entrenamiento o aprendizaje, dado que en
aplicaciones reales la disponibilidad de dichos datos puede ser limitada.
4. Finalmente, el capítulo concluye con un resumen y discusión global de los
resultados obtenidos atendiendo a diferentes criterios tales como precisión en la
67
clasificación y rendimiento computacional, proporcionando al mismo tiempo
recomendaciones concretas sobre las diferentes posibilidades en cuanto a
combinación de módulos para extracción de características, clasificación y postprocesado.
5.1. Metodología de análisis
En el presente trabajo abordamos el problema de evaluar la precisión de un método de
clasificación de píxels en una imagen hiperespectral considerando que los píxels de
interés están compuestos por un solo material. En la práctica, el uso de sensores
hiperespectrales permite una mejor determinación de la composición interna de cada
píxel, que raramente estará compuesto por un único material, pues el fenómeno de la
mezcla es muy habitual en el mundo real, independientemente de cuál sea la escala
espacial considerada. No obstante, por razones de simplicidad y dado el tipo de cadenas
de procesamiento consideradas en el presente trabajo (que no incluyen módulos
específicos de desmezclado) en lo sucesivo abordamos el problema de evaluar la
precisión de los clasificadores considerados suponiendo que cada píxel viene dado por
un único material. Esta aproximación, denominada clasificación temática o thematic
mapping en la literatura, permite analizar técnicas de análisis en que etiquetan cada
píxel de la imagen hiperespectral como perteneciente a una de varias clases verdadterreno disponibles a priori. Alternativamente, puede existir una clase adicional
denominada "fondo" o "resto" que representa a los píxels que no han sido clasificados
en ninguna de las clases anteriores. El resultado ideal se obtiene cuando todas las clases,
incluyendo la clase "fondo", son mutuamente excluyentes entre sí. La clave en este tipo
de aplicaciones suele ser la determinación del número de clases y la caracterización de
las mismas en términos de datos de entrenamiento o información de verdad-terreno.
La principal dificultad asociada a las técnicas de clasificación temática radica en
que normalmente hay varias clases posibles asociadas a distintos objetos. El objetivo es,
en última instancia, determinar la existencia o no de cada uno de los objetos
considerados en cada píxel, situación que puede expresarse como un problema de
clasificación binario que puede, posteriormente, extenderse a un número indefinido de
clases. Esta es la aproximación que utiliza el clasificador supervisado SVM considerado
como base en el presente estudio.
68
Considerando revisadas las métricas que serán empleadas en la evaluación de la
precisión en la clasificación de una imagen hiperespectral, procedemos a describir el
proceso de entrenamiento de un clasificador supervisado utilizando información verdadterreno disponible a priori. Dicho proceso aparece ilustrado mediante un sencillo
diagrama en la figura 5.1. Como se muestra en dicha figura, una vez realizado un
proceso de reducción dimensional de la escena original, el proceso de entrenamiento
consiste en utilizar un subconjunto de dicha información para entrenar al clasificador
supervisado (patrones de entrenamiento) y evaluar el rendimiento del clasificador con el
resto de patrones etiquetados (patrones de prueba), tal y como se muestra en la figura
5.1.
Figura 5. 1: Evaluación de un clasificador supervisado
Generalmente, la distinción entre patrones de entrenamiento y patrones de prueba
se realiza de forma aleatoria, procurando minimizar al máximo el número de patrones
de entrenamiento necesarios para alcanzar un resultado de clasificación satisfactorio con
el resto de muestras, debido principalmente a la dificultad de obtener patrones de
entrenamiento en aplicaciones de observación remota de la tierra (en estas aplicaciones,
generalmente es preciso efectuar medidas en campo para obtener muestras etiquetadas
de gran calidad). Dada la gran dimensionalidad de los datos originales, se intenta
compensar la necesidad de un alto número de muestras aplicando (de forma opcional)
técnicas de reducción dimensional de los datos. El esquema mostrado en la figura 5.1
será adoptado a lo largo del presente capítulo para validar una serie de técnicas de
69
reducción dimensional (opcionales) combinadas con un clasificador supervisado de tipo
SVM. Opcionalmente, se aplicará una etapa final de post-procesado para refinar los
resultados.
5.2. Imágenes hiperespectrales consideradas
A la hora de seleccionar un conjunto de imágenes reales para realizar la
experimentación, hemos optado por escoger dos imágenes hiperespectrales que han sido
utilizadas en un amplio abanico de aplicaciones. Por otra parte, las imágenes utilizadas
han sido adquiridas por sensores diversos en diferentes fechas, con lo que la calidad de
las mismas es variable. Los materiales que pueden encontrarse en las mismas son
también variados, incluyendo vegetación, suelos, cultivos, etc. A continuación
describimos en mayor detalle las dos imágenes hiperespectrales empleadas en este
estudio. En cada caso, se destacan las características fundamentales de la imagen y su
campo de aplicación fundamental.
5.2.1. Imagen hiperespectral AVIRIS Indian Pines
La imagen hiperespectral sobre la región agrícola de Indian Pines, Indiana, Estados
Unidos, fue adquirida por el sensor AVIRIS en junio de 1992. La imagen consta de 145
x 145 píxels con 220 bandas espectrales, comprendidas en el rango de de 0.4 a 2.5 µm.
La figura 5.2 muestra el cubo de datos formado por la imagen AVIRIS Indian Pines, de
la cual se han eliminado bandas espectrales con ruido (atmosférico y electrónico) de
forma que se mantiene un total de 202 bandas espectrales en los experimentos
realizados. En concreto, las bandas eliminadas fueron son las 4 primeras (baja relación
señal-ruido), las bandas 102-107 (absorción de agua), las bandas 143-147 (absorción de
agua), y finalmente las bandas 193-202 (baja relación señal-ruido).
Conviene destacar que la mayor parte de la escena AVIRIS Indian Pines está
constituida por cultivos agrícolas (soja y maíz), bosques y otros tipos de vegetación. La
imagen que nos ocupa fue tomada en el mes de junio, por lo que los cultivos presentes
en la misma se encuentran en una etapa temprana de crecimiento, con un porcentaje de
cobertura del suelo inferior al 5%. Esto hace que discriminar entre diferentes clases en
esta imagen sea muy difícil ya que la mayor parte de los píxels comprendidos en la
misma se encuentran mezclados (la resolución espacial es de 20 metros por píxel, con
70
un total de 145x145 píxels en la imagen). Sin embargo, la información de referencia
asigna una única etiqueta a cada clase, lo cual hace que el problema de clasificación sea
dificultoso. Este hecho ha propiciado que la imagen AVIRIS Indian Pines constituya en
la actualidad la imagen de referencia en la literatura a la hora de validar nuevas técnicas
de clasificación de datos hiperespectrales (en particular, técnicas supervisadas).
Conviene destacar que esta imagen se encuentra disponible online1, por lo que cualquier
investigador puede acceder a ella y reproducir los resultados obtenidos en otros trabajos.
Este hecho ha motivado que la imagen AVIRIS Indian Pines se haya convertido en un
estándar a la hora de validar algoritmos de clasificación de datos hiperespectrales.
Figura 5. 2: Imagen AVIRIS Indian Pines representada en forma de cubo de datos (banda
mostrada número 4 en blanco y negro).
La figura 5.3(a) muestra las 16 clases verdad-terreno etiquetadas por un equipo de
la Universidad de Purdue en Indiana sobre la imagen AVIRIS Indian Pines, además de
una clase “fondo” o “resto” caracterizada por el color negro. Muchos estudios anteriores
contaban solo con 12 clases de las 16 clases totales, eliminando así las clases muy
pequeñas que dificultan el proceso de entrenamiento de clasificadores supervisados
clásicos que utilizan métodos estadísticos y que precisaban de más información de
entrenamiento por clases, para poder llevar a cabo la clasificación. Se conoce como el
fenómeno Hughes, y el hecho de hacerlo frente es una de las grandes ventajas que posee
el algoritmo SVM. La figura 5.3 (b) muestra las etiquetas de las diferentes clases que
1
http://cobweb.ecn.purdue.edu/~biehl/MultiSpec/
71
integran la imagen AVIRIS Indian Pines. Finalmente, la figura 5.3(c) muestra un
subconjunto de la imagen verdad-terreno que se ha formado seleccionando
aleatoriamente el 10% de los píxels de cada clase de la imagen original. Este conjunto se
denomina habitualmente “conjunto de entrenamiento” o training set, y puede utilizarse
para entrenar un clasificador supervisado que será posteriormente evaluado con el resto
de píxels de la imagen.
(a)
(b)
(c)
Figura 5. 3: Información verdad-terreno disponible para la imagen AVIRIS Indian Pines. (a)
Clases etiquetadas. (b) Información sobre las diferentes clases. (c) Conjunto de entrenamiento
formado seleccionando el 10% de los píxels de cada clase verdad-terreno.
5.2.2. Imagen hiperespectral DAIS 7915 sobre Tatras
La imagen hiperespectral sobre la región montañosa de Tatras en Polonia fue obtenida
por el sensor Digital Airborne Visible Infra-Red Imaging Spectrometer (DAIS 7915).
Este sensor fue desarrollado por la compañía Geophysical Environmental Research
(GER) y, en la actualidad, su mantenimiento y explotación es realizado por la Agencia
Espacial Alemana (DLR).
La región que aparece en la imagen se encuentra localizada en el denominado
Valle de Gasienicowa, incluye zonas alpinas y subalpinas con un rango de altitud de
1500-2300 metros sobre el nivel del mar, además de diversos tipos de vegetación, rocas
y agua. La imagen consta de un total de 81 bandas espectrales con valores de
reflectancia en el rango 0.5 a 12.5 µm, y la resolución espacial de los píxels de la
imagen es de 5 metros. Cada valor equivale a 10 veces el tanto por ciento de la
reflectancia en una determinada longitud de onda. Estos valores fueron obtenidos como
resultado de la aplicación del método de corrección atmosférica ATCOR.
72
La figura 5.4 muestra el cubo de datos formado por la imagen DAIS 7915 Tatras.
Por su parte, la figura 5.5(a) muestra las 10 clases verdad-terreno etiquetadas por un
equipo de la Universidad de Varsovia, Polonia, sobre la imagen DAIS 7915 Tatras, y
una clase adicional “fondo” o “resto” de color negro. Por otra parte, la figura 5.5 (b)
muestra las etiquetas de las diferentes clases que integran la imagen. Finalmente, la
figura 5.5(c) muestra un subconjunto de la imagen verdad-terreno que se ha formado
seleccionando 90 píxels para cada clase, con un total de 900 píxels de entrenamiento.
Este número representa un porcentaje muy bajo de patrones de entrenamiento, en
especial, si tenemos en cuenta que la imagen completa tiene un tamaño de 1025x1025
píxels.
Figura 5. 4: Imagen DAIS 7915 Tatras representada en forma de cubo de datos (representada
como primera banda la número 4 en falsos colores).
(a)
(b)
(c)
Figura 5. 5: Información verdad-terreno disponible para la imagen DAIS 7915 Tatras. (a) Clases
etiquetadas. (b) Información sobre las diferentes clases. (c) Conjunto de entrenamiento formado
seleccionando 90 píxels para cada clase, con un total de 900 píxels de entrenamiento.
73
5.3. Resultados de las cadenas de procesamiento
En el presente apartado describimos los resultados obtenidos al aplicar las diferentes
cadenas de procesamiento presentadas en el capítulo anterior sobre las diferentes
imágenes hiperespectrales consideradas (AVIRIS Indian Pines y DAIS 7915 Tatras),
haciendo uso de la información verdad-terreno para validar estadísticamente los
resultados de clasificación obtenidos aplicando la metodología de análisis y las métricas
de evaluación descritas en el primer apartado de este capítulo. Una vez presentados los
resultados obtenidos por separado para cada imagen y para cada cadena de
procesamiento, procedemos a discutir los resultados de forma global de forma previa a
la finalización del presente capítulo. Conviene destacar que en este apartado hemos
modificado la numeración de las tablas y figuras para facilitar su comparación, de este
modo, a partir de este momento numeramos las tablas y figuras según el número de
cadena de forma que su interpretación resulte más sencilla para el lector.
5.3.1. Resultados imagen hiperespectral AVIRIS Indian Pines
En primer lugar, mostramos los resultados obtenidos por las diferentes cadenas de
procesamiento aplicadas a la imagen AVIRIS Indian Pines. Llegados a este punto, es
conveniente recordar que en todas las cadenas de procesamiento se utiliza un
clasificador supervisado de tipo SVM, de forma que la información que varía de una
cadena de procesamiento a otra se basa fundamentalmente en la etapa de pre-procesado
empleada, en los parámetros utilizados para definir el kernel del clasificador SVM (de
tipo RBF, al tratarse del kernel que mejores resultados ofrece en la literatura) y en la
opción de aplicar una etapa de post-procesado para mejorar la homogeneidad espacial
de los resultados obtenidos. Esta cadena genérica de procesamiento (con pre-procesado
y post-procesado opcionales) se encuentra altamente estandarizada en la literatura
dedicada a análisis de datos hiperespectrales debido a los buenos resultados que
proporciona en diferentes aplicaciones.
A continuación mostramos los resultados de clasificación obtenidos para cada una
de las cadenas de procesamiento consideradas en el presente estudio aplicadas a la
imagen AVIRIS Indian Pines. En dichas cadenas solamente cambia el pre-procesado (es
decir, las fases que se realizan antes de clasificar o caracterizar la imagen) y el postprocesado. La fase de clasificación se efectúa asignando una determinada etiqueta de
74
clase a cada píxel una vez finalizada la fase de aprendizaje del clasificador SVM, en la
que intervienen una serie de patrones de entrenamiento seleccionados a partir de píxels
etiquetados de la imagen a partir de la información verdad-terreno. Una vez obtenidos
los resultados de clasificación, mostramos mediante una tabla el numero de bandas (en
caso de no aplicar pre-procesado) o características (en caso de usar pre-procesado)
utilizadas en la clasificación de la imagen mediante la técnica SVM, junto con el
porcentaje de precisión o acierto que resulta al comparar la imagen final clasificada con
la información verdad-terreno, tal y como se describe en la Figura 5.3.2. Los parámetros
utilizados para configurar el kernel RBF del algoritmo de clasificación SVM también se
especifican en cada tabla, junto con el porcentaje de acierto en la clasificación tras
aplicar la etapa de post-procesado espacial. Es importante destacar que el postprocesado solamente se aplica para los valores de características o numero de bandas
que proporcionen el mapa de clasificación más eficiente o similar con respecto a la
información verdad-terreno.
5.3.1.1 Resultados cadena procesamiento #1 con AVIRIS Indian Pines
La Tabla 5.1 muestra los resultados de clasificación obtenidos tras aplicar la cadena de
procesamiento #1 a la imagen AVIRIS Indian Pines, indicando el número de bandas o
características empleadas en el proceso de clasificación, los valores de los parámetros C
y sigma empleados en la clasificación SVM, y los porcentajes de acierto en la
clasificación tras aplicar el clasificador y tras aplicar el clasificador con post-procesado
espacial. Conviene destacar que los valores de los parámetros C y sigma empleados en
el clasificador supervisado de tipo SVM han sido cuidadosamente optimizados de forma
empírica mediante una búsqueda en un rango de valores determinado para obtener el
mejor resultado en cuanto a clasificación en cada caso, de forma que los resultados
mostrados en el presente estudio corresponden a la mejor versión del clasificador SVM
combinado con los módulos de pre-procesado FS y post-procesado espacial.
Como puede apreciarse en la Tabla 5.1, los resultados de clasificación utilizando
el módulo FS seguido de una clasificación SVM ofrecen resultados aceptables
(superiores al 80% de acierto en la clasificación). Dichos resultados mejoran
notablemente al aplicar la etapa de post-procesado espacial, llegando a obtenerse
resultados de clasificación muy elevados, cercanos al 95% de acierto. Dada la gran
75
dificultad existente en el proceso de clasificación de la imagen AVIRIS Indian Pines
debido al estado temprano de los cultivos en la zona, que aumenta la similaridad
espectral de píxels en diferentes clases, podemos afirmar que los resultados obtenidos
tras la etapa de post-procesamiento son altamente competitivos con métodos
presentados en el estado del arte de clasificación y análisis de datos hiperespectrales.
umero de bandas
Parámetros de clasificación
Porcentaje
Acierto tras post-
o Características
de SVM ( C / sigma )
acierto (%)
procesado (%)
10 características
65536 / 2,8
82,64
94,71
15 características
65536 / 3,4
84,88
94,64
20 características
16384 / 3,4
83,96
94,37
Tabla 5. 1: Resultados de clasificación obtenidos al aplicar la cadena de procesamiento #1 a la
imagen hiperespectral AVIRIS Indian Pines.
Por motivos ilustrativos, la Figura 5.6 muestra las diferentes imágenes clasificadas
correspondientes a los experimentos mostrados en la Tabla 5.1 y relativos a la
aplicación de la cadena de procesamiento #1 sobre la imagen AVIRIS Indian Pines.
Como puede comprobarse visualmente, el post-procesado espacial mejora notablemente
los resultados de clasificación obtenidos al aplicar el módulo FS seguido del
clasificador SVM, lo cual indica que la etapa de post-procesado espacial es muy
importante a la hora de complementar los resultados obtenidos por técnicas de preprocesado y clasificadores esencialmente espectrales (es decir, que trabajan píxel a
píxel, asignando etiquetas a cada firma espectral sin tener en cuenta el contexto o
información relativa a las firmas espectrales que se encuentran cercanas en el dominio
espacial). En este sentido, una sencilla técnica contextual como el método de postprocesado considerado en los experimentos mejora de forma considerable los resultados
de clasificación obtenidos por los módulos de la cadena de procesamiento #1 basados
exclusivamente en información espectral.
10 características
15 características
20 características
(sin post-procesado)
10 características
15 características
20 características
(con post-procesado)
76
Figura 5. 6: Imágenes resultantes de aplicar la cadena de procesamiento #1 a la imagen AVIRIS
Indian Pines (los resultados de clasificación en cada caso aparecen reflejados en la Tabla 5.1).
procesamiento #2 a la imagen AVIRIS Indian Pines, indicando el número de
espacial. En esta cadena de procesamiento el módulo de pre-procesado FS utilizado en
la cadena #1 es reemplazado por un módulo de procesamiento PCA, y los valores de los
parámetros C y sigma empleados en el clasificador supervisado de tipo SVM han sido
de nuevo cuidadosamente optimizados de forma empírica para obtener el mejor
resultado en cuanto a clasificación en cada caso, de forma que los resultados mostrados
en el presente estudio corresponden a la mejor versión posible del clasificador SVM
combinado con los módulos de pre-procesado PCA y post-procesado espacial.
77
umero de bandas
Porcentaje
Acierto tras post-
o Características
acierto (%)
procesado (%)
10 características
2048 / 3,4
80,04
90,17
15 características
64 / 2
79,28
93,83
20 características
64 / 3
80,999
93,81
Como puede comprobarse en la Tabla 5.2, los resultados de clasificación
utilizando el módulo PCA (en lugar del módulo FS utilizado en la cadena #1) seguido
de una clasificación SVM ofrecen resultados ligeramente inferiores a los obtenidos al
emplear el módulo FS. De nuevo, los resultados mejoran al aplicar la etapa de postprocesado espacial, pero los mejores resultados de clasificación obtenidos no superan el
94% para 20 características, y solamente superan ligeramente el 90% para 10
características, lo cual supone aproximadamente un 5% de diferencia en la precisión de
la clasificación con respecto al mismo caso en la cadena de procesamiento #1, en la que
se utiliza el módulo FS en lugar del módulo PCA. Llegados a este punto, conviene
destacar que FS realiza un proceso de selección de bandas mientras que PCA realiza una
transformación de la imagen original. En este experimento, se demuestra que la
selección de bandas puede resultar más efectiva que la transformación PCA a la hora de
clasificar la imagen AVIRIS Indian Pines utilizando un clasificador de tipo SVM.
Por motivos ilustrativos, la figura 5.2 muestra las diferentes imágenes clasificadas
correspondientes a los experimentos mostrados en la Tabla 5.2 y relativos a la
aplicación de la cadena de procesamiento #2 sobre la imagen AVIRIS Indian Pines.
los resultados de clasificación obtenidos al aplicar el módulo PCA seguido del
clasificador SVM, lo cual de nuevo revela que la etapa de post-procesado espacial es
muy importante a la hora de complementar los resultados obtenidos por técnicas de preprocesado y clasificadores esencialmente espectrales. Sin embargo, una comparativa
visual entre los resultados mostrados en la Figura 5.7 para la cadena de procesamiento
#2 con respecto a los resultados mostrados en la Figura 5.6 para la cadena de
procesamiento #1 indica que los resultados obtenidos para la cadena de procesamiento
78
#2 son ligeramente superiores. Dado que ambas cadenas únicamente se diferencian en la
fase de pre-procesado, concluimos que el módulo FS parece más adecuado que PCA
como paso previo a la clasificación SVM (y, eventualmente, a la fase de postprocesado).
10 características
15 características
20 características
10 características
15 características
20 características
espacial. En esta cadena de procesamiento el módulo de pre-procesado PCA utilizado
79
en la cadena #2 es reemplazado por un módulo de procesamiento MNF, y de nuevo los
resultados mostrados corresponden a la mejor versión posible del clasificador SVM
combinado con los módulos de pre-procesado MNF y post-procesado espacial.
umero de bandas
Porcentaje
Acierto tras post-
o Características
acierto (%)
procesado (%)
10 características
16 / 1,4
91,21
95,09
15 características
32 / 2
89,91
96,45
20 características
32 / 2,8
86,48
96,23
utilizando el módulo MNF (en lugar del módulo PCA utilizado en la cadena #2) seguido
de una clasificación SVM ofrecen resultados sensiblemente superiores a los obtenidos al
emplear el módulo PCA y ligeramente superiores al utilizar el módulo FS utilizado en la
cadena #1. Aunque los resultados mejoran al aplicar la etapa de post-procesado espacial,
la mejora no resulta tan sustancial como en las cadenas #1 y #2, ya que en la cadena #3
la fase de clasificación espectral proporciona resultados de clasificación muy precisos.
Es importante destacar que los mejores resultados de la fase de clasificación espectral
(previa al post-procesado espacial) se obtienen con el menor número de características
(10), caso en el que se obtiene un resultado de clasificación superior al 91% que puede
considerase como muy elevado teniendo en cuenta la elevada complejidad de la imagen.
Sin embargo, al aumentar el número de características se produce una reducción del
porcentaje de acierto, quizá debida a la descompensación entre el número creciente de
características y el número disponible de patrones de entrenamiento (aunque el
clasificador SVM es robusto en presencia del efecto de Hughes motivado por la
insuficiente disponibilidad de patrones de entrenamiento en relación con la
dimensionalidad de los datos de entrada, puede apreciarse el efecto nocivo de aumentar
la dimensionalidad del vector de características de entrada manteniendo el mismo
número de patrones de entrenamiento en este caso).
10 características
15 características
20 características
10 características
15 características
20 características
80
Por otra parte, la Tabla 5.3 revela que la fase de post-procesado espacial (aunque
no tan necesaria como en las cadenas de procesamiento anteriormente probadas debido
al hecho de que la clasificación espectral resulta bastante adecuada) también mejora los
resultados, permitiendo obtener un resultado de clasificación superior al 96% para 15 y
20 características. Curiosamente, los mejores resultados se obtienen para 15
características, lo cual revela de nuevo que el efecto de Hughes tiene un impacto notorio
en el clasificador SVM en este caso concreto. En particular, los experimentos mostrados
en la Tabla 5.3 también revelan que MNF actúa como módulo de pre-procesado de
forma más eficiente que PCA (este aspecto puede comprobarse comparando los
resultados de clasificación mostrados en la Tabla 5.3 para la cadena de procesamiento
#3 con los resultados de clasificación mostrados en la Tabla 5.2 para la cadena de
procesamiento #2). Esto se debe a que PCA realiza una transformación de los datos
ordenando las componentes de mayor a menor varianza, mientras que MNF ordena las
81
componentes resultantes en términos de la relación señal-ruido, que parece adaptarse de
forma más adecuada a las características de los datos hiperespectrales considerados.
Por motivos ilustrativos, la Figura 5.8 muestra las diferentes imágenes
clasificadas correspondientes a los experimentos mostrados en la Tabla 5.3 y relativos a
la aplicación de la cadena de procesamiento #3 sobre la imagen AVIRIS Indian Pines.
Como puede comprobarse visualmente, los resultados sin post-procesado resultan
superiores a los mostrados en la Figura 5.7 para la cadena de procesamiento #2 y a los
mostrados en la Figura 5.6 para la cadena de procesamiento #1. Por otra parte, se
observa cómo los resultados con post-procesado son también ligeramente superiores a
clasificador SVM (ver Figura 5.6), y sensiblemente a los obtenidos al aplicar el módulo
PCA seguido del clasificador SVM (ver Figura 5.7). A partir de los experimentos
mostrados en este apartado, concluimos que el módulo MNF es más adecuado que FS y
PCA como paso previo a la clasificación SVM (y, eventualmente, a la fase de postprocesado) en el proceso de clasificación de la imagen AVIRIS Indian Pines
considerada en los experimentos.
espacial. Conviene destacar que esta cadena de procesamiento se basa en la aplicación
del módulo MNF seguido de análisis de texturas, por lo que las características en este
caso se presentan en la tabla indicando el número de características MNF seguido del
número de descriptores de texturas empleado en los experimentos. De nuevo, los
resultados mostrados corresponden a la mejor versión posible del clasificador SVM
combinado con los módulos de pre-procesado MNF seguido de análisis de texturas y,
finalmente, post-procesado espacial.
82
umero de bandas
Porcentaje
Acierto tras post-
o Características
acierto (%)
procesado (%)
5mnf-5text
32 / 0,6
83,68
90,7
5mnf-10text
64 / 0,8
83,47
91,71
5mnf-15text
2048 / 2,2
80,88
88,19
10mnf-5text
128 / 1,6
91,5
96,32
10mnf-10text
256 / 2
90,63
95,82
15mnf-5text
16 / 2
90,01
95,78
Como puede comprobarse en la Tabla 5.4, los mejores resultados de
clasificación en este caso se obtienen para el caso en que se extraen 10 características
MNF y posteriormente se aplican 5 descriptores de texturas sobre dichas características.
En este caso, los resultados de clasificación espectral superan el 91%, mientras que la
aplicación de la fase de post-procesado espacial en este caso concreto elevan el
porcentaje de clasificación hasta un 96.32%, cercano al mayor porcentaje de
clasificación obtenido hasta el momento para la cadena de procesamiento #3 con postprocesado espacial (ver Tabla 5.4).
Como puede comprobarse visualmente, los resultados sin post-procesado (mostrados en
las dos primeras filas de la Figura 5.9) mejoran notablemente cuando se consideran 10 y
15 componentes MNF frente al caso en que solamente se utilizan 5 componentes MNF
(en este caso, el porcentaje de acierto en la clasificación decrece aproximadamente en
un 10%). Por otra parte, los resultados con post-procesado espacial (mostrados en la
últimas fila de la Figura 5.9) resultan más similares entre sí, si bien es cierto que los
resultados al considerar 10 o 15 componentes MNF mejoran ligeramente, situando el
porcentaje de acierto por encima del 95% frente al caso en que solamente se consideran
5 componentes MNF, en los que el porcentaje de acierto decrece en un rango en torno al
5-7% dependiendo del caso considerado.
83
5mnf-5text
5mnf-10text
5mnf-15text
5mnf-5text
5mnf-10text
5mnf-15text
10mnf-5text
10mnf-10text
15mnf-5text
En líneas generales, los mejores resultados se obtienen con 10 componentes
MNF y 5 descriptores de texturas, obteniendo un porcentaje de acierto similar a los
mejores casos mostrados para las otras cadenas de procesamiento consideradas
anteriormente en el estudio. A partir de los experimentos mostrados en este apartado,
concluimos que el módulo MNF puede beneficiarse de la aplicación de descriptores de
texturas para mejorar los resultados de clasificación, en particular, de la fase espectral
84
resultante de la aplicación del clasificador SVM y previa a la aplicación del módulo de
post-procesado espacial. Cuando se aplica dicho post-procesado, los resultados
obtenidos son similares a los obtenidos al aplicar la cadena de procesamiento #3 que no
incluye descriptores de texturas tras aplicar el módulo MNF. Este resultado también
indica que la información espacial asociada a los descriptores de texturas es diferente de
la empleada por el módulo de post-procesado espacial.
espacial. Conviene destacar que esta cadena de procesamiento se basa en la aplicación
del módulo MNF seguido de la incorporación de descriptores morfológicos,
constituyendo ésta la principal diferencia con la cadena de procesamiento #4 en la que
se incorporan descriptores de texturas tras la aplicación del módulo MNF. Las
características en este caso se presentan en la tabla indicando el número de
características MNF seguido del número de operaciones de apertura morfológica
(opening) y de cierre morfológico (closing) empleado en los experimentos. Como en
todas las cadenas de procesamiento anteriormente consideradas, los resultados
mostrados en la Tabla 5.5 corresponden a la mejor versión posible del clasificador SVM
combinado con los módulos de pre-procesado MNF seguido de análisis morfológico y,
finalmente, post-procesado espacial.
umero de bandas
Porcentaje
Acierto tras post-
o Características
acierto (%)
procesado (%)
10mnf-5op-5cl
64 / 2,6
91,43
96,02
10mnf-10op-10cl
128 / 3,2
90,78
95,96
85
Como puede comprobarse en la Tabla 5.5, la aplicación de operadores
morfológicos de forma posterior a la extracción de 10 características MNF proporciona
resultados de clasificación espectral muy estables, en torno al 91% y, por tanto, muy
similares a los obtenidos mediante descriptores de texturas en la cadena de
procesamiento #4 (ver Tabla 5.4). Conviene destacar que en este experimento se ha
fijado el número de componentes MNF a 10 dado que en experimentos previos se ha
comprobado que este número de componentes es el que lleva a un mejor compromiso
entre los resultados de clasificación obtenidos y el número de características de entrada,
evitando el efecto Hughes en el proceso de clasificación. Al igual que ocurría en la
cadena de procesamiento #4, la aplicación de la fase de post-procesado espacial eleva el
porcentaje de clasificación hasta valores en torno al 96%, cercanos a los mejores
porcentajes de clasificación obtenidos para cadenas anteriores. Una rápida comparativa
entre los resultados mostrados en la Tabla 5.5 para la cadena de procesamiento #5 y los
mostrados en la Tabla 5.4 para la cadena de procesamiento #4 revela que la aplicación
de descriptores de texturas y de descriptores morfológicos con carácter posterior al
módulo de pre-procesado MNF ofrece resultados muy similares.
Como puede comprobarse visualmente, tanto los resultados sin post-procesado como los
resultados con post-procesado resultan similares a los mostrados en la Figura 5.9 para
los casos en que se utilizan 10 componentes MNF, lo cual indica de nuevo que el
comportamiento de los descriptores morfológicos utilizados con carácter previo al
módulo MNF tienen un efecto similar tanto en la clasificación espectral como en la
clasificación final obtenida (tras la fase de post-procesado) al introducido por los
descriptores de texturas utilizados en la cadena de procesamiento #4. Tras comparar los
resultados en la Figura 5.10 con los mostrados en la Figura 5.9 se aprecia visualmente
que los operadores morfológicos permiten obtener resultados finales con clases
ligeramente mejor definidas y homogéneas en términos espaciales, por lo que
concluimos que aunque ambos tipos de descriptores ofrecen resultados similares en
cuanto a clasificación, las técnicas morfológicas parecen ligeramente más robustas en
este caso.
10mnf-5op-5cl
10mnf-10op-10cl
10mnf-5op-5cl
10mnf-10op-10cl
86
5.3.1.6 Combinación de resultados de todas las cadenas
Para concluir este experimento, se ha desarrollado un sencillo método que combina los
resultados obtenidos por las 5 cadenas de procesamiento descritas en apartados
anteriores. En concreto, este sencillo método toma como entrada los mapas temáticos
finales obtenidos para cada una de las 5 cadenas de procesamiento anteriormente
mencionadas y asigna una etiqueta para cada píxel de la imagen utilizando un proceso
de la etiqueta mayoritaria o majority voting utilizado ampliamente en la literatura. En
este sentido, la etiqueta final asignada a cada píxel consiste en la etiqueta mayoritaria en
cada caso tras comparar los resultados obtenidos por las 5 cadenas de procesamiento
anteriormente descritas para dicho píxel en concreto. El resultado es una nueva
clasificación que contiene, para cada píxel, la etiqueta más mayoritaria tras aplicar las
distintas cadenas de procesamiento. Este sencillo método, que pretende integrar o
87
fusionar los resultados obtenidos por las diferentes cadenas probadas, tiene la ventaja de
ser muy rápido y sencillo ya que únicamente trabaja con los mapas temáticos y no con
la información contenida en la imagen original, la cual ya ha sido caracterizada de
distintas formas mediante las diferentes cadenas de procesamiento aplicadas. La Figura
5.11 muestra el resultado obtenido por dicho clasificador tras la fase espectral (sin postprocesado) y al final del proceso completo, aplicando post-procesado espacial. Es
importante destacar que el proceso de combinación de etiquetas descrito anteriormente
puede aplicarse antes y después del post-procesado, de ahí que la Figura 5.11 muestre
los resultados en ambos casos.
método combinado
método combinado
Figura 5. 11: Imágenes resultantes de aplicar la cadena un método combinado que integra los
resultados obtenidos por las 5 cadenas de procesamiento consideradas aplicando una regla basada
en majority voting a cada píxel de la imagen AVIRIS Indian Pines.
Como puede apreciarse visualmente en la Figura 5.11, los resultados obtenidos
para el clasificador combinado en la fase espectral (sin post-procesado) son mejores que
los obtenidos individualmente por cualquiera de las cadenas de procesamiento,
obteniéndose un porcentaje de acierto en la clasificación del 92.61% en este caso, el
cual supera cualquier resultado de clasificación estrictamente espectral obtenido en
cualquiera de las 5 cadenas de procesamiento evaluadas. Sin embargo, los resultados
obtenidos para el clasificador combinado tras
la etapa de post-procesado espacial
(porcentaje de acierto en la clasificación del 96.2% en este caso) no mejoran a algunos
de los resultados de clasificación obtenidos por algunas de las cadenas de procesamiento
con post-procesado, por ejemplo, las cadena #3 y #4. Sin embargo, los resultados
obtenidos por el clasificador combinado se aproximan a los mejores resultados
88
obtenidos (96.45% para la cadena #3 y 96.32% para la cadena #4) indicando que la
regla de majority voting puede resultar muy adecuada para combinar los resultados
obtenidos por diferentes cadenas de procesamiento de forma rápida, sencilla e
imparcial. Aunque los resultados obtenidos con la imagen AVIRIS Indian Pines, una de
las más difíciles de analizar en la comunidad de análisis hiperespectral debido a su
complejidad, resultan muy prometedores, es preciso realizar experimentos con una
nueva imagen con diferentes características en cuanto a resolución espacial y espectral
para poder extrapolar los resultados obtenidos en un caso de estudio basado en
clasificación de zonas agrícolas a otros escenarios de análisis. Para ello, en el siguiente
apartado realizaremos un exhaustivo estudio (similar al realizado para la imagen
AVIRIS Indian Pines) analizando las diferentes cadenas de procesamiento consideradas
y el método combinado en un problema de clasificación de diferentes tipos de
vegetación, utilizando para ello la imagen DAIS 7915 sobre la región montañosa de
Tatras en el Valle de Gasienicowa en Polonia.
5.3.2. Resultados imagen hiperespectral DAIS 7915 Tatras
En primer lugar, mostramos los resultados obtenidos por las diferentes cadenas de
procesamiento aplicadas a la imagen DAIS 7915 sobre Tatras Mountains. Llegados a
este punto, es conveniente recordar que en todas las cadenas de procesamiento se utiliza
un clasificador supervisado de tipo SVM, de forma que la información que varía de una
cadena de procesamiento a otra se basa fundamentalmente en la etapa de pre-procesado
empleada, en los parámetros utilizados para definir el kernel del clasificador SVM (de
tipo RBF, al tratarse del kernel que mejores resultados ofrece en la literatura) y en la
opción de aplicar una etapa de post-procesado para mejorar la homogeneidad espacial
de los resultados obtenidos. Esta cadena genérica de procesamiento (con pre-procesado
y post-procesado opcionales) se encuentra altamente estandarizada en la literatura
dedicada a análisis de datos hiperespectrales debido a los buenos resultados que
proporciona en diferentes aplicaciones.
A continuación mostramos los resultados de clasificación obtenidos para cada una
de las cadenas de procesamiento consideradas en el presente estudio aplicadas a la
imagen DAIS 7915 Tatras. En dichas cadenas solamente cambia el pre-procesado (es
decir, las fases que se realizan antes de clasificar o caracterizar la imagen) y el post-
89
procesado. La fase de clasificación se efectúa asignando una determinada etiqueta de
clase a cada píxel una vez finalizada la fase de aprendizaje del clasificador SVM, en la
que intervienen una serie de patrones de entrenamiento seleccionados a partir de píxels
etiquetados de la imagen a partir de la información verdad-terreno. Una vez obtenidos
los resultados de clasificación, mostramos mediante una tabla el numero de bandas (en
caso de no aplicar pre-procesado) o características (en caso de usar pre-procesado)
utilizadas en la clasificación de la imagen mediante la técnica SVM, junto con el
porcentaje de precisión o acierto que resulta al comparar la imagen final clasificada con
la información verdad-terreno. Los parámetros utilizados para configurar el kernel RBF
del algoritmo de clasificación SVM también se especifican en cada tabla, junto con el
porcentaje de acierto en la clasificación tras aplicar la etapa de post-procesado espacial.
Es importante destacar que el post-procesado solamente se aplica para los valores de
características o numero de bandas que proporcionen el mapa de clasificación más
eficiente o similar con respecto a la información verdad-terreno.
5.3.2.1 Resultados cadena procesamiento #1 con DAIS 7915 Tatras
procesamiento #1 a la imagen DAIS 7915 Tatras, indicando el número de bandas o
espacial. Conviene destacar que los valores de los parámetros C y sigma empleados en
el clasificador supervisado de tipo SVM han sido cuidadosamente optimizados de forma
empírica mediante una búsqueda en un rango de valores determinado para obtener el
mejor resultado en cuanto a clasificación en cada caso, de forma que los resultados
mostrados en el presente estudio corresponden a la mejor versión posible del
clasificador SVM combinado con los módulos de pre-procesado FS y post-procesado
espacial.
Como puede apreciarse en la Tabla 5.6, los resultados de clasificación utilizando
el módulo FS seguido de una clasificación SVM ofrecen resultados aceptables (cercanos
al 80% de acierto en la clasificación). Dichos resultados mejoran notablemente al
aplicar la etapa de post-procesado espacial, llegando a obtenerse resultados de
clasificación muy elevados, cercanos al 90% de acierto. Dada la gran dificultad
90
existente en el proceso de clasificación de la imagen DAIS 7915 Tatras debido a la
diversidad del terreno en cuanto a tipos de vegetación alpina y subalpina se refiere, que
dificulta la determinación espectral de píxels en diferentes clases, podemos afirmar que
los resultados obtenidos tras la etapa de post-procesamiento son altamente competitivos
con métodos presentados en el estado del arte de clasificación y análisis de datos
hiperespectrales.
umero de bandas
Porcentaje
Acierto tras post-
o Características
acierto (%)
procesado (%)
10 características
4096 / 1,2
79,98
89,68
15 características
2048 / 1,2
80,73
90,87
20 características
4096 / 2,4
79,23
88,58
imagen hiperespectral Tatras.
10 características
15 características
20 características
10 características
15 características
20 características
Figura 5. 12: Imágenes resultantes de aplicar la cadena de procesamiento #1 a la imagen DAIS 7915
Tatras (los resultados de clasificación en cada caso aparecen reflejados en la Tabla 5.3.6).
91
la aplicación de la cadena de procesamiento #1 sobre la imagen DAIS 7915 Tatras.
clasificador SVM, lo cual indica que la etapa de post-procesado espacial es muy
importante a la hora de complementar los resultados obtenidos por técnicas de preprocesado y clasificadores esencialmente espectrales (es decir, que trabajan píxel a
píxel, asignando etiquetas a cada firma espectral sin tener en cuenta el contexto o
información relativa a las firmas espectrales que se encuentran cercanas en el dominio
espacial). En este sentido, una sencilla técnica contextual como el método de postprocesado considerado en los experimentos mejora de forma considerable los resultados
de clasificación obtenidos por los módulos de la cadena de procesamiento #1 basados
exclusivamente en información espectral.
procesamiento #2 a la imagen DAIS 7915 Tatras, indicando el número de características
empleadas en el proceso de clasificación, los valores de los parámetros C y sigma
empleados en la clasificación SVM, y los porcentajes de acierto en la clasificación tras
aplicar el clasificador y tras aplicar el clasificador con post-procesado espacial. En esta
cadena de procesamiento el módulo de pre-procesado FS utilizado en la cadena #1 es
reemplazado por un módulo de procesamiento PCA, y los valores de los parámetros C y
sigma empleados en el clasificador supervisado de tipo SVM han sido de nuevo
cuidadosamente optimizados de forma empírica para obtener el mejor resultado en
cuanto a clasificación en cada caso, de forma que los resultados mostrados en el
presente estudio corresponden a la mejor versión posible del clasificador SVM
combinado con los módulos de pre-procesado PCA y post-procesado espacial.
utilizando el módulo PCA (en lugar del módulo FS utilizado en la cadena #1) seguido
de una clasificación SVM ofrecen resultados ligeramente inferiores a los obtenidos al
emplear el módulo FS. De nuevo, los resultados mejoran al aplicar la etapa de postprocesado espacial, pero los mejores resultados de clasificación obtenidos no superan el
92
86% para 20 características, y solamente superan ligeramente el 85% para 10
características, lo cual supone aproximadamente un 4% de diferencia en la precisión de
la clasificación con respecto al mismo caso en la cadena de procesamiento #1, en la que
se utiliza el módulo FS en lugar del módulo PCA. Llegados a este punto, conviene
destacar que FS realiza un proceso de selección de bandas mientras que PCA realiza una
transformación de la imagen original. En este experimento, se demuestra que la
selección de bandas puede resultar más efectiva que la transformación PCA a la hora de
clasificar la imagen DAIS 7915 Tatras utilizando un clasificador de tipo SVM.
umero de bandas
Porcentaje
Acierto tras post-
o Características
acierto (%)
procesado (%)
10 características
128 / 3,2
71,29
85,56
15 características
32 / 2,2
75,99
84,11
20 características
32 / 2,2
75,77
86,02
imagen hiperespectral Tatras.
los resultados de clasificación obtenidos al aplicar el módulo PCA seguido del
clasificador SVM, lo cual de nuevo revela que la etapa de post-procesado espacial es
muy importante a la hora de complementar los resultados obtenidos por técnicas de preprocesado y clasificadores esencialmente espectrales. Sin embargo, una comparativa
visual entre los resultados mostrados en la Figura 5.13 para la cadena de procesamiento
#2 con respecto a los resultados mostrados en la Figura 5.12 para la cadena de
procesamiento #1 indica que los resultados obtenidos para la cadena de procesamiento
#2 son ligeramente superiores. Dado que ambas cadenas únicamente se diferencian en la
fase de pre-procesado, concluimos que el módulo FS parece más adecuado que PCA
como paso previo a la clasificación SVM (y, eventualmente, a la fase de postprocesado).
93
10 características
15 características
20 características
10 características
15 características
20 características
Figura 5. 13: Imágenes resultantes de aplicar la cadena de procesamiento #2 a la imagen DAIS 7915
Tatras (los resultados de clasificación en cada caso aparecen reflejados en la Tabla 5.7).
aplicar el clasificador y tras aplicar el clasificador con post-procesado espacial. En esta
cadena de procesamiento el módulo de pre-procesado PCA utilizado en la cadena #2 es
reemplazado por un módulo de procesamiento MNF, y de nuevo los resultados
mostrados corresponden a la mejor versión posible del clasificador SVM combinado
con los módulos de pre-procesado MNF y post-procesado espacial. Como puede
comprobarse en la Tabla 5.8, los resultados de clasificación utilizando el módulo MNF
(en lugar del módulo PCA utilizado en la cadena #2) seguido de una clasificación SVM
94
ofrecen resultados sensiblemente superiores a los obtenidos al emplear el módulo PCA
y ligeramente superiores al utilizar el módulo FS utilizado en la cadena #1. Aunque los
resultados mejoran al aplicar la etapa de post-procesado espacial, la mejora no resulta
tan sustancial como en las cadenas #1 y #2, ya que en la cadena #3 la fase de
clasificación espectral proporciona resultados de clasificación muy precisos. Es
importante destacar que los mejores resultados de la fase de clasificación espectral
(previa al post-procesado espacial) se obtienen prácticamente con los 3 casos expuestos
(10, 15 y 20 características), en los cuales se obtiene un resultado de clasificación
cercano al 88% que puede considerase como muy elevado teniendo en cuenta la elevada
complejidad de la imagen. Este hecho indica que la información relevante para la
realización de la clasificación contenida en las 3 pruebas no sufre grandes cambios al
aumentar las bandas o características de 10 a 20.
umero de bandas
Porcentaje
Acierto tras post-
o Características
acierto (%)
procesado (%)
10 características
1024 / 1
87,14
91,92
15 características
128 / 1
88,41
92,14
20 características
32 / 1,2
88,81
92,54
imagen hiperespectral DAIS 7915 Tatras.
Por otra parte, la Tabla 5.8 revela que la fase de post-procesado espacial (aunque
no tan necesaria como en las cadenas de procesamiento anteriormente probadas debido
al hecho de que la clasificación espectral resulta bastante adecuada) también mejora los
resultados, permitiendo obtener un resultado de clasificación superior al 92% para 15 y
20 características. En particular, los experimentos mostrados en la Tabla 5.8 también
revelan que MNF actúa como módulo de pre-procesado de forma más eficiente que
PCA (este aspecto puede comprobarse comparando los resultados de clasificación
mostrados en la Tabla 5.8 para la cadena de procesamiento #3 con los resultados de
clasificación mostrados en la Tabla 5.7 para la cadena de procesamiento #2). Esto se
debe a que PCA realiza una transformación de los datos ordenando las componentes de
mayor a menor varianza, mientras que MNF ordena las componentes resultantes en
95
términos de la relación señal-ruido, que parece adaptarse de forma más adecuada a las
características de los datos hiperespectrales considerados.
10 características
15 características
20 características
10 características
15 características
20 características
Tatras (los resultados de clasificación en cada caso aparecen reflejados en la Tabla 5.8).
Como puede comprobarse visualmente, los resultados sin post-procesado resultan
superiores a los mostrados en la Figura 5.13 para la cadena de procesamiento #2 y a los
mostrados en la Figura 5.12 para la cadena de procesamiento #1. Por otra parte, se
observa cómo los resultados con post-procesado son también ligeramente superiores a
clasificador SVM (ver Figura 5.12), y sensiblemente a los obtenidos al aplicar el
módulo PCA seguido del clasificador SVM (ver Figura 5.13). A partir de los
96
experimentos mostrados en este apartado, concluimos que el módulo MNF es más
adecuado que FS y PCA como paso previo a la clasificación SVM (y, eventualmente, a
la fase de post-procesado) en el proceso de clasificación de la imagen DAIS 7915 Tatras
considerada en los experimentos.
aplicar el clasificador y tras aplicar el clasificador con post-procesado espacial.
Conviene destacar que esta cadena de procesamiento se basa en la aplicación del
módulo MNF seguido de análisis de texturas, por lo que las características en este caso
se presentan en la tabla indicando el número de características MNF seguido del número
de descriptores de texturas empleado en los experimentos. De nuevo, los resultados
mostrados corresponden a la mejor versión posible del clasificador SVM combinado
con los módulos de pre-procesado MNF seguido de análisis de texturas y, finalmente,
post-procesado espacial.
umero de bandas
Porcentaje
Acierto tras post-
o Características
acierto (%)
procesado (%)
5mnf-5text
64 / 1
85,74
88,72
5mnf-10text
32 / 1
87,99
90,33
5mnf-15text
64 / 1
88,6
90,14
10mnf-5text
32 / 1
88,75
92,94
10mnf-10text
32 / 1
90,51
91,58
15mnf-5text
32 / 1
89.66
90,14
Como puede comprobarse en la Tabla 5.9, los mejores resultados de
clasificación en este caso se obtienen para el caso en que se extraen 10 características
MNF y posteriormente se aplican 10 descriptores de texturas sobre dichas
97
características. En este caso, los resultados de clasificación espectral superan el 90%,
mientras que la aplicación de la fase de post-procesado espacial en este caso concreto
elevan el porcentaje de clasificación hasta un 91.58%, sin embargo no supone el mayor
porcentaje de clasificación obtenido hasta el momento para la cadena de procesamiento
#4 con post-procesado espacial (ver Tabla 5.9). Dicho valor máximo se corresponde con
el caso en el que se extraen 10 características MNF y 5 descriptores de texturas, con un
valor alcanzado de casi 93%.
Como puede comprobarse visualmente, los resultados sin post-procesado (mostrados en
las dos primeras filas de la Figura 5.15) mejoran, pero no de forma demasiado notable,
cuando se consideran 10 y 15 componentes MNF frente al caso en que solamente se
utilizan 5 componentes MNF, sobre todo, cuando éste último es combinado con 5
descriptores de texturas. Por otra parte, resulta curioso como para los resultados con
post-procesado espacial (mostrados en las dos últimas filas de la Figura 5.15) el valor
máximo en cuanto a porcentaje de acierto, casi un 93% para el caso con 10
características MNF y 5 descriptores de texturas, no se corresponde con el que obtuvo el
mayor porcentaje de acierto global sin post-procesado, que recordamos, contenía 10
bandas MNF y 10 descriptores de texturas.
A partir de los experimentos mostrados en este apartado, concluimos que el
módulo MNF puede beneficiarse de la aplicación de descriptores de texturas para
mejorar los resultados de clasificación, en particular, de la fase espectral resultante de la
aplicación del clasificador SVM y previa a la aplicación del módulo de post-procesado
espacial. Cuando se aplica dicho post-procesado, los resultados obtenidos son similares
a los obtenidos al aplicar la cadena de procesamiento #3 que no incluye descriptores de
texturas tras aplicar el módulo MNF. Este resultado también indica que la información
espacial asociada a los descriptores de texturas es diferente de la empleada por el
módulo de post-procesado espacial.
98
5mnf-5text
5mnf-10text
5mnf-15text
10mnf-5text
10mnf-10text
15mnf-5text
5mnf-5text
5mnf-10text
5mnf-15text
10mnf-5text
10mnf-10text
15mnf-5text
Figura 5. 15: Imágenes resultantes de aplicar la cadena de procesamiento #4 a la imagen DAIS
7915 Tatras (los resultados de clasificación en cada caso aparecen reflejados en la Tabla 5.9).
99
aplicar el clasificador y tras aplicar el clasificador con post-procesado espacial.
Conviene destacar que esta cadena de procesamiento se basa en la aplicación del
módulo MNF seguido de la incorporación de descriptores morfológicos, constituyendo
ésta la principal diferencia con la cadena de procesamiento #4 en la que se incorporan
descriptores de texturas tras la aplicación del módulo MNF. Las características en este
caso se presentan en la tabla indicando el número de características MNF seguido del
número de operaciones de apertura morfológica (opening) y de cierre morfológico
(closing) empleado en los experimentos. Como en todas las cadenas de procesamiento
anteriormente consideradas, los resultados mostrados en la Tabla 5.10 corresponden a la
mejor versión posible del clasificador SVM combinado con los módulos de preprocesado MNF seguido de análisis morfológico y, finalmente, post-procesado espacial.
umero de bandas
Porcentaje
Acierto tras post-
o Características
acierto (%)
procesado (%)
10mnf-5op-5cl
128 / 1,2
90,45
89,01
10mnf-10op-10cl
32 / 2,4
92,06
89,75
Como puede comprobarse en la Tabla 5.10, la aplicación de operadores
morfológicos con la extracción de 10 características MNF proporciona resultados de
clasificación espectral muy estables, en torno al 91% y, por tanto, muy similares o
superiores a los obtenidos mediante descriptores de texturas en la cadena de
procesamiento #4 (ver Tabla 5.9). Conviene destacar que en este experimento se ha
fijado el número de componentes MNF a 10 dado que en experimentos previos se ha
comprobado que este número de componentes es el que lleva a un mejor compromiso
100
entre los resultados de clasificación obtenidos y el número de características de entrada,
evitando el efecto Hughes en el proceso de clasificación. Una rápida comparativa entre
los resultados mostrados en la Tabla 5.10 para la cadena de procesamiento #5 y los
mostrados en la Tabla 5.9 para la cadena de procesamiento #4 revela que la aplicación
de descriptores morfológicos con carácter posterior al módulo de pre-procesado MNF
ofrece resultados un poco más elevados.
Figura 5. 16:
10mnf-5op-5cl
10mnf-10op-10cl
10mnf-5op-5cl
10mnf-10op-10cl
Imágenes resultantes de aplicar la cadena de procesamiento #5 a la imagen DAIS
7915 Tatras (los resultados de clasificación en cada caso aparecen reflejados en la Tabla 5.10).
clasificadas correspondientes a los experimentos mostrados en la Tabla 5.10 y relativos
a la aplicación de la cadena de procesamiento #5 sobre la imagen DAIS 7915 Tatras.
Observando la Tabla 5.10 puede notarse al instante que los valores de los resultados de
porcentaje de precisión para los datos de post-procesado espacial son menores que para
los resultados sin post-procesado. Éste hecho se comprobó que a pesar de realizar
muchas pruebas con distintos tamaños de ventana espaciales. Por tanto, podríamos
101
afirmar que con estos valores de precisión en la clasificación sin post-procesado, hemos
alcanzado un máximo en cuando a lo que esta cadena de procesamiento podía dar de sí
en lo que a la clasificación de la imagen DAIS 7915 Tatras se refiere. Podemos afirmar
entonces que las técnicas morfológicas aplicadas a la imagen de DAIS 7915 Tatras son
robustas y eficientes, y permiten obtener clases bien definidas sin necesidad de postprocesamiento. Esto podría deberse a que el terreno que recoge esta imagen se
caracteriza por gran diversidad de altitud y elevaciones entre valles y montañas. Esta
diferencia de relieve en la superficie hace que aplicar operadores morfológicos sobre los
datos permita definir con más claridad los distintos tipos de clase para su clasificación.
5.3.2.6 Combinación de resultados de todas las cadenas
Para concluir este experimento, se aplica un sencillo método que toma como entrada los
mapas temáticos finales obtenidos para cada una de las 5 cadenas de procesamiento
anteriormente mencionadas y asigna una etiqueta para cada píxel de la imagen
utilizando un proceso de la etiqueta mayoritaria o majority voting utilizado ampliamente
en la literatura. En este sentido, la etiqueta final asignada a cada píxel consiste en la
etiqueta mayoritaria en cada caso tras comparar los resultados obtenidos por las 5
cadenas de procesamiento anteriormente descritas para dicho píxel en concreto. El
resultado es una nueva clasificación que contiene, para cada píxel, la etiqueta más
mayoritaria tras aplicar las distintas cadenas de procesamiento. Esta técnica simple, que
pretende integrar o fusionar los resultados obtenidos por las diferentes cadenas
probadas, tiene la ventaja de ser muy rápido y sencillo ya que únicamente trabaja con
los mapas temáticos y no con la información contenida en la imagen original, la cual ya
ha sido caracterizada de distintas formas mediante las diferentes cadenas de
procesamiento aplicadas. La Figura 5.17 muestra el resultado obtenido por dicho
clasificador tras la fase espectral (sin post-procesado) y al final del proceso completo,
aplicando post-procesado espacial. Es importante destacar que el proceso de
combinación de etiquetas descrito anteriormente puede aplicarse antes y después del
post-procesado, de ahí que la Figura 5.17 muestre los resultados en ambos casos.
método combinado
método combinado
102
Figura 5. 17: Imágenes resultantes de aplicar la cadena un método combinado que integra los
resultados obtenidos por las 5 cadenas de procesamiento consideradas aplicando una regla basada
en majority voting a cada píxel de la imagen DAIS 7915 Tatras.
Como puede apreciarse visualmente en la Figura 5.17, los resultados obtenidos
para el clasificador combinado en la fase espectral (sin post-procesado) no son mejores
que los obtenidos individualmente por cualquiera de las cadenas de procesamiento,
obteniéndose un porcentaje de acierto en la clasificación del 83,07% en este caso, el
cual es menor que algunos de los resultados de clasificación estrictamente espectral
obtenido en, por ejemplo, las cadenas de procesamiento #3, #4 y #5. Sin embargo, los
resultados obtenidos para el clasificador combinado tras la etapa de post-procesado
espacial (porcentaje de acierto en la clasificación del 92.71% en este caso) si que
supone una mejora a algunos de los resultados de clasificación obtenidos por algunas de
las cadenas de procesamiento con post-procesado, exceptuando la cadena #3. Los
resultados obtenidos por el clasificador combinado indican en la mayoria de los casos
que la regla de majority voting puede resultar muy adecuada para combinar los
resultados obtenidos por diferentes cadenas de procesamiento de forma rápida, sencilla
e imparcial. Sin embargo, los resultados obtenidos con la imagen DAIS 7915 Tatras,
una imagen, como hemos visto más difícil de analizar en la comunidad de análisis
hiperespectral debido a su complejidad, más incluso que la anterior imagen procesada,
AVIRIS Indian Pines, ofrece mejores resultados en el porcentaje de acierto en los mapas
temáticos elaborados por algunas de las cadenas de procesamiento.
103
5.4. Discusión global de resultados
Una vez analizados por separado los resultados obtenidos para las imágenes AVIRIS
Indian Pines y DAIS 7915 Tatras, procedemos a discutir de forma global los resultados
obtenidos con ambas imágenes con idea de ofrecer una perspectiva general acerca del
funcionamiento de las cadenas de procesamiento analizadas en diferentes tipos de
aplicaciones. A partir de los resultados obtenidos, se pueden efectuar las siguientes
observaciones generales, las cuales derivan en una serie de recomendaciones específicas
a la hora de utilizar cada una de las cadenas de procesamiento.
Con respecto a la cadena de procesamiento #1, los resultados obtenidos para las
imágenes AVIRIS Indian Pines y DAIS 7915 Tatras indican que el módulo FS
utilizando para extracción de características de forma previa a la aplicación del
clasificador SVM no resulta tan efectivo como otras aproximaciones utilizadas en la
etapa de pre-procesamiento en otras cadenas. En particular, los descriptores
morfológicos o relacionados con texturas parecen más efectivos que el módulo FS
aplicado en esta cadena como operador de pre-procesado. Por otra parte, los resultados
obtenidos para esta cadena de procesamiento con ambas imágenes hiperespectrales
indican que la etapa de post-procesado espacial mejora sensiblemente los resultados de
clasificación obtenidos por esta cadena, incrementando el porcentaje de acierto de
manera notable. Por ejemplo, el mejor resultado de clasificación obtenido con esta
cadena para la imagen AVIRIS Indian Pines es de 84.88% (sin post-procesado), el cual
se incrementa hasta un 94.64% al aplicar la fase de post-procesado. Para la imagen
DAIS 7915 Tatras, el mejor resultado obtenido sin post-procesado es del 80.73%, el
cual se incrementa hasta un 90.87% tras aplicar el post-procesado espacial. Por tanto,
nuestra recomendación específica a la hora de utilizar esta cadena de procesamiento
consiste en aplicar en cualquier caso la etapa de post-procesado espacial, teniendo
presente que dicha etapa puede mejorar notablemente los resultados proporcionados por
el clasificador SVM aplicado a las características extraídas a partir de la imagen original
mediante el módulo FS.
imágenes AVIRIS Indian Pines y DAIS 7915 Tatras indican que el módulo PCA
utilizado como pre-procesado de forma previa a la aplicación del clasificador SVM
empeora ligeramente los resultados obtenidos tras aplicar el módulo FS de la cadena de
104
procesamiento #1 para la misma tarea. Al mismo tiempo, PCA ofrece peores resultados
que el módulo MNF que se incorpora como módulo base para el pre-procesado en la
cadena de procesamiento #3. Este hecho se debe a que la transformación PCA ordena
las componentes obtenidas tras la transformación atendiendo a un criterio de mayor a
menor varianza, mientras que la transformación MNF utiliza un criterio basado en la
relación señal-ruido que se adapta mejor a las características de las imágenes
hiperespectrales (gran dimensionalidad y complejidad en cuanto al número de
componentes espectrales). Por ejemplo, el mejor resultado de clasificación obtenido con
esta cadena para la imagen AVIRIS Indian Pines es de 80.99% sin post-procesado
(inferior al 84.88% obtenido en las mismas condiciones por la cadena de procesamiento
#1), el cual se incrementa hasta un 93.81% al aplicar la fase de post-procesado (similar
al 94.64% obtenido por la cadena de procesamiento #1 en las mismas condiciones). Para
la imagen DAIS 7915 Tatras, el mejor resultado obtenido sin post-procesado es del
75.99% (inferior al 80.73% obtenido por la cadena de procesamiento #1 en las mismas
condiciones), el cual se incrementa hasta un 84.11% tras aplicar el post-procesado
espacial (resultado todavía inferior al 90.87% obtenido por la cadena de procesamiento
#1). A la vista de estos resultados, parece que la utilización de PCA como módulo de
pre-procesado presenta más inconvenientes que ventajas en comparación con otras
aproximaciones utilizadas en otras cadenas, si bien es cierto que la fase de postprocesado espacial sigue resultando fundamental a la hora de obtener un resultado
aceptable por parte de esta cadena. Sin embargo, los resultados con la imagen DAIS
7915 Tatras revelan una observación interesante, y es el hecho de que el post-procesado
espacial no siempre mejora significativamente los resultados obtenidos. Esto indica que
el módulo PCA no solamente ofrece resultados inferiores al resto de módulos de preprocesado considerados, sino que además también revela que la utilización de dicho
módulo no garantiza que la fase de post-procesado espacial pueda mejorar
considerablemente los resultados obtenidos por el clasificador SVM.
imágenes AVIRIS Indian Pines y DAIS 7915 Tatras indican que el módulo MNF
utilizado como pre-procesado de forma previa a la aplicación del clasificador SVM
mejora sustancialmente los resultados obtenidos tras aplicar el módulo FS de la cadena
de procesamiento #1 y el módulo PCA de la cadena de procesamiento #2 para la misma
tarea. Centrando la comparativa en el módulo PCA, destacamos que el mejor resultado
105
de clasificación obtenido con la cadena de procesamiento #3 para la imagen AVIRIS
Indian Pines es de 91.21% sin post-procesado (frente al 80.99% obtenido en las mismas
condiciones por la cadena de procesamiento #2), el cual se incrementa hasta un 95.09%
al aplicar la fase de post-procesado (similar al 93.81% obtenido por la cadena de
procesamiento #2 en las mismas condiciones). Para la imagen DAIS 7915 Tatras, el
mejor resultado obtenido sin post-procesado es del 88.81% (muy superior al 75.99%
obtenido por la cadena de procesamiento #2 en las mismas condiciones), el cual se
incrementa hasta un 92.54% tras aplicar el post-procesado espacial (el cual sigue siendo
muy superior al 84.11% obtenido en las mismas condiciones por la cadena de
procesamiento #2). A la vista de estos resultados, es claro que MNF mejora no
solamente a PCA sino también a FS como módulo de pre-procesado previo a la
aplicación del clasificador SVM. Además, la utilización de MNF garantiza (al menos en
los experimentos realizados) la obtención de resultados de clasificación SVM que
pueden ser sustancialmente mejorados tras la aplicación de una etapa de post-procesado
espacial. Esto indica que MNF resulta una alternativa altamente interesante a la hora de
pre-procesar imágenes hiperespectrales reduciendo su dimensionalidad, como queda
patente tras analizar en detalle los buenos resultados obtenidos por la cadena de
procesamiento #3 con las dos imágenes hiperespectrales consideradas en nuestro
estudio.
imágenes AVIRIS Indian Pines y DAIS 7915 Tatras indican que la utilización de
descriptores de texturas en la fase de pre-procesado de forma previa a la aplicación del
clasificador SVM ofrece resultados ligeramente superiores a los proporcionados tras
aplicar únicamente el módulo MNF de la cadena de procesamiento #3 para la misma
tarea. Conviene recordar que los descriptores de texturas son descriptores espaciales que
se aplican a cada una de las componentes resultantes de una transformación MNF
previa. Por tanto, dichos descriptores de texturas integran la información espectral y la
información espacial en la etapa de pre-procesado. Centrando la comparativa en el caso
en el que solamente se aplica la transformación espectral MNF en la etapa de preprocesado, destacamos que el mejor resultado de clasificación obtenido con la cadena
de procesamiento #4 para la imagen AVIRIS Indian Pines es de 91.50% sin postprocesado (ligeramente superior al 91.21% obtenido en las mismas condiciones por la
cadena de procesamiento #3), el cual se incrementa hasta un 96.32% al aplicar la fase de
106
post-procesado (superior al 95.09% obtenido por la cadena de procesamiento #3 en las
mismas condiciones). Para la imagen DAIS 7915 Tatras, el mejor resultado obtenido sin
post-procesado es de 90.51% sin post-procesado (superior al 88.81% obtenido en las
mismas condiciones por la cadena de procesamiento #3), el cual se incrementa hasta un
91.58% al aplicar la fase de post-procesado (sólo ligeramente inferior al 92.54%
obtenido por la cadena de procesamiento #3 en las mismas condiciones). A la vista de
estos resultados, podemos concluir que los descriptores de texturas resultan todavía más
apropiados en la fase de pre-procesado que la transformación MNF empleada en la
cadena de procesamiento #3, y sensiblemente superiores a otros módulos
implementados en otras cadenas de procesamiento tales como FS (cadena de
procesamiento #1) y PCA (cadena de procesamiento #2). El principal motivo de este
superior comportamiento de los descriptores de texturas es la consideración simultánea
de la información espacial y espectral, ya que cada descriptor de texturas (operador
espacial) se aplica a las diferentes componentes resultantes de una transformación MNF.
Por tanto, a la vista de los resultados obtenidos concluimos que los descriptor de
texturas ofrecen una solución muy atractiva para la etapa de pre-procesado ya que
integran de forma efectiva la información espacial y la espectral. Por el contrario, los
resultados indican que, tras la aplicación de descriptor de texturas de forma previa a la
clasificación SVM, la etapa de post-procesado orientada a refinar dichos resultados de
clasificación incrementa de forma significativa la precisión de la clasificación final. En
nuestro caso, el incremento tras aplicar la etapa de post-procesado en la imagen AVIRIS
Indian Pines va de un 91.50% a un 96.32% (el mejor resultado observado en nuestros
experimentos), mientras que el incremento tras aplicar la etapa de post-procesado en la
imagen DAIS 7915 Tatras va de un 90,51% al 91.58% resultando en ambos casos
significativo. Este hecho revela que la incorporación de información espacial en la etapa
de pre-procesado no penaliza la posibilidad de refinar aún más los resultados obtenidos
por el clasificador SVM en la etapa de post-procesado.
imágenes AVIRIS Indian Pines y DAIS 7915 Tatras indican que la utilización de
descriptores morfológicos en la fase de pre-procesado de forma previa a la aplicación
del clasificador SVM ofrece resultados similares a los proporcionados tras aplicar
descriptores de texturas (cadena de procesamiento #4) para la misma tarea. Conviene
recordar que los operadores morfológicos son descriptores espaciales que se aplican a
107
cada una de las componentes resultantes de una transformación MNF previa. Por tanto,
dichos descriptores morfológicos (al igual que los descriptores de texturas) integran la
información espectral y la información espacial en la etapa de pre-procesado. Centrando
la comparativa con dichos operadores, destacamos que el mejor resultado de
clasificación obtenido con la cadena de procesamiento #5 para la imagen AVIRIS
Indian Pines es de 91.43% sin post-procesado (muy similar al 91.50% obtenido en las
mismas condiciones por la cadena de procesamiento #4), el cual se incrementa hasta un
96.02% al aplicar la fase de post-procesado (también muy similar al 96.32% obtenido
por la cadena de procesamiento #4 en las mismas condiciones). Para la imagen DAIS
7915 Tatras, el mejor resultado obtenido sin post-procesado es de 92,06% sin postprocesado (ligeramente superior al 90.51% obtenido en las mismas condiciones por la
cadena de procesamiento #4). Sin embargo, en este caso al aplicar la fase de postprocesado el resultado de clasificación desciende en términos de precisión hasta un
89.75% al aplicar la fase de post-procesado (inferior al resultado por encima del 90%
obtenido por la cadena de procesamiento #4 en las mismas condiciones). A la vista de
estos resultados, podemos concluir que los descriptores morfológicos ofrecen una
alternativa similar a los descriptores de texturas en la fase de pre-procesado, ofreciendo
resultados superiores a los proporcionados por la transformación MNF empleada en la
cadena de procesamiento #3, y sensiblemente superiores a otros módulos
implementados en otras cadenas de procesamiento tales como FS (cadena de
procesamiento #1) y PCA (cadena de procesamiento #2). De nuevo, la principal razón
de este comportamiento es la consideración simultánea de la información espacial y
espectral, ya que cada descriptor morfológico(operador espacial) se aplica a las
diferentes componentes resultantes de una transformación MNF. Sin embargo, los
resultados obtenidos también indican que, tras la aplicación de descriptores de
morfológicos como paso previo a la clasificación SVM, la etapa de post-procesado
orientada a refinar dichos resultados de clasificación no siempre incrementa de forma
significativa la precisión de la clasificación final. En nuestro caso, el incremento tras
aplicar la etapa de post-procesado en la imagen AVIRIS Indian Pines va de un 91.43% a
un 96.02% (el cual resulta significativo), mientras que la aplicación de la etapa de postprocesado en la imagen DAIS 7915 Tatras reduce la precisión en la clasificación
obtenida de un 92.06% a un 89.75%, lo cual revela que la incorporación de información
espacial en la etapa de pre-procesado puede llegar a penalizar la posibilidad de refinar
108
los resultados obtenidos por el clasificador SVM en la etapa de post-procesado, en
particular, en escenarios de clasificación altamente complejos como el que viene dado
por la imagen DAIS 7915 sobre la región de Tatras. Por tanto, a partir de los resultados
obtenidos concluimos que los descriptores de texturas parecen proporcionar resultados
ligeramente más estables en diferentes escenarios de análisis que los descriptores
morfológicos, si bien es cierto que ambos tipos de descriptores ofrecen resultados
similares.
A partir de los comentarios anteriormente desarrollados, parece claro que la cadena
de procesamiento #4 (pre-procesado mediante descriptores de texturas, clasificación
mediante SVM y post-procesado espacial) ofrece los mejores resultados en conjunto (es
decir, al considerar los dos escenarios de clasificación considerados en nuestros
experimentos). Aunque la evaluación de las diferentes cadenas de procesamiento
consideradas en escenarios adicionales resultaría altamente beneficiosa, conviene
destacar que dicho análisis resulta dificultoso dada la escasez de imágenes
hiperespectrales públicamente disponibles con información verdad-terreno de calidad
(tal como la disponible para las imágenes AVIRIS Indian Pines y DAIS 7915 Tatras).
No obstante, el estudio realizado en el presente proyecto se considera altamente
relevante y novedoso, ya que las imágenes consideradas son altamente representativas
de escenarios de clasificación muy difíciles, y los resultados obtenidos para algunas de
las cadenas consideradas llegan a superar a otros resultados mostrados en la literatura
especializada en análisis de imágenes hiperespectrales. En este sentido, se considera que
los resultados del presente proyecto así como las recomendaciones concretas
enumeradas en el presente apartado tienen gran potencial para constituir el núcleo de
futuras publicaciones de relevancia en la literatura especializada dedicada al análisis y
clasificación de imágenes hiperespectrales.
109
6. Conclusiones y líneas futuras de trabajo
6.1. Conclusiones
En el presente trabajo se ha desarrollado un detallado análisis cuantitativo y
comparativo de diferentes cadenas de procesamiento para el análisis y clasificación de
imágenes hiperespectrales. Las cadenas de procesamiento consideradas se basan en la
combinación de diferentes módulos de pre-procesado (FS, PCA, MNF, descriptores
morfológicos y descriptores de texturas) los cuales se aplican de forma previa a un
clasificador altamente consolidado en aplicaciones de análisis hiperespectral (SVM) y
en las que, como paso final de cada cadena, se aplica una etapa de post-procesado
espacial para refinar los resultados de clasificación proporcionados por el método SVM
tras la etapa de pre-procesado. En este sentido, las diferentes estrategias consideradas
cubren un rango de técnicas altamente representativas del estado del arte en análisis de
datos hiperespectrales, incluyendo técnicas puramente espectrales como PCA y MNF
para la etapa de pre-procesado, frente a estrategias más sofisticadas (capaces de integrar
tanto la información espacial como espectral en dicha etapa) incluyendo descriptores
morfológicos y de texturas, todo ello combinado con clasificadores avanzados capaces
de funcionar de forma muy precisa ante datos altamente dimensionales y en presencia
de conjuntos de entrenamiento con un número de patrones muy limitado (tales como el
clasificador SVM). Dicho estudio se ha efectuado utilizando dos imágenes
hiperespectrales altamente representativas (AVIRIS Indian Pines y DAIS 7915 Tatras)
lo cual ha posibilitado un estudio detallado de diferentes cadenas de procesamiento
basadas en los clasificadores y técnicas de pre- y post-procesado anteriormente
mencionados con dos imágenes de referencia en la comunidad científica. Conviene
destacar que el estudio realizado incluye aspectos de gran interés, tales como el impacto
de utilizar técnicas de reducción dimensional (MNF y PCA) así como técnicas
espaciales-espectrales (morfología matemática y análisis de texturas) en los resultados
proporcionados por el clasificador SVM utilizado como referencia en el presente
estudio. En este sentido, conviene destacar que en la literatura no existe tal estudio
comparativo hasta la fecha, por lo que la variedad de resultados obtenidos y las
interesantes conclusiones que su análisis ha dado lugar pueden representar una
contribución de gran valor a la literatura existente en cuanto a clasificación de datos
110
hiperespectrales y, en particular, en el caso concreto de disponer de un conjunto
limitado de datos de entrenamiento, lo cual suele ser la situación habitual en
aplicaciones reales dada la gran dificultad y elevado coste de obtener información de
referencia a priori mediante estudios de campo.
6.2. Líneas futuras
En cuanto a las futuras líneas de trabajo derivadas del presente proyecto, podemos
realizar las siguientes consideraciones. En primer lugar, en futuros estudios sería
conveniente aumentar el número de clasificadores considerados, ampliando el rango de
técnicas a otras aproximaciones como clasificadores neuronales, técnicas basadas en
máxima verosimilitud, etc. En este sentido, es importante destacar que el clasificador
SVM es el más ampliamente utilizado en la literatura de análisis hiperespectral debido a
su adecuado funcionamiento en presencia de un número limitado de patrones de
entrenamiento, por lo que en el presente estudio se ha optado por utilizar dicho
clasificador como base siguiendo las tendencias actuales del estado del arte en cuanto a
análisis y clasificación de imágenes hiperespectrales, si bien es cierto que la
consideración de técnicas de clasificación adicionales (no solamente supervisadas sino
también no supervisadas) podría aumentar la relevancia e impacto del presente estudio
en la comunidad científica. Además, el uso de clasificadores capaces de incorporar la
información espacial y espectral de forma simultánea (aspecto que se ha considerado en
el presente estudio en la fase de pre-procesado) también resultaría una incorporación
relevante a la comparativa presentada, por ejemplo incluyendo arquitecturas SVM con
otros tipos de kernels (por ejemplo, espaciales-espectrales) la cual podría dar como
resultado una mejor modelización de clases con elevada correlación espacial, como por
ejemplo las clases de la imagen DAIS 7915 sobre la región de Tatras, para las cuales
consideramos que los resultados de clasificación pueden todavía ser mejorados. Por otra
parte, la eliminación de bandas ruidosas adicionales podría permitir llegar a conseguir
mejores resultados de clasificación, ya que en nuestros experimentos se ha observado
que el ruido tiene la capacidad de empeorar sensiblemente los porcentajes de
clasificación.
Finalmente, proponemos como línea futura de trabajo la paralelización de los
métodos de clasificación empleados en el presente estudio en arquitecturas de altas
111
prestaciones, lo cual podría permitir obtener una significativa disminución del tiempo
de procesamiento empleado, ya que las pruebas realizadas en este documento han sido
realizadas en todo momento con arquitecturas mono-procesador. Si la misma tarea se
puede dividir entre varios procesadores, el tiempo necesario para completarlas será
menor, a pesar de que el tiempo computacional no ha constituido un parámetro de
estudio en el presente documento. En este sentido, la paralelización de los métodos
desarrollados puede constituir un interesante futuro trabajo de investigación.
112
7. Referencias
[1] Plaza, A. Mueller, T. Skauli, Z. Malenovsky, J. Bioucas, S. Hofer, J. Chanussot, .
Carrere, I. Baarstad, J. Nieke, T. Hyvarinen, P. Gamba, J. A. Benediktsson, M. E.
chaepman and B. Zagajewski. “HYPER-I-NET: European Research Network on
Hyperspectral Imaging”, IEEE International Geoscience and Remote Sensing
Symposium (IGARSS'07), Barcelona, Spain, 2007
[2] Gamba P., Plaza A., Benediktsson J. A. and Chanussot. J. , ”European Perspectives
in
hyperspectral Data Analysis”, IEEE International Geoscience and Remote
Sensing Symposium (IGARSS'07), Barcelona, Spain, 2007
[3] Chuvieco, E. Fundamentos de Teledetección Espacial. Ediciones Rialp, 1999.
[4] Landgrebe, D., “Hyperspectral Image Data Analysis”, IEEE Signal Processing
Magazine, vol. 19, no. 1, pp. 17-28, 2002.
[5] Clark, R.N. “Spectroscopy of Rocks and Minerals, and Principles of Spectroscopy”.
Capítulo 1 en Manual of Remote Sensing, John Wiley and Sons, New York, 1999a.
[6] Boardman, J.W., Kruse, F.A., Green, R.O., “Mapping target signatures via partial
unmixing of AVIRIS data”, Summaries of the VI JPL Airborne Earth Science
Workshop, 1995.
[7] Hsieh, P.-F., Landgrebe, D., “Classification of High Dimensional Data.” Tesis
Doctoral, School of Electrical and Computer Engineering, Purdue University, 1998.
[8] Green, R.O. y col., “Imaging Spectroscopy and the Airborne Visible/Infrared
Imaging Spectrometer (AVIRIS)”, Remote Sensing of Environment, vol. 65, pp.
227-248, 1998.
[9] Kruse, F., “The Effects of Spatial Resolution, Spectral Resolution, and Signal-toNoise Ratio on Geologic Mapping Using Hyperspectral Data, Northern Grapevine
Mountains, Nevada”, en Proc. IX ASA/JPL Airborne Earth Science Workshop,
Pasadena, CA, 2000.
[10] Warner, A., Blonski, S., Davis, B., Gasser, G., Ryan, R., Zanoni, V., “An Approach
to Application Validation of Multispectral Sensors Using AVIRIS”, en Proc. X
ASA/JPL Airborne Earth Science Workshop, Pasadena, CA, 2001.
113
[11] Kalman, L.S., Pelzer, G.R., “Simulation of Landsat Thematic Mapper Imagery
Using AVIRIS Hyperspectral Imagery”, en Proc. ASA/JPL Airborne Earth
Science Workshop, Pasadena, CA, 1993.
[12] Legleiter, C.J., Marcus, W.A., Lawrence, R.L., “Effects of Sensor Resolution on
Mapping In-Stream Habitats”, Photogrammetric Engineering and Remote Sensing,
vol. 68, no. 8, 2002.
[13] Green, R.O. y Pavri, B., “AVIRIS In-Flight Calibration Experiment, Sensitivity
Analysis, and Intraflight Stability”, en Proc. IX ASA/JPL Airborne Earth Science
Workshop, Pasadena, CA, 2000.
[14]
Chang, S., Westfield, M.J., Lehmann, F., Oertel, D., Richter, R., “A 79 -
Channel Airborne Imaging Spectrometer”, en Proc. SPIE, vol. 1937, pp. 164 - 172,
1993.
[15]
Strub, G., Beisl, U., Schaepman, M., Schläpfer, D., Dickerhof, C., Itten, K.I.,
"Evaluation of Diurnal Hyperspectral BRF Data Acquired with the RSL Field
Goniometer During the DAISEX'99 Campaign”, en: Proc. 2nd Intl. EARSeL
Workshop on Imaging Spectroscopy, Enschede, 2000.
[16]
Müller, A., Hausold, A., Strobl, P., "HySens – DAIS / ROSIS Imaging
Spectrometers at DLR", En: Proc. SPIE Image and Signal Processing for Remote
Sensing VII, Toulouse, France, 2001.
[17]
Strobl, P., Müller, A., Schläpfer, D., Schaepman, M., "Laboratory Calibration
and Inflight Validation of the Digital Airborne Imaging Spectrometer DAIS 7915
for the 1996 Flight Season", en: Proc. SPIE Algorithms for Multispectral and
Hyperspectral Imagery III, vol. 3071, pp. 225-235, 1997.
[18]
Shaw, G., Manolakis, D. “Signal processing for hyperspectral image
exploitation”. IEEE Signal Processing Magazine, vol. 19, pp. 12-16, 2002.
[19]
Stein, D.W., Beaven, S.G., Hoff, L.E., Winter, E.M., Schaum, A.P., Stocker,
A.D., “Anomaly Detection from Hyperspectral Imagery”. IEEE Signal Processing
Magazine, vol. 19, pp. 58-69, 2002.
[20]
Plaza, P. Gamba, K. Bakos, B. Waske, J. B. Diaz, “HYPERINET_D4.1 –
Processing Chain Definition Report”, Enero, 2008 (http://www.hyperinet.eu).
[21]
Plaza, P. Gamba, K. Bakos, B. Waske, “HYPERINET_D4.2 – Processing Chain
Implementation Report “, Enero, 2009(http://www.hyperinet.eu).
[22]
114
Chang, C.-I, Ren, H., “An Experiment-Based Quantitative and Comparative
Analysis of Target Detection and
Image Classification Algorithms for
Hyperspectral Imagery”. IEEE Transactions on Geoscience and Remote Sensing,
vol. 38, no. 2, pp. 1044- 1063, 2000.
[23]
Chen, J.M., “Spatial Scaling of a Remotely Sensed Surface Parameter by
Contexture”. Remote Sensing of Environment, vol. 69, pp. 30-42, 1999.
[24]
Stehman, S.V., “Selecting and Interpreting Measures of Thematic Classification
Accuracy”. Remote Sensing of Environment, vol. 62, pp. 77-89, 1997.
[25]
Chiang, S.-S., Chang, C.-I., Ginsberg, I.W., “Unsupervised target detection in
hyperspectral images using projection pursuit”. IEEE Transactions on Geoscience
and Remote Sensing, vol. 39, pp. 1380-1391, 2001.
[26]
Manolakis, D., Shaw, G., “Detection algorithms for hyperspectral imaging
applications”. IEEE Signal Processing Magazine, vol. 19, pp. 29-43, 2002.
[27]
Keshava, N., Mustard, J.F., “Spectral unmixing”. IEEE Signal Processing
Magazine, vol. 19, pp. 44-57, 2002.
[28]
Theiler, J., Gisler, G., “A contiguity-enhanced k-means clustering algorithm for
unsupervised multispectral image segmentation”, en: Proc. SPIE, vol. 3159, pp.
108-118, 1997.
[29]
Richards, J. A., Remote Sensing Digital Image Analysis: An Introduction.
Springer-Verlag, Berlin, 1993.
[30]
Sweet, J., Granaham, J., Sharp, M., “An Objective Standard for Hyperspectral
Image Quality”, en: Proc. IX ASA/JPL Airborne Earth Science Workshop,
Pasadena, CA, 2000.
[31]
Rellier, G., Descombes, X., Zerubia, J., “Local registration and deformation of a
road cartographic database on a SPOT satellite image”. Pattern Recognition, vol.
35, pp. 2213-2221, 2002.
[32]
Madhok, V., Landgrebe, D., Spectral-Spatial Analysis of Remote Sensing Data:
An Image Model and A Procedural Design. Tesis Doctoral, School of Electrical
Engineering and Computer Science, Purdue University, 1998.
[33]
Tadjudin, S., Landgrebe, D., Classification of High Dimensional Data with
Limited Training Samples. Tesis Doctoral, School of Electrical Engineering and
Computer Science, Purdue University, 1998.
[34]
115
Naesset, E., “Predicting forest stand characteristics with airborne scanning laser
using a practical two-stage procedure and field data”. Remote Sensing of
Environment, vol. 80, pp. 88-99, 2002.
[35]
Vaughan, R.G., Calvin, W.M., Taranik, J., “Analysis of Sub-Pixel Mixing in
High_Altitude AVIRIS Data Over Virginia City, Nevada, Using Systematic FieldBased Observations”, en: Proc. XI ASA/JPL Airborne Earth Science Workshop,
Pasadena, CA, 2001.
[36]
Congalton, R.G., “Considerations and Techniques for Assessing the Accuracy
of Remotely Sensed Data”, en: Proc. International Geoscience and Remote Sensing
Symposium IGARSS, vol. 3, pp. 1847-1850, 1989.
[37]
Stehman, S.V., “Practical Implications of Design-Based Sampling Inference for
Thematic Map Accuracy Assessment”. Remote Sensing of Environment, vol. 72, pp.
35-45, 2000.
[38]
Steele, B.M., Winne, J.C., Redmond, R.L., “Estimation and Mapping of
Misclassification Probabilities for Thematic Land Cover Maps”,Remote Sensing of
Environment, vol. 66, pp. 192-202, 1998.
[39]
Jäger, G., Benz, U., “Measures of classification accuracy based on fuzzy
similarity”. IEEE Transactions on Geoscience and Remote Sensing, vol. 38, no. 2,
pp. 1462-1467, 2000.
[40]
Hughes G. F., “On The Mean Accuracy Of Statistical Pattern Recognizers”,
IEEE Trans.Infor. Theory, Vol. IT-14, 1968
[41]
Fukunaga K., “Introduction to Statistical Pattern Recognition” Publicado por
Academic Press, 1990.
[42]
Kaarna A., Zemcik P., Kalviainen H., Parkkinen J., “Compression of
multispectral remote sensing images using clustering and spectral reduction”, IEEE
Transactions on Geoscience and Remote Sensing, vol. 38, 2000.
[43]
Chang, C.-I, Du, Q., Sun, T., Althouse, L.G., “A Joint Band Prioritization and
Band-Decorrelation Approach to Band Selection for Hyperspectral Image
Classification”, IEEE Transactions on Geoscience Remote Sensing, vol. 37, no.6,
pp.2631-2641, 1999b.
[44]
Qian, S.-E y col., “Vector quantization using spectral index-based multiple
subcodebooks for hyperspectral data compression”. IEEE Transactions on
Geoscience and Remote Sensing, vol. 38, pp. 1183 –1190, 2000.
[45]
116
Plaza A., Chang, C.-I, High Performance Computing in Remote Sensing, CRC
Press, 2007.
[46]
Ifarraguerri, A., Chang, C.-I, "Multispectral and hyperspectral image analysis
with projection pursuit," IEEE Transactions on Geoscience and Remote Sensing,
vol. 38, pp. 2529-2538, 2000.
[47]
Subramanian, S., Gat, N., Ratcliff, A., Eismann, M., “Hyperspectral Data
Reduction Using Principal Components Transformation”, en Proc. X ASA/JPL
Airborne Earth Science Workshop, 2000.
[48]
Lee, J., Woodyatt, A., Bergman, M., “Enhancement of high spectral resolution
remote sensing data by noise adjusted principal components transform”. IEEE
Transactions on Geoscience and Remote Sensing, vol. 28, pp. 295–304, 1990.
[49]
Green, A.A., Berman, M., Switzer, P., Craig, M.D., “A transformation for
ordering multispectral data in terms of image quality with implications for noise
removal”. IEEE Transactions on Geoscience and Remote Sensing, vol. 26, pp. 6574, 1988.
[50]
Curran, P.J. Dungan, J.L., “Estimation of Signal-to-Noise: A New Procedure
Applied to AVIRIS Data”, IEEE Transactions on Geoscience and Remote Sensing,
vol. 27, pp. 620-628, 1989.
[51]
Gordon, C., “A Generalization of the Maximum Noise Fraction Transform”.
IEEE Transactions on Geoscience and Remote Sensing, vol. 38, pp. 612–615, 2000.
[52]
Stearns, S.,, “On selecting features for pattern classifiers”, Proc. of the 3rd
Intern. Conference on Pattern Recognition, pp. 71–75, 1976.
[53]
Devijver, P. A. and Kittler, J., “Pattern Recognition: A Statistical Approach”,
Prentice-Hall, 1982.
[54]
Jain, A. and Zongker, D., “Feature selection: evaluation, application and small
sample performance”, IEEE Trans. Pattern Analysis and Machine Intelligence
19(2), pp.153–158, 1997.
[55]
Pudil, P., Novovicova, J. and Kittler, J., “Floating search methods in feature
selection”, Pattern Recognition Letters 15, pp. 1119–1125, 1994.
[56]
Trianni, G. “Techniques for fusion of remotely sensed data over urban
environments”, Phd Thesis, pp. 76-104 2007.
[57]
Pratt, WK, Digital Image Processing, Second edition. New York: Wiley, 1991.
[58]
117
Haralick, R.M., Shapiro, L.G., Computer and Robot Vision, Volume I. Addison-
Wesley, 1992.
[59]
Katkovnik, V., Shmulevich, I., “Kernel density estimation with adaptive
varying window size”. Pattern Recognition Letters, vol. 23, pp. 1641 –1648, 2002.
[60]
Ramponi, G., “Contrast enhancement in images via the product of linear
filters”, Signal Processing, vol. 77, pp. 349-353, 1999.
[61]
Serra, J., Image Analysis and Mathematical Morphology. Academic Press
Limited. 1982.
[62]
Serra, J., Image Analysis and Mathematical Morphology, Volume 1. Academic
Press, London, 1993.
[63]
Sternberg, S.R., “Greyscale Morphology”, Computer Vision Graphics and
Image Processing, vol. pp.283-305, 1986.
[64]
Haralick R.M., Shanmugam K. and Dinstein I., “Texture Features for Image
Classification,” IEEE Trans. Systems, Man, and Cybernetics, vol. 3, no. 6, pp. 610621, 1973.
[65]
C. H. Chen, L. F. Pau, P. S. P. Wang, “The Handbook of Pattern Recognition
and Computer Vision (2nd Edition)”, World Scientific Publishing Co., pp. 207-248,
1998.
[66]
Benediktsson J.A. and Arnason K., ’Classification and feature extraction of
aviris data’, IEEE Trans. on Geoscience and Remote Sensing, vol.33, pp.
1194:1205, 1995.
[67]
Vapnik V. , Statistical learning theory, Wiley, New York, 1998.
[68]
Gualtieri J.A. and Chettri S., Support vector machines for classification of
hyperspectral data, Proc. IEEE International Geoscience and Remote Sensing
Symposium, volume 2. IGARSS ’00. Proceedings, July 2000.
[69]
Cortes C. and Vapnik V., “Support vector networks”. Machine Learning, 20:1-
25, 1995.
[70]
Schölkopf B., Smola A., “Advances in kernel methods: Support vector
learning”, 1999.
[71]
Boser B. E., Guyon I. M., and Vapnik V. N.. “A training algorithm for optimal
margin classifiers”, In D. Haussler, editor, 5th Annual ACM Workshop on COLT,
pages 144-152, Pittsburgh, PA, 1992. ACM Press.
[72]
118
Muller K. R., Mika S., Ratsch G., Tsuda K., Schölkopf B., “An introduction to
kernel-based learning algorithms”. IEEE Transactions on eural etworks, vol 12,
2001.
[73]
Mercier G. and Lennon M. ,“Support Vector Machines for Hyperspectral Image
Classification with Spectral-Based Kernels”, in IGARSS, 2003.
[74]
Foody G. M., “RVM-based multi-class classification of remotely sensed data”
International Journal of Remote Sensing, vol 29, pp 1817-1823, 2008.
[75]
Fornaroli M., “Comparison of hyperspectral processing chains in vegetation
assessment applications”, Phd Thesis, 2008.

U IVERSIDAD DE EXTREMADURA Ingeniería Informática

Transcripción

Documentos relacionados

III. Análisis y aplicaciones