analisis de la calidad interpolante de cinco algoritmos en un dem

Transcripción

analisis de la calidad interpolante de cinco algoritmos en un dem
ANÁLISIS DE LA CALIDAD INTERPOLANTE DE CINCO ALGORITMOS EN
UN MODELO DIGITAL DE ELEVACIONES (DEM) ASTER EN FUNCIÓN DEL
ERROR MEDIO CUADRÁTICO (EMC)
BERNARDO ANTONIO VELÁSQUEZ BERMÚDEZ
CRISTIAN MARÍN AGUDELO
DEICY JOHANA ORDOÑEZ MORALES
Director de proyecto:
JULIÁN GARZÓN BARRERO
Tec. en Topografía, Ing. de Sistemas, Esp. en Geomática
Investigación como proyecto de grado para optar al título de Tecnólogo en
Topografía
UNIVERSIDAD DEL QUINDIO
FACULTAD DE INGENIERIA
PROGRAMA DE TECNOLOGIA EN TOPOGRAFIA
Armenia
2013
1
Nota de aceptación
______________________________________
______________________________________
______________________________________
______________________________________
Presidente del Jurado
______________________________________
Jurado
______________________________________
Jurado
Armenia, Junio 14 de 2013
2
A mi madre, por su apoyo incondicional
y por ser quien se esforzó para que lograra esta meta.
Bernardo
A Dios por este gran triunfo, a mi
hermana Alexandra y a su esposo con quienes tengo
una deuda infinita.
Cristian
A Dios por darme sabiduría, a mi madre
por haberme apoyado en mi formación como persona,
por la motivación constante, porque gracias a ella
tengo el coraje para alcanzar con osadía mis metas,
pero sobre todo por su inmenso amor.
Johana
3
AGRADECIMIENTOS
Los autores expresan sus agradecimientos a:
Julián Garzón Barrero, Topógrafo, docente de la Universidad del Quindío y director
de la investigación; por sus valiosas orientaciones, por la dedicación y atención, y
porque siempre dispuso de su tiempo para responder a nuestros interrogantes.
Y a los demás profesores que con su empeño nos hicieron crecer como profesionales
y personas éticas.
4
INDICE
Pág.
RESUMEN.................................................................................................................. 11
INTRODUCCIÓN ...................................................................................................... 13
1.
ESTADO DEL ARTE ...................................................................................... 14
2.
EL PROBLEMA .............................................................................................. 18
3.
OBJETIVOS .................................................................................................... 21
3.1 General ......................................................................................................... 21
3.2 Específicos ................................................................................................... 21
4.
MARCO TEÓRICO ......................................................................................... 22
4.1 Métodos de interpolación evaluados ................................................................ 23
4.1.1 GP: Interpolación Polinómica Global (Global Polynomial Interpolation)
............................................................................................................................. 23
4.1.2 IDW: Método de Ponderación Inverso a la Distancia (Inverse Distance
Weighting) ........................................................................................................... 25
4.1.3 KRG: Kriging ............................................................................................ 26
4.1.4 LP: Interpolación Polinómica Local (Local Polynomial Interpolation) ... 32
4.1.5 RBF: Funciones de Base Radial (Radial Basis Functions)....................... 36
4.2 Validación Cruzada ...................................................................................... 41
4.3 Análisis de varianza ......................................................................................... 43
4.3.1 Hipótesis.................................................................................................... 44
4.4 El propósito del estudio................................................................................ 46
4.5 El significado del estudio ............................................................................. 46
4.6 Presunción de los autores ................................................................................. 49
4.7 Supuestos del estudio ....................................................................................... 50
5
5.
6.
LA HIPÓTESIS ............................................................................................... 51
METODOLOGÍA Y DISEÑO DE LA INVESTIGACIÓN ............................... 53
6.1 Justificación de la metodología seleccionada .................................................. 62
7.
ANÁLISIS DE LA INFORMACIÓN ................................................................. 63
7.1 Detalles del análisis .......................................................................................... 95
7.2 Importancia del estudio .................................................................................. 105
8.
CONCLUSIONES ............................................................................................ 106
8.1 Respuesta al problema.................................................................................... 108
8.2 Limitaciones del estudio ................................................................................ 110
BIBLIOGRAFIA ...................................................................................................... 111
ANEXOS .................................................................................................................. 115
GLOSARIO .............................................................................................................. 125
6
LISTA DE TABLAS
Pág.
Tabla 1. Re-muestreos……………………………………………………………… 42
Tabla 2. Matriz de Errores Medios Cuadráticos…………………………………… 96
Tabla 3. Razones-F y Grados de Libertad…………………………………………. 98
Tabla 4. Homogeneidad entre re-muestreos………………………………………...101
Tabla 5. Diferencia entre medias de re-muestreo …………………………………..101
Tabla 6. Homogeneidad entre interpoladores……………………………………….102
Tabla 7. Diferencia entre medias de error de los interpoladores……………………103
7
LISTA DE FIGURAS
Pág.
Figura 1. Conceptualización de la interpolación lineal .............................................. 24
Figura 2. Conceptualización de la interpolación cuadrática. ..................................... 24
Figura 3. Cálculo de la diferencia cuadrada entre las ubicaciones asociadas. ........... 28
Figura 4. Semi-variograma y sus características. ....................................................... 29
Figura 5. Semi-variograma empírico ajustado al experimental. ................................ 30
Figura 6. Tipos de semi-variograma. ......................................................................... 31
Figura 7. Representación de la superficie con varios planos. .................................... 33
Figura 8. Polinomio de primer orden ......................................................................... 34
Figura 9. Traslapo de polinomios .............................................................................. 34
Figura 10. Polinomios locales .................................................................................... 35
Figura 11. Traslapo de 4 polinomios ......................................................................... 35
Figura 12. Polinomio apto.......................................................................................... 35
Figura 13. Polinomios aptos ...................................................................................... 35
Figura 14. Superficie LP ............................................................................................ 36
Figura 15. Superficie creada por RBF. ...................................................................... 37
Figura 16. Sección de superficie creada con IDW. .................................................... 38
Figura 17. Sección de superficie creada con RBF. .................................................... 38
Figura 18. Zona de estudio......................................................................................... 54
Figura 19. 30 m x30 m (Original) .............................................................................. 56
Figura 20. 60 m x60 m ............................................................................................... 56
Figura 21. 120 m x 120 m .......................................................................................... 56
Figura 22. 300 m x 300 m .......................................................................................... 56
Figura 23. 600 m x600 m ........................................................................................... 56
Figura 24. 900 m x 900 m .......................................................................................... 56
Figura 25. Diagrama de metodología de la investigación. ......................................... 61
Figura 26. GP- 30 m x30 m (Original) ...................................................................... 64
Figura 27. GP- 60 m x60 m ....................................................................................... 64
Figura 28. GP- 120 m x120 m ................................................................................... 64
Figura 29. GP- 300 m x300 m ................................................................................... 64
Figura 30. GP- 600 m x600 m ................................................................................... 64
Figura 31. GP- 900 m x900 m ................................................................................... 64
8
Figura 32. Rangos de elevación (m) .......................................................................... 64
Figura 33. IDW- 30 m x30 m (Original) .................................................................... 66
Figura 34. IDW- 60 m x60 m..................................................................................... 66
Figura 35. IDW- 120 m x120 m................................................................................. 66
Figura 36. IDW- 300 m x300 m................................................................................. 66
Figura 37. IDW- 600 m x600 m................................................................................. 66
Figura 38. IDW- 900 m x900 m................................................................................. 66
Figura 39. IDW-Mapa de error y curvas superpuestas. ............................................. 67
Figura 40. IDW- Mapa de error y mapa de pendientes .............................................. 67
Figura 41. IDW-Mapa de error y curvas superpuestas. ............................................. 68
Figura 42. IDW- Mapa de error y mapa de pendientes .............................................. 68
Figura 43. IDW-Mapa de error y curvas superpuestas. ............................................. 69
Figura 44. IDW- Mapa de error y mapa de pendientes .............................................. 69
Figura 45. IDW-Mapa de error y curvas superpuestas. ............................................. 70
Figura 46. IDW- Mapa de error y mapa de pendientes .............................................. 70
Figura 47. IDW-Mapa de error y curvas superpuestas. ............................................. 71
Figura 48. IDW- Mapa de error y mapa de pendientes .............................................. 71
Figura 49. KRG- 30 m x30 m (Original) ................................................................... 72
Figura 50. KRG- 60 m x60 m .................................................................................... 72
Figura 51. KRG-120 m x120 m ................................................................................. 72
Figura 52. KRG-300 m x300 m ................................................................................. 72
Figura 53. KRG-600 m x600 m ................................................................................. 72
Figura 54. KRG-900 m x900 m ................................................................................. 72
Figura 55. KRG-Mapa de error y curvas superpuestas. ............................................. 73
Figura 56. KRG- Mapa de error y mapa de pendientes ............................................. 73
Figura 57. KRG-Mapa de error y curvas superpuestas. ............................................. 74
Figura 58. KRG- Mapa de error y mapa de pendientes ............................................. 74
Figura 59. KRG-Mapa de error y curvas superpuestas. ............................................. 75
Figura 60. KRG- Mapa de error y mapa de pendientes ............................................. 75
Figura 61. KRG-Mapa de error y curvas superpuestas. ............................................. 76
Figura 62. KRG- Mapa de error y mapa de pendientes ............................................. 76
Figura 63. KRG-Mapa de error y curvas superpuestas. ............................................. 77
Figura 64. KRG- Mapa de error y mapa de pendientes ............................................. 77
Figura 65. LP- 30 m x30 m (Original) ....................................................................... 78
Figura 66. LP- 60 m x60 m ........................................................................................ 78
Figura 67. LP-120 m x120 m ..................................................................................... 78
Figura 68. LP- 300 m x300 m .................................................................................... 78
9
Figura 69. LP- 600 m x600 m .................................................................................... 78
Figura 70. LP- 900 m x900 m .................................................................................... 78
Figura 71. LP-Mapa de error y curvas superpuestas. ................................................. 79
Figura 72. LP- Mapa de error y mapa de pendientes ................................................. 79
Figura 73. LP-Mapa de error y curvas superpuestas. ................................................. 80
Figura 74. LP- Mapa de error y mapa de pendientes ................................................. 80
Figura 75. LP-Mapa de error y curvas superpuestas. ................................................. 81
Figura 76. LP- Mapa de error y mapa de pendientes ................................................. 81
Figura 77. LP-Mapa de error y curvas superpuestas. ................................................. 82
Figura 78. LP- Mapa de error y mapa de pendientes ................................................. 82
Figura 79. LP-Mapa de error y curvas superpuestas. ................................................. 83
Figura 80. LP- Mapa de error y mapa de pendientes ................................................. 83
Figura 81. RBF- 30 m x30 m (Original) .................................................................... 84
Figura 82. RBF-60 m x60 m ...................................................................................... 84
Figura 83. RBF-120 m x120 m .................................................................................. 84
Figura 84. RBF-300 m x300 m .................................................................................. 84
Figura 85. RBF-600 m x600 m .................................................................................. 84
Figura 86. RBF-900 m x900 m .................................................................................. 84
Figura 87. RBF-Mapa de error y curvas superpuestas. .............................................. 85
Figura 88. RBF- Mapa de error y mapa de pendientes .............................................. 85
Figura 89. RBF-Mapa de error y curvas superpuestas. .............................................. 86
Figura 90. RBF- Mapa de error y mapa de pendientes .............................................. 86
Figura 91. RBF-Mapa de error y curvas superpuestas. .............................................. 87
Figura 92. RBF- Mapa de error y mapa de pendientes .............................................. 87
Figura 93. RBF-Mapa de error y curvas superpuestas. .............................................. 88
Figura 94. RBF- Mapa de error y mapa de pendientes .............................................. 88
Figura 95. RBF-Mapa de error y curvas superpuestas. .............................................. 89
Figura 96. RBF- Mapa de error y mapa de pendientes .............................................. 89
Figura 97. Gráfica de interacciones .......................................................................... 98
Figura 98. Distribución Fisher ................................................................................... 99
Figura 99. Medias del EMC para el factor Re-muestreo ......................................... 100
Figura 100. Medias del EMC para el factor Interpolador ........................................ 102
10
RESUMEN
Un Modelo Digital de Elevaciones (DEM) es una representación de la superficie
terrestre y como tal provee la base para la extracción digital de parámetros
topográficos. Estos modelos son una importante fuente de datos para diversas
aplicaciones en un entorno de Sistemas de Información Geográfica (SIG)1.
En el desarrollo de esta investigación se analizan dos factores: El algoritmo de
interpolación y la resolución del DEM2, que por hipótesis influyen en la calidad del
producto final, puesto que generan errores al momento de procesar los datos para la
obtención del DEM. Es por ello que la estructura de esta investigación pretende
establecer la resolución espacial apropiada de los datos de modo que la calidad que
este produzca se adapte a su fin; y al mismo tiempo determinar el algoritmo de
interpolación que genere con más precisión la representación de una superficie.
Para dichos fines se propone la aplicación de la Validación Cruzada que consiste en
omitir el valor de la muestra en una posición determinada, ejecutar el algoritmo de
interpolación y comparar el valor estimado por éste con el de la muestra original;
posteriormente se calcula el Error Medio Cuadrático (EMC) para cada uno de los
algoritmos que se proponen: Global Polynomial Interpolation
(GP), Inverse
Distance Weight (IDW), Kriging (KRG), Local Polynomial Interpolation (LP) y
Radial Basis Functions (RBF).
Palabras clave: Modelo Digital de Elevación, algoritmo de interpolación, Validación
Cruzada, resolución espacial, Error Medio Cuadrático.
1
2
Felicísimo, 1994: Modelos digitales del terreno. Introducción y aplicaciones en ciencias ambientales.
Garzón, 2013: Ibíd.
11
ABSTRACT
A Digital Elevation Model (DEM) is a representation of the surface and as such
provides the basis for the digital extraction of topographic parameters. These models
are an important source of data for various applications in a Geographic Information
Systems (GIS).
In the development of this research looks at two factors: The interpolation algorithm
and the resolution of the DEM, which by hypothesis influence the quality of the final
product as they generate errors when processing the data to obtain the DEM. That is
why the structure of this research aims to establish the appropriate spatial resolution
of the data so that this produces quality suits your purpose, and at the same time
determine the interpolation algorithm which generates more accurate representation
of a surface.
For these purposes we propose the implementation of Cross Validation consisting
ignore the value of the sample in a certain position, run the interpolation algorithm
and compare this estimated value with the original sample, then calculate the root
mean quadratic (EMC) for each of the algorithms proposed: Global Polynomial
Interpolation (GP), Inverse Distance Weight (IDW), Kriging (KRG), Local
Polynomial Interpolation (LP) and Radial Basis Functions (RBF).
Key words: Digital Elevation Model, interpolation algorithm, Cross Validation,
spatial resolution, Root Mean Square.
12
INTRODUCCIÓN
Al existir un amplio campo de utilización de los Modelos Digitales de Elevación
(DEM), y varias fuentes para su creación, surge la importancia y necesidad de contar
con una herramienta (interpolador) que produzca resultados de calidad para la
adecuada representación de la superficie terrestre. Esta representación está
condicionada por multitud de factores que en definitiva generan cierta imprecisión.
Uno de los propósitos de este trabajo es sugerir un método de interpolación, en
función de la aplicación de la Validación Cruzada (re-muestreo del DEM), en la que
algunos datos o valores se eliminan; utilizar el Error Medio Cuadrático (EMC) como
un parámetro de control de la precisión de los valores interpolados. La metodología
descrita en el Capítulo 2 tiene el potencial de proporcionar conocimiento a otros
temas tan importantes como las propiedades del error Geo-estadístico y la incidencia
de la pendiente de la superficie para determinar el nivel del error; para que sean
considerados a la hora de generar un DEM.
13
1. ESTADO DEL ARTE
La topografía tiene una notable influencia sobre numerosas variables que intervienen
en la dinámica de los ecosistemas. El clima a escala local, los procesos
geomorfológicos y edáficos, el movimiento y la acción de agua y, consecuentemente,
los numerosos procesos biológicos condicionados por ellos, se encuentran
estrechamente asociados a la forma y altitud de la superficie del terreno en los que se
desarrollan. Esta dependencia ha sido reconocida desde muy antiguo por las ciencias
que se ocupan del estudio de tales procesos, de modo que no sólo la geomorfología
cuyo objetivo principal es la descripción precisamente de las formas del terreno y los
procesos responsables de las mismas, sino la edafología, la climatología, la botánica,
zoología, ecología, etc. han recurrido comúnmente a considerar la altitud, la
pendiente del terreno o la orientación de las laderas, como variables claves para el
entendimiento de estos procesos. Los mapas topográficos han sido prácticamente en
exclusiva hasta los años 70, las herramientas para valorar la influencia sobre dichos
factores. Pero la interpretación y en definitiva la utilidad de estos mapas, muy ágil
para la percepción visual de la superficie topográfica, resultaba limitada para realizar
análisis cuantitativos. La informática abrió una posibilidad nueva: describir la altitud
de la superficie del terreno o cualquier otra característica del mismo, en forma
numérica. Es decir, se modela la realidad3.
3
Felicísimo, 1994: Modelos digitales del terreno. Introducción y aplicaciones en ciencias ambientales.
14
La construcción de un DEM implica una interpolación realizada con puntos de alturas
de la superficie del terreno (elevaciones) a partir de bases de datos topográficas
existentes. El tamaño de la retícula y el tipo de algoritmo interpolador utilizados para
la creación del DEM, ejercen una considerable influencia en el DEM obtenido y, por
consiguiente, también en todos los atributos derivados de él.
Un DEM es una simplificación de la realidad y por lo tanto inevitablemente
contendrá errores, los cuales no son considerados equivocaciones y no pueden ser
eliminados trabajando muy cuidadosamente; lo mejor que puede esperarse es que
sean pequeños y tener una estimación fiable de su magnitud4.
Todo DEM está sujeto a dos fuentes de error. El primer tipo se denomina aleatorio y
representan una sobre o sub estimación de los valores reales de elevación como
resultado del azar. Estos errores no muestra un patrón determinado, en promedio su
valor es igual a cero y los errores positivos y negativos tienen una frecuencia similar.
El segundo tipo se denomina sistemático y también representan una sub ó sobre
estimación de los datos de elevación; sin embargo, a diferencia de los primeros,
tienen un patrón determinado y su promedio no es igual a cero5.
“Los errores en un DEM y en los productos derivados pueden agruparse en tres
grandes tipos:
4
Taylor, 1997: An Introduction to Error Analysis: The Study of Uncertainties In Physical
Measurements. University Science Books
5
Maling, 1989 : Measurements from maps: Principles and methods of cartometry.
15
a) Errores de etiquetado en curvas de nivel, a menudo son difíciles de detectar en el
DEM pero se aprecian adecuadamente en los mapas de variables del terreno.
b) Errores sistemáticos característicos del proceso de obtención del DEM:
Los DEM derivados de curvas de nivel, tienen el problema de una generalización
excesiva de las curvas, pueden presentar artefactos característicos como cimas planas
o aterrazados.
Los DEM derivados de medidas sobre el terreno pueden estar sesgados hacia las
altitudes de las zonas de fácil acceso.
Los DEM obtenidos mediante técnicas de teledetección (radar, LIDAR) tienen la
ventaja de su enorme densidad de muestreo, pero en ocasiones no miden la altitud
real sino está más la altura del objeto que está sobre esta.
Los DEM derivados de la restitución de fotografía aérea muestran mayores errores en
las umbrías y hacia los bordes de los fotogramas.
c) Errores aleatorios inherentes a cualquier procedimiento de medición:
Un simple histograma de las elevaciones permitirá descubrir anomalías no detectables
con la simple visualización, como el que los valores de las curvas de nivel aparezcan
con excesiva frecuencia (resulta frecuente en interpolación a partir de curvas de nivel
rasterizadas)”6.
6
Wise, 2000 : Assessing the quality for hydrological applications of digital elevation models derived
from contours.
16
El Error Medio Cuadrático (EMC) es uno de los descriptores tradicionalmente
utilizados para cuantificar los errores en un DEM. Tiene el inconveniente de que
necesita valores de elevación real y que no nos informa acerca de la distribución
espacial de los errores y su posible auto-correlación7.
Se han desarrollado otros métodos para calcular índices de error en el caso de no
disponer de una superficie de referencia para tomar como valor verdadero8.
7
Moreno Brotóns, J., Alonso Sarría, F., Gomariz Castillo, F. y Alonso Bernardo, D., 2010): Análisis y
validación de modelos digitales de elevaciones mediante datos LIDAR.
8
Felicísimo, 1994: Ibíd.; Hengl T., Heuvelink G.M.B., Stein A. 2004: A generic framework for spatial
prediction of soil variables based on regression-kriging.
17
2. EL PROBLEMA
Los Modelos Digitales de Elevación (DEM) son elementos básicos en el estudio,
manejo y administración del terreno, su uso, así como su alta resolución permiten
diversos análisis cuyos resultados acceden a calificar y cuantificar las características
del terreno, la aplicación de los DEM está basada en una estructura numérica de datos
que representa la distribución espacial de la altitud de la superficie del terreno9.
Entre los sistemas de información geográficos (SIG), se encuentran los DEM, que
juegan un papel fundamental debido a que no es solo en la integración de la
información, sino también en la capacidad que tienen para extraer automáticamente
los parámetros necesarios para la modelación. La precisión de las bases de datos
de los SIG ha sido durante mucho tiempo un tema de interés y, debido al extenso uso
de los DEM en aplicaciones SIG, no es de extrañar que se haya producido una gran
cantidad de literatura entorno al error de los DEM10. El incremento de disponibilidad
de los DEM a escala mundial como los de SRTM, y los de muy alta resolución como
los de LIDAR11, han hecho que sea aún más importante que se tengan buenas
herramientas para evaluar el error de los DEM y entender cómo se propagan a través
de cualquier operación aplicada al DEM12.
9
Felicísimo, 1994: Ibíd.
Fisher y Tate, 2006: Causes and consequences of error in digital elevation models.
11
Wehr y Lohr, 1999: Airborne laser scanning – an introduction and overview.
12
Garzón, 2013: Validación cruzada como método de investigación en la calidad de Modelos
Digitales de Elevación.
10
18
Para medir la calidad de un DEM es necesario y sustancial contar con una buena
metodología; usualmente el Error Medio Cuadrático (EMC) es una forma de evaluar
la calidad de los DEM. El Error Medio Cuadrático se calcula de la siguiente forma:
(Ecuación 1)
Donde
corresponde al valor interpolado de la elevación y
el valor de la muestra
original.
Hay que señalar que no se tiene consideraciones de que tan precisos son los valores
del DEM original. Cuando los valores interpolados son comparados con los valores
originales, esto suministra una medida del error inducida por el proceso de
interpolación, pero no dice nada acerca de la precisión absoluta de los valores de
elevación comparados con el valor real13.
Se hace imposible adaptar una fórmula matemática para expresar la forma de una
superficie debido al comportamiento impredecible de ésta, pero probablemente puede
obtenerse una representación que se asemeje a ella, y es por tal razón que se realiza la
evaluación de la precisión de los siguientes algoritmos para representar las formas
amorfas de una porción de la superficie terrestre: Global Polynomial Interpolation
(GP), Inverse Distance Weight (IDW), Kriging (KRG),
Local Polynomial
Interpolation (LP) y Radial Basis Functions (RBF).
13
Garzón, 2013: Ibíd.
19
¿Qué afectación tienen la aplicación del algoritmo de interpolación y el re-muestreo
al representar el terreno a través de un Modelo Digital de Elevación?
20
3. OBJETIVOS
3.1 General
Seleccionar el mejor algoritmo de interpolación (de los indicados en este estudio)
para generalizar la representación de las superficies terrestres a través un Modelo
Digital de Elevación (DEM).
3.2 Específicos

Calcular el Error Medio Cuadrático para cada uno de los algoritmos de
interpolación.

Obtener una matriz de errores a partir de los residuos resultantes de cada remuestreo.

Graficar los mapas de error para identificar de manera general las zonas más
afectadas con relación a la pendiente.
21
4. MARCO TEÓRICO
La interpolación es definida como un procedimiento que permite calcular el valor de
una variable en una posición del espacio (punto no muestreal con valor estimado),
conociendo los valores de esa variable en otras posiciones del espacio (puntos
muestrales con valores reales)14.
En los entornos DEM la interpolación se usa para predecir la elevación de las
unidades en las que se encuentre subdividido el espacio, en el caso de la estructura
vectorial se define por la ecuación de un plano que pasa a través de tres puntos no
colineales en espacio, y en el caso de los ráster se calcula la elevación del centro
geométrico de las celdas en que se divide el espacio geográfico 15. Esta división al
encontrarse regularmente distanciada no quiere decir que los valores de la elevación
en la superficie real sean igualmente homogéneos.
De acuerdo con McCullag, (1988), Burrough y McDonnell (1998) se deben cumplir
una serie de condiciones para que el valor estimado de la interpolación sea fiable: Se
debe crear una superficie continua a partir de datos distribuidos discretamente en el
espacio, debe tener propiedades matemáticas y debe ajustarse a los datos con un nivel
de precisión determinado.
La confiabilidad de la predicción con cualquier algoritmo de interpolación está
fuertemente relacionada con la calidad de los datos de la muestra inicial, una mala
14
Bosque Sendra, 1992: Sistemas de información Geográfica. Madrid, Ediciones Rialp S.A.
Felicísimo, 1994: Modelos digitales del terreno. Introducción y aplicaciones en ciencias
ambientales.
15
22
distribución de los mismos o una intermediación por falta de ellos, hacen que el
resultado se aparte de la geometría que realmente tiene la zona representada mediante
el DEM.
4.1 Métodos de interpolación evaluados
En todos los casos los algoritmos necesitan valores de los parámetros alternativos que
controlan la interpolación, y que generalmente modifican el producto final, su
elección depende de las características propias de los datos utilizados: cantidad,
densidad y distribución espacial, para este estudio y con el ánimo de evitar
confusiones lógicas derivada de la multiplicada generación de los distintos modelos,
todos los parámetros se utilizaron por defecto conforme como los sugiere ArcGIS® 9.
4.1.1 GP: Interpolación Polinómica Global (Global Polynomial Interpolation)
Global Polynomial Interpolation crea una superficie lisa que se define por una
función matemática (un polinomio) a los puntos de entrada de la muestra.
Conceptualmente, la Interpolación Polinómica Global es como tomar un pedazo de
papel y montarlo entre los puntos planteados. Esto se demuestra en el siguiente
diagrama (el papel es magenta).
23
Figura 1. Conceptualización de la interpolación lineal16
Pero un polinomio de primer orden no va a capturar con precisión el paisaje de un
valle. Sin embargo, si se agrega un término a la fórmula matemática produce un
ajuste mucho mejor, una curva en el plano. Una superficie plana es un polinomio de
primer orden (lineal). Teniendo en cuenta que una curva es un polinomio de segundo
orden (cuadrático), dos curvas de tercer orden (cúbico), y así sucesivamente, hasta 10
están permitidos en Geostatistical Analyst17. La siguiente imagen muestra
conceptualmente un polinomio de segundo orden montado en un valle.
Figura 2. Conceptualización de la interpolación cuadrática.18
16
Obtenido de:
http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%20Global%
20Polynomial%20interpolation%20works&
17
Extensión de ArcGIS (Geostatistical Analyst 9.3; Copyright ©1999-2008 ESRI Inc.)
18
Obtenido de:
http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%20Global%
20Polynomial%20interpolation%20works&
24
Rara vez la superficie pasará por los puntos reales medidos, haciendo que GP sea un
interpolador inexacto. Global
Polynomial
Interpolation
crea una superficie
lentamente variable usando polinomios de orden inferior que posiblemente describen
algún proceso físico. Sin embargo, cabe señalar que cuanto más complejo el
polinomio, más difícil es atribuir un significado físico a él. Además, las superficies
calculadas son altamente susceptibles a valores muy altos y bajos.
4.1.2 IDW: Método de Ponderación Inverso a la Distancia (Inverse Distance
Weighting)
Este algoritmo calcula los valores de las celdas por medio de una composición
ponderada de los datos de la muestra, el modelo sugiere que el resultado predicho
reduce su incidencia en la medida en que aumenta la separación entre el punto a
evaluar y los puntos de su entorno. Es así como se acepta que los puntos más
cercanos al centroide poseen un mayor peso en el cálculo del valor definitivo de la
elevación para dicha celda, su modelo matemático es:
Donde,
19
19
: Using ArcView 3D Analyst.
25
Este procedimiento de interpolación tiene en cuenta:

La definición de la zona circundante del punto a interpolar (delimitación de
radio de acción, forma de hacer el re-muestreo y la orientación de los puntos).

La cantidad de puntos que se utilicen al interior de la zona circundante.

La elección de la función matemática que se ajuste a la variación sobre la
cantidad de puntos seleccionados.
La función que se use en la ponderación y la cantidad de puntos que se usen como
vecinos en el área circundante, son parámetros definitivos en el resultado de la
interpolación. La potencia
permite controlar la significancia de los puntos
conocidos en los valores interpolados basándose en la distancia desde el punto de
salida, su valor predeterminado es 220.
4.1.3 KRG: Kriging
Es una técnica de interpolación geo-estadística que determina el valor de la elevación
apoyado en el cálculo del promedio de las elevaciones más próximas. Su cómputo se
apoya en la teoría de la variable regionalizada, que presupone que la variación
espacial de una variable está dada en función de tres grandes módulos:
20
ESRI, 2010
26

Un módulo estructural que tiene una tendencia constante (componente
determinístico).

Un módulo aleatorio que se conoce como variable regionalizada y que se
encuentra espacialmente correlacionado.

Y un módulo aleatorio no correlacionado de error no explicable conocido
como error residual.
Este modelo busca minimizar la varianza del error, y busca llevar la media del error
de los valores predichos a cero, para que no se presenten sobre ni subestimaciones, su
expresión matemática es:
Donde,
.
Se tiene entonces:
En la siguiente figura se puede apreciar la relación de un punto (color rojo) con el
resto de puntos que tendrán incidencia en la predicción:
27
Figura 3. Cálculo de la diferencia cuadrada entre las ubicaciones asociadas. 21
La representación de las distancias de cada punto al resto de ellos es un tanto
complicada de interpretar en el gráfico anterior, en su lugar se utiliza el semivariograma empírico como el modelo que asume la dirección y distancia entre los
puntos, indicando una auto-correlación espacial que se puede usar para explicar la
continuidad de la superficie, esto se conoce como variografía y se refleja mediante un
semi-variograma.
21
Fuente: Using ArcGIS® Geostatistical Analyst, 2003.
28
Figura 4. Semi-variograma y sus características.22
El interpolador refleja la variación espacial de la elevación en diferentes direcciones
del espacio geográfico haciendo el cálculo del semi-variograma empírico (puntos de
color rojo), deduciendo que tanta similitud existe entre los puntos a medida que
aumenta su separación, y se calcula de la siguiente forma:
Donde,
22
Fuente: Golden Software, 2002
29
Para poder realizar la predicción del valor es necesario ajustar el semi-variograma
empírico a un semi-variograma experimental para cuantificar el grado y escala de
variación espacial, siendo esto similar a un análisis de regresión donde se ajustan un
conjunto de puntos a una línea o curva continua, como se puede apreciar en el
siguiente gráfico (línea de color azul):
23
Figura 5. Semi-variograma empírico ajustado al experimental.
Con este ajuste se pueden extraer los parámetros que se utilizan para realizar la
predicción:

Rango (length): muestra la distancia donde la separación entre puntos indica
una auto-correlación significativa. Indica la amplitud del radio de búsqueda de
los vecinos locales.

Efecto pepita (nugget effect): es el atribuido a los errores de medición.
23
Fuente: Garzón B., J. 2013: Validación cruzada como método de investigación en la calidad de
Modelos Digitales de Elevación.
30

meseta (sill): máxima semi-varianza hallada entre un par de puntos, que es
encargada de encontrar la incertidumbre en el momento de la interpolación.

Lag (h): son las distintas distancias a las que se mide la semi-varianza, es
como un círculo cuyo radio se va ampliando de forma regular.
Existen muchos tipos de semi-variograma, que de acuerdo con el tipo, calidad,
distribución y representación de los datos se debe elegir para realizar el ajuste, los
principales son:
Figura 6. Tipos de semi-variograma.24
En esta investigación se aplica el semi-variograma de tipo esférico, por ser el
parámetro por defecto que sugiere software ArcGIS® versión 9.3
24
Fuente: Sanz, M. A. Modelos Digitales de Terreno, 2008.
31
4.1.4 LP: Interpolación Polinómica Local (Local Polynomial Interpolation)
Local Polynomial (LP) es un interpolador determinístico moderadamente rápido, que
produce una superficie suave (inexacta). Es más flexible que Global Polynomial, pero
hay más parámetros de los que hay que tomar decisiones. No existe una evaluación de
los errores de predicción. El método proporciona superficies de predicción que son
comparables a Kriging en cuanto a los errores de medición. Los métodos de
polinomios locales no permiten investigar la auto-correlación de los datos, por lo que
es menos flexible y más automático que Kriging. No hay supuestos requeridos de los
datos.
Mientras que Global Polynomial Interpolation encaja un polinomio a toda la
superficie, Local Polynomial Interpolation encaja muchos polinomios, cada uno
dentro de determinados barrios superpuestos. El barrio de búsqueda se puede definir
utilizando el cuadro de diálogo Search Neighborhood25. Puede especificar la forma, el
máximo y el mínimo número de puntos a usar, y la configuración del sector se
pueden especificar. Alternativamente, un control deslizante puede utilizarse para
definir el ancho de la zona (barrio) junto con un parámetro de potencia (función
power) que, basado en la distancia, disminuirá los pesos de los puntos de muestra
dentro de la vecindad. Por lo tanto, Local Polynomial produce superficies teniendo en
cuenta la variación más cercana.
25
En el software ArcGIS® 9.3
32
Un polinomio de primer orden global se ajusta a un único plano a través de los datos;
un polinomio de segundo orden global se ajusta a una superficie con una curva en él,
permitiendo que las superficies representen valles; un polinomio de tercer orden
global permite dos curvas, y así sucesivamente. Sin embargo, cuando una superficie
tiene una forma diferente, como un paisaje con pendiente descendiente, con niveles
que se pronuncian, y luego se desliza hacia abajo de nuevo (Fig. 7), un único
polinomio global no encaja bien. Varios planos polinómicos serían capaces de
representar la superficie de manera más precisa.
Figura 7. Representación de la superficie con varios planos.26
Local Polynomial Interpolation encaja el orden especificado (cero, primero, segundo,
tercero, y así sucesivamente) del polinomio utilizando todos los puntos sólo dentro de
26
Obtenido de:
http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%2
0Local%20Polynomial%20interpolation%20works&
33
la zona definida. Los barrios se superponen y el valor usado para cada predicción es
el valor del polinomio equipado en el centro de la zona.
A continuación, una sección transversal de los datos de elevación de la muestra se
toma (un transecto). En la Figura 8, tres vecinos (los puntos rojos) se utilizan para
ajustar un polinomio de primer orden y una línea (la línea roja) para predecir el valor
desconocido marcado por el punto de color azul. En la figura 9, una segunda
ubicación (el punto amarillo) se predice por otro polinomio de primer orden. Está
muy cerca a la primera ubicación (punto azul), y se utilizan los mismos puntos
medidos en las predicciones, pero los pesos son un poco diferentes, por lo tanto el
polinomio que se ajusta (la línea azul, fig. 9) es ligeramente diferente.
Figura 8. Polinomio de primer orden.
Figura 9. Traslapo de polinomios.27
Este proceso continúa, centrado en ubicaciones de predicción posteriores, ajustando
polinomios locales para predecir los valores. Las figuras 10 y 11 muestran dos puntos
27
Obtenido de:
http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%2
0Local%20Polynomial%20interpolation%20works&
34
más arbitrarios están previstos para crear la superficie final. El punto naranja se
predice a partir del polinomio ajustado (la línea verde, fig. 10) con los puntos de
muestreo verdes, y el punto marrón se predice a partir del polinomio de color púrpura
claro (fig. 11).
Figura 10. Polinomios locales.
Figura 11. Traslapo de 4 polinomios.
En las figuras 12 y 13, se aprecian dos polinomios más aptos (las línea amarilla y la
gris) para predecir dos ubicaciones más (el punto verde azulado y verde).
Figura 12. Polinomio apto.
Figura 13. Polinomios aptos.28
Este proceso continúa para cada ubicación. Se puede ver cómo la superficie se crea
(la línea morada) para los puntos de muestra que se presentan en la figura 14.
28
Obtenido de :
http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%2
0Local%20Polynomial%20interpolation%20works&
35
Figura 14. Superficie LP
4.1.5 RBF: Funciones de Base Radial (Radial Basis Functions)
Radial Basis Functions (RBF) es un interpolador determinista moderadamente
rápido, además exacto. Es mucho más flexible que IDW, pero hay más decisiones de
parámetros. No existe una evaluación de errores de predicción. El método
proporciona superficies de predicción que son comparables con la exactitud de
Kriging. RBF no permite investigar la auto-correlación de los datos, lo que lo hace
menos flexible y más automático de Kriging. Funciones de base radial no permite
hacer ninguna suposición acerca de los datos muestreados.
RBF emplea una serie de técnicas para que la interpolación sea exacta; es decir, la
superficie debe atravesar cada valor medido. Hay cinco diferentes funciones de base
(basis Functions):

Thin-plate Spline (Spline de la placa delgada)

Spline with tension (Spline con tensión)
36

Completely regularized Spline (Spline completamente regularizado)29

Función multiquadric

Función inversa de multiquadric
Cada función de base tiene una forma distinta y resulta en una superficie interpolada
ligeramente diferente.
RBF son conceptualmente similares a la colocación de una membrana de goma a
través de los valores medidos de la muestra minimizando la curvatura total de la
superficie. La función de base seleccionada determina cómo se ajusta la membrana de
goma entre los valores. La figura 15 muestra expresiones de cómo una superficie
RBF se ajusta a través de una serie de valores de muestra de elevación. Obsérvese la
sección transversal (abajo) que la superficie pasa a través de los valores de los datos.
Figura 15. Superficie creada por RBF30.
29
El parámetro por defecto, y el aplicado en esta investigación.
Obtenido de:
http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%2
0Radial%20Basis%20Functions%20works&
30
37
Al ser un interpolador exacto, el algoritmo RBF difiere de los interpoladores GP y
LP, que son ambos interpoladores inexactos que no requieren que la superficie pase a
través de los puntos medidos. Al comparar RBF con IDW, otro interpolador exacto,
IDW nunca predice valores por encima del valor máximo medido o por debajo del
valor mínimo medido como se puede ver en la sección de la figura 16.
Figura 16. Sección de superficie creada con IDW.
Sin embargo, RBF puede predecir valores superiores al máximo y por debajo de los
valores mínimos medidos como se muestra en la figura 17.
Figura 17. Sección de superficie creada con RBF.31
31
Obtenido de:
http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%2
0Radial%20Basis%20Function%20works&
38
Los parámetros óptimos se determinan usando validación cruzada de manera similar
como se muestra para la interpolación IDW y LP.
RBF se utilizan para el cálculo de superficies lisas de un gran número de datos. Las
funciones de producen buenos resultados ligeramente diferentes en superficies
suaves.
Las técnicas son inapropiadas cuando hay grandes cambios en los valores
superficiales a una corta distancia horizontal y/o cuando se sospecha que la muestra
de datos es propensa a error o incertidumbre.
Los conceptos de funciones de base Radial
En Geostatistical Analyst, RBF se forma sobre cada localización de datos. Una
Función de Base Radial es una función que cambia con la distancia desde una
ubicación.
Por ejemplo, supongamos que la función de base radial es simplemente la distancia
desde cada ubicación, por lo que forma un cono invertido en cada localidad. Si se
toma una sección del plano XZ para Y = 5, se podrá ver una rodaja de cada función
de base radial. Ahora, supongamos que desea predecir un valor en Y = 5 y X = 7. El
valor de cada función de base radial en el lugar de predicción puede tomarse de la
figura anterior, determinado por los valores Φ1, Φ2 y Φ3, que simplemente dependen
de la distancia de cada ubicación de los datos. El predictor se forma tomando el
promedio ponderado w1Φ 1 + w2Φ2 + w3 Φ3+...
39
¿Ahora la pregunta es cómo determinar los pesos? Hasta ahora, no se han utilizado
los valores de los datos en absoluto. Los pesos w1, w2, w3 y así sucesivamente, se
encuentran al exigir que, cuando la predicción se mueve a un lugar con un valor
medido, el valor de datos se predice exactamente. Esto forma n ecuaciones con n
incógnitas N y se pueden resolver de forma exclusiva. Así, la superficie pasa a través
de los valores de datos muestreados, haciendo predicciones exactas en dichos puntos.
40
4.2 Validación Cruzada
La elección de un diseño experimental adecuado para un problema de aprendizaje
automático es un punto de controversia entre la comunidad científica32. En trabajos
recientes33, los algoritmos de aprendizaje se evalúan mediante la comparación de sus
resultados sobre conjuntos de datos conocidos34, utilizando un test estadístico para
juzgar la relevancia de las diferencias. Un enfoque similar será seguido en este
trabajo, si bien somos conscientes de que algunos autores cuestionan el que sea
posible extraer conclusiones sobre el rendimiento de un algoritmo utilizando los
conjuntos de ejemplos más habituales35, y que, por otra parte, la naturaleza de estos
diseños experimentales es tal que frecuentemente se vulneran una o más de las
condiciones que han de cumplirse para la aplicación de determinado test estadístico36.
La Validación Cruzada (en esta investigación) consiste en la estimación del valor de
la variable Z, con el algoritmo de interpolación que quiere validarse, en cada uno de
los puntos de muestreo, aunque sin incluir dicho punto de muestro. De esta manera se
conoce para cada punto de muestreo tanto el valor real como el valor estimado, la
diferencia entre estos dos valores se conoce como residual de la validación y se usa
para calcular el EMC de cada uno de los algoritmos evaluados a las diferentes
32
Dietterich, 1998, Salzberg, 1997, Kohavi, 1995.
Tjen-Sien Lim, Wei-Yin Loh y Yu-Shan Shih, 2000: A Comparison of Prediction Accuracy
34
Blake, 1998: UCI Repository of machine learning databases.
35
Holtr, 1993, Schaffer, 1994, Wolpert, 1992
36
Ruiz-Maya, 1986, Cohen, 1995, Salzberg, 1997
33
41
resoluciones propuestas; de forma que puede llevarse a cabo el análisis estadístico de
errores.
En la técnica de validación cruzada los procesos de re-muestreo son de uso
generalizado. Para poder calcular los valores de los puntos que se desean evaluar se
utiliza esta técnica, que es un proceso de determinación nuevos valores de las celdas
en una retícula que resulta luego de aplicar alguna transformación geométrica al grid
de entrada. Esta transformación puede ser en un diferente sistema coordenado, a una
resolución distinta, o puede ser una rotación con respecto al grid inicial. Para este
caso en particular se opta por hacer cambios de resolución37 como se muestra en la
tabla 1.
Tabla 1. Re-muestreos
RE-MUESTREOS
Espacio entre puntos
Número de datos
60m x 60m
202.500
120m x 120m
50.625
300m x 300m
8.100
600m x 600m
2.025
900m x 900m
900
37
Garzón, 2013: Validación cruzada como método de investigación en la calidad de Modelos
Digitales de Elevación.
42
4.3 Análisis de varianza
La Varianza se define como la media aritmética de la suma de los cuadrados de las
desviaciones de una variable con respecto a su media. Por lo tanto, cuanto mayor sea
este valor, menos representativa de la realidad será la media de dicha variable.
ANOVA es la sigla para ANalysis Of VAriance, y se constituye como una técnica
estadística normalmente utilizada para analizar resultados en procesos investigativos
de diseños experimentales, con ella se puede comparar si los valores que toma un
conjunto de datos que corresponden a variaciones de una misma variable
dependiente, se ven afectados por una o más variables de tipo independiente.
El modelo tiene la siguiente expresión:
Donde,
La validez del Análisis de Varianza está supedita al cumplimento de algunos
requisitos de tipo matemático y probabilístico en las observaciones. Se dice que el
modelo ANOVA es apto para comparar efectos de variables en un fenómeno si los
datos experimentales se ajustan al modelo, es decir, si las condiciones subyacentes al
43
modelo están implícitas en los datos. Para este caso en particular se plantea un
ANOVA de dos factores con interacción, lo que quiere decir que se permite comparar
varios grupos de una variable cuantitativa, para ello se definieron como variables
nominales: a) el algoritmo de interpolación y el re-muestreo, y b) como la variable
cuantitativa, es decir, en la cual se desean comparar los grupos se toma el Error
Medio Cuadrático de cada una de los distintos DEM generados, resumiendo se tiene:
Variables independientes:
Métodos de interpolación (5), re-muestreos (5)
Variable dependiente:
Error Medio Cuadrático (EMC).
4.3.1 Hipótesis
La hipótesis que se pone a prueba en el ANOVA de dos factores con interacción, es
aquella donde las medias poblacionales (las medias del EMC en cada nivel del
Algoritmo de interpolación) son iguales. Si las medias poblacionales son iguales, esto
significa que los grupos no difieren en el Error Medio Cuadrático, y que en
consecuencia, el Error Medio Cuadrático es independiente del tamaño del remuestreo y el método de interpolación.
44
Para poner a prueba la hipótesis nula
, se procede a obtener el valor RazónF (de la
distribución de Fisher) para los factores re-muestreo e interpolador, estos valores
estadísticos de prueba resultantes se deben comparar con un valor tabular de F (véase
Anexo C), Fcrítico, que indicará el valor máximo del valor estadístico de prueba
(RazónF) que ocurría si
fuera verdadera, a un nivel de significación seleccionado
(0.05). Si el valor de RazónF de cualquiera de los dos factores es mayor al estadístico
FSnedecor (Fcrítico), se rechaza la hipótesis de igualdad y se puede afirmar que el
Error Medio Cuadrático es dependiente del algoritmo de interpolación y el remuestreo; de lo contrario no se puede afirmar que los grupos que se están
comparando difieran en sus promedios poblacionales.
Donde,
45
4.4 El propósito del estudio
Al evaluar cada método de interpolación por medio de la validación cruzada, se
espera determinar el valor máximo de exclusión de datos de modo que no afecte los
propósitos para los cuales se está realizando el trabajo, es decir que el error sea
tolerable. Para ampliar la probabilidad de encontrar la eficacia al representar la
porción de superficie por medio de un DEM, se evalúan cinco métodos de
interpolación geo-estadísticos (Global Polynomial Interpolation
(GP), Inverse
Distance Weight (IDW), Kriging (KRG), Local Polynomial Interpolation (LP) y
Radial Basis Functions (RBF)) a los cuales se les aplica Validación Cruzada de cinco
maneras distintas sobre la misma área de terreno. Así podría determinarse el método
más adecuado para la interpolación de un ráster y la posterior representación de la
superficie por medio de un DEM.
4.5 El significado del estudio
Los DEM son aplicables no solo a la variable elevación, sino a cualquier otra variable
que presente una variación continua sobre el espacio; como las precipitaciones, la
presión atmosférica, las temperaturas, las pendientes, etc.
Al existir diversidad de variables que pueden representarse por medio de un DEM, de
igual forma pueden obtenerse variedad de modelos, los cuales pueden apoyarse en los
resultados de esta investigación para su validación.
46
Algunos de estos modelos y sus usos son los que se mencionan a continuación:
Los DEM permiten realizar cálculos de volúmenes a remover o rellenar en trabajos de
ingeniería, mapeo y estudios batimétricos e hidrológicos, mapeo geológico y
geofísico, simulación y análisis del paisaje, estimación de áreas a inundar en
proyectos hidroeléctricos, estudios de intervisibilidad para determinar la ubicación de
antenas para telecomunicaciones, análisis estadístico del terreno, determinación de
pendiente, aspecto, y sombreado del terreno38.
Modelos climáticos: La existencia de zonas de sombra es una variable de gran
interés en regiones montañosas, donde el relieve puede ser el factor determinante más
importante del clima local. Se define la insolación potencial en un punto como el
tiempo máximo que ese lugar puede estar sometido a la radiación solar directa en
ausencia de nubosidad. La insolación potencial depende directamente del ángulo de
incidencia del sol respecto a la superficie terrestre y del ocultamiento topográfico ante
una trayectoria concreta del sol.
Modelos hidrológicos:
Las
características
topográficas
de
una
ladera
determinan las pautas por las cuales el agua circula sobre ella. El Modelo Digital de
Elevaciones contiene información suficiente para definir, al menos en una primera
aproximación, las propiedades de la red de drenaje superficial y, por extensión, de la
38
Burrough, 1986; ESRI, 1996; Keckler, D., 1995; Weibel y Heller, 1991
47
cuenca hidrológica. Las líneas de flujo siguen la línea de máxima pendiente por lo
que pueden deducirse del modelo digital de pendientes con las únicas limitaciones
que las derivadas de la calidad del DEM original.
Modelos de visibilidad:
Establecen el área que se puede ver desde un punto y,
por tanto, el área desde la que puede verse ese punto. El primer caso puede ser útil
para el diseño de redes de control (de incendios forestales por ejemplo), el segundo
como criterio a la hora de ubicar infraestructuras. El análisis de cuencas visuales
puede utilizarse para la evaluación del impacto visual de actuaciones con efectos
negativos sobre el paisaje. Es posible construir un modelo de visibilidad, donde cada
punto tiene asignado un valor proporcional a la extensión de su cuenca visual. Un
modelo de este tipo puede servir de base objetiva para la toma de decisiones ya que
permite conocer y comparar con fiabilidad la incidencia visual de las alternativas
existentes.
El amplio campo de utilización de los DEM permite que el desarrollo de este
proyecto sea útil para diversos campos de aplicación.
48
4.6 Presunción de los autores
La validez de resultados obtenidos de una interpolación se relaciona con la calidad de
los datos de la muestra inicial, la superficie a crear debe representarse a partir de
datos distribuidos discretamente en el espacio para que el valor estimado de la
interpolación sea fiable. La muestra inicial con la que se desarrolla esta investigación,
se puede aceptar dentro de lo mencionado, pues conserva una distribución de datos
continua para toda el área de estudio (30 m); de este modo al interpolar la superficie
no se está comprometiendo la fiabilidad de la interpolación a causa de la muestra
inicial, por el contrario el error producido al crear el DEM está relacionado con el
algoritmo de interpolación utilizado para el modelamiento.
Se parte de la idea de que los datos iniciales obtenidos del sistema ASTER
(Advanced Spaceborne Thermal Emission and Reflection radiometer) son confiables,
es decir que no se está teniendo en cuenta para la superficie interpolada que la
muestrea inicial de esta posee un EMC de 15,1 m39, así el Error Medio Cuadrático del
DEM sería causa de la interpolación mas no del error inherente que poseen los datos
iniciales.
39
ASTER GDEM Validation Team, 2011.
49
4.7 Supuestos del estudio
Al generar el re-muestreo de un DEM se presume que produce un error debido a que
los métodos de interpolación trabajan en base a propiedades matemáticas
independientemente del tipo de área a trabajar, mientras que el comportamiento de la
superficie varía de acuerdo a factores naturales, siendo así poco probable predecir el
valor muestreado por medio de una interpolación.
La aplicación de la Validación Cruzada como método de re-muestreo de datos no es
una prueba directa del nivel de error en un DEM en particular, a menos que haya
sucedido que el DEM fuese generado por re-muestreo de una resolución muy baja40.
Sin embargo, la producción de un gran número de estimaciones de error de elevación,
distribuidos sobre el DEM, permite explorar algunos cuestionamientos generales
como la identificación de las características estadísticas del error del DEM y hasta
qué punto ésta difiere entre los métodos de interpolación y la relación entre el EMC
de la elevación y el EMC de la superficie.
Los hallazgos deben ser de particular relevancia para cualquier usuario SIG que
utiliza un producto DEM, generado a partir de la reducción de resolución de un
modelo con mayor densidad de muestras.
40
Garzón, 2013: Validación cruzada como método de investigación en la calidad de Modelos
Digitales de Elevación.
50
5. LA HIPÓTESIS
La información geográfica con una representación lógica y visualmente eficiente es
empleada al SIG, la razón elemental para manipular un SIG es la gestión de
información espacial. El sistema permite separar la información en diferentes capas
temáticas y las almacena independientemente, permitiendo trabajar con ellas de
manera rápida y sencilla. Una parte elemental de la información integrante de los
Sistemas de Información Geográfica son los Modelos Digitales de Elevación (DEM),
este sistema varía dependiendo del método que se emplea para generarlos,
permitiendo que las respuestas derivadas del modelo sean aplicables a la realidad sin
perder sentido, los DEM pueden indicar procesos de las superficies tales como el
flujo de agua superficial, la radiación solar o la erosión, sin embargo la captura de la
información hipsométrica constituye el paso inicial en el proceso de construcción del
Modelo Digital de Elevación (DEM), e incluye la fase de transformación de la
realidad geográfica a la estructura digital de datos.
Un requerimiento previo para la plena explotación de un DEM es la determinación de
su calidad, la cual se ve afectada directamente por la elección del algoritmo de
interpolación en aplicaciones propias de los Sistemas de Información Geográfica
(SIG).
Cada vez la resolución de la información que se puede obtener fácilmente de los
sistemas satelitales (SRTM, ASTER) y de la obtenida por medio de datos LIDAR, es
51
mayor, con lo cual se hace necesario establecer un método de interpolación que
produzca los resultados más confiables ya que no existen criterios suficientes que
establezcan alguno para las distintas necesidades de los usuarios SIG.
Con respecto a la validación cruzada, Garzón (2013) señala:
“Como método de confrontación de datos se propone la Validación Cruzada. En la
ubicación de los puntos que fueron retirados en el re-muestreo, hubo un valor
interpolado y su correspondiente valor verdadero. Esto produce un gran número de
puntos en los cuales se conoce el error de interpolación, con una propagación igual a
través del DEM.
La comprobación de la hipótesis se plantea mediante un procedimiento estadístico
conocido como Análisis de Varianza (ANOVA), que permite analizar resultados en
procesos investigativos con diseños experimentales, a partir de los cuales se puede
comparar sí los valores que toma un conjunto de datos que corresponden a
variaciones de una misma variable dependiente, en este caso el Error Medio
Cuadrático, se ve afectados por una o más variables de tipo independiente: El
algoritmo de interpolación y el re-muestreo. El Análisis de Varianza permitirá poner a
prueba la nulidad de la hipótesis, pudiendo encontrar un porcentaje de probabilidad
que defina la aceptación o rechazo de esta, identificando el mejor interpolador en
función del menor Error Medio Cuadrático.”41.
41
Garzón, 2013: Ibíd.
52
6. METODOLOGÍA Y DISEÑO DE LA
INVESTIGACIÓN
Los DEM son aún poco utilizados por los equipos investigadores. Por este motivo se
hace aconsejable realizar un esfuerzo en el desarrollo de métodos y aplicaciones,
especialmente aquellos que permiten abordar problemas difíciles de solucionar por
métodos convencionales42.
La metodología propuesta implica no solamente la evaluación de cinco métodos de
interpolación (GP, IDW, KRG, LP, RBF), sino también la determinación de la
incidencia de la densidad de los datos que se encuentran distribuidos equidistantes.
Se espera concluir qué algoritmo(s) de interpolación son los adecuados para la
interpolación de datos y representación de una porción de la superficie terrestre a
partir de una imagen ráster obtenida del sistema ASTER GDEM, así mismo
considerar hasta qué punto se puede reducir la resolución espacial, de modo que la
calidad altimétrica del modelo conserve validez para el objeto de estudio.
En el año 2013, Garzón Barrero en su tesis de grado realizada para la obtención del
título de Magister en Sistemas de Información Geográfica: Validación cruzada como
método de investigación en la calidad de Modelos Digitales de Elevación, llevó a
cabo una metodología la cual tiene criterios y recursos válidos para dar respuesta a la
42
Felicísimo, 1994: Modelos digitales del terreno. Introducción y aplicaciones en ciencias
ambientales.
53
pregunta de investigación, utilizando la técnica de validación cruzada para la
evaluación y análisis de los errores que se generan por causa de la distribución
espacial de las muestras y la elección del interpolador. Se adopta la metodología
utilizada por el autor mencionado para el desarrollo de ésta investigación.
Obtención de datos (Imagen ráster)
Para tener una muestra y un área considerable de estudio, se recurre al sistema
ASTER (Advanced Space-borne Thermal Emission and Reflection Radiometer), del
cual se obtiene de forma gratuita una imagen con cobertura de 127 km x 127 km
(16.129 km²) y resolución espacial de 30 m. Debido al alto número de datos
contenidos en esta área, se hace necesario realizar un recorte (para que posteriormente
los datos puedan ser procesados en conjunto), que da como resultado una cobertura
de 27 km x 27 km, conservando su resolución espacial de 30 m que finalmente
tendrá 810.000 muestras, es decir este número de puntos cada uno con la variable
altitud. La zona seleccionada lleva por nombre ASTGTM2_N01W078 y es la que se
muestra en la siguiente figura.
Figura 18. Zona de estudio
54
Re-muestreo
El re-muestreo es el modo de obtener una resolución menor a la que tiene
originalmente el ráster. Consiste tomar la imagen original de resolución 30 m (tamaño
de celda de 30 m x 30 m) y realizar el proceso que corresponde para que
posteriormente el valor del tamaño de la celda sea mayor; esto permite que al
interpolarse los DEM re-muestreados se vaya generando un error, el cual es calculado
comparando dichos resultados con el DEM original.
Para realizar el re-muestreo es necesario, en este caso, realizar la conversión del ráster
original a puntos, ya que si se utiliza la herramienta para realizar el re-muestreo en el
Software ArcGIS® de ESRI™, no sería de utilidad, pues el valor de la celda del
DEM re-muestreado no posee las mismas coordenadas que el DEM original; de este
modo no se podría realizar la comparación para obtener el error en posiciones
determinadas.
Como señala Garzón (2013) es importante que en todos los casos las cuatro esquinas
de la zona de estudio se incluyan como puntos del conjunto de datos del re-muestreo,
de lo contrario algunos puntos serán estimados mediante extrapolación en lugar
de interpolación.
Al realizar el re-muestreo se obtienen diferentes espaciamientos entre los puntos, de
igual manera cambia la totalidad de datos para cada re-muestreo como se muestra en
la siguiente tabla.
55
Tabla 1. Re-muestreos
RE-MUESTREOS
Espacio entre puntos
Número de datos
60m x 60m
202.500
120m x 120m
50.625
300m x 300m
8.100
600m x 600m
2.025
900m x 900m
900
A continuación se presentan imágenes que permiten tener una idea visual de la
diferencia que existe entre los espaciados de los re-muestreos planteados en esta
investigación.
Figura 19. 30 m x30 m (Original)
Figura 22. 300 m x 300 m
Figura 20. 60 m x60 m
Figura 23. 600 m x600 m
Figura 21. 120 m x 120 m
Figura 24. 900 m x 900 m
56
Interpolación
Se interpola cada DEM re-muestreado por los siguientes algoritmos de interpolación:
Global Polynomial Interpolation, Inverse Distance Weighting, Kriging, Local
Polynomial Interpolation y Radial Basis Functions. Como herramienta para la
interpolación se utiliza el software ArcGIS® 9 (ArcMap™ versión 9.3) de ESRI™
(versión estudiantil).
Calculo del error
De acuerdo a la teoría de errores desarrollada por Gauss, se adopta el Error Medio
Cuadrático como el modelo matemático más exigente para calcular el error de un
DEM, por lo que su uso facilita la comparación de los valores obtenidos; lo que se
pretende es establecer y cuantificar las diferencias más significativas encontradas
entre la aplicación de estos algoritmos usados para la modelación de superficies43.
Para el cálculo del EMC el procedimiento a seguir desde el punto de vista teórico es:

En primer lugar hay que calcular, para cada punto de control, la diferencia
(residuo)
altimétrica
existente
entre
el
modelo
interpolado
y
su
correspondiente posición con el dato de elevación original del DEM.
43
Garzón, 2013: Validación cruzada como método de investigación en la calidad de Modelos
Digitales de Elevación.
57

Luego se elevan dichos residuos al cuadrado
para eliminar el valor
del signo.

Después se obtiene el promedio de las diferencias para todo el conjunto de
puntos de control

Por último se halla la raíz cuadrada de dicho promedio obteniendo el EMC.
El resultado es la cobertura puntual que contiene los registros que sirven para
caracterizar los modelos del área de estudio en función de su EMC.
Es así como se pretende extraer de los DEM producidos los valores de elevación
interpolados a la resolución espacial inicial, es decir 30 m. Con lo cual se obtendrá el
resultado del valor interpolado para poder compararlo con el valor original de la
muestra, obteniendo como producto final una matriz de Errores Medios Cuadráticos.
Análisis estadístico
Una vez obtenida la matriz de errores se hace necesario un procesamiento estadístico
que permita darle rigor científico al estudio, es así como se plantea el Análisis de
Varianza (ANOVA) que permite calcular la medida de la dispersión de un conjunto
de datos alrededor de una magnitud promedio, determinando la magnitud del error
que posee cada algoritmo.
La validez del Análisis de Varianza está supedita al cumplimento de algunos
requisitos de tipo matemático y probabilístico en las observaciones. Se dice que el
58
modelo ANOVA es apto para comparar efectos de variables en un fenómeno si los
datos experimentales se ajustan al modelo, es decir, si las condiciones subyacentes al
modelo están implícitas en los datos. Para este caso específico se realizará un
ANOVA de dos factores con interacción, lo que quiere decir que se permite comparar
varios grupos de una variable cuantitativa, se definieron como variables nominales: a)
los cinco re-muestreos y b) el algoritmo de interpolación; como la variable
cuantitativa, es decir, en la cual se desean comparar los grupos: el Error Medio
Cuadrático de cada re-muestreo, resumiendo se tiene:
Variables independientes:
Variable dependiente:
re-muestreos (5), algoritmos de interpolación (5)
Error Medio Cuadrático (EMC)
La hipótesis que se pone a prueba en el ANOVA de dos factores con interacción, es
aquella donde las medias poblacionales (las medias del EMC en los re-muestreos y
algoritmos) son iguales. Si las medias poblacionales son iguales, esto significa que
los grupos no difieren en el Error Medio Cuadrático, y que en consecuencia, el EMC
no tiene ninguna relación con el tamaño del re-muestreo ni con el algoritmo de
interpolación.
(Ecuación 8)
(Ecuación 9)
59
A diferencia de otras pruebas de medias que se basan en la diferencia existente entre
dos valores, el Análisis de Varianza emplea la razón de las estimaciones, dividiendo
la estimación intermediantes entre la estimación interna para determinar la semejanza
existente entre las medias que se comparan.
Para poner a prueba la hipótesis nula
, se procede a obtener el valor RazónF (de la
distribución de Fisher) para los factores re-muestreo e interpolador, estos valores
estadísticos de prueba resultantes se deben comparar con un valor tabular de F (véase
Anexo C), Fcrítico, que indicará el valor máximo del valor estadístico de prueba
(RazónF) que ocurría si
fuera verdadera, a un nivel de significación seleccionado
(0.05). Si el valor de RazónF de cualquiera de los dos factores es mayor al estadístico
FSnedecor (Fcrítico), se rechaza la hipótesis de igualdad y se puede afirmar que el
Error Medio Cuadrático es dependiente del algoritmo de interpolación y el remuestreo; de lo contrario no se puede afirmar que los grupos que se están
comparando difieran en sus promedios poblacionales.
Si el nivel crítico asociado al valor F es menor que 0,05 se rechaza la hipótesis de
igualdad de medias y se concluye que no todas las medias poblacionales son
iguales44.
44
Garzón, 2013: Ibíd.
60
Figura 25. Diagrama de metodología de la investigación.
INICIO
ASTER GDEM
Residuos
Cálculo
EMC
Extracción
Puntos
30m x 30m
Validación
Cruzada
Re-muestreo
Matriz de
errores
Análisis
estadístico
Puntos
Conclusiones
60m x 60m
120m x 120m
300m x 300m
600m x 600m
Interpolación
GP, IDW, KRG,
LP, RBF
FIN
900m x 900m
61
6.1 Justificación de la metodología seleccionada
Se acude a la aplicación de la técnica de Validación Cruzada (como método de remuestreo) al DEM original, de modo que a medida que se re-muestrea a una
resolución menor a la original se generen errores al predecir el valor eliminado. Se
presume que los valores resultantes de la interpolación serán siempre distintos y
dependientes del algoritmo que se utilice; de ahí la importancia de evaluar la calidad
de los algoritmos que se plantean en esta investigación, pues la diferencia que exista
entre el valor predicho (interpolado) y el valor de la elevación del punto del DEM
original, es el residuo que se traduce posteriormente en el error del algoritmo para la
resolución a la que se puso a prueba.
Como técnica estadística para analizar los resultados se utiliza ANOVA (Analysis Of
Variance); con ella se puede comparar si los valores que toma un conjunto de datos
que corresponden a variaciones de una misma variable dependiente, se ven afectados
por una o más variables de tipo independiente.
“El análisis de la varianza se utiliza para dos propósitos, uno: probar la hipótesis
respecto a las varianzas poblacionales, y dos: estimar y probar las hipótesis respecto a
las medias poblacionales.”45
45
Garzón, 2013: Ibíd.
62
7. ANÁLISIS DE LA INFORMACIÓN
La fase experimental está compuesta por la aplicación de los algoritmos de
interpolación a cada DEM re-muestreado. Se presentan las figuras que permiten ver
cambios en la superficie ya interpolada a medida que se utiliza una resolución
diferente a la original, de igual forma para cada re-muestreo se optó por capturar
aleatoriamente una zona para la visualización del error y su relación con las curvas de
nivel, o dicho de otra forma: el contraste del error con la pendiente.
Gracias a las estadísticas que facilita el software ArcMap™ Versión 9.3, a partir de
los resultados de la interpolación, se pueden generar DEM con los errores para cada
posición que se interpoló, es decir que no se obtiene una representación a partir de la
variable elevación, sino con el error de la predicción para cada punto que se haya remuestreado; de este modo contamos con otro panorama distinto al cuantitativo ya que
este se traduce a un mapa en donde se evidencia en contraste del error en relación a la
pendiente del terreno. Es de aclarar que no es propósito de esta investigación el
determinar la incidencia de la pendiente en la calidad de la predicción de los datos,
sino que se realizan los mapas con la intención de abrir un tema de discusión para que
a futuro sea investigado pues es de gran importancia conocer la incidencia de la
pendiente en la calidad de la representación del terreno por medio de un DEM.
63
GLOBAL POLYNOMIAL INTERPOLATION (GP)
Figura 26. GP- 30 m x30 m (Original)
Figura 29. GP- 300 m x300 m
Figura 27. GP- 60 m x60 m
Figura 30. GP- 600 m x600 m
Figura 28. GP- 120 m x120 m
Figura 31. GP- 900 m x900 m
Figura 32. Rangos de elevación (m)
Ya se hace evidente que este interpolador no es recomendado para la representación
de superficies a través de un DEM, pues ni siquiera con la resolución original (Figura
64
26) se alcanzan a visualizar los accidentes y características más notorias de la zona
estudiada; por lo tanto se omite la realización de los mapas de error para el algoritmo
evaluado.
Se hace necesario, para evitar confusiones, recapitular lo dicho anteriormente: que en
todos los casos los algoritmos necesitan valores de los parámetros alternativos que
controlan la interpolación, y que generalmente modifican el producto final; y que para
el desarrollo de este apartado se utilizaron los valores sugeridos por ArcMap™; dado
esto es probable que al modificar ciertos parámetros de este interpolador, los
resultados de la predicción sean valores aceptables para la creación de un DEM.
65
INVERSE DISTANCE WEIGHTING (IDW)
Figura 33. IDW- 30 m x30 m (Original)
Figura 36. IDW- 300 m x300 m
Figura 34. IDW- 60 m x60 m
Figura 37. IDW- 600 m x600 m
Figura 35. IDW- 120 m x120 m
Figura 38. IDW- 900 m x900 m
Figura 32. Rangos de elevación (m)
66
IDW: Resultados re-muestreo 60 m X 60 m
Figura 39. IDW-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 40. IDW- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
67
IDW: Resultados re-muestreo 120 m X 120 m
Figura 41. IDW-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 42. IDW- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
68
IDW: Resultados re-muestreo 300 m X 300 m
Figura 43. IDW-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 44. IDW- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
69
IDW: Resultados re-muestreo 600 m X 600 m
Figura 45. IDW-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 46. IDW- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
70
IDW: Resultados re-muestreo 900 m X 900 m
Figura 47. IDW-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 48. IDW- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
71
KRIGING (KRG)
Figura 49. KRG- 30 m x30 m (Original)
Figura 52. KRG-300 m x300 m
Figura 50. KRG- 60 m x60 m
Figura 53. KRG-600 m x600 m
Figura 51. KRG-120 m x120 m
Figura 54. KRG-900 m x900 m
Figura 32. Rangos de elevación (m)
72
KRG: Resultados re-muestreo 60 m X 60 m
Figura 55. KRG-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 56. KRG- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
73
KRG: Resultados re-muestreo 120 m X 120 m
Figura 57. KRG-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 58. KRG- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
74
KRG: Resultados re-muestreo 300 m X 300 m
Figura 59. KRG-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 60. KRG- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
75
KRG: Resultados re-muestreo 600 m X 600 m
Figura 61. KRG-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 62. KRG- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
76
KRG: Resultados re-muestreo 900 m X 900 m
Figura 63. KRG-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 64. KRG- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
77
LOCAL POLYNOMIAL INTERPOLATION (LP)
Figura 65. LP- 30 m x30 m (Original)
Figura 68. LP- 300 m x300 m
Figura 66. LP- 60 m x60 m
Figura 69. LP- 600 m x600 m
Figura 67. LP-120 m x120 m
Figura 70. LP- 900 m x900 m
Figura 32. Rangos de elevación (m)
78
LP: Resultados re-muestreo 60 m X 60 m
Figura 71. LP-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 72. LP- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
79
LP: Resultados re-muestreo 120 m X 120 m
Figura 73. LP-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 74. LP- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
80
LP: Resultados re-muestreo 300 m X 300 m
Figura 75. LP-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 76. LP- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
81
LP: Resultados re-muestreo 600 m X 600 m
Figura 77. LP-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 78. LP- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
82
LP: Resultados re-muestreo 900 m X 900 m
Figura 79. LP-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 80. LP- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
83
RADIAL BASIS FUNCTION (RBF)
Figura 81. RBF- 30 m x30 m (Original)
Figura 84. RBF-300 m x300 m
Figura 82. RBF-60 m x60 m
Figura 85. RBF-600 m x600 m
Figura 83. RBF-120 m x120 m
Figura 86. RBF-900 m x900 m
Figura 32. Rangos de elevación (m)
84
RBF: Resultados re-muestreo 60 m X 60 m
Figura 87. RBF-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 88. RBF- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
85
RBF: Resultados re-muestreo 120 m X 120 m
Figura 89. RBF-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 90. RBF- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
86
RBF: Resultados re-muestreo 300 m X 300 m
Figura 91. RBF-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 92. RBF- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
87
RBF: Resultados re-muestreo 600 m X 600 m
Figura 93. RBF-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 94. RBF- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
88
RBF: Resultados re-muestreo 900 m X 900 m
Figura 95. RBF-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.)
Figura 96. RBF- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.)
89
Mapas de error y curvas superpuestas para re-muestreo 60 m X 60 m
Figura 39. IDW
Figura 55. KRG
Figura 71. LP
Figura 87. RBF
90
Mapas de error y curvas superpuestas para re-muestreo 120 m X 120 m
Figura 41. IDW
Figura 57. KRG
Figura 73. LP
Figura 89. RBF
91
Mapas de error y curvas superpuestas para re-muestreo 300 m X 300 m
Figura 43. IDW
Figura 59. KRG
Figura 75. LP
Figura 91. RBF
92
Mapas de error y curvas superpuestas para re-muestreo 600 m X 600 m
Figura 45. IDW
Figura 77. LP
Figura 61. KRG
Figura 93. RBF
93
Mapas de error y curvas superpuestas para re-muestreo 900 m X 900 m
Figura 47. IDW
Figura 63. KRG
Figura 79. LP
Figura 95. RBF
94
7.1 Detalles del análisis
En este apartado se analizan estadísticamente los resultados de la fase experimental
de esta investigación, la cual comprende diversos aspectos referentes a la
representación de la superficie terrestre mediante un DEM, como lo es la incidencia
de la resolución espacial de los datos así como el algoritmo que se aplica para dicha
representación.
Con la cantidad de datos e información que se cuenta resultante de la evaluación que
se realiza a los cinco algoritmos de interpolación, se quiere llegar a conclusiones
fiables a partir del análisis que se realice a lo mencionado, por lo tanto se pretende
aplicar a estos datos el método estadístico más apropiado, de modo que se pueda
poner en manifiesto el significado de las diferencias encontradas entre las variables.
Se potencia la inclusión de gráficos descriptivos para la representación de las
distribuciones estadísticas de los factores, de forma que los resultados sean más
comprensibles.
Al llevar a cabo las interpolaciones de todos los re-muestreos con cada uno de los
algoritmos propuestos, se obtienen los residuos resultantes de la diferencia entre el
valor predicho por el interpolador y el valor real de la muestra; con ello se procede a
realizar el cálculo del Error Medio Cuadrático (EMC) aplicando la ecuación 1.
(Ecuación 1)
95
Como resultado se obtiene la matriz de Errores Medios Cuadráticos que es la base
fundamental para realizar el Análisis de Varianza.
Tabla 2. Matriz de Errores Medios Cuadráticos (en metros)
Algoritmo de interpolación
Re-muestreo
900
GP
329,70
IDW
73,63
KRG
59,58
LP
65,43
RBF
60,40
600
329,31
52,88
40,90
45,10
41,90
300
329,02
27,62
19,76
21,10
19,18
120
328,94
10,90
6,97
7,59
6,53
60
328,94
5,07
3,31
3,60
3,25
Con los datos de la tabla 2 se realiza el grafico de interacciones donde se permite
visualizar la relación que existe entre factores (re-muestreo y algoritmo de
interpolación).
Cabe señalar que el error de elevación que está ligado a la imagen del sistema
ASTER no sobrepasa los 20 metros (ASTER Global Digital Elevation Model Version
2 – Summary of Validation Results, Agosto 31 del 2011), con lo cual cabe considerar
que los interpoladores: Radial Basis Function y Kriging están dentro del Rango
vertical de tolerancia hasta re-muestreos de 300 m (véase Tabla 2).
Considerando que el re-muestreo de 300 metros se encuentra en un rango vertical de
error permisible, se puede decir que la elección de este tamaño de celda de 300 m
permite aumentar la eficacia en tiempo, debido a que disminuyen datos a procesar sin
afectar groseramente la calidad altimétrica de los datos.
96
Si se tiene un número de datos X a la resolución original de 30 metros podríamos
aumentar 10 veces el área a procesar si se utiliza un re-muestreo de 300 metros con el
mismo valor X de datos y dentro de la tolerancia de error de 20 metros.
Los interpoladores Radial Basis Function (Función de Base Radial) y Kriging
presentan un Error Medio Cuadrático de 3,25 m y 3,31m respectivamente, para el remuestreo de 60 metros, mediante estos resultados se pueden considerar los métodos
de interpolación más adecuados para la representación de superficies de dicha
resolución. Algo similar ocurre para los demás re-muestreos, donde estos algoritmos
conservan el menor Error Medio Cuadrático, y tienen una diferencia discreta con
relación a IDW y a LP.
Análisis de Varianza para el EMC - Suma de Cuadrados Tipo III
En este procedimiento se ejecuta un análisis de varianza de varios factores para el
EMC. Se realizan varias pruebas y gráficas para determinar qué factores tienen un
efecto estadísticamente significativo sobre el EMC.
También se evalúa la
significancia de las interacciones entre los factores. Para cada factor significativo, las
Pruebas de Rangos Múltiples dirán cuales medias son significativamente diferentes
de otras. Las Gráficas de Medias (Figuras 99 y 100) y la Gráfica de Interacciones
(Figura 97) ayudan a interpretar los efectos significativos.
97
Figura 97. Gráfica de interacciones
80
70
EMC (m)
60
50
40
IDW
30
KRG
20
LP
10
0
RBF
Re-muestreo
60
120
300
600
900
IDW
5,07
10,90
27,62
52,88
73,63
KRG
3,31
6,97
19,76
40,90
59,58
LP
3,60
7,59
21,10
45,10
65,43
RBF
3,25
6,53
19,18
41,90
60,40
Tabla 3. Razones-F y Grados de Libertad (Gl)
Fuente
EFECTOS PRINCIPALES
A:re muestreo
B:interpolador
RESIDUOS
TOTAL (CORREGIDO)
Suma de Cuadrados
Gl
Cuadrado Medio(m)
Razón-F
Valor-P
8586.1
361279.
2148.43
372013.
4
4
16
24
2146.53
90319.7
134.277
15.99
672.64
0.0000
0.0000
Nota: Todas las razones-F se basan en el cuadrado medio del error residual
En la tabla 3 se muestra que la variabilidad de EMC se descompone en
contribuciones debidas a varios factores. Puesto que se ha escogido la suma de
cuadrados Tipo III (por omisión), la contribución de cada factor se mide eliminando
los efectos de los demás factores. Los valores-P prueban la significancia estadística
de cada uno de los factores. Puesto que 2 valores-P son menores que 0,05, estos
98
factores tienen un efecto estadísticamente significativo sobre el EMC con un 95,0%
de nivel de confianza.
CONTRASTE DE LA HIPÓTESIS:
1. Contraste de la existencia de interacción:
Para establecer la región de criterio de contraste, es necesario hallar el
estadístico F-Snedecor (Fcrítico):
Donde:
0.05 indica una probabilidad de error del 5%
4 es el valor de Grados de Libertad del numerador (aplica para re-muestreo e
interpolador)
16 es el valor de grados de libertad del denominador (residuos)
Figura 98. Distribución Fisher
Dado Fcrítico, el límite establecido para división de la zona de aceptación y la zona
de rechazo; y siendo los valores de la razones F de los dos factores mayores a 3.0069,
99
se rechaza la hipótesis de igualdad (h0) y se concluye que no todas las medias
poblacionales son iguales (véase Fig. 99 y 100), queriendo decir que el Error Medio
Cuadrático es dependiente del tamaño del re-muestreo y el método de interpolación y
por lo tanto estos dos últimos afectan el valor de EMC según el que se elija.
La figura 99 muestra la media de EMC para cada uno de los niveles de Re-muestreo.
También muestra un intervalo alrededor de cada media. Los intervalos mostrados
actualmente están basados en el procedimiento de la diferencia mínima significativa
(LSD) de Fisher. Están construidos de tal manera que, si dos medias son iguales, sus
intervalos se traslaparán un 0,0% de las veces. Cualquier par de intervalos que no se
traslapen verticalmente corresponden a pares de medias que tienen una diferencia
estadísticamente significativa.
y 95,0% de Fisher LSD
Figura 99. Medias Medias
del EMC
para el factor Re-muestreo
141
EMC
121
101
81
61
60
120
300
Remuestreo
600
900
En la tabla 4, se identifican 3 grupos homogéneos según la alineación de las X's en
columnas. No existen diferencias estadísticamente significativas entre aquellos remuestreos que compartan una misma columna de X's.
100
Tabla 4. Homogeneidad entre re-muestreos
Re-muestreo Casos
60
5
120
5
300
5
600
5
900
5
Nota: 95% LSD
Media LS
68.834
72.186
83.336
102.018
117.748
Sigma LS
5.18222
5.18222
5.18222
5.18222
5.18222
Grupos Homogéneos
X
X
X
X
X
En la siguiente tabla se aplica un procedimiento de comparación múltiple para
determinar cuáles medias son significativamente diferentes de otras. La tabla 5
muestra las diferencias estimadas entre cada par de medias. El asterisco que se
encuentra en la columna Sig. indica que estos pares muestran diferencias
estadísticamente significativas con un nivel del 95,0% de confianza.
Tabla 5. Diferencia entre medias de re-muestreo
Contraste Sig. Diferencia (m) +/- Límites (m)
60 - 120
-3.352
15.5363
60 - 300
-14.502
15.5363
60 - 600
*
-33.184
15.5363
60 - 900
*
-48.914
15.5363
120 - 300
-11.15
15.5363
120 - 600
*
-29.832
15.5363
120 - 900
*
-45.562
15.5363
300 - 600
*
-18.682
15.5363
300 - 900
*
-34.412
15.5363
600 - 900
*
-15.73
15.5363
Nota: * indica una diferencia significativa.
El método empleado actualmente para discriminar entre las medias es el
procedimiento de diferencia mínima significativa (LSD) de Fisher. Con este método
hay un riesgo del 5,0% al decir que cada par de medias es significativamente
diferente, cuando la diferencia real es igual a 0 (cero).
101
Figura 100. Medias del EMC para el factor Interpolador
Si se quiere conocer si un interpolador es significativamente diferente a otro, basta
con proyectar un extremo de la forma de color azul de un algoritmo X hasta la
representación de Y; si la proyección de x concurre dentro de y se establece que no
hay diferencias estadísticamente significativas entre estos dos; de no haber
concurrencia se entiende que son diferentes en el sentido ya mencionado.
En la tabla 6, se identifican 4 grupos homogéneos según la alineación de las X's en
columnas.
No existen diferencias estadísticamente significativas entre aquellos
niveles que compartan una misma columna de X's.
Tabla 6. Homogeneidad entre interpoladores
Interpolador
KRG
RBF
LP
IDW
GP
Casos
5
5
5
5
5
Media LS
26,104
26,252
28,564
34,02
329,244
Sigma LS
5.16101
5.16101
5.16101
5.16101
5.16101
Grupos Homogéneos
X
X
X
X
X
Método: 95,0 porcentaje LSD
102
En la tabla 7 se aplica un procedimiento de comparación múltiple para determinar
cuáles medias son significativamente diferentes de otras. Esta tabla muestra las
diferencias estimadas entre cada par de medias. El asterisco que se encuentra al lado
de los 4 pares indica que estos pares muestran diferencias estadísticamente
significativas con un nivel del 95,0% de confianza ratificando lo que se aprecia en la
grafica de medias del EMC para el factor Interpolador (fig. 100).
Tabla 7. Diferencia entre medias de error de los interpoladores.
Contraste
Sig. Diferencia (m) +/- Límites (m)
IDW - KRG
7,916
15,4727
IDW – LP
5,456
15,4727
IDW – RBF
7,768
15,4727
IDW – GP
* -295,224
15,4727
KRG – LP
-2,460
15,4727
KRG – RBF
-0,148
15,4727
KRG – GP
* -303,140
15,4727
LP – RBF
2,312
15,4727
LP – GP
* -300,680
15,4727
RBF - GP
* -302,992
15,4727
Nota: * indica una diferencia significativa.
Al rechazar la hipótesis de igualdad se entiende que la media de los errores de los
algoritmos no es igual y que existen diferencias entre unos y otros. La tabla 7 muestra
cuánta es la diferencia entre cada par de grupos; de lo que se puede afirmar que los
algoritmos Kriging y Radial Basis Functions son el par de algoritmos que menos
diferencia presentan cuando se comparan las medias del error, considerando así que
los resultados de las interpolaciones entre estos dos no son estadísticamente
significativas.
103
ANOVA Multifactorial - EMC
Variable dependiente: EMC
Factores:
Re-muestreo (5)
Interpolador (5)
Número de casos completos: 25
El mejor algoritmo de representación de la superficie de los evaluados en este
estudio es aquel que menor Error Medio Cuadrático presente, a la vista del gráfico de
interacciones (Figura 97 ) se puede entender fácilmente que el algoritmo RBF es el
que se encuentra más cercano al valor cero de error, también se puede inferir que no
existe una diferencia estadísticamente significativa entre dicho algoritmo y Kriging;
el algoritmo Global Polynomial Interpolation presenta mayor error significativo,
alejándose de los rangos de la media de errores (grafica 99), es así, como se ratifica
el rechazo de la hipótesis nula. Siendo consecuentes con esta gráfica aquí también se
puede observar que el algoritmo GP es el de peor comportamiento presentando altos
errores, lo cual hace que no se pueda utilizar para la representación de superficies
topográficas según los resultados de este estudio.
104
7.2 Importancia del estudio
Las aplicaciones de los DEM incluyen cualquier estudio que requiere como dato la
altura topográfica de la Tierra y su variación espacial. Entre los estudios que se hacen
en la exploración geotérmica pueden citarse los que se refieren a estimación de
temperaturas medias anuales en función de la altura y orientación del terreno;
fenómenos de erosión; trazo de carreteras o líneas de conducción; remoción de
material; identificación de drenajes y representación tridimensional de las zonas
geotérmicas para proyectos de realidad virtual con fines didácticos, entre varios más.
Su utilidad para un problema específico depende, desde luego, de la dimensión de
éste y la resolución espacial de los datos.
La resolución o tamaño de celda es quizás una de las características que en mayor
medida condiciona la validez de un DEM para un determinado uso. No deben ser
utilizados los resultados de esta investigación de forma arbitraria, sino más bien
como una magnitud orientativa cuya comprensión debe fundamentarse en el
entendimiento de las operaciones que van a llevarse a cabo sobre dicho DEM y el
significado de cuantos resultados se obtengan de las mismas.
105
8. CONCLUSIONES
Gracias a la confrontación de datos que se realiza posterior a la aplicación de la
técnica de Validación Cruzada, se obtienen los residuos para cada una de las muestras
iniciales de la imagen ráster, posterior a ello y aplicando la ecuación para el cálculo
del Error Medio Cuadrático (EMC) se calculó este para cada uno de los algoritmos
propuestos y para sus respectivos re-muestreos dando como resultado la matriz de
errores (Tabla 2). Siendo este el punto de partida para llevar a cabo los análisis
estadísticos y la base para que la elección de los algoritmos interpolantes sea hecha
con criterio basada el resultados de tipo numérico.
Los resultados registrados en la matriz de errores medios cuadráticos en esta
investigación nos permiten seleccionar que los interpoladores: Kriging (KRG) y
Radial Basis Functions (RBF) son los mejores algoritmos de interpolación (de los
que se evaluaron en este estudio) para generalizar la representación de la superficies
terrestres a través un Modelo Digital de Elevación (DEM). Con lo cual se puede decir
que estos algoritmos de interpolación son los más adecuados cuando se quiere
obtener un Modelo Digital de Elevación, de modo que el resultado de la interpolación
no sea distante del valor medido, es decir que la calidad del DEM no se vea
comprometida en las posiciones que no se posean muestras y que por consiguiente es
un valor asignado por el interpolador. Este concepto toma rigidez a partir del grafico
de interacciones (Figura 97) y en la matriz de errores (tabla 2), donde es evidente
106
tanto gráfica como cuantitativamente que los algoritmos seleccionados como los
idóneos, son los que producen menor error al predecir valores y confrontarlos con su
valor original en todos los re-muestreos.
Considerando que el re-muestreo de 300 metros se encuentra en un rango vertical de
error permisible (para RBF y Kriging), se puede decir que la elección de este tamaño
de celda de 300 m permite aumentar la eficacia en tiempo, debido a que disminuyen
datos a procesar sin afectar la calidad altimétrica de los datos.
En los mapas de errores y curvas superpuestas se observa que con todos los
algoritmos el mayor error se presenta en las zonas donde la la superficie presenta una
pendiente alta, considerando que ésta incide en la calidad de la predicción de los
datos en dichas áreas.
Al utilizar el método de validación cruzada para determinar la diferencia existente
entre el valor muestreado y el predicho por el algoritmo en ejecución, permitió que se
acercase a conocer la calidad del resultado de los interpoladores; pues al obtener para
las varias escalas de re-muestreo el Error Medio Cuadrático para cada uno de los
métodos en cuestión, se pueden establecer con criterio los de comportamiento más
beneficioso para la crear Modelos Digitales de Elevación a partir de la variable
altitud.
107
8.1 Respuesta al problema
¿Qué afectación tienen la aplicación del algoritmo de interpolación y el re-muestreo
al representar el terreno a través de un Modelo Digital de Elevación?
Las características de la superficie de la tierra son accidentes que no se adaptan a una
fórmula matemática puesto que es impredecible su forma y rugosidad cuando una
posición no es muestreada en la realidad, por lo tanto a un algoritmo que trabaja bajo
una estructura matemática le será muy poco probable predecir un valor de altitud de
alta precisión, sobre todo cuando se utiliza sobre muestras espaciadas de forma
regular a 60 metros y más. De forma tal que un Modelo Digital de Elevación se verá
afectado significativamente o poco afectado según la elección de un algoritmo debido
a que estos trabajan y representan el terreno de diversas formas. Ello no indica que
los algoritmos que se utilizan en este estudio no ofrezcan resultados confiables; por el
contrario se mencionan los más adecuados para la representación del terreno, así
como un valor máximo46 de espaciado entre las muestras.
Basta con observar el gráfico de interacciones (Figura 97) para concluir que
independiente de algoritmo que se utilice el re-muestreo si afecta, y directamente la
calidad de la interpolación; pues se observa que el Error Medio Cuadrático (EMC)
aumenta significativamente cada vez que el valor de re-muestreo o tamaño de celda
es cambiado por un número mayor a su antecesor. Con lo dicho se establece que si un
valor de re-muestreo o tamaño de celda es mayor al del DEM original, y éste es
46
Valor máximo aproximado a partir de la tolerancia del EMC para usos de DEM a gran escala.
108
interpolado, se afecta la representación del terreno puesto que está ligado a los errores
causados por las predicciones de los valores de las muestras que se excluyen.
109
8.2 Limitaciones del estudio
Existen diversos aplicativos software que cuentan con algoritmos de interpolación
capaces de modelar superficies digitalmente, en esta investigación se hace uso de uno
únicamente (ArcGIS 9.3 ®) lo que puede generar interrogantes de la funcionalidad y
validación de los resultados para software distintos a éste. Ello implica una limitación
a las conclusiones dado que aquí se ejecutan los valores sugeridos por el software
para todos los algoritmos evaluados y que pueden variar con otros entornos.
El cambio de resolución al que es sometido el DEM genera errores que van creciendo
a medida que la resolución es menor, para este caso los valores de re-muestreo se
determinaron bajo parámetros ya argumentados. Queriendo decir que el Error Medio
Cuadrático que aquí se presenta es dependiente de todas las resoluciones, con lo cual
se puede mencionar que es probable que este varíe si el DEM es re-muestreado a
resoluciones diferentes a las que aquí se proponen. La misma limitación existe para el
valor de la pendiente, puesto que no se analizan zonas clasificadas según el valor de
esta, sino que se halla el Error para toda la superficie independiente de la variación de
la mencionada; de tal manera que la calidad de un DEM puede variar según la(s)
pendiente(s) porque como se observa en los mapas de error se nota la diferencia entre
las zonas de menor y mayor pendiente.
110
BIBLIOGRAFIA
BLAKE, C.L., MERZ, C.J.: UCI Repository of machine learning databases.
http://www.ics.uci.edu/ mlearn/MLRepository.html. University of California,
Department of Information and Computer Science (1998)
BURROUGH, P. A.: Principles of Geographical Information Systems for land
resources assessment. Monographs on Soil and Resources Survey. No. 12.
Oxford University Press. (1986) 193p.
BURROUGH, P. A., McDonnell, R; A.: Principles of Geographical Information
Systems. Oxford University Press (1998).
COHEN, P. R.: Empirical Methods for Artificial Intelligence. MIT Press (1995)
DIETTERICH, T. G.: Approximate Statistical Tests for Comparing Supervised
Classification Learning Algorithms. Neural Computation 10 (1998) 18951923
ESRI: Using ArcView 3D Analyst. ArcView 3D Analyst, USA (1997) 118p.
FELICÍSIMO, A.M. (1994) Modelos digitales del terreno. Introducción y
aplicaciones en ciencias ambientales. Oviedo, España. pp. 118.
(http://www.etsimo.uniovi.es/feli/pdf/libromdt.pdf).
111
FELICÍSIMO, A.M. (1999) La utilización de los MDT en los estudios del medio
físico, pp. 16. (http://www.etsimo.uniovi.es/feli/pdf/ITGE_150a.pdf).
FISHER, P. F., TATE, N. J.: Causes and consequences of error in digital elevation
models. Progress in Physical Geography 30. (2006). pp. 467-489
GARZÓN BARRERO, J. (2013): Validación cruzada como método de investigación
en la calidad de Modelos Digitales de Elevación. Tesis de maestría no
publicada. Universidad San Francisco de Quito, Quito Ecuador.
GOMEZ GOMEZ, G., JIMENEZ CLEVES, G.: Introducción a la topografía
analítica. Universidad del Quindío (2008) 6 ed.
HENGL T., HEUVELINK G.M.B., STEIN A.: A generic framework for spatial
prediction of soil variables based on regression-kriging. (2004), 120: 75–93.
HOLTR R. C.: Very Simple Classification Rules Perform Well on Most Commonly
Used Datasets. Machine Learning 11(1) 1993 63-90
KECKLER, D.: Surfer for Windows. User’s Guide. Contouring and 3D Surface
Mapping. Golden Software, Inc. Colorado, USA. Golden Software (1995)
KOHAVI, R.: A Study of Cross-Validation and Bootstrap for Accuracy Estimation
and Model Selection. Proceedings of International Joint Conference on
Artificial Intelligence (1995)
112
MALING, D.H.: Measurements from maps: Principles and methods of cartometry.
(1989) Pergamon Pr, 1 ed.
McCULLAGH, M.J.: Terrain and surface modelling systems: theory and practice.
Photogrammetric Record (1988)
MORENO BROTÓNS, J., ALONSO SARRÍA, F., GOMARIZ CASTILLO, F. Y
ALONSO BERNARDO, D. (2010): Análisis y validación de modelos
digitales de elevaciones mediante datos LIDAR. Universidad de Sevilla,
Sevilla. pp. 258
OLAYA FERRERO, V. (2004) Hidrología computacional y modelos digitales del
terreno –Teoría, practica y filosofía de una nueva forma de análisis
hidrológico-. Ed. 0.95. 18 – 53.
PRESUTTI, M.: Evaluación de errores en modelos digitales de elevación (DEM)
generados mediante diferentes técnicas de interpolación. X Simposio
Latinoamericano de Percepción Remota (2002), SELPER, Cochabamba.
Bolivia.
RUIZ-MAYA, L.: Métodos Estadísticos de Investigación (Introducción al Análisis
de la Varianza). Instituto Nacional de Estadística. (1986).
SCHAFFER, C.: A conservation law for generalization performance. In Proceedings
of the 1994 International Conference on Machine Learning (1994).
SALZBERG S. L.: On Comparing Classifiers: Pitfalls to Avoid and a Recommended
Approach. Data mining and Knowledge Discovery 1 (1997) 317-328.
113
TAYLOR, J.: An Introduction to Error Analysis: The Study of Uncertainties In
Physical Measurements. University Science Books, Sausalito, CA. EEUU.
(1997) 327 pp.
TJEN-SIEN LIM, WEI-YIN LOH, YU-SHAN SHIH: A Comparison of Prediction
Accuracy, Complexity, and Training Time of Thirty-Three Old and New
Classification Algorithms. Machine Learning 40(3) (2000) 203-228
WEHR, A., U. LOHR: Airborne laser scanning – an introduction and overview.
ISPRS Journal of Photogrammetry and Remote Sensing 54, pp. 68-82.
WEIBEL, R. Y HELLER, M.: Digital terrain modeling. en Maguire, D.J.; Goodchild,
M.F. y rhind, D.W. (Eds.). Geographical Information Systems. Longman,
Scientific & Technical. Vol. 1. (1991) pp. 269-297.
WISE, S.: Assessing the quality for hydrological applications of digital elevation
models derived from contours. (2000).
WOLPERT, D.H.: On the Connection Between In-Sample Testing and Generalization
Error. Complex Systems 6 (1992) 47-94
114
ANEXOS
115
Anexo A. Pasos para la interpolación y validación en el software ArcGIS®
Después de haber re-muestreado el DEM original a distintas resoluciones, se realiza
la interpolación para cada uno de ellos y con cada algoritmo de interpolación
mediante la extensión Geostatistical Analyst de ArcGIS® de la siguiente manera:
1. Se agregan las capas de puntos de las diferentes resoluciones espaciales (remuestreos) haciendo clic en Add Data
2. Aparece la ventana de dialogo en la cual se seleccionan dichas capas y se cargan
dando clic en el botón Add
3. Debemos habilitar la extensión Geostatistical Analyst haciendo clic derecho en la
barra de herramientas, se hace clic sobre ella.
4. Para realizar la interpolación abrimos Geostatistical Analyst de donde se despliega
un recuadro, allí seleccionamos Geostatistical Wizard
5. Aparece una ventana, se selecciona el algoritmo de interpolación en el recuadro
Methods, también se debe especificar el dato de entrada, para realizar la interpolación
que es la capa de puntos con un valor determinado de re-muestreo (600_600 en este
ejemplo), en Input data de la pestaña Dataset 1. En la misma pestaña y en la casilla
Attribute se selecciona la variable a interpolar (elevación) que para este caso es valor
que se encuentra en la columna GRID_CODE de la capa de puntos.
116
Este paso solo admite una capa de re-muestreo, por lo que debe realizarse con cada
uno de ellos al igual que con los algoritmos
6. Para realizar la comparación de los resultados que se interpolan con los datos
originales del DEM, se selecciona la pestaña Validation y en Input data se debe
seleccionar la capa de puntos que contiene la resolución espacial original del DEM
(30x30_inicial). De igual manera debe indicarse la columna que contiene la variable
elevación en el espacio Attribute (GRID_CODE). Clic en el botón Next >. En los
siguientes pasos se pueden modificar los distintos parámetros del interpolador, que en
esta investigación se utilizaron los que aparecen por defecto.
7. En el paso cinco (Geostatistical Wizard: Step 5 of 5 – Validation) aparecen los
resultados de la comparación (Validación) de los datos interpolados y los del DEM
117
original. En la parte inferior izquierda de la ventana, en el cuadro Prediction errors,
se observa el Error Medio Cuadrático (Root-Mean-Square). Clic en el botón Finish.
A continuación el programa muestra la superficie interpolada.
8. Para registrar los resultados de los errores para cada una de las muestras, se hace
clic derecho sobre el nombre de la superficie que aparece en la ventana de contenidos
(Ordinary Kriging en la imagen del ejemplo) y se selecciona “Validation…”.
9. Aparece la ventana Validation. Al igual que en el Paso 5, en el cuadro Input Data
se debe seleccionar como datos para la comparación la capa que contiene los puntos
118
con la resolución original del DEM (30x30_inicial) y en Attribute la columna de la
capa que contiene el valor de la elevación de los puntos (GRID_CODE). En el cuadro
Specify output shapefile or feature class se indica la ruta y el nombre para guardar el
archivo shape y clic en el botón OK. Aparece una ventana que pregunta si se desea
agregar el archivo recién creado al mapa actual, y se responde haciendo clic en Yes.
Este paso es equivalente al paso 5, con la distinción que de esta forma quedaran
registrados los resultados en un archivo independiente de capa de puntos.
10. Para exportar el archivo que se encuentra como capa de puntos se cliquea con el
botón derecho y se abre la tabla de atributos (Open Attribute Table)
119
11. El programa nos muestra la tabla de atributos con los resultados de la validación,
donde se aprecia el error y los residuos para cada una de las 810.000 muestras. Clic
en el botón Options, que se encuentra en la parte inferior derecha de la ventana, luego
en “Export…”.
12. En la ventana Export Data se indica la ruta y el nombre para el archivo de base de
datos que lleva la extensión “.dbf” (Data-Base-File)
De este modo quedan registrados los resultados de la interpolación, así como los
errores para cada una de las muestras del DEM, con lo que se calcula el Error Medio
Cuadrático.
120
Anexo B. Generalidades sobre ASTER GDEM.
ASTER (Advanced Space Borne Thermal Emission and Reflection Radiometer)
GDEM (Global Digital Elevation Model), es un sensor que captura imágenes de la
tierra en alta resolución y 14 bandas espectrales; construido por el Ministerio de
Economía Industria y Comercio (METI) del Japón y lanzado a bordo del satélite
Terra de la NASA en diciembre de 1999.
ASTER GDEM cubre la superficie de la tierra entre 83° N y 83° S y está compuesto
por 22.600 celdas de 1 °-por-1 °. Celdas que contienen al menos 0,01% del área de la
tierra. ASTER GDEM está en formato Geo-TIFF con coordenadas geográficas
latitud/longitud y una rejilla de 1 segundo de arco (30 m) con valores de elevación en
el centro geométrico de cada celda. Se hace referencia al geoide WGS84/EGM96. La
precisión estimada para este producto global es 20 metros con una confiabilidad del
95% para los datos verticales y 30 metros con 95% de nivel de confianza para los
datos horizontales.
La imagen ASTER GDEM con cobertura de 127 km X 127 km está disponible para
cualquier usuario en el mundo y se puede descargar de forma gratuita,
electrónicamente en la dirección web: http://gdem.ersdac.jspacesystems.or.jp/ y
desde: http://reverb.echo.nasa.gov/reverb/.
La topografía de la superficie de la tierra es una de las mediciones geofísicas más
fundamentales de la tierra, y es un factor dominante en casi todos los procesos físicos
que ocurren en la superficie de la tierra. La topografía de la superficie de la tierra
también controla significativamente los procesos dentro de la atmósfera suprayacente, y refleja los procesos dentro de la litosfera subyacente. En consecuencia, la
información topográfica es importante en todo el espectro de ciencias de la tierra, y la
disponibilidad de una imagen DEM de alta resolución (1 segundo de arco o menos)
había sido una prioridad de científicos que estudian la tierra por un largo tiempo.
121
Anexo C. Valores F de la distribución F de Fisher.
Nota: Los valores F se expresan sin unidades.
122
123
Anexo D. Resultados (DVD)
124
GLOSARIO
EDÁFICO
perteneciente o relativo al suelo o a los factores relacionados con este y
que tienen una profunda influencia en la distribución de los seres vivos.
ERROR ALEATORIO
también llamado error accidental o casual. Son los que
permanecen en la medida pero no conocemos su valor, obedecen a las leyes de las
probabilidades y son ajenos a la voluntad o habilidad del observador.
ERROR SISTEMÁTICO
también conocido como error acumulativo, se
comportan de acuerdo a las leyes de la física susceptibles de ser modelados
matemáticamente, por lo que su magnitud puede calcularse y su efecto eliminarse.
GRID o cuadrícula es el conjunto de líneas horizontales y verticales uniformemente
espaciadas. Se utilizan cuadrículas para ayudar a localizar puntos en un plano.
INTERPOLADOR EXACTO
muestreo.
preserva los valores originales de los puntos de
INTERPOLADOR GLOBAL
muestreo.
basa la interpolación en todos los puntos de
INTERPOLADOR INEXACTO
de muestreo.
no mantiene los valores originales de los puntos
INTERPOLADOR LOCAL
de muestreo.
basa la interpolación en un subset de los puntos
125
LIDAR
(un acrónimo del inglés Light Detection and Ranging o Laser Imaging
Detection and Ranging) es una tecnología que permite determinar la distancia desde
un emisor láser a un objeto o superficie utilizando un haz de láser pulsado. Al igual
que ocurre con la tecnología radar, donde se utilizan ondas de radio en vez de luz, la
distancia al objeto se determina midiendo el tiempo de retraso entre la emisión del
pulso y su detección a través de la señal reflejada.
PRECISIÓN es el grado de refinamiento en la ejecución de una medida, o el grado
de perfección en los instrumentos y métodos obteniendo un resultado.
RÁSTER
es un modelo de datos que tiene como principal característica el llevar
a cabo una representación "discreta" del mundo real, empleando una malla de rejillas
regulares denominadas celdas o pixeles. Para cada celda se almacena un valor
numérico que representa el valor de un determinado aspecto del mundo real en el
interior de dicha celda.47
RESOLUCIÓN ESPACIAL se refiere a la dimensión del tamaño de celda que
representa el área cubierta en el terreno. Cuanto mayor sea la resolución de un ráster,
más pequeño será el tamaño de celda, y por lo tanto, mayor será el detalle.48
SISTEMA DE INFORMACIÓN GEOGRÁFICO (SIG) es
una
integración
organizada de hardware, software y datos geográficos; diseñado para capturar,
almacenar, manipular, analizar y desplegar en todas sus formas la información
geográficamente referenciada con el fin de resolver problemas complejos de
planificación y gestión.
SRTM
(acrónimo en inglés, de Shuttle Radar Topography Mission) es una
misión para obtener un modelo digital de elevación de la zona del globo terráqueo
47
48
Tomado de Tomado de http://www.urbanismogranada.com/administrador/archivos/04_10_07_MODELO_RASTER.pdf
Tomado de http://help.arcgis.com/es/arcgisdesktop/10.0/help/index.html#//009t00000004000000
126
entre 56 °S a 60 °N, de modo que genere una completa base de cartas topográficas
digitales de alta resolución de la Tierra.49
TOLERANCIA
marca una barrera en las medidas realizadas, que usaremos para
desechar los valores superiores a la misma y considerarlos como groseros. También
se le llama error máximo.
49
Tomado de http://www2.jpl.nasa.gov/srtm/
127

Documentos relacionados