analisis de la calidad interpolante de cinco algoritmos en un dem
Transcripción
analisis de la calidad interpolante de cinco algoritmos en un dem
ANÁLISIS DE LA CALIDAD INTERPOLANTE DE CINCO ALGORITMOS EN UN MODELO DIGITAL DE ELEVACIONES (DEM) ASTER EN FUNCIÓN DEL ERROR MEDIO CUADRÁTICO (EMC) BERNARDO ANTONIO VELÁSQUEZ BERMÚDEZ CRISTIAN MARÍN AGUDELO DEICY JOHANA ORDOÑEZ MORALES Director de proyecto: JULIÁN GARZÓN BARRERO Tec. en Topografía, Ing. de Sistemas, Esp. en Geomática Investigación como proyecto de grado para optar al título de Tecnólogo en Topografía UNIVERSIDAD DEL QUINDIO FACULTAD DE INGENIERIA PROGRAMA DE TECNOLOGIA EN TOPOGRAFIA Armenia 2013 1 Nota de aceptación ______________________________________ ______________________________________ ______________________________________ ______________________________________ Presidente del Jurado ______________________________________ Jurado ______________________________________ Jurado Armenia, Junio 14 de 2013 2 A mi madre, por su apoyo incondicional y por ser quien se esforzó para que lograra esta meta. Bernardo A Dios por este gran triunfo, a mi hermana Alexandra y a su esposo con quienes tengo una deuda infinita. Cristian A Dios por darme sabiduría, a mi madre por haberme apoyado en mi formación como persona, por la motivación constante, porque gracias a ella tengo el coraje para alcanzar con osadía mis metas, pero sobre todo por su inmenso amor. Johana 3 AGRADECIMIENTOS Los autores expresan sus agradecimientos a: Julián Garzón Barrero, Topógrafo, docente de la Universidad del Quindío y director de la investigación; por sus valiosas orientaciones, por la dedicación y atención, y porque siempre dispuso de su tiempo para responder a nuestros interrogantes. Y a los demás profesores que con su empeño nos hicieron crecer como profesionales y personas éticas. 4 INDICE Pág. RESUMEN.................................................................................................................. 11 INTRODUCCIÓN ...................................................................................................... 13 1. ESTADO DEL ARTE ...................................................................................... 14 2. EL PROBLEMA .............................................................................................. 18 3. OBJETIVOS .................................................................................................... 21 3.1 General ......................................................................................................... 21 3.2 Específicos ................................................................................................... 21 4. MARCO TEÓRICO ......................................................................................... 22 4.1 Métodos de interpolación evaluados ................................................................ 23 4.1.1 GP: Interpolación Polinómica Global (Global Polynomial Interpolation) ............................................................................................................................. 23 4.1.2 IDW: Método de Ponderación Inverso a la Distancia (Inverse Distance Weighting) ........................................................................................................... 25 4.1.3 KRG: Kriging ............................................................................................ 26 4.1.4 LP: Interpolación Polinómica Local (Local Polynomial Interpolation) ... 32 4.1.5 RBF: Funciones de Base Radial (Radial Basis Functions)....................... 36 4.2 Validación Cruzada ...................................................................................... 41 4.3 Análisis de varianza ......................................................................................... 43 4.3.1 Hipótesis.................................................................................................... 44 4.4 El propósito del estudio................................................................................ 46 4.5 El significado del estudio ............................................................................. 46 4.6 Presunción de los autores ................................................................................. 49 4.7 Supuestos del estudio ....................................................................................... 50 5 5. 6. LA HIPÓTESIS ............................................................................................... 51 METODOLOGÍA Y DISEÑO DE LA INVESTIGACIÓN ............................... 53 6.1 Justificación de la metodología seleccionada .................................................. 62 7. ANÁLISIS DE LA INFORMACIÓN ................................................................. 63 7.1 Detalles del análisis .......................................................................................... 95 7.2 Importancia del estudio .................................................................................. 105 8. CONCLUSIONES ............................................................................................ 106 8.1 Respuesta al problema.................................................................................... 108 8.2 Limitaciones del estudio ................................................................................ 110 BIBLIOGRAFIA ...................................................................................................... 111 ANEXOS .................................................................................................................. 115 GLOSARIO .............................................................................................................. 125 6 LISTA DE TABLAS Pág. Tabla 1. Re-muestreos……………………………………………………………… 42 Tabla 2. Matriz de Errores Medios Cuadráticos…………………………………… 96 Tabla 3. Razones-F y Grados de Libertad…………………………………………. 98 Tabla 4. Homogeneidad entre re-muestreos………………………………………...101 Tabla 5. Diferencia entre medias de re-muestreo …………………………………..101 Tabla 6. Homogeneidad entre interpoladores……………………………………….102 Tabla 7. Diferencia entre medias de error de los interpoladores……………………103 7 LISTA DE FIGURAS Pág. Figura 1. Conceptualización de la interpolación lineal .............................................. 24 Figura 2. Conceptualización de la interpolación cuadrática. ..................................... 24 Figura 3. Cálculo de la diferencia cuadrada entre las ubicaciones asociadas. ........... 28 Figura 4. Semi-variograma y sus características. ....................................................... 29 Figura 5. Semi-variograma empírico ajustado al experimental. ................................ 30 Figura 6. Tipos de semi-variograma. ......................................................................... 31 Figura 7. Representación de la superficie con varios planos. .................................... 33 Figura 8. Polinomio de primer orden ......................................................................... 34 Figura 9. Traslapo de polinomios .............................................................................. 34 Figura 10. Polinomios locales .................................................................................... 35 Figura 11. Traslapo de 4 polinomios ......................................................................... 35 Figura 12. Polinomio apto.......................................................................................... 35 Figura 13. Polinomios aptos ...................................................................................... 35 Figura 14. Superficie LP ............................................................................................ 36 Figura 15. Superficie creada por RBF. ...................................................................... 37 Figura 16. Sección de superficie creada con IDW. .................................................... 38 Figura 17. Sección de superficie creada con RBF. .................................................... 38 Figura 18. Zona de estudio......................................................................................... 54 Figura 19. 30 m x30 m (Original) .............................................................................. 56 Figura 20. 60 m x60 m ............................................................................................... 56 Figura 21. 120 m x 120 m .......................................................................................... 56 Figura 22. 300 m x 300 m .......................................................................................... 56 Figura 23. 600 m x600 m ........................................................................................... 56 Figura 24. 900 m x 900 m .......................................................................................... 56 Figura 25. Diagrama de metodología de la investigación. ......................................... 61 Figura 26. GP- 30 m x30 m (Original) ...................................................................... 64 Figura 27. GP- 60 m x60 m ....................................................................................... 64 Figura 28. GP- 120 m x120 m ................................................................................... 64 Figura 29. GP- 300 m x300 m ................................................................................... 64 Figura 30. GP- 600 m x600 m ................................................................................... 64 Figura 31. GP- 900 m x900 m ................................................................................... 64 8 Figura 32. Rangos de elevación (m) .......................................................................... 64 Figura 33. IDW- 30 m x30 m (Original) .................................................................... 66 Figura 34. IDW- 60 m x60 m..................................................................................... 66 Figura 35. IDW- 120 m x120 m................................................................................. 66 Figura 36. IDW- 300 m x300 m................................................................................. 66 Figura 37. IDW- 600 m x600 m................................................................................. 66 Figura 38. IDW- 900 m x900 m................................................................................. 66 Figura 39. IDW-Mapa de error y curvas superpuestas. ............................................. 67 Figura 40. IDW- Mapa de error y mapa de pendientes .............................................. 67 Figura 41. IDW-Mapa de error y curvas superpuestas. ............................................. 68 Figura 42. IDW- Mapa de error y mapa de pendientes .............................................. 68 Figura 43. IDW-Mapa de error y curvas superpuestas. ............................................. 69 Figura 44. IDW- Mapa de error y mapa de pendientes .............................................. 69 Figura 45. IDW-Mapa de error y curvas superpuestas. ............................................. 70 Figura 46. IDW- Mapa de error y mapa de pendientes .............................................. 70 Figura 47. IDW-Mapa de error y curvas superpuestas. ............................................. 71 Figura 48. IDW- Mapa de error y mapa de pendientes .............................................. 71 Figura 49. KRG- 30 m x30 m (Original) ................................................................... 72 Figura 50. KRG- 60 m x60 m .................................................................................... 72 Figura 51. KRG-120 m x120 m ................................................................................. 72 Figura 52. KRG-300 m x300 m ................................................................................. 72 Figura 53. KRG-600 m x600 m ................................................................................. 72 Figura 54. KRG-900 m x900 m ................................................................................. 72 Figura 55. KRG-Mapa de error y curvas superpuestas. ............................................. 73 Figura 56. KRG- Mapa de error y mapa de pendientes ............................................. 73 Figura 57. KRG-Mapa de error y curvas superpuestas. ............................................. 74 Figura 58. KRG- Mapa de error y mapa de pendientes ............................................. 74 Figura 59. KRG-Mapa de error y curvas superpuestas. ............................................. 75 Figura 60. KRG- Mapa de error y mapa de pendientes ............................................. 75 Figura 61. KRG-Mapa de error y curvas superpuestas. ............................................. 76 Figura 62. KRG- Mapa de error y mapa de pendientes ............................................. 76 Figura 63. KRG-Mapa de error y curvas superpuestas. ............................................. 77 Figura 64. KRG- Mapa de error y mapa de pendientes ............................................. 77 Figura 65. LP- 30 m x30 m (Original) ....................................................................... 78 Figura 66. LP- 60 m x60 m ........................................................................................ 78 Figura 67. LP-120 m x120 m ..................................................................................... 78 Figura 68. LP- 300 m x300 m .................................................................................... 78 9 Figura 69. LP- 600 m x600 m .................................................................................... 78 Figura 70. LP- 900 m x900 m .................................................................................... 78 Figura 71. LP-Mapa de error y curvas superpuestas. ................................................. 79 Figura 72. LP- Mapa de error y mapa de pendientes ................................................. 79 Figura 73. LP-Mapa de error y curvas superpuestas. ................................................. 80 Figura 74. LP- Mapa de error y mapa de pendientes ................................................. 80 Figura 75. LP-Mapa de error y curvas superpuestas. ................................................. 81 Figura 76. LP- Mapa de error y mapa de pendientes ................................................. 81 Figura 77. LP-Mapa de error y curvas superpuestas. ................................................. 82 Figura 78. LP- Mapa de error y mapa de pendientes ................................................. 82 Figura 79. LP-Mapa de error y curvas superpuestas. ................................................. 83 Figura 80. LP- Mapa de error y mapa de pendientes ................................................. 83 Figura 81. RBF- 30 m x30 m (Original) .................................................................... 84 Figura 82. RBF-60 m x60 m ...................................................................................... 84 Figura 83. RBF-120 m x120 m .................................................................................. 84 Figura 84. RBF-300 m x300 m .................................................................................. 84 Figura 85. RBF-600 m x600 m .................................................................................. 84 Figura 86. RBF-900 m x900 m .................................................................................. 84 Figura 87. RBF-Mapa de error y curvas superpuestas. .............................................. 85 Figura 88. RBF- Mapa de error y mapa de pendientes .............................................. 85 Figura 89. RBF-Mapa de error y curvas superpuestas. .............................................. 86 Figura 90. RBF- Mapa de error y mapa de pendientes .............................................. 86 Figura 91. RBF-Mapa de error y curvas superpuestas. .............................................. 87 Figura 92. RBF- Mapa de error y mapa de pendientes .............................................. 87 Figura 93. RBF-Mapa de error y curvas superpuestas. .............................................. 88 Figura 94. RBF- Mapa de error y mapa de pendientes .............................................. 88 Figura 95. RBF-Mapa de error y curvas superpuestas. .............................................. 89 Figura 96. RBF- Mapa de error y mapa de pendientes .............................................. 89 Figura 97. Gráfica de interacciones .......................................................................... 98 Figura 98. Distribución Fisher ................................................................................... 99 Figura 99. Medias del EMC para el factor Re-muestreo ......................................... 100 Figura 100. Medias del EMC para el factor Interpolador ........................................ 102 10 RESUMEN Un Modelo Digital de Elevaciones (DEM) es una representación de la superficie terrestre y como tal provee la base para la extracción digital de parámetros topográficos. Estos modelos son una importante fuente de datos para diversas aplicaciones en un entorno de Sistemas de Información Geográfica (SIG)1. En el desarrollo de esta investigación se analizan dos factores: El algoritmo de interpolación y la resolución del DEM2, que por hipótesis influyen en la calidad del producto final, puesto que generan errores al momento de procesar los datos para la obtención del DEM. Es por ello que la estructura de esta investigación pretende establecer la resolución espacial apropiada de los datos de modo que la calidad que este produzca se adapte a su fin; y al mismo tiempo determinar el algoritmo de interpolación que genere con más precisión la representación de una superficie. Para dichos fines se propone la aplicación de la Validación Cruzada que consiste en omitir el valor de la muestra en una posición determinada, ejecutar el algoritmo de interpolación y comparar el valor estimado por éste con el de la muestra original; posteriormente se calcula el Error Medio Cuadrático (EMC) para cada uno de los algoritmos que se proponen: Global Polynomial Interpolation (GP), Inverse Distance Weight (IDW), Kriging (KRG), Local Polynomial Interpolation (LP) y Radial Basis Functions (RBF). Palabras clave: Modelo Digital de Elevación, algoritmo de interpolación, Validación Cruzada, resolución espacial, Error Medio Cuadrático. 1 2 Felicísimo, 1994: Modelos digitales del terreno. Introducción y aplicaciones en ciencias ambientales. Garzón, 2013: Ibíd. 11 ABSTRACT A Digital Elevation Model (DEM) is a representation of the surface and as such provides the basis for the digital extraction of topographic parameters. These models are an important source of data for various applications in a Geographic Information Systems (GIS). In the development of this research looks at two factors: The interpolation algorithm and the resolution of the DEM, which by hypothesis influence the quality of the final product as they generate errors when processing the data to obtain the DEM. That is why the structure of this research aims to establish the appropriate spatial resolution of the data so that this produces quality suits your purpose, and at the same time determine the interpolation algorithm which generates more accurate representation of a surface. For these purposes we propose the implementation of Cross Validation consisting ignore the value of the sample in a certain position, run the interpolation algorithm and compare this estimated value with the original sample, then calculate the root mean quadratic (EMC) for each of the algorithms proposed: Global Polynomial Interpolation (GP), Inverse Distance Weight (IDW), Kriging (KRG), Local Polynomial Interpolation (LP) and Radial Basis Functions (RBF). Key words: Digital Elevation Model, interpolation algorithm, Cross Validation, spatial resolution, Root Mean Square. 12 INTRODUCCIÓN Al existir un amplio campo de utilización de los Modelos Digitales de Elevación (DEM), y varias fuentes para su creación, surge la importancia y necesidad de contar con una herramienta (interpolador) que produzca resultados de calidad para la adecuada representación de la superficie terrestre. Esta representación está condicionada por multitud de factores que en definitiva generan cierta imprecisión. Uno de los propósitos de este trabajo es sugerir un método de interpolación, en función de la aplicación de la Validación Cruzada (re-muestreo del DEM), en la que algunos datos o valores se eliminan; utilizar el Error Medio Cuadrático (EMC) como un parámetro de control de la precisión de los valores interpolados. La metodología descrita en el Capítulo 2 tiene el potencial de proporcionar conocimiento a otros temas tan importantes como las propiedades del error Geo-estadístico y la incidencia de la pendiente de la superficie para determinar el nivel del error; para que sean considerados a la hora de generar un DEM. 13 1. ESTADO DEL ARTE La topografía tiene una notable influencia sobre numerosas variables que intervienen en la dinámica de los ecosistemas. El clima a escala local, los procesos geomorfológicos y edáficos, el movimiento y la acción de agua y, consecuentemente, los numerosos procesos biológicos condicionados por ellos, se encuentran estrechamente asociados a la forma y altitud de la superficie del terreno en los que se desarrollan. Esta dependencia ha sido reconocida desde muy antiguo por las ciencias que se ocupan del estudio de tales procesos, de modo que no sólo la geomorfología cuyo objetivo principal es la descripción precisamente de las formas del terreno y los procesos responsables de las mismas, sino la edafología, la climatología, la botánica, zoología, ecología, etc. han recurrido comúnmente a considerar la altitud, la pendiente del terreno o la orientación de las laderas, como variables claves para el entendimiento de estos procesos. Los mapas topográficos han sido prácticamente en exclusiva hasta los años 70, las herramientas para valorar la influencia sobre dichos factores. Pero la interpretación y en definitiva la utilidad de estos mapas, muy ágil para la percepción visual de la superficie topográfica, resultaba limitada para realizar análisis cuantitativos. La informática abrió una posibilidad nueva: describir la altitud de la superficie del terreno o cualquier otra característica del mismo, en forma numérica. Es decir, se modela la realidad3. 3 Felicísimo, 1994: Modelos digitales del terreno. Introducción y aplicaciones en ciencias ambientales. 14 La construcción de un DEM implica una interpolación realizada con puntos de alturas de la superficie del terreno (elevaciones) a partir de bases de datos topográficas existentes. El tamaño de la retícula y el tipo de algoritmo interpolador utilizados para la creación del DEM, ejercen una considerable influencia en el DEM obtenido y, por consiguiente, también en todos los atributos derivados de él. Un DEM es una simplificación de la realidad y por lo tanto inevitablemente contendrá errores, los cuales no son considerados equivocaciones y no pueden ser eliminados trabajando muy cuidadosamente; lo mejor que puede esperarse es que sean pequeños y tener una estimación fiable de su magnitud4. Todo DEM está sujeto a dos fuentes de error. El primer tipo se denomina aleatorio y representan una sobre o sub estimación de los valores reales de elevación como resultado del azar. Estos errores no muestra un patrón determinado, en promedio su valor es igual a cero y los errores positivos y negativos tienen una frecuencia similar. El segundo tipo se denomina sistemático y también representan una sub ó sobre estimación de los datos de elevación; sin embargo, a diferencia de los primeros, tienen un patrón determinado y su promedio no es igual a cero5. “Los errores en un DEM y en los productos derivados pueden agruparse en tres grandes tipos: 4 Taylor, 1997: An Introduction to Error Analysis: The Study of Uncertainties In Physical Measurements. University Science Books 5 Maling, 1989 : Measurements from maps: Principles and methods of cartometry. 15 a) Errores de etiquetado en curvas de nivel, a menudo son difíciles de detectar en el DEM pero se aprecian adecuadamente en los mapas de variables del terreno. b) Errores sistemáticos característicos del proceso de obtención del DEM: Los DEM derivados de curvas de nivel, tienen el problema de una generalización excesiva de las curvas, pueden presentar artefactos característicos como cimas planas o aterrazados. Los DEM derivados de medidas sobre el terreno pueden estar sesgados hacia las altitudes de las zonas de fácil acceso. Los DEM obtenidos mediante técnicas de teledetección (radar, LIDAR) tienen la ventaja de su enorme densidad de muestreo, pero en ocasiones no miden la altitud real sino está más la altura del objeto que está sobre esta. Los DEM derivados de la restitución de fotografía aérea muestran mayores errores en las umbrías y hacia los bordes de los fotogramas. c) Errores aleatorios inherentes a cualquier procedimiento de medición: Un simple histograma de las elevaciones permitirá descubrir anomalías no detectables con la simple visualización, como el que los valores de las curvas de nivel aparezcan con excesiva frecuencia (resulta frecuente en interpolación a partir de curvas de nivel rasterizadas)”6. 6 Wise, 2000 : Assessing the quality for hydrological applications of digital elevation models derived from contours. 16 El Error Medio Cuadrático (EMC) es uno de los descriptores tradicionalmente utilizados para cuantificar los errores en un DEM. Tiene el inconveniente de que necesita valores de elevación real y que no nos informa acerca de la distribución espacial de los errores y su posible auto-correlación7. Se han desarrollado otros métodos para calcular índices de error en el caso de no disponer de una superficie de referencia para tomar como valor verdadero8. 7 Moreno Brotóns, J., Alonso Sarría, F., Gomariz Castillo, F. y Alonso Bernardo, D., 2010): Análisis y validación de modelos digitales de elevaciones mediante datos LIDAR. 8 Felicísimo, 1994: Ibíd.; Hengl T., Heuvelink G.M.B., Stein A. 2004: A generic framework for spatial prediction of soil variables based on regression-kriging. 17 2. EL PROBLEMA Los Modelos Digitales de Elevación (DEM) son elementos básicos en el estudio, manejo y administración del terreno, su uso, así como su alta resolución permiten diversos análisis cuyos resultados acceden a calificar y cuantificar las características del terreno, la aplicación de los DEM está basada en una estructura numérica de datos que representa la distribución espacial de la altitud de la superficie del terreno9. Entre los sistemas de información geográficos (SIG), se encuentran los DEM, que juegan un papel fundamental debido a que no es solo en la integración de la información, sino también en la capacidad que tienen para extraer automáticamente los parámetros necesarios para la modelación. La precisión de las bases de datos de los SIG ha sido durante mucho tiempo un tema de interés y, debido al extenso uso de los DEM en aplicaciones SIG, no es de extrañar que se haya producido una gran cantidad de literatura entorno al error de los DEM10. El incremento de disponibilidad de los DEM a escala mundial como los de SRTM, y los de muy alta resolución como los de LIDAR11, han hecho que sea aún más importante que se tengan buenas herramientas para evaluar el error de los DEM y entender cómo se propagan a través de cualquier operación aplicada al DEM12. 9 Felicísimo, 1994: Ibíd. Fisher y Tate, 2006: Causes and consequences of error in digital elevation models. 11 Wehr y Lohr, 1999: Airborne laser scanning – an introduction and overview. 12 Garzón, 2013: Validación cruzada como método de investigación en la calidad de Modelos Digitales de Elevación. 10 18 Para medir la calidad de un DEM es necesario y sustancial contar con una buena metodología; usualmente el Error Medio Cuadrático (EMC) es una forma de evaluar la calidad de los DEM. El Error Medio Cuadrático se calcula de la siguiente forma: (Ecuación 1) Donde corresponde al valor interpolado de la elevación y el valor de la muestra original. Hay que señalar que no se tiene consideraciones de que tan precisos son los valores del DEM original. Cuando los valores interpolados son comparados con los valores originales, esto suministra una medida del error inducida por el proceso de interpolación, pero no dice nada acerca de la precisión absoluta de los valores de elevación comparados con el valor real13. Se hace imposible adaptar una fórmula matemática para expresar la forma de una superficie debido al comportamiento impredecible de ésta, pero probablemente puede obtenerse una representación que se asemeje a ella, y es por tal razón que se realiza la evaluación de la precisión de los siguientes algoritmos para representar las formas amorfas de una porción de la superficie terrestre: Global Polynomial Interpolation (GP), Inverse Distance Weight (IDW), Kriging (KRG), Local Polynomial Interpolation (LP) y Radial Basis Functions (RBF). 13 Garzón, 2013: Ibíd. 19 ¿Qué afectación tienen la aplicación del algoritmo de interpolación y el re-muestreo al representar el terreno a través de un Modelo Digital de Elevación? 20 3. OBJETIVOS 3.1 General Seleccionar el mejor algoritmo de interpolación (de los indicados en este estudio) para generalizar la representación de las superficies terrestres a través un Modelo Digital de Elevación (DEM). 3.2 Específicos Calcular el Error Medio Cuadrático para cada uno de los algoritmos de interpolación. Obtener una matriz de errores a partir de los residuos resultantes de cada remuestreo. Graficar los mapas de error para identificar de manera general las zonas más afectadas con relación a la pendiente. 21 4. MARCO TEÓRICO La interpolación es definida como un procedimiento que permite calcular el valor de una variable en una posición del espacio (punto no muestreal con valor estimado), conociendo los valores de esa variable en otras posiciones del espacio (puntos muestrales con valores reales)14. En los entornos DEM la interpolación se usa para predecir la elevación de las unidades en las que se encuentre subdividido el espacio, en el caso de la estructura vectorial se define por la ecuación de un plano que pasa a través de tres puntos no colineales en espacio, y en el caso de los ráster se calcula la elevación del centro geométrico de las celdas en que se divide el espacio geográfico 15. Esta división al encontrarse regularmente distanciada no quiere decir que los valores de la elevación en la superficie real sean igualmente homogéneos. De acuerdo con McCullag, (1988), Burrough y McDonnell (1998) se deben cumplir una serie de condiciones para que el valor estimado de la interpolación sea fiable: Se debe crear una superficie continua a partir de datos distribuidos discretamente en el espacio, debe tener propiedades matemáticas y debe ajustarse a los datos con un nivel de precisión determinado. La confiabilidad de la predicción con cualquier algoritmo de interpolación está fuertemente relacionada con la calidad de los datos de la muestra inicial, una mala 14 Bosque Sendra, 1992: Sistemas de información Geográfica. Madrid, Ediciones Rialp S.A. Felicísimo, 1994: Modelos digitales del terreno. Introducción y aplicaciones en ciencias ambientales. 15 22 distribución de los mismos o una intermediación por falta de ellos, hacen que el resultado se aparte de la geometría que realmente tiene la zona representada mediante el DEM. 4.1 Métodos de interpolación evaluados En todos los casos los algoritmos necesitan valores de los parámetros alternativos que controlan la interpolación, y que generalmente modifican el producto final, su elección depende de las características propias de los datos utilizados: cantidad, densidad y distribución espacial, para este estudio y con el ánimo de evitar confusiones lógicas derivada de la multiplicada generación de los distintos modelos, todos los parámetros se utilizaron por defecto conforme como los sugiere ArcGIS® 9. 4.1.1 GP: Interpolación Polinómica Global (Global Polynomial Interpolation) Global Polynomial Interpolation crea una superficie lisa que se define por una función matemática (un polinomio) a los puntos de entrada de la muestra. Conceptualmente, la Interpolación Polinómica Global es como tomar un pedazo de papel y montarlo entre los puntos planteados. Esto se demuestra en el siguiente diagrama (el papel es magenta). 23 Figura 1. Conceptualización de la interpolación lineal16 Pero un polinomio de primer orden no va a capturar con precisión el paisaje de un valle. Sin embargo, si se agrega un término a la fórmula matemática produce un ajuste mucho mejor, una curva en el plano. Una superficie plana es un polinomio de primer orden (lineal). Teniendo en cuenta que una curva es un polinomio de segundo orden (cuadrático), dos curvas de tercer orden (cúbico), y así sucesivamente, hasta 10 están permitidos en Geostatistical Analyst17. La siguiente imagen muestra conceptualmente un polinomio de segundo orden montado en un valle. Figura 2. Conceptualización de la interpolación cuadrática.18 16 Obtenido de: http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%20Global% 20Polynomial%20interpolation%20works& 17 Extensión de ArcGIS (Geostatistical Analyst 9.3; Copyright ©1999-2008 ESRI Inc.) 18 Obtenido de: http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%20Global% 20Polynomial%20interpolation%20works& 24 Rara vez la superficie pasará por los puntos reales medidos, haciendo que GP sea un interpolador inexacto. Global Polynomial Interpolation crea una superficie lentamente variable usando polinomios de orden inferior que posiblemente describen algún proceso físico. Sin embargo, cabe señalar que cuanto más complejo el polinomio, más difícil es atribuir un significado físico a él. Además, las superficies calculadas son altamente susceptibles a valores muy altos y bajos. 4.1.2 IDW: Método de Ponderación Inverso a la Distancia (Inverse Distance Weighting) Este algoritmo calcula los valores de las celdas por medio de una composición ponderada de los datos de la muestra, el modelo sugiere que el resultado predicho reduce su incidencia en la medida en que aumenta la separación entre el punto a evaluar y los puntos de su entorno. Es así como se acepta que los puntos más cercanos al centroide poseen un mayor peso en el cálculo del valor definitivo de la elevación para dicha celda, su modelo matemático es: Donde, 19 19 : Using ArcView 3D Analyst. 25 Este procedimiento de interpolación tiene en cuenta: La definición de la zona circundante del punto a interpolar (delimitación de radio de acción, forma de hacer el re-muestreo y la orientación de los puntos). La cantidad de puntos que se utilicen al interior de la zona circundante. La elección de la función matemática que se ajuste a la variación sobre la cantidad de puntos seleccionados. La función que se use en la ponderación y la cantidad de puntos que se usen como vecinos en el área circundante, son parámetros definitivos en el resultado de la interpolación. La potencia permite controlar la significancia de los puntos conocidos en los valores interpolados basándose en la distancia desde el punto de salida, su valor predeterminado es 220. 4.1.3 KRG: Kriging Es una técnica de interpolación geo-estadística que determina el valor de la elevación apoyado en el cálculo del promedio de las elevaciones más próximas. Su cómputo se apoya en la teoría de la variable regionalizada, que presupone que la variación espacial de una variable está dada en función de tres grandes módulos: 20 ESRI, 2010 26 Un módulo estructural que tiene una tendencia constante (componente determinístico). Un módulo aleatorio que se conoce como variable regionalizada y que se encuentra espacialmente correlacionado. Y un módulo aleatorio no correlacionado de error no explicable conocido como error residual. Este modelo busca minimizar la varianza del error, y busca llevar la media del error de los valores predichos a cero, para que no se presenten sobre ni subestimaciones, su expresión matemática es: Donde, . Se tiene entonces: En la siguiente figura se puede apreciar la relación de un punto (color rojo) con el resto de puntos que tendrán incidencia en la predicción: 27 Figura 3. Cálculo de la diferencia cuadrada entre las ubicaciones asociadas. 21 La representación de las distancias de cada punto al resto de ellos es un tanto complicada de interpretar en el gráfico anterior, en su lugar se utiliza el semivariograma empírico como el modelo que asume la dirección y distancia entre los puntos, indicando una auto-correlación espacial que se puede usar para explicar la continuidad de la superficie, esto se conoce como variografía y se refleja mediante un semi-variograma. 21 Fuente: Using ArcGIS® Geostatistical Analyst, 2003. 28 Figura 4. Semi-variograma y sus características.22 El interpolador refleja la variación espacial de la elevación en diferentes direcciones del espacio geográfico haciendo el cálculo del semi-variograma empírico (puntos de color rojo), deduciendo que tanta similitud existe entre los puntos a medida que aumenta su separación, y se calcula de la siguiente forma: Donde, 22 Fuente: Golden Software, 2002 29 Para poder realizar la predicción del valor es necesario ajustar el semi-variograma empírico a un semi-variograma experimental para cuantificar el grado y escala de variación espacial, siendo esto similar a un análisis de regresión donde se ajustan un conjunto de puntos a una línea o curva continua, como se puede apreciar en el siguiente gráfico (línea de color azul): 23 Figura 5. Semi-variograma empírico ajustado al experimental. Con este ajuste se pueden extraer los parámetros que se utilizan para realizar la predicción: Rango (length): muestra la distancia donde la separación entre puntos indica una auto-correlación significativa. Indica la amplitud del radio de búsqueda de los vecinos locales. Efecto pepita (nugget effect): es el atribuido a los errores de medición. 23 Fuente: Garzón B., J. 2013: Validación cruzada como método de investigación en la calidad de Modelos Digitales de Elevación. 30 meseta (sill): máxima semi-varianza hallada entre un par de puntos, que es encargada de encontrar la incertidumbre en el momento de la interpolación. Lag (h): son las distintas distancias a las que se mide la semi-varianza, es como un círculo cuyo radio se va ampliando de forma regular. Existen muchos tipos de semi-variograma, que de acuerdo con el tipo, calidad, distribución y representación de los datos se debe elegir para realizar el ajuste, los principales son: Figura 6. Tipos de semi-variograma.24 En esta investigación se aplica el semi-variograma de tipo esférico, por ser el parámetro por defecto que sugiere software ArcGIS® versión 9.3 24 Fuente: Sanz, M. A. Modelos Digitales de Terreno, 2008. 31 4.1.4 LP: Interpolación Polinómica Local (Local Polynomial Interpolation) Local Polynomial (LP) es un interpolador determinístico moderadamente rápido, que produce una superficie suave (inexacta). Es más flexible que Global Polynomial, pero hay más parámetros de los que hay que tomar decisiones. No existe una evaluación de los errores de predicción. El método proporciona superficies de predicción que son comparables a Kriging en cuanto a los errores de medición. Los métodos de polinomios locales no permiten investigar la auto-correlación de los datos, por lo que es menos flexible y más automático que Kriging. No hay supuestos requeridos de los datos. Mientras que Global Polynomial Interpolation encaja un polinomio a toda la superficie, Local Polynomial Interpolation encaja muchos polinomios, cada uno dentro de determinados barrios superpuestos. El barrio de búsqueda se puede definir utilizando el cuadro de diálogo Search Neighborhood25. Puede especificar la forma, el máximo y el mínimo número de puntos a usar, y la configuración del sector se pueden especificar. Alternativamente, un control deslizante puede utilizarse para definir el ancho de la zona (barrio) junto con un parámetro de potencia (función power) que, basado en la distancia, disminuirá los pesos de los puntos de muestra dentro de la vecindad. Por lo tanto, Local Polynomial produce superficies teniendo en cuenta la variación más cercana. 25 En el software ArcGIS® 9.3 32 Un polinomio de primer orden global se ajusta a un único plano a través de los datos; un polinomio de segundo orden global se ajusta a una superficie con una curva en él, permitiendo que las superficies representen valles; un polinomio de tercer orden global permite dos curvas, y así sucesivamente. Sin embargo, cuando una superficie tiene una forma diferente, como un paisaje con pendiente descendiente, con niveles que se pronuncian, y luego se desliza hacia abajo de nuevo (Fig. 7), un único polinomio global no encaja bien. Varios planos polinómicos serían capaces de representar la superficie de manera más precisa. Figura 7. Representación de la superficie con varios planos.26 Local Polynomial Interpolation encaja el orden especificado (cero, primero, segundo, tercero, y así sucesivamente) del polinomio utilizando todos los puntos sólo dentro de 26 Obtenido de: http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%2 0Local%20Polynomial%20interpolation%20works& 33 la zona definida. Los barrios se superponen y el valor usado para cada predicción es el valor del polinomio equipado en el centro de la zona. A continuación, una sección transversal de los datos de elevación de la muestra se toma (un transecto). En la Figura 8, tres vecinos (los puntos rojos) se utilizan para ajustar un polinomio de primer orden y una línea (la línea roja) para predecir el valor desconocido marcado por el punto de color azul. En la figura 9, una segunda ubicación (el punto amarillo) se predice por otro polinomio de primer orden. Está muy cerca a la primera ubicación (punto azul), y se utilizan los mismos puntos medidos en las predicciones, pero los pesos son un poco diferentes, por lo tanto el polinomio que se ajusta (la línea azul, fig. 9) es ligeramente diferente. Figura 8. Polinomio de primer orden. Figura 9. Traslapo de polinomios.27 Este proceso continúa, centrado en ubicaciones de predicción posteriores, ajustando polinomios locales para predecir los valores. Las figuras 10 y 11 muestran dos puntos 27 Obtenido de: http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%2 0Local%20Polynomial%20interpolation%20works& 34 más arbitrarios están previstos para crear la superficie final. El punto naranja se predice a partir del polinomio ajustado (la línea verde, fig. 10) con los puntos de muestreo verdes, y el punto marrón se predice a partir del polinomio de color púrpura claro (fig. 11). Figura 10. Polinomios locales. Figura 11. Traslapo de 4 polinomios. En las figuras 12 y 13, se aprecian dos polinomios más aptos (las línea amarilla y la gris) para predecir dos ubicaciones más (el punto verde azulado y verde). Figura 12. Polinomio apto. Figura 13. Polinomios aptos.28 Este proceso continúa para cada ubicación. Se puede ver cómo la superficie se crea (la línea morada) para los puntos de muestra que se presentan en la figura 14. 28 Obtenido de : http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%2 0Local%20Polynomial%20interpolation%20works& 35 Figura 14. Superficie LP 4.1.5 RBF: Funciones de Base Radial (Radial Basis Functions) Radial Basis Functions (RBF) es un interpolador determinista moderadamente rápido, además exacto. Es mucho más flexible que IDW, pero hay más decisiones de parámetros. No existe una evaluación de errores de predicción. El método proporciona superficies de predicción que son comparables con la exactitud de Kriging. RBF no permite investigar la auto-correlación de los datos, lo que lo hace menos flexible y más automático de Kriging. Funciones de base radial no permite hacer ninguna suposición acerca de los datos muestreados. RBF emplea una serie de técnicas para que la interpolación sea exacta; es decir, la superficie debe atravesar cada valor medido. Hay cinco diferentes funciones de base (basis Functions): Thin-plate Spline (Spline de la placa delgada) Spline with tension (Spline con tensión) 36 Completely regularized Spline (Spline completamente regularizado)29 Función multiquadric Función inversa de multiquadric Cada función de base tiene una forma distinta y resulta en una superficie interpolada ligeramente diferente. RBF son conceptualmente similares a la colocación de una membrana de goma a través de los valores medidos de la muestra minimizando la curvatura total de la superficie. La función de base seleccionada determina cómo se ajusta la membrana de goma entre los valores. La figura 15 muestra expresiones de cómo una superficie RBF se ajusta a través de una serie de valores de muestra de elevación. Obsérvese la sección transversal (abajo) que la superficie pasa a través de los valores de los datos. Figura 15. Superficie creada por RBF30. 29 El parámetro por defecto, y el aplicado en esta investigación. Obtenido de: http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%2 0Radial%20Basis%20Functions%20works& 30 37 Al ser un interpolador exacto, el algoritmo RBF difiere de los interpoladores GP y LP, que son ambos interpoladores inexactos que no requieren que la superficie pase a través de los puntos medidos. Al comparar RBF con IDW, otro interpolador exacto, IDW nunca predice valores por encima del valor máximo medido o por debajo del valor mínimo medido como se puede ver en la sección de la figura 16. Figura 16. Sección de superficie creada con IDW. Sin embargo, RBF puede predecir valores superiores al máximo y por debajo de los valores mínimos medidos como se muestra en la figura 17. Figura 17. Sección de superficie creada con RBF.31 31 Obtenido de: http://webhelp.esri.com/arcgisdesktop/9.2/index.cfm?id=3306&pid=3302&topicname=How%2 0Radial%20Basis%20Function%20works& 38 Los parámetros óptimos se determinan usando validación cruzada de manera similar como se muestra para la interpolación IDW y LP. RBF se utilizan para el cálculo de superficies lisas de un gran número de datos. Las funciones de producen buenos resultados ligeramente diferentes en superficies suaves. Las técnicas son inapropiadas cuando hay grandes cambios en los valores superficiales a una corta distancia horizontal y/o cuando se sospecha que la muestra de datos es propensa a error o incertidumbre. Los conceptos de funciones de base Radial En Geostatistical Analyst, RBF se forma sobre cada localización de datos. Una Función de Base Radial es una función que cambia con la distancia desde una ubicación. Por ejemplo, supongamos que la función de base radial es simplemente la distancia desde cada ubicación, por lo que forma un cono invertido en cada localidad. Si se toma una sección del plano XZ para Y = 5, se podrá ver una rodaja de cada función de base radial. Ahora, supongamos que desea predecir un valor en Y = 5 y X = 7. El valor de cada función de base radial en el lugar de predicción puede tomarse de la figura anterior, determinado por los valores Φ1, Φ2 y Φ3, que simplemente dependen de la distancia de cada ubicación de los datos. El predictor se forma tomando el promedio ponderado w1Φ 1 + w2Φ2 + w3 Φ3+... 39 ¿Ahora la pregunta es cómo determinar los pesos? Hasta ahora, no se han utilizado los valores de los datos en absoluto. Los pesos w1, w2, w3 y así sucesivamente, se encuentran al exigir que, cuando la predicción se mueve a un lugar con un valor medido, el valor de datos se predice exactamente. Esto forma n ecuaciones con n incógnitas N y se pueden resolver de forma exclusiva. Así, la superficie pasa a través de los valores de datos muestreados, haciendo predicciones exactas en dichos puntos. 40 4.2 Validación Cruzada La elección de un diseño experimental adecuado para un problema de aprendizaje automático es un punto de controversia entre la comunidad científica32. En trabajos recientes33, los algoritmos de aprendizaje se evalúan mediante la comparación de sus resultados sobre conjuntos de datos conocidos34, utilizando un test estadístico para juzgar la relevancia de las diferencias. Un enfoque similar será seguido en este trabajo, si bien somos conscientes de que algunos autores cuestionan el que sea posible extraer conclusiones sobre el rendimiento de un algoritmo utilizando los conjuntos de ejemplos más habituales35, y que, por otra parte, la naturaleza de estos diseños experimentales es tal que frecuentemente se vulneran una o más de las condiciones que han de cumplirse para la aplicación de determinado test estadístico36. La Validación Cruzada (en esta investigación) consiste en la estimación del valor de la variable Z, con el algoritmo de interpolación que quiere validarse, en cada uno de los puntos de muestreo, aunque sin incluir dicho punto de muestro. De esta manera se conoce para cada punto de muestreo tanto el valor real como el valor estimado, la diferencia entre estos dos valores se conoce como residual de la validación y se usa para calcular el EMC de cada uno de los algoritmos evaluados a las diferentes 32 Dietterich, 1998, Salzberg, 1997, Kohavi, 1995. Tjen-Sien Lim, Wei-Yin Loh y Yu-Shan Shih, 2000: A Comparison of Prediction Accuracy 34 Blake, 1998: UCI Repository of machine learning databases. 35 Holtr, 1993, Schaffer, 1994, Wolpert, 1992 36 Ruiz-Maya, 1986, Cohen, 1995, Salzberg, 1997 33 41 resoluciones propuestas; de forma que puede llevarse a cabo el análisis estadístico de errores. En la técnica de validación cruzada los procesos de re-muestreo son de uso generalizado. Para poder calcular los valores de los puntos que se desean evaluar se utiliza esta técnica, que es un proceso de determinación nuevos valores de las celdas en una retícula que resulta luego de aplicar alguna transformación geométrica al grid de entrada. Esta transformación puede ser en un diferente sistema coordenado, a una resolución distinta, o puede ser una rotación con respecto al grid inicial. Para este caso en particular se opta por hacer cambios de resolución37 como se muestra en la tabla 1. Tabla 1. Re-muestreos RE-MUESTREOS Espacio entre puntos Número de datos 60m x 60m 202.500 120m x 120m 50.625 300m x 300m 8.100 600m x 600m 2.025 900m x 900m 900 37 Garzón, 2013: Validación cruzada como método de investigación en la calidad de Modelos Digitales de Elevación. 42 4.3 Análisis de varianza La Varianza se define como la media aritmética de la suma de los cuadrados de las desviaciones de una variable con respecto a su media. Por lo tanto, cuanto mayor sea este valor, menos representativa de la realidad será la media de dicha variable. ANOVA es la sigla para ANalysis Of VAriance, y se constituye como una técnica estadística normalmente utilizada para analizar resultados en procesos investigativos de diseños experimentales, con ella se puede comparar si los valores que toma un conjunto de datos que corresponden a variaciones de una misma variable dependiente, se ven afectados por una o más variables de tipo independiente. El modelo tiene la siguiente expresión: Donde, La validez del Análisis de Varianza está supedita al cumplimento de algunos requisitos de tipo matemático y probabilístico en las observaciones. Se dice que el modelo ANOVA es apto para comparar efectos de variables en un fenómeno si los datos experimentales se ajustan al modelo, es decir, si las condiciones subyacentes al 43 modelo están implícitas en los datos. Para este caso en particular se plantea un ANOVA de dos factores con interacción, lo que quiere decir que se permite comparar varios grupos de una variable cuantitativa, para ello se definieron como variables nominales: a) el algoritmo de interpolación y el re-muestreo, y b) como la variable cuantitativa, es decir, en la cual se desean comparar los grupos se toma el Error Medio Cuadrático de cada una de los distintos DEM generados, resumiendo se tiene: Variables independientes: Métodos de interpolación (5), re-muestreos (5) Variable dependiente: Error Medio Cuadrático (EMC). 4.3.1 Hipótesis La hipótesis que se pone a prueba en el ANOVA de dos factores con interacción, es aquella donde las medias poblacionales (las medias del EMC en cada nivel del Algoritmo de interpolación) son iguales. Si las medias poblacionales son iguales, esto significa que los grupos no difieren en el Error Medio Cuadrático, y que en consecuencia, el Error Medio Cuadrático es independiente del tamaño del remuestreo y el método de interpolación. 44 Para poner a prueba la hipótesis nula , se procede a obtener el valor RazónF (de la distribución de Fisher) para los factores re-muestreo e interpolador, estos valores estadísticos de prueba resultantes se deben comparar con un valor tabular de F (véase Anexo C), Fcrítico, que indicará el valor máximo del valor estadístico de prueba (RazónF) que ocurría si fuera verdadera, a un nivel de significación seleccionado (0.05). Si el valor de RazónF de cualquiera de los dos factores es mayor al estadístico FSnedecor (Fcrítico), se rechaza la hipótesis de igualdad y se puede afirmar que el Error Medio Cuadrático es dependiente del algoritmo de interpolación y el remuestreo; de lo contrario no se puede afirmar que los grupos que se están comparando difieran en sus promedios poblacionales. Donde, 45 4.4 El propósito del estudio Al evaluar cada método de interpolación por medio de la validación cruzada, se espera determinar el valor máximo de exclusión de datos de modo que no afecte los propósitos para los cuales se está realizando el trabajo, es decir que el error sea tolerable. Para ampliar la probabilidad de encontrar la eficacia al representar la porción de superficie por medio de un DEM, se evalúan cinco métodos de interpolación geo-estadísticos (Global Polynomial Interpolation (GP), Inverse Distance Weight (IDW), Kriging (KRG), Local Polynomial Interpolation (LP) y Radial Basis Functions (RBF)) a los cuales se les aplica Validación Cruzada de cinco maneras distintas sobre la misma área de terreno. Así podría determinarse el método más adecuado para la interpolación de un ráster y la posterior representación de la superficie por medio de un DEM. 4.5 El significado del estudio Los DEM son aplicables no solo a la variable elevación, sino a cualquier otra variable que presente una variación continua sobre el espacio; como las precipitaciones, la presión atmosférica, las temperaturas, las pendientes, etc. Al existir diversidad de variables que pueden representarse por medio de un DEM, de igual forma pueden obtenerse variedad de modelos, los cuales pueden apoyarse en los resultados de esta investigación para su validación. 46 Algunos de estos modelos y sus usos son los que se mencionan a continuación: Los DEM permiten realizar cálculos de volúmenes a remover o rellenar en trabajos de ingeniería, mapeo y estudios batimétricos e hidrológicos, mapeo geológico y geofísico, simulación y análisis del paisaje, estimación de áreas a inundar en proyectos hidroeléctricos, estudios de intervisibilidad para determinar la ubicación de antenas para telecomunicaciones, análisis estadístico del terreno, determinación de pendiente, aspecto, y sombreado del terreno38. Modelos climáticos: La existencia de zonas de sombra es una variable de gran interés en regiones montañosas, donde el relieve puede ser el factor determinante más importante del clima local. Se define la insolación potencial en un punto como el tiempo máximo que ese lugar puede estar sometido a la radiación solar directa en ausencia de nubosidad. La insolación potencial depende directamente del ángulo de incidencia del sol respecto a la superficie terrestre y del ocultamiento topográfico ante una trayectoria concreta del sol. Modelos hidrológicos: Las características topográficas de una ladera determinan las pautas por las cuales el agua circula sobre ella. El Modelo Digital de Elevaciones contiene información suficiente para definir, al menos en una primera aproximación, las propiedades de la red de drenaje superficial y, por extensión, de la 38 Burrough, 1986; ESRI, 1996; Keckler, D., 1995; Weibel y Heller, 1991 47 cuenca hidrológica. Las líneas de flujo siguen la línea de máxima pendiente por lo que pueden deducirse del modelo digital de pendientes con las únicas limitaciones que las derivadas de la calidad del DEM original. Modelos de visibilidad: Establecen el área que se puede ver desde un punto y, por tanto, el área desde la que puede verse ese punto. El primer caso puede ser útil para el diseño de redes de control (de incendios forestales por ejemplo), el segundo como criterio a la hora de ubicar infraestructuras. El análisis de cuencas visuales puede utilizarse para la evaluación del impacto visual de actuaciones con efectos negativos sobre el paisaje. Es posible construir un modelo de visibilidad, donde cada punto tiene asignado un valor proporcional a la extensión de su cuenca visual. Un modelo de este tipo puede servir de base objetiva para la toma de decisiones ya que permite conocer y comparar con fiabilidad la incidencia visual de las alternativas existentes. El amplio campo de utilización de los DEM permite que el desarrollo de este proyecto sea útil para diversos campos de aplicación. 48 4.6 Presunción de los autores La validez de resultados obtenidos de una interpolación se relaciona con la calidad de los datos de la muestra inicial, la superficie a crear debe representarse a partir de datos distribuidos discretamente en el espacio para que el valor estimado de la interpolación sea fiable. La muestra inicial con la que se desarrolla esta investigación, se puede aceptar dentro de lo mencionado, pues conserva una distribución de datos continua para toda el área de estudio (30 m); de este modo al interpolar la superficie no se está comprometiendo la fiabilidad de la interpolación a causa de la muestra inicial, por el contrario el error producido al crear el DEM está relacionado con el algoritmo de interpolación utilizado para el modelamiento. Se parte de la idea de que los datos iniciales obtenidos del sistema ASTER (Advanced Spaceborne Thermal Emission and Reflection radiometer) son confiables, es decir que no se está teniendo en cuenta para la superficie interpolada que la muestrea inicial de esta posee un EMC de 15,1 m39, así el Error Medio Cuadrático del DEM sería causa de la interpolación mas no del error inherente que poseen los datos iniciales. 39 ASTER GDEM Validation Team, 2011. 49 4.7 Supuestos del estudio Al generar el re-muestreo de un DEM se presume que produce un error debido a que los métodos de interpolación trabajan en base a propiedades matemáticas independientemente del tipo de área a trabajar, mientras que el comportamiento de la superficie varía de acuerdo a factores naturales, siendo así poco probable predecir el valor muestreado por medio de una interpolación. La aplicación de la Validación Cruzada como método de re-muestreo de datos no es una prueba directa del nivel de error en un DEM en particular, a menos que haya sucedido que el DEM fuese generado por re-muestreo de una resolución muy baja40. Sin embargo, la producción de un gran número de estimaciones de error de elevación, distribuidos sobre el DEM, permite explorar algunos cuestionamientos generales como la identificación de las características estadísticas del error del DEM y hasta qué punto ésta difiere entre los métodos de interpolación y la relación entre el EMC de la elevación y el EMC de la superficie. Los hallazgos deben ser de particular relevancia para cualquier usuario SIG que utiliza un producto DEM, generado a partir de la reducción de resolución de un modelo con mayor densidad de muestras. 40 Garzón, 2013: Validación cruzada como método de investigación en la calidad de Modelos Digitales de Elevación. 50 5. LA HIPÓTESIS La información geográfica con una representación lógica y visualmente eficiente es empleada al SIG, la razón elemental para manipular un SIG es la gestión de información espacial. El sistema permite separar la información en diferentes capas temáticas y las almacena independientemente, permitiendo trabajar con ellas de manera rápida y sencilla. Una parte elemental de la información integrante de los Sistemas de Información Geográfica son los Modelos Digitales de Elevación (DEM), este sistema varía dependiendo del método que se emplea para generarlos, permitiendo que las respuestas derivadas del modelo sean aplicables a la realidad sin perder sentido, los DEM pueden indicar procesos de las superficies tales como el flujo de agua superficial, la radiación solar o la erosión, sin embargo la captura de la información hipsométrica constituye el paso inicial en el proceso de construcción del Modelo Digital de Elevación (DEM), e incluye la fase de transformación de la realidad geográfica a la estructura digital de datos. Un requerimiento previo para la plena explotación de un DEM es la determinación de su calidad, la cual se ve afectada directamente por la elección del algoritmo de interpolación en aplicaciones propias de los Sistemas de Información Geográfica (SIG). Cada vez la resolución de la información que se puede obtener fácilmente de los sistemas satelitales (SRTM, ASTER) y de la obtenida por medio de datos LIDAR, es 51 mayor, con lo cual se hace necesario establecer un método de interpolación que produzca los resultados más confiables ya que no existen criterios suficientes que establezcan alguno para las distintas necesidades de los usuarios SIG. Con respecto a la validación cruzada, Garzón (2013) señala: “Como método de confrontación de datos se propone la Validación Cruzada. En la ubicación de los puntos que fueron retirados en el re-muestreo, hubo un valor interpolado y su correspondiente valor verdadero. Esto produce un gran número de puntos en los cuales se conoce el error de interpolación, con una propagación igual a través del DEM. La comprobación de la hipótesis se plantea mediante un procedimiento estadístico conocido como Análisis de Varianza (ANOVA), que permite analizar resultados en procesos investigativos con diseños experimentales, a partir de los cuales se puede comparar sí los valores que toma un conjunto de datos que corresponden a variaciones de una misma variable dependiente, en este caso el Error Medio Cuadrático, se ve afectados por una o más variables de tipo independiente: El algoritmo de interpolación y el re-muestreo. El Análisis de Varianza permitirá poner a prueba la nulidad de la hipótesis, pudiendo encontrar un porcentaje de probabilidad que defina la aceptación o rechazo de esta, identificando el mejor interpolador en función del menor Error Medio Cuadrático.”41. 41 Garzón, 2013: Ibíd. 52 6. METODOLOGÍA Y DISEÑO DE LA INVESTIGACIÓN Los DEM son aún poco utilizados por los equipos investigadores. Por este motivo se hace aconsejable realizar un esfuerzo en el desarrollo de métodos y aplicaciones, especialmente aquellos que permiten abordar problemas difíciles de solucionar por métodos convencionales42. La metodología propuesta implica no solamente la evaluación de cinco métodos de interpolación (GP, IDW, KRG, LP, RBF), sino también la determinación de la incidencia de la densidad de los datos que se encuentran distribuidos equidistantes. Se espera concluir qué algoritmo(s) de interpolación son los adecuados para la interpolación de datos y representación de una porción de la superficie terrestre a partir de una imagen ráster obtenida del sistema ASTER GDEM, así mismo considerar hasta qué punto se puede reducir la resolución espacial, de modo que la calidad altimétrica del modelo conserve validez para el objeto de estudio. En el año 2013, Garzón Barrero en su tesis de grado realizada para la obtención del título de Magister en Sistemas de Información Geográfica: Validación cruzada como método de investigación en la calidad de Modelos Digitales de Elevación, llevó a cabo una metodología la cual tiene criterios y recursos válidos para dar respuesta a la 42 Felicísimo, 1994: Modelos digitales del terreno. Introducción y aplicaciones en ciencias ambientales. 53 pregunta de investigación, utilizando la técnica de validación cruzada para la evaluación y análisis de los errores que se generan por causa de la distribución espacial de las muestras y la elección del interpolador. Se adopta la metodología utilizada por el autor mencionado para el desarrollo de ésta investigación. Obtención de datos (Imagen ráster) Para tener una muestra y un área considerable de estudio, se recurre al sistema ASTER (Advanced Space-borne Thermal Emission and Reflection Radiometer), del cual se obtiene de forma gratuita una imagen con cobertura de 127 km x 127 km (16.129 km²) y resolución espacial de 30 m. Debido al alto número de datos contenidos en esta área, se hace necesario realizar un recorte (para que posteriormente los datos puedan ser procesados en conjunto), que da como resultado una cobertura de 27 km x 27 km, conservando su resolución espacial de 30 m que finalmente tendrá 810.000 muestras, es decir este número de puntos cada uno con la variable altitud. La zona seleccionada lleva por nombre ASTGTM2_N01W078 y es la que se muestra en la siguiente figura. Figura 18. Zona de estudio 54 Re-muestreo El re-muestreo es el modo de obtener una resolución menor a la que tiene originalmente el ráster. Consiste tomar la imagen original de resolución 30 m (tamaño de celda de 30 m x 30 m) y realizar el proceso que corresponde para que posteriormente el valor del tamaño de la celda sea mayor; esto permite que al interpolarse los DEM re-muestreados se vaya generando un error, el cual es calculado comparando dichos resultados con el DEM original. Para realizar el re-muestreo es necesario, en este caso, realizar la conversión del ráster original a puntos, ya que si se utiliza la herramienta para realizar el re-muestreo en el Software ArcGIS® de ESRI™, no sería de utilidad, pues el valor de la celda del DEM re-muestreado no posee las mismas coordenadas que el DEM original; de este modo no se podría realizar la comparación para obtener el error en posiciones determinadas. Como señala Garzón (2013) es importante que en todos los casos las cuatro esquinas de la zona de estudio se incluyan como puntos del conjunto de datos del re-muestreo, de lo contrario algunos puntos serán estimados mediante extrapolación en lugar de interpolación. Al realizar el re-muestreo se obtienen diferentes espaciamientos entre los puntos, de igual manera cambia la totalidad de datos para cada re-muestreo como se muestra en la siguiente tabla. 55 Tabla 1. Re-muestreos RE-MUESTREOS Espacio entre puntos Número de datos 60m x 60m 202.500 120m x 120m 50.625 300m x 300m 8.100 600m x 600m 2.025 900m x 900m 900 A continuación se presentan imágenes que permiten tener una idea visual de la diferencia que existe entre los espaciados de los re-muestreos planteados en esta investigación. Figura 19. 30 m x30 m (Original) Figura 22. 300 m x 300 m Figura 20. 60 m x60 m Figura 23. 600 m x600 m Figura 21. 120 m x 120 m Figura 24. 900 m x 900 m 56 Interpolación Se interpola cada DEM re-muestreado por los siguientes algoritmos de interpolación: Global Polynomial Interpolation, Inverse Distance Weighting, Kriging, Local Polynomial Interpolation y Radial Basis Functions. Como herramienta para la interpolación se utiliza el software ArcGIS® 9 (ArcMap™ versión 9.3) de ESRI™ (versión estudiantil). Calculo del error De acuerdo a la teoría de errores desarrollada por Gauss, se adopta el Error Medio Cuadrático como el modelo matemático más exigente para calcular el error de un DEM, por lo que su uso facilita la comparación de los valores obtenidos; lo que se pretende es establecer y cuantificar las diferencias más significativas encontradas entre la aplicación de estos algoritmos usados para la modelación de superficies43. Para el cálculo del EMC el procedimiento a seguir desde el punto de vista teórico es: En primer lugar hay que calcular, para cada punto de control, la diferencia (residuo) altimétrica existente entre el modelo interpolado y su correspondiente posición con el dato de elevación original del DEM. 43 Garzón, 2013: Validación cruzada como método de investigación en la calidad de Modelos Digitales de Elevación. 57 Luego se elevan dichos residuos al cuadrado para eliminar el valor del signo. Después se obtiene el promedio de las diferencias para todo el conjunto de puntos de control Por último se halla la raíz cuadrada de dicho promedio obteniendo el EMC. El resultado es la cobertura puntual que contiene los registros que sirven para caracterizar los modelos del área de estudio en función de su EMC. Es así como se pretende extraer de los DEM producidos los valores de elevación interpolados a la resolución espacial inicial, es decir 30 m. Con lo cual se obtendrá el resultado del valor interpolado para poder compararlo con el valor original de la muestra, obteniendo como producto final una matriz de Errores Medios Cuadráticos. Análisis estadístico Una vez obtenida la matriz de errores se hace necesario un procesamiento estadístico que permita darle rigor científico al estudio, es así como se plantea el Análisis de Varianza (ANOVA) que permite calcular la medida de la dispersión de un conjunto de datos alrededor de una magnitud promedio, determinando la magnitud del error que posee cada algoritmo. La validez del Análisis de Varianza está supedita al cumplimento de algunos requisitos de tipo matemático y probabilístico en las observaciones. Se dice que el 58 modelo ANOVA es apto para comparar efectos de variables en un fenómeno si los datos experimentales se ajustan al modelo, es decir, si las condiciones subyacentes al modelo están implícitas en los datos. Para este caso específico se realizará un ANOVA de dos factores con interacción, lo que quiere decir que se permite comparar varios grupos de una variable cuantitativa, se definieron como variables nominales: a) los cinco re-muestreos y b) el algoritmo de interpolación; como la variable cuantitativa, es decir, en la cual se desean comparar los grupos: el Error Medio Cuadrático de cada re-muestreo, resumiendo se tiene: Variables independientes: Variable dependiente: re-muestreos (5), algoritmos de interpolación (5) Error Medio Cuadrático (EMC) La hipótesis que se pone a prueba en el ANOVA de dos factores con interacción, es aquella donde las medias poblacionales (las medias del EMC en los re-muestreos y algoritmos) son iguales. Si las medias poblacionales son iguales, esto significa que los grupos no difieren en el Error Medio Cuadrático, y que en consecuencia, el EMC no tiene ninguna relación con el tamaño del re-muestreo ni con el algoritmo de interpolación. (Ecuación 8) (Ecuación 9) 59 A diferencia de otras pruebas de medias que se basan en la diferencia existente entre dos valores, el Análisis de Varianza emplea la razón de las estimaciones, dividiendo la estimación intermediantes entre la estimación interna para determinar la semejanza existente entre las medias que se comparan. Para poner a prueba la hipótesis nula , se procede a obtener el valor RazónF (de la distribución de Fisher) para los factores re-muestreo e interpolador, estos valores estadísticos de prueba resultantes se deben comparar con un valor tabular de F (véase Anexo C), Fcrítico, que indicará el valor máximo del valor estadístico de prueba (RazónF) que ocurría si fuera verdadera, a un nivel de significación seleccionado (0.05). Si el valor de RazónF de cualquiera de los dos factores es mayor al estadístico FSnedecor (Fcrítico), se rechaza la hipótesis de igualdad y se puede afirmar que el Error Medio Cuadrático es dependiente del algoritmo de interpolación y el remuestreo; de lo contrario no se puede afirmar que los grupos que se están comparando difieran en sus promedios poblacionales. Si el nivel crítico asociado al valor F es menor que 0,05 se rechaza la hipótesis de igualdad de medias y se concluye que no todas las medias poblacionales son iguales44. 44 Garzón, 2013: Ibíd. 60 Figura 25. Diagrama de metodología de la investigación. INICIO ASTER GDEM Residuos Cálculo EMC Extracción Puntos 30m x 30m Validación Cruzada Re-muestreo Matriz de errores Análisis estadístico Puntos Conclusiones 60m x 60m 120m x 120m 300m x 300m 600m x 600m Interpolación GP, IDW, KRG, LP, RBF FIN 900m x 900m 61 6.1 Justificación de la metodología seleccionada Se acude a la aplicación de la técnica de Validación Cruzada (como método de remuestreo) al DEM original, de modo que a medida que se re-muestrea a una resolución menor a la original se generen errores al predecir el valor eliminado. Se presume que los valores resultantes de la interpolación serán siempre distintos y dependientes del algoritmo que se utilice; de ahí la importancia de evaluar la calidad de los algoritmos que se plantean en esta investigación, pues la diferencia que exista entre el valor predicho (interpolado) y el valor de la elevación del punto del DEM original, es el residuo que se traduce posteriormente en el error del algoritmo para la resolución a la que se puso a prueba. Como técnica estadística para analizar los resultados se utiliza ANOVA (Analysis Of Variance); con ella se puede comparar si los valores que toma un conjunto de datos que corresponden a variaciones de una misma variable dependiente, se ven afectados por una o más variables de tipo independiente. “El análisis de la varianza se utiliza para dos propósitos, uno: probar la hipótesis respecto a las varianzas poblacionales, y dos: estimar y probar las hipótesis respecto a las medias poblacionales.”45 45 Garzón, 2013: Ibíd. 62 7. ANÁLISIS DE LA INFORMACIÓN La fase experimental está compuesta por la aplicación de los algoritmos de interpolación a cada DEM re-muestreado. Se presentan las figuras que permiten ver cambios en la superficie ya interpolada a medida que se utiliza una resolución diferente a la original, de igual forma para cada re-muestreo se optó por capturar aleatoriamente una zona para la visualización del error y su relación con las curvas de nivel, o dicho de otra forma: el contraste del error con la pendiente. Gracias a las estadísticas que facilita el software ArcMap™ Versión 9.3, a partir de los resultados de la interpolación, se pueden generar DEM con los errores para cada posición que se interpoló, es decir que no se obtiene una representación a partir de la variable elevación, sino con el error de la predicción para cada punto que se haya remuestreado; de este modo contamos con otro panorama distinto al cuantitativo ya que este se traduce a un mapa en donde se evidencia en contraste del error en relación a la pendiente del terreno. Es de aclarar que no es propósito de esta investigación el determinar la incidencia de la pendiente en la calidad de la predicción de los datos, sino que se realizan los mapas con la intención de abrir un tema de discusión para que a futuro sea investigado pues es de gran importancia conocer la incidencia de la pendiente en la calidad de la representación del terreno por medio de un DEM. 63 GLOBAL POLYNOMIAL INTERPOLATION (GP) Figura 26. GP- 30 m x30 m (Original) Figura 29. GP- 300 m x300 m Figura 27. GP- 60 m x60 m Figura 30. GP- 600 m x600 m Figura 28. GP- 120 m x120 m Figura 31. GP- 900 m x900 m Figura 32. Rangos de elevación (m) Ya se hace evidente que este interpolador no es recomendado para la representación de superficies a través de un DEM, pues ni siquiera con la resolución original (Figura 64 26) se alcanzan a visualizar los accidentes y características más notorias de la zona estudiada; por lo tanto se omite la realización de los mapas de error para el algoritmo evaluado. Se hace necesario, para evitar confusiones, recapitular lo dicho anteriormente: que en todos los casos los algoritmos necesitan valores de los parámetros alternativos que controlan la interpolación, y que generalmente modifican el producto final; y que para el desarrollo de este apartado se utilizaron los valores sugeridos por ArcMap™; dado esto es probable que al modificar ciertos parámetros de este interpolador, los resultados de la predicción sean valores aceptables para la creación de un DEM. 65 INVERSE DISTANCE WEIGHTING (IDW) Figura 33. IDW- 30 m x30 m (Original) Figura 36. IDW- 300 m x300 m Figura 34. IDW- 60 m x60 m Figura 37. IDW- 600 m x600 m Figura 35. IDW- 120 m x120 m Figura 38. IDW- 900 m x900 m Figura 32. Rangos de elevación (m) 66 IDW: Resultados re-muestreo 60 m X 60 m Figura 39. IDW-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 40. IDW- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 67 IDW: Resultados re-muestreo 120 m X 120 m Figura 41. IDW-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 42. IDW- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 68 IDW: Resultados re-muestreo 300 m X 300 m Figura 43. IDW-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 44. IDW- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 69 IDW: Resultados re-muestreo 600 m X 600 m Figura 45. IDW-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 46. IDW- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 70 IDW: Resultados re-muestreo 900 m X 900 m Figura 47. IDW-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 48. IDW- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 71 KRIGING (KRG) Figura 49. KRG- 30 m x30 m (Original) Figura 52. KRG-300 m x300 m Figura 50. KRG- 60 m x60 m Figura 53. KRG-600 m x600 m Figura 51. KRG-120 m x120 m Figura 54. KRG-900 m x900 m Figura 32. Rangos de elevación (m) 72 KRG: Resultados re-muestreo 60 m X 60 m Figura 55. KRG-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 56. KRG- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 73 KRG: Resultados re-muestreo 120 m X 120 m Figura 57. KRG-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 58. KRG- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 74 KRG: Resultados re-muestreo 300 m X 300 m Figura 59. KRG-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 60. KRG- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 75 KRG: Resultados re-muestreo 600 m X 600 m Figura 61. KRG-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 62. KRG- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 76 KRG: Resultados re-muestreo 900 m X 900 m Figura 63. KRG-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 64. KRG- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 77 LOCAL POLYNOMIAL INTERPOLATION (LP) Figura 65. LP- 30 m x30 m (Original) Figura 68. LP- 300 m x300 m Figura 66. LP- 60 m x60 m Figura 69. LP- 600 m x600 m Figura 67. LP-120 m x120 m Figura 70. LP- 900 m x900 m Figura 32. Rangos de elevación (m) 78 LP: Resultados re-muestreo 60 m X 60 m Figura 71. LP-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 72. LP- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 79 LP: Resultados re-muestreo 120 m X 120 m Figura 73. LP-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 74. LP- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 80 LP: Resultados re-muestreo 300 m X 300 m Figura 75. LP-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 76. LP- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 81 LP: Resultados re-muestreo 600 m X 600 m Figura 77. LP-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 78. LP- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 82 LP: Resultados re-muestreo 900 m X 900 m Figura 79. LP-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 80. LP- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 83 RADIAL BASIS FUNCTION (RBF) Figura 81. RBF- 30 m x30 m (Original) Figura 84. RBF-300 m x300 m Figura 82. RBF-60 m x60 m Figura 85. RBF-600 m x600 m Figura 83. RBF-120 m x120 m Figura 86. RBF-900 m x900 m Figura 32. Rangos de elevación (m) 84 RBF: Resultados re-muestreo 60 m X 60 m Figura 87. RBF-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 88. RBF- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 85 RBF: Resultados re-muestreo 120 m X 120 m Figura 89. RBF-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 90. RBF- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 86 RBF: Resultados re-muestreo 300 m X 300 m Figura 91. RBF-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 92. RBF- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 87 RBF: Resultados re-muestreo 600 m X 600 m Figura 93. RBF-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 94. RBF- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 88 RBF: Resultados re-muestreo 900 m X 900 m Figura 95. RBF-Mapa de error y curvas superpuestas. Rangos de error en metros (Der.) Figura 96. RBF- Mapa de error y mapa de pendientes. Rangos de pendiente en % (Der.) 89 Mapas de error y curvas superpuestas para re-muestreo 60 m X 60 m Figura 39. IDW Figura 55. KRG Figura 71. LP Figura 87. RBF 90 Mapas de error y curvas superpuestas para re-muestreo 120 m X 120 m Figura 41. IDW Figura 57. KRG Figura 73. LP Figura 89. RBF 91 Mapas de error y curvas superpuestas para re-muestreo 300 m X 300 m Figura 43. IDW Figura 59. KRG Figura 75. LP Figura 91. RBF 92 Mapas de error y curvas superpuestas para re-muestreo 600 m X 600 m Figura 45. IDW Figura 77. LP Figura 61. KRG Figura 93. RBF 93 Mapas de error y curvas superpuestas para re-muestreo 900 m X 900 m Figura 47. IDW Figura 63. KRG Figura 79. LP Figura 95. RBF 94 7.1 Detalles del análisis En este apartado se analizan estadísticamente los resultados de la fase experimental de esta investigación, la cual comprende diversos aspectos referentes a la representación de la superficie terrestre mediante un DEM, como lo es la incidencia de la resolución espacial de los datos así como el algoritmo que se aplica para dicha representación. Con la cantidad de datos e información que se cuenta resultante de la evaluación que se realiza a los cinco algoritmos de interpolación, se quiere llegar a conclusiones fiables a partir del análisis que se realice a lo mencionado, por lo tanto se pretende aplicar a estos datos el método estadístico más apropiado, de modo que se pueda poner en manifiesto el significado de las diferencias encontradas entre las variables. Se potencia la inclusión de gráficos descriptivos para la representación de las distribuciones estadísticas de los factores, de forma que los resultados sean más comprensibles. Al llevar a cabo las interpolaciones de todos los re-muestreos con cada uno de los algoritmos propuestos, se obtienen los residuos resultantes de la diferencia entre el valor predicho por el interpolador y el valor real de la muestra; con ello se procede a realizar el cálculo del Error Medio Cuadrático (EMC) aplicando la ecuación 1. (Ecuación 1) 95 Como resultado se obtiene la matriz de Errores Medios Cuadráticos que es la base fundamental para realizar el Análisis de Varianza. Tabla 2. Matriz de Errores Medios Cuadráticos (en metros) Algoritmo de interpolación Re-muestreo 900 GP 329,70 IDW 73,63 KRG 59,58 LP 65,43 RBF 60,40 600 329,31 52,88 40,90 45,10 41,90 300 329,02 27,62 19,76 21,10 19,18 120 328,94 10,90 6,97 7,59 6,53 60 328,94 5,07 3,31 3,60 3,25 Con los datos de la tabla 2 se realiza el grafico de interacciones donde se permite visualizar la relación que existe entre factores (re-muestreo y algoritmo de interpolación). Cabe señalar que el error de elevación que está ligado a la imagen del sistema ASTER no sobrepasa los 20 metros (ASTER Global Digital Elevation Model Version 2 – Summary of Validation Results, Agosto 31 del 2011), con lo cual cabe considerar que los interpoladores: Radial Basis Function y Kriging están dentro del Rango vertical de tolerancia hasta re-muestreos de 300 m (véase Tabla 2). Considerando que el re-muestreo de 300 metros se encuentra en un rango vertical de error permisible, se puede decir que la elección de este tamaño de celda de 300 m permite aumentar la eficacia en tiempo, debido a que disminuyen datos a procesar sin afectar groseramente la calidad altimétrica de los datos. 96 Si se tiene un número de datos X a la resolución original de 30 metros podríamos aumentar 10 veces el área a procesar si se utiliza un re-muestreo de 300 metros con el mismo valor X de datos y dentro de la tolerancia de error de 20 metros. Los interpoladores Radial Basis Function (Función de Base Radial) y Kriging presentan un Error Medio Cuadrático de 3,25 m y 3,31m respectivamente, para el remuestreo de 60 metros, mediante estos resultados se pueden considerar los métodos de interpolación más adecuados para la representación de superficies de dicha resolución. Algo similar ocurre para los demás re-muestreos, donde estos algoritmos conservan el menor Error Medio Cuadrático, y tienen una diferencia discreta con relación a IDW y a LP. Análisis de Varianza para el EMC - Suma de Cuadrados Tipo III En este procedimiento se ejecuta un análisis de varianza de varios factores para el EMC. Se realizan varias pruebas y gráficas para determinar qué factores tienen un efecto estadísticamente significativo sobre el EMC. También se evalúa la significancia de las interacciones entre los factores. Para cada factor significativo, las Pruebas de Rangos Múltiples dirán cuales medias son significativamente diferentes de otras. Las Gráficas de Medias (Figuras 99 y 100) y la Gráfica de Interacciones (Figura 97) ayudan a interpretar los efectos significativos. 97 Figura 97. Gráfica de interacciones 80 70 EMC (m) 60 50 40 IDW 30 KRG 20 LP 10 0 RBF Re-muestreo 60 120 300 600 900 IDW 5,07 10,90 27,62 52,88 73,63 KRG 3,31 6,97 19,76 40,90 59,58 LP 3,60 7,59 21,10 45,10 65,43 RBF 3,25 6,53 19,18 41,90 60,40 Tabla 3. Razones-F y Grados de Libertad (Gl) Fuente EFECTOS PRINCIPALES A:re muestreo B:interpolador RESIDUOS TOTAL (CORREGIDO) Suma de Cuadrados Gl Cuadrado Medio(m) Razón-F Valor-P 8586.1 361279. 2148.43 372013. 4 4 16 24 2146.53 90319.7 134.277 15.99 672.64 0.0000 0.0000 Nota: Todas las razones-F se basan en el cuadrado medio del error residual En la tabla 3 se muestra que la variabilidad de EMC se descompone en contribuciones debidas a varios factores. Puesto que se ha escogido la suma de cuadrados Tipo III (por omisión), la contribución de cada factor se mide eliminando los efectos de los demás factores. Los valores-P prueban la significancia estadística de cada uno de los factores. Puesto que 2 valores-P son menores que 0,05, estos 98 factores tienen un efecto estadísticamente significativo sobre el EMC con un 95,0% de nivel de confianza. CONTRASTE DE LA HIPÓTESIS: 1. Contraste de la existencia de interacción: Para establecer la región de criterio de contraste, es necesario hallar el estadístico F-Snedecor (Fcrítico): Donde: 0.05 indica una probabilidad de error del 5% 4 es el valor de Grados de Libertad del numerador (aplica para re-muestreo e interpolador) 16 es el valor de grados de libertad del denominador (residuos) Figura 98. Distribución Fisher Dado Fcrítico, el límite establecido para división de la zona de aceptación y la zona de rechazo; y siendo los valores de la razones F de los dos factores mayores a 3.0069, 99 se rechaza la hipótesis de igualdad (h0) y se concluye que no todas las medias poblacionales son iguales (véase Fig. 99 y 100), queriendo decir que el Error Medio Cuadrático es dependiente del tamaño del re-muestreo y el método de interpolación y por lo tanto estos dos últimos afectan el valor de EMC según el que se elija. La figura 99 muestra la media de EMC para cada uno de los niveles de Re-muestreo. También muestra un intervalo alrededor de cada media. Los intervalos mostrados actualmente están basados en el procedimiento de la diferencia mínima significativa (LSD) de Fisher. Están construidos de tal manera que, si dos medias son iguales, sus intervalos se traslaparán un 0,0% de las veces. Cualquier par de intervalos que no se traslapen verticalmente corresponden a pares de medias que tienen una diferencia estadísticamente significativa. y 95,0% de Fisher LSD Figura 99. Medias Medias del EMC para el factor Re-muestreo 141 EMC 121 101 81 61 60 120 300 Remuestreo 600 900 En la tabla 4, se identifican 3 grupos homogéneos según la alineación de las X's en columnas. No existen diferencias estadísticamente significativas entre aquellos remuestreos que compartan una misma columna de X's. 100 Tabla 4. Homogeneidad entre re-muestreos Re-muestreo Casos 60 5 120 5 300 5 600 5 900 5 Nota: 95% LSD Media LS 68.834 72.186 83.336 102.018 117.748 Sigma LS 5.18222 5.18222 5.18222 5.18222 5.18222 Grupos Homogéneos X X X X X En la siguiente tabla se aplica un procedimiento de comparación múltiple para determinar cuáles medias son significativamente diferentes de otras. La tabla 5 muestra las diferencias estimadas entre cada par de medias. El asterisco que se encuentra en la columna Sig. indica que estos pares muestran diferencias estadísticamente significativas con un nivel del 95,0% de confianza. Tabla 5. Diferencia entre medias de re-muestreo Contraste Sig. Diferencia (m) +/- Límites (m) 60 - 120 -3.352 15.5363 60 - 300 -14.502 15.5363 60 - 600 * -33.184 15.5363 60 - 900 * -48.914 15.5363 120 - 300 -11.15 15.5363 120 - 600 * -29.832 15.5363 120 - 900 * -45.562 15.5363 300 - 600 * -18.682 15.5363 300 - 900 * -34.412 15.5363 600 - 900 * -15.73 15.5363 Nota: * indica una diferencia significativa. El método empleado actualmente para discriminar entre las medias es el procedimiento de diferencia mínima significativa (LSD) de Fisher. Con este método hay un riesgo del 5,0% al decir que cada par de medias es significativamente diferente, cuando la diferencia real es igual a 0 (cero). 101 Figura 100. Medias del EMC para el factor Interpolador Si se quiere conocer si un interpolador es significativamente diferente a otro, basta con proyectar un extremo de la forma de color azul de un algoritmo X hasta la representación de Y; si la proyección de x concurre dentro de y se establece que no hay diferencias estadísticamente significativas entre estos dos; de no haber concurrencia se entiende que son diferentes en el sentido ya mencionado. En la tabla 6, se identifican 4 grupos homogéneos según la alineación de las X's en columnas. No existen diferencias estadísticamente significativas entre aquellos niveles que compartan una misma columna de X's. Tabla 6. Homogeneidad entre interpoladores Interpolador KRG RBF LP IDW GP Casos 5 5 5 5 5 Media LS 26,104 26,252 28,564 34,02 329,244 Sigma LS 5.16101 5.16101 5.16101 5.16101 5.16101 Grupos Homogéneos X X X X X Método: 95,0 porcentaje LSD 102 En la tabla 7 se aplica un procedimiento de comparación múltiple para determinar cuáles medias son significativamente diferentes de otras. Esta tabla muestra las diferencias estimadas entre cada par de medias. El asterisco que se encuentra al lado de los 4 pares indica que estos pares muestran diferencias estadísticamente significativas con un nivel del 95,0% de confianza ratificando lo que se aprecia en la grafica de medias del EMC para el factor Interpolador (fig. 100). Tabla 7. Diferencia entre medias de error de los interpoladores. Contraste Sig. Diferencia (m) +/- Límites (m) IDW - KRG 7,916 15,4727 IDW – LP 5,456 15,4727 IDW – RBF 7,768 15,4727 IDW – GP * -295,224 15,4727 KRG – LP -2,460 15,4727 KRG – RBF -0,148 15,4727 KRG – GP * -303,140 15,4727 LP – RBF 2,312 15,4727 LP – GP * -300,680 15,4727 RBF - GP * -302,992 15,4727 Nota: * indica una diferencia significativa. Al rechazar la hipótesis de igualdad se entiende que la media de los errores de los algoritmos no es igual y que existen diferencias entre unos y otros. La tabla 7 muestra cuánta es la diferencia entre cada par de grupos; de lo que se puede afirmar que los algoritmos Kriging y Radial Basis Functions son el par de algoritmos que menos diferencia presentan cuando se comparan las medias del error, considerando así que los resultados de las interpolaciones entre estos dos no son estadísticamente significativas. 103 ANOVA Multifactorial - EMC Variable dependiente: EMC Factores: Re-muestreo (5) Interpolador (5) Número de casos completos: 25 El mejor algoritmo de representación de la superficie de los evaluados en este estudio es aquel que menor Error Medio Cuadrático presente, a la vista del gráfico de interacciones (Figura 97 ) se puede entender fácilmente que el algoritmo RBF es el que se encuentra más cercano al valor cero de error, también se puede inferir que no existe una diferencia estadísticamente significativa entre dicho algoritmo y Kriging; el algoritmo Global Polynomial Interpolation presenta mayor error significativo, alejándose de los rangos de la media de errores (grafica 99), es así, como se ratifica el rechazo de la hipótesis nula. Siendo consecuentes con esta gráfica aquí también se puede observar que el algoritmo GP es el de peor comportamiento presentando altos errores, lo cual hace que no se pueda utilizar para la representación de superficies topográficas según los resultados de este estudio. 104 7.2 Importancia del estudio Las aplicaciones de los DEM incluyen cualquier estudio que requiere como dato la altura topográfica de la Tierra y su variación espacial. Entre los estudios que se hacen en la exploración geotérmica pueden citarse los que se refieren a estimación de temperaturas medias anuales en función de la altura y orientación del terreno; fenómenos de erosión; trazo de carreteras o líneas de conducción; remoción de material; identificación de drenajes y representación tridimensional de las zonas geotérmicas para proyectos de realidad virtual con fines didácticos, entre varios más. Su utilidad para un problema específico depende, desde luego, de la dimensión de éste y la resolución espacial de los datos. La resolución o tamaño de celda es quizás una de las características que en mayor medida condiciona la validez de un DEM para un determinado uso. No deben ser utilizados los resultados de esta investigación de forma arbitraria, sino más bien como una magnitud orientativa cuya comprensión debe fundamentarse en el entendimiento de las operaciones que van a llevarse a cabo sobre dicho DEM y el significado de cuantos resultados se obtengan de las mismas. 105 8. CONCLUSIONES Gracias a la confrontación de datos que se realiza posterior a la aplicación de la técnica de Validación Cruzada, se obtienen los residuos para cada una de las muestras iniciales de la imagen ráster, posterior a ello y aplicando la ecuación para el cálculo del Error Medio Cuadrático (EMC) se calculó este para cada uno de los algoritmos propuestos y para sus respectivos re-muestreos dando como resultado la matriz de errores (Tabla 2). Siendo este el punto de partida para llevar a cabo los análisis estadísticos y la base para que la elección de los algoritmos interpolantes sea hecha con criterio basada el resultados de tipo numérico. Los resultados registrados en la matriz de errores medios cuadráticos en esta investigación nos permiten seleccionar que los interpoladores: Kriging (KRG) y Radial Basis Functions (RBF) son los mejores algoritmos de interpolación (de los que se evaluaron en este estudio) para generalizar la representación de la superficies terrestres a través un Modelo Digital de Elevación (DEM). Con lo cual se puede decir que estos algoritmos de interpolación son los más adecuados cuando se quiere obtener un Modelo Digital de Elevación, de modo que el resultado de la interpolación no sea distante del valor medido, es decir que la calidad del DEM no se vea comprometida en las posiciones que no se posean muestras y que por consiguiente es un valor asignado por el interpolador. Este concepto toma rigidez a partir del grafico de interacciones (Figura 97) y en la matriz de errores (tabla 2), donde es evidente 106 tanto gráfica como cuantitativamente que los algoritmos seleccionados como los idóneos, son los que producen menor error al predecir valores y confrontarlos con su valor original en todos los re-muestreos. Considerando que el re-muestreo de 300 metros se encuentra en un rango vertical de error permisible (para RBF y Kriging), se puede decir que la elección de este tamaño de celda de 300 m permite aumentar la eficacia en tiempo, debido a que disminuyen datos a procesar sin afectar la calidad altimétrica de los datos. En los mapas de errores y curvas superpuestas se observa que con todos los algoritmos el mayor error se presenta en las zonas donde la la superficie presenta una pendiente alta, considerando que ésta incide en la calidad de la predicción de los datos en dichas áreas. Al utilizar el método de validación cruzada para determinar la diferencia existente entre el valor muestreado y el predicho por el algoritmo en ejecución, permitió que se acercase a conocer la calidad del resultado de los interpoladores; pues al obtener para las varias escalas de re-muestreo el Error Medio Cuadrático para cada uno de los métodos en cuestión, se pueden establecer con criterio los de comportamiento más beneficioso para la crear Modelos Digitales de Elevación a partir de la variable altitud. 107 8.1 Respuesta al problema ¿Qué afectación tienen la aplicación del algoritmo de interpolación y el re-muestreo al representar el terreno a través de un Modelo Digital de Elevación? Las características de la superficie de la tierra son accidentes que no se adaptan a una fórmula matemática puesto que es impredecible su forma y rugosidad cuando una posición no es muestreada en la realidad, por lo tanto a un algoritmo que trabaja bajo una estructura matemática le será muy poco probable predecir un valor de altitud de alta precisión, sobre todo cuando se utiliza sobre muestras espaciadas de forma regular a 60 metros y más. De forma tal que un Modelo Digital de Elevación se verá afectado significativamente o poco afectado según la elección de un algoritmo debido a que estos trabajan y representan el terreno de diversas formas. Ello no indica que los algoritmos que se utilizan en este estudio no ofrezcan resultados confiables; por el contrario se mencionan los más adecuados para la representación del terreno, así como un valor máximo46 de espaciado entre las muestras. Basta con observar el gráfico de interacciones (Figura 97) para concluir que independiente de algoritmo que se utilice el re-muestreo si afecta, y directamente la calidad de la interpolación; pues se observa que el Error Medio Cuadrático (EMC) aumenta significativamente cada vez que el valor de re-muestreo o tamaño de celda es cambiado por un número mayor a su antecesor. Con lo dicho se establece que si un valor de re-muestreo o tamaño de celda es mayor al del DEM original, y éste es 46 Valor máximo aproximado a partir de la tolerancia del EMC para usos de DEM a gran escala. 108 interpolado, se afecta la representación del terreno puesto que está ligado a los errores causados por las predicciones de los valores de las muestras que se excluyen. 109 8.2 Limitaciones del estudio Existen diversos aplicativos software que cuentan con algoritmos de interpolación capaces de modelar superficies digitalmente, en esta investigación se hace uso de uno únicamente (ArcGIS 9.3 ®) lo que puede generar interrogantes de la funcionalidad y validación de los resultados para software distintos a éste. Ello implica una limitación a las conclusiones dado que aquí se ejecutan los valores sugeridos por el software para todos los algoritmos evaluados y que pueden variar con otros entornos. El cambio de resolución al que es sometido el DEM genera errores que van creciendo a medida que la resolución es menor, para este caso los valores de re-muestreo se determinaron bajo parámetros ya argumentados. Queriendo decir que el Error Medio Cuadrático que aquí se presenta es dependiente de todas las resoluciones, con lo cual se puede mencionar que es probable que este varíe si el DEM es re-muestreado a resoluciones diferentes a las que aquí se proponen. La misma limitación existe para el valor de la pendiente, puesto que no se analizan zonas clasificadas según el valor de esta, sino que se halla el Error para toda la superficie independiente de la variación de la mencionada; de tal manera que la calidad de un DEM puede variar según la(s) pendiente(s) porque como se observa en los mapas de error se nota la diferencia entre las zonas de menor y mayor pendiente. 110 BIBLIOGRAFIA BLAKE, C.L., MERZ, C.J.: UCI Repository of machine learning databases. http://www.ics.uci.edu/ mlearn/MLRepository.html. University of California, Department of Information and Computer Science (1998) BURROUGH, P. A.: Principles of Geographical Information Systems for land resources assessment. Monographs on Soil and Resources Survey. No. 12. Oxford University Press. (1986) 193p. BURROUGH, P. A., McDonnell, R; A.: Principles of Geographical Information Systems. Oxford University Press (1998). COHEN, P. R.: Empirical Methods for Artificial Intelligence. MIT Press (1995) DIETTERICH, T. G.: Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms. Neural Computation 10 (1998) 18951923 ESRI: Using ArcView 3D Analyst. ArcView 3D Analyst, USA (1997) 118p. FELICÍSIMO, A.M. (1994) Modelos digitales del terreno. Introducción y aplicaciones en ciencias ambientales. Oviedo, España. pp. 118. (http://www.etsimo.uniovi.es/feli/pdf/libromdt.pdf). 111 FELICÍSIMO, A.M. (1999) La utilización de los MDT en los estudios del medio físico, pp. 16. (http://www.etsimo.uniovi.es/feli/pdf/ITGE_150a.pdf). FISHER, P. F., TATE, N. J.: Causes and consequences of error in digital elevation models. Progress in Physical Geography 30. (2006). pp. 467-489 GARZÓN BARRERO, J. (2013): Validación cruzada como método de investigación en la calidad de Modelos Digitales de Elevación. Tesis de maestría no publicada. Universidad San Francisco de Quito, Quito Ecuador. GOMEZ GOMEZ, G., JIMENEZ CLEVES, G.: Introducción a la topografía analítica. Universidad del Quindío (2008) 6 ed. HENGL T., HEUVELINK G.M.B., STEIN A.: A generic framework for spatial prediction of soil variables based on regression-kriging. (2004), 120: 75–93. HOLTR R. C.: Very Simple Classification Rules Perform Well on Most Commonly Used Datasets. Machine Learning 11(1) 1993 63-90 KECKLER, D.: Surfer for Windows. User’s Guide. Contouring and 3D Surface Mapping. Golden Software, Inc. Colorado, USA. Golden Software (1995) KOHAVI, R.: A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. Proceedings of International Joint Conference on Artificial Intelligence (1995) 112 MALING, D.H.: Measurements from maps: Principles and methods of cartometry. (1989) Pergamon Pr, 1 ed. McCULLAGH, M.J.: Terrain and surface modelling systems: theory and practice. Photogrammetric Record (1988) MORENO BROTÓNS, J., ALONSO SARRÍA, F., GOMARIZ CASTILLO, F. Y ALONSO BERNARDO, D. (2010): Análisis y validación de modelos digitales de elevaciones mediante datos LIDAR. Universidad de Sevilla, Sevilla. pp. 258 OLAYA FERRERO, V. (2004) Hidrología computacional y modelos digitales del terreno –Teoría, practica y filosofía de una nueva forma de análisis hidrológico-. Ed. 0.95. 18 – 53. PRESUTTI, M.: Evaluación de errores en modelos digitales de elevación (DEM) generados mediante diferentes técnicas de interpolación. X Simposio Latinoamericano de Percepción Remota (2002), SELPER, Cochabamba. Bolivia. RUIZ-MAYA, L.: Métodos Estadísticos de Investigación (Introducción al Análisis de la Varianza). Instituto Nacional de Estadística. (1986). SCHAFFER, C.: A conservation law for generalization performance. In Proceedings of the 1994 International Conference on Machine Learning (1994). SALZBERG S. L.: On Comparing Classifiers: Pitfalls to Avoid and a Recommended Approach. Data mining and Knowledge Discovery 1 (1997) 317-328. 113 TAYLOR, J.: An Introduction to Error Analysis: The Study of Uncertainties In Physical Measurements. University Science Books, Sausalito, CA. EEUU. (1997) 327 pp. TJEN-SIEN LIM, WEI-YIN LOH, YU-SHAN SHIH: A Comparison of Prediction Accuracy, Complexity, and Training Time of Thirty-Three Old and New Classification Algorithms. Machine Learning 40(3) (2000) 203-228 WEHR, A., U. LOHR: Airborne laser scanning – an introduction and overview. ISPRS Journal of Photogrammetry and Remote Sensing 54, pp. 68-82. WEIBEL, R. Y HELLER, M.: Digital terrain modeling. en Maguire, D.J.; Goodchild, M.F. y rhind, D.W. (Eds.). Geographical Information Systems. Longman, Scientific & Technical. Vol. 1. (1991) pp. 269-297. WISE, S.: Assessing the quality for hydrological applications of digital elevation models derived from contours. (2000). WOLPERT, D.H.: On the Connection Between In-Sample Testing and Generalization Error. Complex Systems 6 (1992) 47-94 114 ANEXOS 115 Anexo A. Pasos para la interpolación y validación en el software ArcGIS® Después de haber re-muestreado el DEM original a distintas resoluciones, se realiza la interpolación para cada uno de ellos y con cada algoritmo de interpolación mediante la extensión Geostatistical Analyst de ArcGIS® de la siguiente manera: 1. Se agregan las capas de puntos de las diferentes resoluciones espaciales (remuestreos) haciendo clic en Add Data 2. Aparece la ventana de dialogo en la cual se seleccionan dichas capas y se cargan dando clic en el botón Add 3. Debemos habilitar la extensión Geostatistical Analyst haciendo clic derecho en la barra de herramientas, se hace clic sobre ella. 4. Para realizar la interpolación abrimos Geostatistical Analyst de donde se despliega un recuadro, allí seleccionamos Geostatistical Wizard 5. Aparece una ventana, se selecciona el algoritmo de interpolación en el recuadro Methods, también se debe especificar el dato de entrada, para realizar la interpolación que es la capa de puntos con un valor determinado de re-muestreo (600_600 en este ejemplo), en Input data de la pestaña Dataset 1. En la misma pestaña y en la casilla Attribute se selecciona la variable a interpolar (elevación) que para este caso es valor que se encuentra en la columna GRID_CODE de la capa de puntos. 116 Este paso solo admite una capa de re-muestreo, por lo que debe realizarse con cada uno de ellos al igual que con los algoritmos 6. Para realizar la comparación de los resultados que se interpolan con los datos originales del DEM, se selecciona la pestaña Validation y en Input data se debe seleccionar la capa de puntos que contiene la resolución espacial original del DEM (30x30_inicial). De igual manera debe indicarse la columna que contiene la variable elevación en el espacio Attribute (GRID_CODE). Clic en el botón Next >. En los siguientes pasos se pueden modificar los distintos parámetros del interpolador, que en esta investigación se utilizaron los que aparecen por defecto. 7. En el paso cinco (Geostatistical Wizard: Step 5 of 5 – Validation) aparecen los resultados de la comparación (Validación) de los datos interpolados y los del DEM 117 original. En la parte inferior izquierda de la ventana, en el cuadro Prediction errors, se observa el Error Medio Cuadrático (Root-Mean-Square). Clic en el botón Finish. A continuación el programa muestra la superficie interpolada. 8. Para registrar los resultados de los errores para cada una de las muestras, se hace clic derecho sobre el nombre de la superficie que aparece en la ventana de contenidos (Ordinary Kriging en la imagen del ejemplo) y se selecciona “Validation…”. 9. Aparece la ventana Validation. Al igual que en el Paso 5, en el cuadro Input Data se debe seleccionar como datos para la comparación la capa que contiene los puntos 118 con la resolución original del DEM (30x30_inicial) y en Attribute la columna de la capa que contiene el valor de la elevación de los puntos (GRID_CODE). En el cuadro Specify output shapefile or feature class se indica la ruta y el nombre para guardar el archivo shape y clic en el botón OK. Aparece una ventana que pregunta si se desea agregar el archivo recién creado al mapa actual, y se responde haciendo clic en Yes. Este paso es equivalente al paso 5, con la distinción que de esta forma quedaran registrados los resultados en un archivo independiente de capa de puntos. 10. Para exportar el archivo que se encuentra como capa de puntos se cliquea con el botón derecho y se abre la tabla de atributos (Open Attribute Table) 119 11. El programa nos muestra la tabla de atributos con los resultados de la validación, donde se aprecia el error y los residuos para cada una de las 810.000 muestras. Clic en el botón Options, que se encuentra en la parte inferior derecha de la ventana, luego en “Export…”. 12. En la ventana Export Data se indica la ruta y el nombre para el archivo de base de datos que lleva la extensión “.dbf” (Data-Base-File) De este modo quedan registrados los resultados de la interpolación, así como los errores para cada una de las muestras del DEM, con lo que se calcula el Error Medio Cuadrático. 120 Anexo B. Generalidades sobre ASTER GDEM. ASTER (Advanced Space Borne Thermal Emission and Reflection Radiometer) GDEM (Global Digital Elevation Model), es un sensor que captura imágenes de la tierra en alta resolución y 14 bandas espectrales; construido por el Ministerio de Economía Industria y Comercio (METI) del Japón y lanzado a bordo del satélite Terra de la NASA en diciembre de 1999. ASTER GDEM cubre la superficie de la tierra entre 83° N y 83° S y está compuesto por 22.600 celdas de 1 °-por-1 °. Celdas que contienen al menos 0,01% del área de la tierra. ASTER GDEM está en formato Geo-TIFF con coordenadas geográficas latitud/longitud y una rejilla de 1 segundo de arco (30 m) con valores de elevación en el centro geométrico de cada celda. Se hace referencia al geoide WGS84/EGM96. La precisión estimada para este producto global es 20 metros con una confiabilidad del 95% para los datos verticales y 30 metros con 95% de nivel de confianza para los datos horizontales. La imagen ASTER GDEM con cobertura de 127 km X 127 km está disponible para cualquier usuario en el mundo y se puede descargar de forma gratuita, electrónicamente en la dirección web: http://gdem.ersdac.jspacesystems.or.jp/ y desde: http://reverb.echo.nasa.gov/reverb/. La topografía de la superficie de la tierra es una de las mediciones geofísicas más fundamentales de la tierra, y es un factor dominante en casi todos los procesos físicos que ocurren en la superficie de la tierra. La topografía de la superficie de la tierra también controla significativamente los procesos dentro de la atmósfera suprayacente, y refleja los procesos dentro de la litosfera subyacente. En consecuencia, la información topográfica es importante en todo el espectro de ciencias de la tierra, y la disponibilidad de una imagen DEM de alta resolución (1 segundo de arco o menos) había sido una prioridad de científicos que estudian la tierra por un largo tiempo. 121 Anexo C. Valores F de la distribución F de Fisher. Nota: Los valores F se expresan sin unidades. 122 123 Anexo D. Resultados (DVD) 124 GLOSARIO EDÁFICO perteneciente o relativo al suelo o a los factores relacionados con este y que tienen una profunda influencia en la distribución de los seres vivos. ERROR ALEATORIO también llamado error accidental o casual. Son los que permanecen en la medida pero no conocemos su valor, obedecen a las leyes de las probabilidades y son ajenos a la voluntad o habilidad del observador. ERROR SISTEMÁTICO también conocido como error acumulativo, se comportan de acuerdo a las leyes de la física susceptibles de ser modelados matemáticamente, por lo que su magnitud puede calcularse y su efecto eliminarse. GRID o cuadrícula es el conjunto de líneas horizontales y verticales uniformemente espaciadas. Se utilizan cuadrículas para ayudar a localizar puntos en un plano. INTERPOLADOR EXACTO muestreo. preserva los valores originales de los puntos de INTERPOLADOR GLOBAL muestreo. basa la interpolación en todos los puntos de INTERPOLADOR INEXACTO de muestreo. no mantiene los valores originales de los puntos INTERPOLADOR LOCAL de muestreo. basa la interpolación en un subset de los puntos 125 LIDAR (un acrónimo del inglés Light Detection and Ranging o Laser Imaging Detection and Ranging) es una tecnología que permite determinar la distancia desde un emisor láser a un objeto o superficie utilizando un haz de láser pulsado. Al igual que ocurre con la tecnología radar, donde se utilizan ondas de radio en vez de luz, la distancia al objeto se determina midiendo el tiempo de retraso entre la emisión del pulso y su detección a través de la señal reflejada. PRECISIÓN es el grado de refinamiento en la ejecución de una medida, o el grado de perfección en los instrumentos y métodos obteniendo un resultado. RÁSTER es un modelo de datos que tiene como principal característica el llevar a cabo una representación "discreta" del mundo real, empleando una malla de rejillas regulares denominadas celdas o pixeles. Para cada celda se almacena un valor numérico que representa el valor de un determinado aspecto del mundo real en el interior de dicha celda.47 RESOLUCIÓN ESPACIAL se refiere a la dimensión del tamaño de celda que representa el área cubierta en el terreno. Cuanto mayor sea la resolución de un ráster, más pequeño será el tamaño de celda, y por lo tanto, mayor será el detalle.48 SISTEMA DE INFORMACIÓN GEOGRÁFICO (SIG) es una integración organizada de hardware, software y datos geográficos; diseñado para capturar, almacenar, manipular, analizar y desplegar en todas sus formas la información geográficamente referenciada con el fin de resolver problemas complejos de planificación y gestión. SRTM (acrónimo en inglés, de Shuttle Radar Topography Mission) es una misión para obtener un modelo digital de elevación de la zona del globo terráqueo 47 48 Tomado de Tomado de http://www.urbanismogranada.com/administrador/archivos/04_10_07_MODELO_RASTER.pdf Tomado de http://help.arcgis.com/es/arcgisdesktop/10.0/help/index.html#//009t00000004000000 126 entre 56 °S a 60 °N, de modo que genere una completa base de cartas topográficas digitales de alta resolución de la Tierra.49 TOLERANCIA marca una barrera en las medidas realizadas, que usaremos para desechar los valores superiores a la misma y considerarlos como groseros. También se le llama error máximo. 49 Tomado de http://www2.jpl.nasa.gov/srtm/ 127