sig_datos_raster_tema_14

Transcripción

sig_datos_raster_tema_14
GRADO DE GEOGRAFÍA. ASIGNATURA: SIG DATOS RASTER (II PARTE)
GESTIÓN, VISUALIZACIÓN CONSULTA Y ANÁLISIS DE DATOS RASTER
LA INTERPOLACIÓN ESPACIAL:
Para generar un modelo exhaustivo de una superficie continua (altura, temperatura.
contaminación…) habría que realizar mediciones en cada uno de sus puntos. Dado que esto no
es posible (pues los puntos son infinitos), resulta adecuado tomar una muestra lo más
representativa posible de toda la población. A partir de esa muestra puede calcularse el valor
para el resto de las localizaciones mediante un método conocido como interpolación espacial.
Así, y con un margen de error que puede ser calculado, pueden almacenarse eficazmente
modelos de superficies continuas.
La clave de la interpolación espacial reside en que dos elementos tienden a parecerse más
mientras menor sea la distancia que los separa, por lo que puede calcularse el valor de un
elemento en función de los que posean los más próximos. A esto se denomina dependencia
espacial, y suele ser un rasgo común a las variables cuantitativas que se distribuyen de modo
continuo en el espacio.
Existe una gran variedad de métodos de interpolación, y en este capítulo serán descritos y
utilizados (aunque muy someramente) dos de ellos: Thiessen e IDW.
a) Polígonos de Thiessen
Los polígonos de Thiessen, también conocidos por polígonos de Dirichlet o Voronoi, realizan la
predicción espacial de los atributos de los puntos cuyo valor no se conoce, a partir del valor del
punto más cercano de valor conocido. En este sentido, no generan una nueva información,
sino que “redistribuyen espacialmente” la existente.
Estos polígonos dividen la zona de estudio de un modo que está determinado por la
distribución espacial de los datos muestrales: si éstos poseen una distribución regular, la zona
queda dividida en cuadrados de distinto valor; si la configuración es irregular, el resultado es
un conjunto de polígonos irregulares.
Una ventaja de los polígonos de Thiessen es que pueden ser fácilmente utilizados con datos
cualitativos como clases de vegetación o tipos de usos, variables discretas en las que no
importa tanto una “geométricamente extraña” distribución final de valores, y donde los
valores que se adjudican a la capa final son similares a los originales (no hay nuevos valores).
Joaquín Márquez Pérez. Dpto. de Geografía Física y AGR. Universidad de Sevilla. 2016
1
GRADO DE GEOGRAFÍA. ASIGNATURA: SIG DATOS RASTER (II PARTE)
GESTIÓN, VISUALIZACIÓN CONSULTA Y ANÁLISIS DE DATOS RASTER
b) IDW
El método de interpolación espacial denominado IDW (acrónimo de Inverse Distance
Weighted, Ponderación Inversa a la Distancia) permite calcular nuevos valores en cualquier
posición del espacio a partir de un conjunto determinado de valores existentes situados en
posiciones conocidas.
La idea básica es que el valor calculado para una nueva posición depende tanto de los valores
que posean los x puntos más cercanos (o situados a una distancia y) como de la inversa de la
distancia que los separa; la fórmula general queda así:
Z =  (Zi * Wi) /  Wi
donde Z es el valor a interpolar, W es la inversa de la distancia (d) entre el punto a interpolar y
el dato muestral (1/d), y Zi son los valores de los datos muestrales. Una mejora del método es
dar más peso en función de la proximidad: (Wi = 1 /dn) donde el factor de ponderación n es un
valor que usualmente oscila entre 0 y 3. La fórmula definitiva sería:
𝒛=
𝟏
)
𝒅𝒏
 𝟏/𝒅𝒏
𝒁∗(
Por ejemplo:
Joaquín Márquez Pérez. Dpto. de Geografía Física y AGR. Universidad de Sevilla. 2016
2
GRADO DE GEOGRAFÍA. ASIGNATURA: SIG DATOS RASTER (II PARTE)
GESTIÓN, VISUALIZACIÓN CONSULTA Y ANÁLISIS DE DATOS RASTER
La interpolación IDW incluye:

Elegir cuales son los puntos a interpolar (puntos cuyo valor queremos conocer);
usualmente son puntos equidistantes que coinciden con el centro de futuras celdillas,
así que lo que realmente debe decidirse es la resolución espacial del raster
interpolado.

Definir cómo se van a elegir los puntos muestrales que serán considerados en la
interpolación de cada punto a interpolar; dos grandes posibilidades:
o
Seleccionar una distancia o radio de búsqueda: todos los puntos muestrales
que caigan en su interior serán considerados (aunque puede especificarse que,
si no se alcanza un número mínimo, este radio se amplíe hasta lograrlo).
o
Seleccionar un número de puntos más cercanos (aunque puede especificarse
un radio máximo, a partir del cual no serán considerados los restantes).

Elegir la función de ponderación de la distancia (n; n puede valer 0, 1 , 2, 3…).

Aplicar la función en cada nodo de la malla raster.

Finalmente, es posible incorporar información externa sobre tendencias o distintos
dominios (utilización o no de “barreras a la interpolación”).
Joaquín Márquez Pérez. Dpto. de Geografía Física y AGR. Universidad de Sevilla. 2016
3
GRADO DE GEOGRAFÍA. ASIGNATURA: SIG DATOS RASTER (II PARTE)
GESTIÓN, VISUALIZACIÓN CONSULTA Y ANÁLISIS DE DATOS RASTER
EL CÁLCULO DEL ERROR DEL MODELO (ECM)
La interpolación espacial que da lugar a un modelo, y el cálculo del error de su interpolación,
son dos aspectos de un mismo problema, y deben ser resueltos de forma consecutiva, pues
todos los modelos deben ir acompañados de un dato (metadato) que indique su calidad.
La calidad de un modelo puede ser juzgada por su apariencia visual, y esto principalmente se
debe a que la calidad de los programas y del hardware enmascara el hecho de que la
información no está libre de errores. Sin embargo, incluso la modelación que aparenta más
verosimilitud pueda estar equivocada, y un análisis visual no es suficiente para determinar su
calidad.
Como afirman Burrough y McDonnell (1998), “la incertidumbre y los errores son intrínsecos a
los datos espaciales, y deben ser tratados adecuadamente y no ocultados tras la
deslumbrante apariencia de su visualización”: el error no es necesariamente algo malo e
inevitable, y que hay por tanto que ocultar; el error es inherente al modelo y debe ser
considerado como una fuente de información adicional sobre la superficie representada, por lo
que es necesario dotar a la información que nos proporciona un modelo de aquellos datos que
permitan conocer el grado de error que éste posee (metadatos).
Para conocer el error de un modelo se suele aplicar una técnica que indica su error global, y
que se basa en la comparación de los datos del modelo (datos calculados) con otros datos
(previamente medidos). Es el denominado Error Cuadrático Medio (ECM). La comparación se
realiza con datos de mayor precisión, o con datos que, incluidos en la misma población, no
hayan sido utilizados en la interpolación (a esta última técnica de denomina “validación
verdadera”).
El cálculo se lleva a cabo restando el valor de los puntos de control del de las celdillas
coincidentes del modelo. Realizada la resta es eliminado el signo, para posteriormente
promediar los valores: el ECM indica, pues, el error medio absoluto de las celdillas del modelo
coincidentes con los puntos de control.
Por ejemplo, si en tres puntos se han calculado sus valores (a = 3.7, b = 4.2 y c = 7.3), y se
dispone de los datos medidos sobre su valor real (a= 3.8, b = 4.5 y c = 8.7, respectivamente), el
promedio de la resta de sus valores, sin considerar el signo [abs(3.7 – 3.8) + abs(4.2 – 4.5) +
abs(7.3 – 8,7)] daría lugar a un número que indica el error cuadrático medio de esos puntos y,
por extensión de todo el modelo: 0.6.
Joaquín Márquez Pérez. Dpto. de Geografía Física y AGR. Universidad de Sevilla. 2016
4
GRADO DE GEOGRAFÍA. ASIGNATURA: SIG DATOS RASTER (II PARTE)
GESTIÓN, VISUALIZACIÓN CONSULTA Y ANÁLISIS DE DATOS RASTER
Objetivo: aplicar a unos mismos datos dos métodos de interpolación (Thiessen, IDW) a la zona
de estudio, e indicar su temperatura media.
Los datos se encuentran en C:/ DATOS_SIG_RASTER / SUPERF_MDE / EJERCICIO_1. En este
apartado serán utilizados los puntos contenidos en el shapefile TEMPE_ANDALU_OCC, que
corresponden a los valores medios de temperatura de Enero, capturados entre 1960 y 2000,
en 101 observatorios de Andalucía Occidental.
El formato de salida definitivo será un grid con un tamaño de celdilla de 250 metros, cuya
extensión y forma corresponderán a la Andalucía Occidental. Para asegurarse estos
parámetros mínimos, especifique en GEOPROCESSING / ENVIRONMENT SETTINGS que el
“Output Extent”, el “Cellsize” y la máscara (“Mask”) sean iguales a los de la capa
ALTURA_2501.
Metodología 1: Interpolación por Polígonos de Thiessen
Para la generación de polígonos de Thiessen, a partir de los datos de temperatura contenidos
en TEMPE_ANDALU_OCC, puede ser empleada la herramienta ALLOCATION, que asigna a cada
celdilla del nuevo raster el valor del punto muestral más cercano.
En ArcMap, elija la herramienta SPATIAL ANALYST / DISTANCE / EUCLIDEAN ALLOCATION.
Aquí, tras indicar el nombre de la capa (TEMPE_ANDALU_OCC), especifique que el campo que
contiene la temperatura media de Enero es AVE_TE_EN, campo que contiene valores de
temperatura medida en décimas de grado y en formato “integer”, ya que este método no
acepta valores decimales. Denomine TEMP_THI_TMP al resultado.
1
Lo más cómodo sería indicar estos parámetros en el Environment settings del Model Builder de este ejercicio.
Joaquín Márquez Pérez. Dpto. de Geografía Física y AGR. Universidad de Sevilla. 2016
5
GRADO DE GEOGRAFÍA. ASIGNATURA: SIG DATOS RASTER (II PARTE)
GESTIÓN, VISUALIZACIÓN CONSULTA Y ANÁLISIS DE DATOS RASTER
Resultado 1: si el resultado obtenido lo pasa a “float” y lo divide entre 10 (herramientas FLOAT
y DIVIDE), obtendrá el mapa definitivo de temperaturas calculado mediante los polígonos de
Thiessen. Llame TEMP_THIESEN al modelo final. La temperatura media sería de 9.42o C
Metodología 2: IDW
Emplee la herramienta SPATIAL ANALYST / INTERPOLATION / IDW y, habiendo indicado el
nombre de la capa y del campo que poseen los valores de temperatura media de Andalucía en
Enero (TEMPE_ANDALU_OCC y AVE_TEMPME), denomine TEMP_IDW al resultado, y
especifique los siguientes valores para los parámetros:
 Tipo de Radio = Variable
 Número de vecinos = 6
 Ponderación = 2
Joaquín Márquez Pérez. Dpto. de Geografía Física y AGR. Universidad de Sevilla. 2016
6
GRADO DE GEOGRAFÍA. ASIGNATURA: SIG DATOS RASTER (II PARTE)
GESTIÓN, VISUALIZACIÓN CONSULTA Y ANÁLISIS DE DATOS RASTER
Resultado 2: la temperatura media sería ahora de 9.52o C.
Compruebe los diferentes resultados que obtendría de utilizar un número de vecinos (12 y 24)
y un radio de búsqueda (50 y 100 km) diferente:
Joaquín Márquez Pérez. Dpto. de Geografía Física y AGR. Universidad de Sevilla. 2016
7
GRADO DE GEOGRAFÍA. ASIGNATURA: SIG DATOS RASTER (II PARTE)
GESTIÓN, VISUALIZACIÓN CONSULTA Y ANÁLISIS DE DATOS RASTER
Objetivo: conocer cuál es el modelo de temperaturas de los anteriormente creados que,
mediante validación verdadera, demuestra poseer el menor ECM. Para ello contamos con una
serie de puntos de control, incluidos en la capa TEMP_GCP.SHP, que contienen información
acerca de la temperatura media en Enero en Andalucía Occidental. Los datos corresponden a
55 estaciones meteorológicas, y no han sido considerados en la creación de los modelos de
temperatura anteriores. Los datos se encuentran en C:/ DATOS_SIG_RASTER / SUPERF_MDE /
EJERCICIO_2.
Metodología: La idea es asociar, a cada registro de la capa TEMP_GCP, un valor de
temperatura media que proceda del grid de temperaturas generado con cada método de
interpolación, de modo que cada uno de los 55 nuevos observatorios, ya caracterizados por su
propio valor de temperatura media, lo sea también por el que le asignen cada uno de los 2
métodos de interpolación anteriormente utilizados. Posteriormente, proceda a calcular la
media de las diferencias entre el valor original y el interpolado, sin tener en cuenta el signo.
Por ejemplo, y para los dos primeros casos:
1. Utilice EXTRACT MULTIVALUES TO POINTS (SPATIAL ANALYST / EXTRACT) para generar
una nueva capa puntual donde cada punto (registro) sea caracterizado por el valor que
posean las celdillas de los raster indicados (los 2 modelos de temperaturas antes
creados).
2. En la tabla de atributos, genere una serie de campos numéricos, de tipo “float”, para
almacenar las restas entre la temperatura de los puntos de control y las interpoladas
en cada modelo: RE_THI, RE_IDW. Calcule en cada uno de estos campos el valor
absoluto de la resta.
3. Para cada campo de resta, calcule su media aritmética (MEAN) con la herramienta
STATISTICS (botón derecho sobre cada campo).
Resultado: Los resultados finales deberían ser los siguientes:
Media
Desviación
Thiessen
0.73
0.60
IDW (6 vecinos)
0.58
0.53
El modelo con menor error, y con una menor desviación estándar de este error, es el generado
por IDW.
Joaquín Márquez Pérez. Dpto. de Geografía Física y AGR. Universidad de Sevilla. 2016
8

Documentos relacionados