Planificación de consultas con control de calidad en sistemas de

Transcripción

Planificación de consultas con control de calidad
en sistemas de información basados en mediadores
Bell Manrique Losada’ ,
Jaime Alberto Guzmán’ ’,
Francisco Javier Moreno’ ’ ’
RESUMEN:
Este artículo presenta una revisión de los recientes trabajos orientados a la
Planificación de Consultas con control de calidad en los Sistemas de Información Basados en Mediadores, como un tipo especial de Sistema de Integración
de Información en la Web, mostrando cómo se han enfocado principalmente
a la cantidad de información recuperada y a la calidad de la consulta, medida
con criterios de tiempo y costos de ejecución, y muy pocas hacia la calidad de
la información resultante. Este trabajo está orientado hacia la calidad de los
planes y la calidad de la información resultado de las consultas. También presenta algunos problemas abiertos en este tópico de investigación y plantea una
propuesta inicial para enfrentarlos.
’
Ingeniera de Sistemas, Universidad Distrital Francisco José de Caldas, convenio Universidad de la
Amazonia. Estudiante de Maestría en Ingeniería de Sistemas, Universidad Nacional de Colombia
Sede Medellín. Email: [email protected]
’’
Ingeniero Civil y Magíster en Ingeniería de Sistemas, Universidad Nacional de Colombia Sede
Medellín. Docente Escuela de Sistemas, Universidad Nacional de Colombia Sede Medellín. Email:
[email protected]
’’’
Ingeniero de Sistemas, Universidad de Antioquia. Magíster en Ingeniería de Sistemas, Universidad
Nacional de Colombia Sede Medellín. Docente Escuela de Sistemas, Universidad Nacional de
Colombia Sede Medellín. Email: [email protected]
Fecha de recepción: mayo 30 de 2005 - Fecha de aceptación: agosto 26 de 2005
Ingenierías
Palabras Clave:
Planificación de Consultas, Mediadores de Información, Integración de Información, Calidad de la Información, Tecnologías Web.
549
CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO
ABSTRACT:
This paper presents a revision of the recent works oriented to Query Planning
with quality control in Information Systems Based on Mediators, like a special
kind of Information Integration System on Web, showing how these approach
have been focused principally to the information quantity and query quality,
measured with time and execution costs criteria, and few focused toward the
information quality. This survey keeps in mind the quality of plans and
information quality of the resulting of the queries. It also presents some open
problems in this investigation topic and it shows an initial proposal to face
them.
1. INTRODUCCIÓN
Ingenierías
El acceso integrado a información que reposa sobre múltiples fuentes de información heterogénea y distribuida disímiles en sintaxis, estructura y semántica,
como es el caso específico de la Web, es un problema importante en muchos
dominios actuales. El objetivo de los sistemas de integración es proporcionar
una interfaz uniforme a una multitud de fuentes de datos [1]. La ventaja más
importante de estos sistemas es que permite que el usuario se enfoque en especificar qué quieren, más que en cómo o dónde obtener las respuestas [1] [2], logrando que se libere de la tediosa tarea de encontrar las fuentes relevantes,
interactuando con cada una por separado y combinando finalmente los datos.
Para manejar la integración de información se han creado varios componentes que interactúan entre sí, ofreciendo acceso integrado a datos desde un dominio específico, éstos son llamados Mediadores y Wrappers [3]. Mediadores
son aquellos componentes que proveen acceso en un dominio de aplicación
dado a información que reside en fuentes heterogéneas, evitando al usuario la
complejidad de acceder y combinar esta información [4]. Dada una serie de
fuentes, el mediador responde consultas sobre ellas y el plan de consulta correspondiente involucra el acceso y combinación de información desde las fuentes
necesarias. Un Wrapper es un componente que permite encapsular cada fuente
actuando como un software que transforma los datos en un modelo común a
todas las fuentes. Al conjunto de Wrappers y Mediadores cooperando entre sí,
se les conoce en la literatura como un Sistema de Información Basado en Mediadores -SIBM- [5] (ver figura 1).
550
Para responder una consulta, el mediador debe traducirla en secuencias de
métodos remotos de ejecución o consultas remotas sobre las fuentes, tarea que
es llamada Planificación de Consulta, así, planificar una consulta es encontrar
una secuencia de acciones para la ejecución de una consulta a través de fuentes
de información autónomas, heterogéneas y distribuidas [6]. El proceso de
planificación especifica el flujo adecuado de los datos y el orden en el cual se
deben desarrollar las operaciones y algoritmos específicos para cada uno, buscando en el espacio de los posibles planes y comparando sus costos asociados.
Consulta
Planificación
Consulta
Mediador
Wrappers
Fuentes de
Información
Figura 1. Representación Esquemática de un Sistema de Información
Basado en Mediadores
El artículo está organizado de la siguiente manera: La Sección 2, presenta como
marco contextual una Introducción a la Planificación de Consultas con Control
de Calidad; la Sección 3, describe las propuestas relacionadas con la Calidad del
proceso de Planificación de Consultas en SIBM; la Sección 4, muestra los trabajos en la Calidad de la Información en Planificación de Consultas; y por último la
Sección 5, presenta las Conclusiones y Trabajos Futuros que se pueden desarrollar en esta área, planteando una propuesta inicial de como enfrentar este
problema.
Ingenierías
En este artículo se presenta una revisión de los principales trabajos relacionados con la planificación de consultas en el marco de los SIBM, junto con la
identificación de problemas abiertos enfocados hacia el control de calidad de
la información.
551
2. LA PLANIFICACIÓN DE CONSULTAS
CON CONTROL DE CALIDAD
El tratamiento de la ‘calidad’ en el procesamiento y planificación de consultas,
viene desde los Sistemas de Información Tradicional, donde ha sido estudiada
dentro del tópico de optimización de consultas, en el marco de las Bases de
Datos. Un optimizador de consultas intenta encontrar la forma algebraica más
eficiente de una consulta y escoger los métodos específicos para implementar
cada operación de procesamiento de datos [7][8]. La Optimización de Consultas está basada en transformaciones de árboles de consultas para generar planes más óptimos, por medio de varios teoremas que describen la optimalidad
de algunos tipos de planes bajo diferentes modelos de costos: longitud de los
planes, tiempo de ejecución y costo computacional [9][10]. De esta forma los
desarrollos en esta subárea enfocan la optimización basada en criterios de
eficiencia: minimización de tiempos y costos de ejecución [11][12].
Ingenierías
La investigación en los sistemas de información ha evolucionado hacia nuevos
ambientes abiertos, heterogéneos y distribuidos como la Web, ocasionando
que los objetivos de consulta de los usuarios también cambien, pues el principal criterio de optimización ya no es la minimización de tiempos y costos de
ejecución, sino la calidad de la información (IQ) [13][14]. En este nuevo ambiente el usuario ya no demanda una respuesta: 1) correcta, sino su mayor
satisfacción con respuestas aproximadas; 2) absoluta, sino la que sea más relevante; y 3) completa con todos los atributos, sino su satisfacción con ciertos
valores que busca. El objetivo de ‘encontrar una respuesta completa tan rápido como sea posible’ ha cambiado al problema dual de ‘encontrar la mejor
respuesta posible dentro de ciertas restricciones de tiempo y costo’ [15].
Siguiendo la tendencia de investigación en optimización de consultas tradicional, las técnicas utilizadas inicialmente en integración de información en la
Web [16], se enfocaron principalmente hacia mejorar los planes en términos
de costos de planificación y ejecución, mas no de la calidad de la información
que se integra y se devuelve como respuesta. En los Sistemas de Información
Web el principal factor de eficiencia que tienen en cuenta las diferentes estrategias de planificación y procesamiento de consultas no es el tiempo de respuesta, como lo es en los Sistemas de Información Tradicional, sino la IQ de los
resultados de las consultas. Varias investigaciones se han acercado a este tema
552
con la exploración de criterios de calidad para responder consultas de usuario
en Sistemas de Información en la Web [17] [18] y específicamente en los SIBM
[19] [20] [21] [22][23].
En un SIBM las fuentes de información son modeladas como vistas sobre el
esquema global del mediador, cada una de las cuales es calificada con un conjunto de criterios de IQ [24]. De esta forma, un SIBM debe encontrar
eficientemente los resultados de consultas con máxima IQ, para lo cual es necesario determinar cuáles fuentes se deben preferir sobre otras con base en una
medida de estos criterios [25]. Planear una consulta es entonces encontrar un
conjunto de vistas que retornen respuestas correctas a una consulta de usuario, para lo cual se utilizan las ‘vistas’, definidas en [26][27] y utilizadas en
proyectos como Infomaster [28] e Information Manifold [29].
En los SIBM, la IQ se puede medir con criterios como: Completitud, que representa el porcentaje de datos con respecto al mundo real; Precisión, que representa el porcentaje de datos de las fuentes que coinciden con los requeridos en
la consulta [19]; Cobertura o Cubrimiento, el número de objetos que puede
proporcionar cada fuente [30]; Minimalidad, relacionado con la cantidad
mínima de fuentes que se debe explorar y luego integrar; Relevancia, referido
al grado de satisfacción del usuario con la respuesta retornada; Costos de Ejecución; entre otros.
Con el fin de estudiar la evolución del concepto de calidad en la Planificación
de Consultas en SIBM, a continuación se describen diferentes propuestas que
han sido reportadas en los últimos años en este tema y que en este trabajo se
han enmarcado en dos categorías: la Calidad del Proceso de Planificación de
Consultas y la Calidad de la Información en Planificación de Consultas.
3. CALIDAD DEL PROCESO DE PLANIFICACIÓN
A continuación se realiza una recopilación de los trabajos más representativos
que enfrentan la planificación de consultas en SIBM, teniendo en cuenta la
calidad del plan en términos de selección de fuentes y la eficiencia en términos
de costos computacionales de ejecución de consultas.
Ingenierías
DE CONSULTAS EN SIBM
553
El Tsimmis [32][33] ‘The Stanford-IBM Manager of Multiple Information
Sources’, es un proyecto fundado en el grupo DARPA-Univ.Stanford–IBM/
Almaden, que sigue la arquitectura del mediador tradicional, permitiendo
crear una jerarquía de Wrappers y mediadores que se comunican entre sí usando un modelo de datos y un lenguaje de consultas específico. De esta forma
cuando se hace una consulta al mediador, realmente se consultan los objetos
exportados por él, en términos de sus predicados [4].
El Information Manifold –IM- [29] es un proyecto desarrollado por los Laboratorios AT&T que se basa en un conjunto de ‘descripciones lógicas’, es decir,
fragmentos de lógica de primer orden, utilizados para crear aplicaciones que
colectan predicados en términos de los cuales las consultas son expresadas, es
decir, términos de predicados globales, que luego son traducidos en vistas [4].
Tanto IM como Tsimmis se centran en el tratamiento de la heterogeneidad de
las fuentes y su comunicación con el mediador. Con relación a la planificación,
se enfocan en la optimización basada en costos, donde primero un conjunto de
planes son encontrados y luego se optimiza cada uno para escoger el mejor
entre ellos.
Ingenierías
HERMES [34][35], es un Sistema Mediador que razona usando un lenguaje
lógico declarativo para su definición, el cual expresa la integración semántica
de información de diferentes fuentes de datos. Este sistema se enfoca en dos
temas principales: el dominio de integración y la integración semántica [36].
El sistema incluye un algoritmo que reescribe reglas y transforma los planes
que evalúan una consulta a una más costo-efectiva logrando selecciones de las
fuentes, reordenando sub-objetivos y usando técnicas de almacenamiento [37].
GARLIC [38] [39] es un proyecto desarrollado por IBM que tiene como objetivo construir un sistema de información multimedia capaz de integrar
datos que residen en diferentes sistemas de bases de datos y servidores de
aplicaciones. Considera la optimización de costos para mediadores y la evaluación de subconsultas de las fuentes de información y procede en tres etapas: selección de las fuentes, programación dinámica de los planes y
localización de operadores para escoger el mejor plan [40]. De esta forma la
optimización se basa en estos atributos sin considerar aspectos en tiempo de
554
ejecución u optimización semántica que permita mejorar la calidad de la
consulta y sus resultados.
El sistema SAGE [41] produce planes que consisten de la selección de fuentes de
datos, operaciones de procesamiento y lugares y orden donde serán desarrolladas. Este sistema considera la calidad del plan en términos de eficiencia, es
decir se basa en una función de evaluación que estima el costo de cada plan y
selecciona el que tenga el menor costo de ejecución y la soporta con la propuesta de intervención entre planificación y ejecución.
Un marco de trabajo más relacionado con el problema y que provee buenos
resultados, se propone con el paradigma de la Planificación por Reescritura
(PbR) [44], que combina selección de fuentes y optimización de consultas
basada en costos. A diferencia del sistema SAGE, este es un planificador de
propósito general y con mayores propiedades de escalabilidad, que integra los
procesos de planificación y ejecución. Se caracteriza por ser independiente del
dominio y por tener tres ejes de acción: la calidad del plan de la consulta, la
generación de un plan inicial, y las reglas de reescritura del plan. PbR está
diseñado para tratar la eficiencia de la planificación y la calidad del plan,
haciéndolo especialmente adecuado para el dominio de planificación de consultas [45], porque puede tratar cientos de fuentes y planes de consulta grandes. Aunque otras propuestas mejoran la eficiencia de la planificación con
simples métricas de costo (como el número de pasos), ésta se caracteriza por
mejorar la calidad del plan utilizando algoritmos de selección de fuentes que
Ingenierías
OCCAM [42] es un Sistema Planificador que automatiza el proceso de localizar fuentes de información relevantes desde un repositorio de sus descripciones, combinándolas apropiadamente para responder solicitudes de
información de los usuarios. Se basa en un lenguaje de representación de las
fuentes, enfocándose principalmente en el problema de la selección de las más
relevantes, más no del procesamiento de la consulta como tal, ni de la medición de la calidad de la información. La calidad/eficiencia lograda por este
sistema se relaciona con el razonamiento que hace de la información de cada
fuente y por la generación de planes alternativos que pueden ser ejecutados en
paralelo para colectar tanta información como sea posible con ciertas restricciones de tiempo [43].
555
permiten asegurar su calidad, sumado a la optimización basada en costos que
genera un sistema cuyas respuestas son más completas y de mayor calidad
[9][44].
En [46] se proponen y evalúan un conjunto de técnicas para procesamiento de
consultas adaptativas, es decir, que se adaptan a su medio de ejecución y permiten al procesador de la consulta reaccionar a condiciones cambiantes o a
información que va creciendo en tiempo de ejecución. Estas técnicas se basan
en: 1) algoritmos adaptativos que proporcionan rapidez y eficiencia al procesamiento de las consultas, 2) nuevos operadores del álgebra relacional para
tratar datos del ambiente Web que enfrentan variaciones en las velocidades de
transferencia de los datos y 3) re-optimización de consultas para mejorar los
planes escogidos. Proponen que un plan de consulta sea escogido
adaptativamente, de tal forma que el procesador escoja un plan inicial que
continuará refinándose cuando se monitoreen sus costos de ejecución y estadísticas, tal que se consideren factores que varían sobre el curso de la ejecución
y otros que permanecen, pero son previamente desconocidos. Esta arquitectura se caracteriza por trabajar con fuentes de datos completamente
estructuradas, los costos dependen de sus resultados intermedios y requiere
información, previa a la planificación de la consulta, sobre estadísticas de datos y costos de acceso a las fuentes. En comparación con los trabajos anteriores, la calidad del procesamiento mejora por considerar cambios en tiempo de
ejecución y técnicas adaptativas, sin embargo, la calidad se relaciona únicamente con la eficiencia.
4. CALIDAD DE LA INFORMACIÓN
EN LA PLANIFICACIÓN DE CONSULTAS
Ingenierías
Las siguientes propuestas manejan de manera incipiente la calidad de la información en SIBM, utilizando sistemas Multi-Agente y esquemas de representación de fuentes de información.
MAPWEB [47] es una Arquitectura Multiagente Distribuida que acepta consultas desde los usuarios y produce como resultado posibles esquemas de soluciones por medio de técnicas de planificación y aprendizaje. Mediante esta
arquitectura se busca resolver problemas complejos que requieran integrar
556
información heterogénea procedente de diferentes fuentes Web, empleando
para ello cooperación entre agentes de planificación y agentes Web. La planificación de consultas se realiza sin tener en cuenta los criterios relacionados
con la IQ; relacionando la calidad con el nivel de razonamiento que logran los
agentes cooperando, pero no es concreto el nivel de razonamiento alcanzado,
ni en qué aspectos.
El Sistema ARIADNE [48] es una Arquitectura que permite integrar de forma
eficiente múltiples fuentes mediante un modelo de datos común por medio de
ciertos métodos que las mapean en una representación uniforme, lo que permite agilizar y economizar la construcción de nuevos agentes que acceden a
fuentes web existentes y facilitan su mantenimiento. ARIADNE extrae e integra datos desde fuentes Web semi-estructuradas y permite a los usuarios crear
rápidamente agentes de información para la Web, mediante un proceso de
modelamiento; una vez este proceso es completado, el usuario final puede
emitir consultas como si la información estuviera almacenada en una gran
Base de Datos Centralizada. El planificador de consultas las descompone en
una serie de subconsultas y luego combina sus respuestas para crear una global. La Arquitectura propuesta se soporta en el mediador SIMS [49], diseñado
con tipos específicos de fuentes de información, primordialmente Bases de
Datos y de Conocimiento, pero puede extenderse a manejar fuentes Web especificadas por el desarrollador. Está más enfocado hacia los esquemas de representación y herramientas de modelamiento de las fuentes que hacia el
procesamiento de la consulta, en donde la calidad de los planes se mide con
métricas basadas en costos, pero se logra un buen nivel de calidad de la información de las fuentes con el uso de ontologías subyacentes a cada una.
En [13], se investiga la exploración de criterios IQ para responder consultas de
usuarios en SIBM y se discute qué datos de IQ son necesarios, cómo pueden ser
adquiridos y cómo pueden ser usados para mejorar la calidad de los resultados de la consulta y el desempeño de los algoritmos de planificación. Plantea
el hecho de la importancia que tiene la calidad de la información en los siste-
Ingenierías
Por otro lado, a continuación se detallan los principales trabajos que tienen el
mayor acercamiento al problema del manejo de la calidad de la información
en la planificación de consultas en SIBM.
557
mas distribuidos a gran escala y enfatiza en la ausencia de investigaciones que
apliquen razonamiento sobre ella en el área de planificación de consultas sobre la Web. Como aplicación experimental desarrolla un sistema que encuentra resultados óptimos (con alta calidad basado en los criterios de calidad
definidos), aplicado sobre un meta-motor de búsqueda que usa motores de
búsqueda existentes como sus fuentes de información distribuidas. En el trabajo se cubren todos los aspectos de la integración: desde la definición de las
fuentes, definición de IQ y criterios de IQ, métricas de los criterios y métodos
para evaluarlos, hasta modelamiento de resultados y algoritmos que producen resultados de alta calidad.
En [28] se presenta una investigación sobre la calidad del procesamiento de consultas en la www, debido a muchos factores tales como tiempo de respuesta
impredecible, resultados irrelevantes y datos no actualizados. Propone un método para el procesamiento de consultas controlando la calidad en este ambiente e introduce parámetros de calidad que los usuarios pueden especificar
con las consultas, al igual que funciones que son usadas para evaluar la bondad
de estos parámetros y algoritmos de programación, planificación y ejecución.
Ingenierías
El trabajo presentado en [50], está enfocado hacia la evaluación de calidad. Se
intenta describir el problema de gestión/manejo de calidad en SIBM, proponiendo una solución para evaluación de calidad y experimentando con algunas propiedades y su clasificación, basado en la diferencia entre requerimientos
de calidad del usuario y calidad ofrecida por las fuentes. Propone un mecanismo para deducir la calidad ofrecida por estos sistemas, la cual propaga los
valores de calidad de las fuentes a las vistas del usuario y también hace conversiones entre diferentes clases de propiedades de calidad. Se demuestra que las
propiedades de calidad no son siempre las mismas, pues la visión de los usuarios es diferente a la de los administradores del sistema, especificando la calidad requerida y la calidad real de la información de la fuente.
En [51], desarrollan un sistema de venta de libros en la Web, como una aproximación al tratamiento de criterios de IQ como: precio y relevancia. El precio es
tratado como un rango máximo y mínimo entre el cual pueden oscilar la información de libros devuelta a una consulta. La relevancia es tratada como una
fuente adicional al sistema en la cual el usuario evalúa los libros devueltos en
558
consultas anteriores, de acuerdo a la relevancia que tenga con sus necesidades
de búsqueda, permitiendo al sistema utilizar esa información como un promedio general de relevancia para los libros de los que posee información el sistema.
En [52], manejan el criterio de relevancia, en el sistema desarrollado para
responder consultas AQUA, y soportan su desempeño con el uso de ontologías
de cada fuente de información del sistema y con el mapeo de ontologías que se
logra entre cada uno de los agentes del sistema.
5. CONCLUSIONES Y TRABAJOS FUTUROS
En este artículo se mostraron diferentes trabajos relacionados con la Planificación de Consultas con Control de Calidad en el desarrollo de Sistemas de
Información Basados en Mediadores, los cuales inicialmente se han enfocado
hacia valorar los criterios de calidad relacionados con el proceso de planificación teniendo en cuenta los costos de planificación, costos de ejecución y
completitud operacional de los planes de consulta, evolucionando luego a
tener en cuenta la calidad de la información de las respuestas a las consultas
valorando aspectos tales como la relevancia de las respuestas de acuerdo a las
necesidades iniciales del usuario y la exactitud de éstas.
Es importante proponer soluciones para evaluación de calidad, experimentando con nuevas propiedades o criterios de calidad, pero teniendo en cuenta
la diferencia entre ‘calidad requerida por los usuarios’ y ‘calidad ofrecida por
las fuentes’. Lograr una caracterización formal y precisa de criterios de calidad
Ingenierías
Se convierte en una necesidad el orientar la planificación de la consulta en
SIBM hacia la calidad de la información devuelta como respuesta a una consulta inicial. Para avanzar en este campo, como base preliminar para posibles
investigaciones, es importante tener en cuenta trabajos como los desarrollados alrededor de Criterios de IQ en [28] y [13] y de Evaluación de IQ en [50] y
tratar todos los aspectos de la integración de información, como: definición
de fuentes de información, definición de calidad de información y criterios de
IQ, métricas de los criterios para dominios específicos, modelamiento de los
resultados, métodos para evaluarlos y algoritmos que hacen uso de éstos para
producir resultados de consultas de alta calidad.
559
de la información es un problema difícil de tratar y es trabajo de algunas
investigaciones como [50][53] pero aún permanece sin resolver. De la misma
forma hay problemas abiertos relacionados con métricas, representación y
manejo de criterios de calidad de la información, que pueden ser objeto de
trabajos posteriores.
Como una primera aproximación para enfrentar el problema de encontrar
planes de ejecución de consultas a través de fuentes de información web, que
permitan el control de la calidad de las respuestas a las consultas, se pretende
desarrollar un Modelo de Planificación de Consultas orientado hacia el control de la calidad de la información, que trate criterios de calidad de la información relacionados con las fuentes, como completitud y frecuencia de
actualización, y relacionados con la intervención del usuario, como relevancia de las respuestas. Además se buscara que el modelo permita una continua
intervención del usuario especificando los parámetros de calidad que desee en
cada consulta. Este modelo de planificación se planea incluir en un SIBM existente y valorar su funcionamiento mediante un caso de estudio particular.
Se espera que este modelo de planificación de consultas, además de razonar
acerca de la calidad de la información que procesa, propicie un espacio más de
discusión acerca de la pertinencia de hablar de ‘calidad de información’ dentro
del proceso de planificación de consultas en SIBM.
6. RECONOCIMIENTOS
Ingenierías
El contenido de este artículo se enmarca dentro del trabajo desarrollado en los
siguientes proyectos de investigación:
Tesis de Maestría “Modelo de Planificación de Consultas con Control de Calidad en Sistemas de Información Basados en Mediadores” [54], apoyado
por la Escuela de Sistemas de la Universidad Nacional de Colombia, Sede
Medellín.
Tesis de Doctorado “Modelo Distribuido y Cooperativo Basado en Agentes
Ontológicos y de Planificación, para la composición Automática de Servicios
Web Semánticos”, auspiciada por Colciencias, ICFES, ICETEX, Universi-
560
dad Nacional de Colombia, Sede Medellín y el Banco Mundial, en el marco del programa de apoyo a la comunidad científica nacional a través de
los programas de Doctorado 2004.
REFERENCIAS BIBLIOGRÁFICAS
[1] Levy, A. Y. Combining Intelligence Artificial and Databases for Data
Integration. Department of Computer Science and Engineering. University
of Washington. Seatle, 1998.
[2] Halevy, A. y Li, C.. Information Integration Research. Summary of NSF
IDM Workshop Breakout Session. Seattle, Washington. 2004.
[3] Wiederhold, G. Mediators in the architecture of future information
systems. IEEE Computer No.5, Vol. 3. 1992.
[4] Ullman, J. D. Information Integration Using Logical Views. Stanford
University, 1997.
[5] Lesser, U. Query Planning in Mediator Based Information Systems. PhD.
Thesis Vom Fachbereich 13 –Informatik. Universitat Berlin, 2000.
[6] Lesser, U. y Naumann, F. Query Planning with Information Quality
Bounds. University of Technology y Humbordt University. Germany, 2000.
[7] Ambite, J. L. y Knoblock, C. A. Planning by rewriting: Eficiently
generating high-quality plans. En Proc. of the 14th National Conference on
Artificial Intelligence, Providence, 1997.
[9] Ambite, J. L. y Knoblock,C. A. Flexible and Scalable Query Access
Planning using an AI Planner. En: Proceedings of KDEX’97, Newport
Beach, California November, 1997.
Ingenierías
[8] Cisterna N., M. Métodos de Optimización de Consultas para el Lenguaje
SQL. Departamento de Matemática y Ciencia de la Computación, Universidad de Santiago de Chile. Santiago – Chile, 2002.
561
[10] Singh, Dilpreet. An Agent Based Architecture for Query Planning and
Cost Modeling of Web Sources. Tesis MsC University of Georgia. Georgia,
2000.
[11] Chu, W. W. y Hurley, P.. Optimal query processing for distributed
database systems. IEEE Transactions on Computers, Septiembre 1982.
[12] Swami, A. Optimization of large join queries: Combining heuristic and
combinatorial techniques. En: Proc. of the ACM SIGMOD International
Conference on Management of Data. Portland, Oregon, Mayo 1989.
[13] Naumann, Felix. Quality-driven Query Planning. Dissertation Outline
Humboldt-Universitat zu Berlin, 2000.
[14] Burgess, M., Gray, W.A. y Fiddian, N.J. Establishing a Taxonomy of
Quality for Use in Information Filtering. Proc. 19th British National
Conference on Databases (BNCOD 19), Sheffield, 2002. UK:103-113.
[15] Naumann, F. From Databases to Information Systems: Information
Quality Makes the Difference. IBM Almaden Research Center, 2001.
[16] Chaudhuri, S., Krishnamurthy, R., Potamianos, S. y Shim, K.
Optimizing queries with materializad views. En: Proc. 15th International
Conference on Artificial Intelligence, 1998.
[17] Wang, R.Y. y Strong, D.M. Beyond Accuracy: What Data Quality Means
to Data Consumers. Journal of Management Information Systems. 12(4):534. 1996.
Ingenierías
[18] Wand, Y. y Wang, R. Y. Anchoring Data Quality Dimensions in
Ontological Foundations. Communications of the ACM, November 1996.
Vol. 39, No.11.
[19] Duschka, O. M. Query Planning and Optimization in Information
Integration. Tesis PhD. Stanford University. December 1997.
562
[20] Pan, A., Montoto, P., Molano, A., Álvarez, M., Raposo, J. y Viña Á. A
Model for Advanced Query Capability Description in Mediator Systems. Memorias ICEIS’02. Universidad de Coruña. España, 2002.
[21] Shankaranarayan, G., Ziad, M. y Wang, R. Y. Managing data quality
in dynamic decision environments: An information product Approach.
Journal of Database Management; Oct-Dec 2003. 14, 4; ABI/INFORM
Global pg.14.
[22] Naumann, F., Leser, U. y Freytag J. C. Quality-driven Integration of
Heterogeneus Information Systems. Humboldt-Universitat zu Berlin, 2001.
[23] Pernici B. Data Quality evolution in Web Information Systems: model
and management. Universita’ di Roma. Abril, 2002.
[24] Dvir, R. y Evans, S.. A TQM Approach to the improvement of Information
Quality. Cranfield University. Cranfield UK, 2001.
[25] Naumann, F., Freytag J. C. y Leser U. Completeness of Information
Sources. IBM Almaden Research Center y Humboldt-Universität zu Berlin,
2003.
[26] Levy, A. Y., Mendelzon, A., Sagiv, Y. y Srivastava, D. Answering queries
using views. En: Proc. 14th ACM Symposium on Principles of Database
Systems, San Jose, California, 1995.
[27] Duschka, O. M. y Genesereth, M. R.. Answering recursive queries using
views. En: Proc. of the 16th ACM Symposium on Principles of Database Systems,
Arizona, Mayo 1997.
[29] Levy, A. Y., Rajaraman, A. y Ordille, J. Query-Answering algorithms
for Information Agents. En: 13th National Conference on Artificial
Intelligence, Portland, 1996.
Ingenierías
[28] Chen, Y., Zhu, Q. y Wang, N. Query processing with quality control in
the World Wide Web. World Wide Web, 1998, 1(4): 241-255pp.
563
[30] Neiling, M., Jurk S., Lenz H. y Naumann F. Object identification
quality. En: Proc. of the International Workshop on Data Quality in
Cooperative Information Systems. Siena, 2003.
[31] Nie, Z. y Kambhampati, S. Joint Optimization of Cost and Coverage of
Query Plans in Data Integration. Department of Computer Science and
Engineering. Arizona State University, Tempe, 2001.
[32] Garcia-Molina, H., Hammer, J., Ireland, K., Papakonstantinou, Y.,
Ullman J. y Widom, J. Integrating and Accessing Heterogeneous Information
Sources in TSIMMIS. Proc. AAAI Symposium on Information Gathering.
1995.
[33] Garcia-Molina, H., Papakonstantinou, Y., Quass, D., Rajaraman,
A., Sagiv, Y., Ullman, J., Vassalos, V. y Widom, J. The TSIMMIS Approach
to Mediation: Data Models and Languages. Journal of Intelligent
Information Systems, 1997. 8(2.
[34] Adali, S., Brink, A., Emery, R., Lu, J., Rajput, A., Rogers, T., Ross, R.,
Subrahmanian, V.S. y Ward, C. HERMES: A Heterogeneous Reasoning and
Mediator System. Manuscript. URL: http://www.cs.umd.edu/projects/
hermes/publications-/abstracts/hermes.html. 1995.
[35] Adali, S. y Emery, R. A Uniform Framework for Integrating Knowledge
in Heterogeneous Knowledge Systems. En: Proc. 11th Int. Conf. on Data
Engineering (ICDE’95). IEEE, 1995.
Ingenierías
[36] Eiter, T., Fink, M., Sabbatini, G. y Tompits, H. Using Methods of
Declarative Logic Programming for Intelligent Information Agents. Technische
Universitat Wien, Institut fur Informationssysteme. Vienna, Austria, 2001.
[37] Kashyap, V. Information Brokering across Heterogeneous Digital
Data: A Metadata-based Approach. The Kluwer International Series on
Advances in Database Systems, Volume 20. Editorial: Kluwer Academic
Publishers. Boston, 2000. 248pp.
564
[38] Roth, M. T. y Schwarz, P. Don’t Scrap It,Wrap It! A Wrapper Architecture
for Legacy Data Sources. En: Proc. 23th International Conference on Very
Large Data Bases. Athens, 1997.
[39] Roth, M. T., Arya M., Haas L., Carey M., Cody W., Fagin R., Schwarz
R., Thomas J. y Wimmers E. The Garlic Project. Proceedings of ACM
SIGMOD 1996: International Conference on Management of Data.
Montreal, Canada, 1996.
[40] Topaloglou, T., Kosky A. y Markowitz, V. Seamless Integration of
Biological Applications within a Database Framework. American Association
for Artificial Intelligence. Berkeley, 1999.
[41] Knoblock, C. A. Planning, Executing, Sensing, and Replanning for
Information Gathering. En: Proceedings of the 14th International Joint
Conference on Artificial Intelligence. Montreal, Canadá, 1995.
[42] Kwok, C. T. y Weld, D. S. Planning to gather information. En:
Proceedings of the Thirteenth National Conference on Artificial
Intelligence, Portland, OR, 1996.
[43] Friedman, M. y Weld, D. Decision-theoretic execution of information
gathering plans. Technical report, University of Washington, Department
of Computer Science and Engineering. 1996.
[44] Ambite, J. L. Planning by Rewriting. PhD Thesis, University of Southern
California, 1999.
[46] Ives, Z. G. Efficient Query Processing for Data Integration. PhD Thesis,
University of Washington, 2000.
Ingenierías
[45] Ambite J. L. y Knoblock C.A. Flexible and Scalable Query Planning
in Distributed and Heterogeneous Environments. En: Journal AAAI,
1998.
565
[47] Camacho D., Molina J. M., Borrajo D. y Aler R. MAPWEB:
Cooperation between Planning Agents and Web Agents. En: Information &
Security. An International Journal, 2002.
[48] Knoblock C. A., Minton S., Ambite J. L., Ashish N., Modi P. J., Muslea
I., Philpot A. G. y Tejada S. Modeling web sources for information integration.
En: Proc. of the 15th National Conference on Artificial Intelligence,
Madison, 1998.
[49] Knoblock C. A., Minton S., Ambite J. L., Ashish N., Muslea I., Philpot
A. G. y Tejada S. The ARIADNE approach to Web-Based Information
Integration. En: International Journal of Cooperative Information Systems.
Originalmente en: AAAI’98. 2000.
[50] Marotta A. y Ruggia R. Quality Management in Multi-Source
Information Systems. Facultad de Ingeniería. Universidad de la República. Montevideo, Uruguay, 2002.
[51] Pan A., Montoto P. y Molano A. A Model for advanced query capability
description in Mediators Systems. Proceedings ICEIS 2002. Universidad de
A. Coruña. España, 2002.
[52] Nagy M., Vargas-Vera M. y Motta E. Ontology Mapping with domain
specific agents in the AQUA Question Answering System. Knowledge Media
Institute, The Open University. United Kingdom, 2005.
Ingenierías
[53] Levy A. Y. Logic-Based Techniques in Data Integration. Department of
Computer Science and Engineering. University of Washington, Seattle,
WA. 2000.
[54] Manrique L., B. Modelo de Planificación de Consultas con Control de
Calidad en Sistemas de Información Basados en Mediadores. Proyecto de
Tesis de Maestría en Ingeniería de Sistemas, Universidad Nacional de Colombia-Sede Medellín, 2004.
566

Planificación de consultas con control de calidad en sistemas de

Transcripción

Documentos relacionados

Design and Architecture of Information Systems