Planificación de consultas con control de calidad en sistemas de
Transcripción
Planificación de consultas con control de calidad en sistemas de
Planificación de consultas con control de calidad en sistemas de información basados en mediadores Bell Manrique Losada’ , Jaime Alberto Guzmán’ ’, Francisco Javier Moreno’ ’ ’ RESUMEN: Este artículo presenta una revisión de los recientes trabajos orientados a la Planificación de Consultas con control de calidad en los Sistemas de Información Basados en Mediadores, como un tipo especial de Sistema de Integración de Información en la Web, mostrando cómo se han enfocado principalmente a la cantidad de información recuperada y a la calidad de la consulta, medida con criterios de tiempo y costos de ejecución, y muy pocas hacia la calidad de la información resultante. Este trabajo está orientado hacia la calidad de los planes y la calidad de la información resultado de las consultas. También presenta algunos problemas abiertos en este tópico de investigación y plantea una propuesta inicial para enfrentarlos. ’ Ingeniera de Sistemas, Universidad Distrital Francisco José de Caldas, convenio Universidad de la Amazonia. Estudiante de Maestría en Ingeniería de Sistemas, Universidad Nacional de Colombia Sede Medellín. Email: [email protected] ’’ Ingeniero Civil y Magíster en Ingeniería de Sistemas, Universidad Nacional de Colombia Sede Medellín. Docente Escuela de Sistemas, Universidad Nacional de Colombia Sede Medellín. Email: [email protected] ’’’ Ingeniero de Sistemas, Universidad de Antioquia. Magíster en Ingeniería de Sistemas, Universidad Nacional de Colombia Sede Medellín. Docente Escuela de Sistemas, Universidad Nacional de Colombia Sede Medellín. Email: [email protected] Fecha de recepción: mayo 30 de 2005 - Fecha de aceptación: agosto 26 de 2005 Ingenierías Palabras Clave: Planificación de Consultas, Mediadores de Información, Integración de Información, Calidad de la Información, Tecnologías Web. 549 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO ABSTRACT: This paper presents a revision of the recent works oriented to Query Planning with quality control in Information Systems Based on Mediators, like a special kind of Information Integration System on Web, showing how these approach have been focused principally to the information quantity and query quality, measured with time and execution costs criteria, and few focused toward the information quality. This survey keeps in mind the quality of plans and information quality of the resulting of the queries. It also presents some open problems in this investigation topic and it shows an initial proposal to face them. 1. INTRODUCCIÓN Ingenierías El acceso integrado a información que reposa sobre múltiples fuentes de información heterogénea y distribuida disímiles en sintaxis, estructura y semántica, como es el caso específico de la Web, es un problema importante en muchos dominios actuales. El objetivo de los sistemas de integración es proporcionar una interfaz uniforme a una multitud de fuentes de datos [1]. La ventaja más importante de estos sistemas es que permite que el usuario se enfoque en especificar qué quieren, más que en cómo o dónde obtener las respuestas [1] [2], logrando que se libere de la tediosa tarea de encontrar las fuentes relevantes, interactuando con cada una por separado y combinando finalmente los datos. Para manejar la integración de información se han creado varios componentes que interactúan entre sí, ofreciendo acceso integrado a datos desde un dominio específico, éstos son llamados Mediadores y Wrappers [3]. Mediadores son aquellos componentes que proveen acceso en un dominio de aplicación dado a información que reside en fuentes heterogéneas, evitando al usuario la complejidad de acceder y combinar esta información [4]. Dada una serie de fuentes, el mediador responde consultas sobre ellas y el plan de consulta correspondiente involucra el acceso y combinación de información desde las fuentes necesarias. Un Wrapper es un componente que permite encapsular cada fuente actuando como un software que transforma los datos en un modelo común a todas las fuentes. Al conjunto de Wrappers y Mediadores cooperando entre sí, se les conoce en la literatura como un Sistema de Información Basado en Mediadores -SIBM- [5] (ver figura 1). 550 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO Para responder una consulta, el mediador debe traducirla en secuencias de métodos remotos de ejecución o consultas remotas sobre las fuentes, tarea que es llamada Planificación de Consulta, así, planificar una consulta es encontrar una secuencia de acciones para la ejecución de una consulta a través de fuentes de información autónomas, heterogéneas y distribuidas [6]. El proceso de planificación especifica el flujo adecuado de los datos y el orden en el cual se deben desarrollar las operaciones y algoritmos específicos para cada uno, buscando en el espacio de los posibles planes y comparando sus costos asociados. Consulta Planificación Consulta Mediador Wrappers Fuentes de Información Figura 1. Representación Esquemática de un Sistema de Información Basado en Mediadores El artículo está organizado de la siguiente manera: La Sección 2, presenta como marco contextual una Introducción a la Planificación de Consultas con Control de Calidad; la Sección 3, describe las propuestas relacionadas con la Calidad del proceso de Planificación de Consultas en SIBM; la Sección 4, muestra los trabajos en la Calidad de la Información en Planificación de Consultas; y por último la Sección 5, presenta las Conclusiones y Trabajos Futuros que se pueden desarrollar en esta área, planteando una propuesta inicial de como enfrentar este problema. Ingenierías En este artículo se presenta una revisión de los principales trabajos relacionados con la planificación de consultas en el marco de los SIBM, junto con la identificación de problemas abiertos enfocados hacia el control de calidad de la información. 551 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO 2. LA PLANIFICACIÓN DE CONSULTAS CON CONTROL DE CALIDAD El tratamiento de la ‘calidad’ en el procesamiento y planificación de consultas, viene desde los Sistemas de Información Tradicional, donde ha sido estudiada dentro del tópico de optimización de consultas, en el marco de las Bases de Datos. Un optimizador de consultas intenta encontrar la forma algebraica más eficiente de una consulta y escoger los métodos específicos para implementar cada operación de procesamiento de datos [7][8]. La Optimización de Consultas está basada en transformaciones de árboles de consultas para generar planes más óptimos, por medio de varios teoremas que describen la optimalidad de algunos tipos de planes bajo diferentes modelos de costos: longitud de los planes, tiempo de ejecución y costo computacional [9][10]. De esta forma los desarrollos en esta subárea enfocan la optimización basada en criterios de eficiencia: minimización de tiempos y costos de ejecución [11][12]. Ingenierías La investigación en los sistemas de información ha evolucionado hacia nuevos ambientes abiertos, heterogéneos y distribuidos como la Web, ocasionando que los objetivos de consulta de los usuarios también cambien, pues el principal criterio de optimización ya no es la minimización de tiempos y costos de ejecución, sino la calidad de la información (IQ) [13][14]. En este nuevo ambiente el usuario ya no demanda una respuesta: 1) correcta, sino su mayor satisfacción con respuestas aproximadas; 2) absoluta, sino la que sea más relevante; y 3) completa con todos los atributos, sino su satisfacción con ciertos valores que busca. El objetivo de ‘encontrar una respuesta completa tan rápido como sea posible’ ha cambiado al problema dual de ‘encontrar la mejor respuesta posible dentro de ciertas restricciones de tiempo y costo’ [15]. Siguiendo la tendencia de investigación en optimización de consultas tradicional, las técnicas utilizadas inicialmente en integración de información en la Web [16], se enfocaron principalmente hacia mejorar los planes en términos de costos de planificación y ejecución, mas no de la calidad de la información que se integra y se devuelve como respuesta. En los Sistemas de Información Web el principal factor de eficiencia que tienen en cuenta las diferentes estrategias de planificación y procesamiento de consultas no es el tiempo de respuesta, como lo es en los Sistemas de Información Tradicional, sino la IQ de los resultados de las consultas. Varias investigaciones se han acercado a este tema 552 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO con la exploración de criterios de calidad para responder consultas de usuario en Sistemas de Información en la Web [17] [18] y específicamente en los SIBM [19] [20] [21] [22][23]. En un SIBM las fuentes de información son modeladas como vistas sobre el esquema global del mediador, cada una de las cuales es calificada con un conjunto de criterios de IQ [24]. De esta forma, un SIBM debe encontrar eficientemente los resultados de consultas con máxima IQ, para lo cual es necesario determinar cuáles fuentes se deben preferir sobre otras con base en una medida de estos criterios [25]. Planear una consulta es entonces encontrar un conjunto de vistas que retornen respuestas correctas a una consulta de usuario, para lo cual se utilizan las ‘vistas’, definidas en [26][27] y utilizadas en proyectos como Infomaster [28] e Information Manifold [29]. En los SIBM, la IQ se puede medir con criterios como: Completitud, que representa el porcentaje de datos con respecto al mundo real; Precisión, que representa el porcentaje de datos de las fuentes que coinciden con los requeridos en la consulta [19]; Cobertura o Cubrimiento, el número de objetos que puede proporcionar cada fuente [30]; Minimalidad, relacionado con la cantidad mínima de fuentes que se debe explorar y luego integrar; Relevancia, referido al grado de satisfacción del usuario con la respuesta retornada; Costos de Ejecución; entre otros. Con el fin de estudiar la evolución del concepto de calidad en la Planificación de Consultas en SIBM, a continuación se describen diferentes propuestas que han sido reportadas en los últimos años en este tema y que en este trabajo se han enmarcado en dos categorías: la Calidad del Proceso de Planificación de Consultas y la Calidad de la Información en Planificación de Consultas. 3. CALIDAD DEL PROCESO DE PLANIFICACIÓN A continuación se realiza una recopilación de los trabajos más representativos que enfrentan la planificación de consultas en SIBM, teniendo en cuenta la calidad del plan en términos de selección de fuentes y la eficiencia en términos de costos computacionales de ejecución de consultas. Ingenierías DE CONSULTAS EN SIBM 553 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO El Tsimmis [32][33] ‘The Stanford-IBM Manager of Multiple Information Sources’, es un proyecto fundado en el grupo DARPA-Univ.Stanford–IBM/ Almaden, que sigue la arquitectura del mediador tradicional, permitiendo crear una jerarquía de Wrappers y mediadores que se comunican entre sí usando un modelo de datos y un lenguaje de consultas específico. De esta forma cuando se hace una consulta al mediador, realmente se consultan los objetos exportados por él, en términos de sus predicados [4]. El Information Manifold –IM- [29] es un proyecto desarrollado por los Laboratorios AT&T que se basa en un conjunto de ‘descripciones lógicas’, es decir, fragmentos de lógica de primer orden, utilizados para crear aplicaciones que colectan predicados en términos de los cuales las consultas son expresadas, es decir, términos de predicados globales, que luego son traducidos en vistas [4]. Tanto IM como Tsimmis se centran en el tratamiento de la heterogeneidad de las fuentes y su comunicación con el mediador. Con relación a la planificación, se enfocan en la optimización basada en costos, donde primero un conjunto de planes son encontrados y luego se optimiza cada uno para escoger el mejor entre ellos. Ingenierías HERMES [34][35], es un Sistema Mediador que razona usando un lenguaje lógico declarativo para su definición, el cual expresa la integración semántica de información de diferentes fuentes de datos. Este sistema se enfoca en dos temas principales: el dominio de integración y la integración semántica [36]. El sistema incluye un algoritmo que reescribe reglas y transforma los planes que evalúan una consulta a una más costo-efectiva logrando selecciones de las fuentes, reordenando sub-objetivos y usando técnicas de almacenamiento [37]. GARLIC [38] [39] es un proyecto desarrollado por IBM que tiene como objetivo construir un sistema de información multimedia capaz de integrar datos que residen en diferentes sistemas de bases de datos y servidores de aplicaciones. Considera la optimización de costos para mediadores y la evaluación de subconsultas de las fuentes de información y procede en tres etapas: selección de las fuentes, programación dinámica de los planes y localización de operadores para escoger el mejor plan [40]. De esta forma la optimización se basa en estos atributos sin considerar aspectos en tiempo de 554 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO ejecución u optimización semántica que permita mejorar la calidad de la consulta y sus resultados. El sistema SAGE [41] produce planes que consisten de la selección de fuentes de datos, operaciones de procesamiento y lugares y orden donde serán desarrolladas. Este sistema considera la calidad del plan en términos de eficiencia, es decir se basa en una función de evaluación que estima el costo de cada plan y selecciona el que tenga el menor costo de ejecución y la soporta con la propuesta de intervención entre planificación y ejecución. Un marco de trabajo más relacionado con el problema y que provee buenos resultados, se propone con el paradigma de la Planificación por Reescritura (PbR) [44], que combina selección de fuentes y optimización de consultas basada en costos. A diferencia del sistema SAGE, este es un planificador de propósito general y con mayores propiedades de escalabilidad, que integra los procesos de planificación y ejecución. Se caracteriza por ser independiente del dominio y por tener tres ejes de acción: la calidad del plan de la consulta, la generación de un plan inicial, y las reglas de reescritura del plan. PbR está diseñado para tratar la eficiencia de la planificación y la calidad del plan, haciéndolo especialmente adecuado para el dominio de planificación de consultas [45], porque puede tratar cientos de fuentes y planes de consulta grandes. Aunque otras propuestas mejoran la eficiencia de la planificación con simples métricas de costo (como el número de pasos), ésta se caracteriza por mejorar la calidad del plan utilizando algoritmos de selección de fuentes que Ingenierías OCCAM [42] es un Sistema Planificador que automatiza el proceso de localizar fuentes de información relevantes desde un repositorio de sus descripciones, combinándolas apropiadamente para responder solicitudes de información de los usuarios. Se basa en un lenguaje de representación de las fuentes, enfocándose principalmente en el problema de la selección de las más relevantes, más no del procesamiento de la consulta como tal, ni de la medición de la calidad de la información. La calidad/eficiencia lograda por este sistema se relaciona con el razonamiento que hace de la información de cada fuente y por la generación de planes alternativos que pueden ser ejecutados en paralelo para colectar tanta información como sea posible con ciertas restricciones de tiempo [43]. 555 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO permiten asegurar su calidad, sumado a la optimización basada en costos que genera un sistema cuyas respuestas son más completas y de mayor calidad [9][44]. En [46] se proponen y evalúan un conjunto de técnicas para procesamiento de consultas adaptativas, es decir, que se adaptan a su medio de ejecución y permiten al procesador de la consulta reaccionar a condiciones cambiantes o a información que va creciendo en tiempo de ejecución. Estas técnicas se basan en: 1) algoritmos adaptativos que proporcionan rapidez y eficiencia al procesamiento de las consultas, 2) nuevos operadores del álgebra relacional para tratar datos del ambiente Web que enfrentan variaciones en las velocidades de transferencia de los datos y 3) re-optimización de consultas para mejorar los planes escogidos. Proponen que un plan de consulta sea escogido adaptativamente, de tal forma que el procesador escoja un plan inicial que continuará refinándose cuando se monitoreen sus costos de ejecución y estadísticas, tal que se consideren factores que varían sobre el curso de la ejecución y otros que permanecen, pero son previamente desconocidos. Esta arquitectura se caracteriza por trabajar con fuentes de datos completamente estructuradas, los costos dependen de sus resultados intermedios y requiere información, previa a la planificación de la consulta, sobre estadísticas de datos y costos de acceso a las fuentes. En comparación con los trabajos anteriores, la calidad del procesamiento mejora por considerar cambios en tiempo de ejecución y técnicas adaptativas, sin embargo, la calidad se relaciona únicamente con la eficiencia. 4. CALIDAD DE LA INFORMACIÓN EN LA PLANIFICACIÓN DE CONSULTAS Ingenierías Las siguientes propuestas manejan de manera incipiente la calidad de la información en SIBM, utilizando sistemas Multi-Agente y esquemas de representación de fuentes de información. MAPWEB [47] es una Arquitectura Multiagente Distribuida que acepta consultas desde los usuarios y produce como resultado posibles esquemas de soluciones por medio de técnicas de planificación y aprendizaje. Mediante esta arquitectura se busca resolver problemas complejos que requieran integrar 556 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO información heterogénea procedente de diferentes fuentes Web, empleando para ello cooperación entre agentes de planificación y agentes Web. La planificación de consultas se realiza sin tener en cuenta los criterios relacionados con la IQ; relacionando la calidad con el nivel de razonamiento que logran los agentes cooperando, pero no es concreto el nivel de razonamiento alcanzado, ni en qué aspectos. El Sistema ARIADNE [48] es una Arquitectura que permite integrar de forma eficiente múltiples fuentes mediante un modelo de datos común por medio de ciertos métodos que las mapean en una representación uniforme, lo que permite agilizar y economizar la construcción de nuevos agentes que acceden a fuentes web existentes y facilitan su mantenimiento. ARIADNE extrae e integra datos desde fuentes Web semi-estructuradas y permite a los usuarios crear rápidamente agentes de información para la Web, mediante un proceso de modelamiento; una vez este proceso es completado, el usuario final puede emitir consultas como si la información estuviera almacenada en una gran Base de Datos Centralizada. El planificador de consultas las descompone en una serie de subconsultas y luego combina sus respuestas para crear una global. La Arquitectura propuesta se soporta en el mediador SIMS [49], diseñado con tipos específicos de fuentes de información, primordialmente Bases de Datos y de Conocimiento, pero puede extenderse a manejar fuentes Web especificadas por el desarrollador. Está más enfocado hacia los esquemas de representación y herramientas de modelamiento de las fuentes que hacia el procesamiento de la consulta, en donde la calidad de los planes se mide con métricas basadas en costos, pero se logra un buen nivel de calidad de la información de las fuentes con el uso de ontologías subyacentes a cada una. En [13], se investiga la exploración de criterios IQ para responder consultas de usuarios en SIBM y se discute qué datos de IQ son necesarios, cómo pueden ser adquiridos y cómo pueden ser usados para mejorar la calidad de los resultados de la consulta y el desempeño de los algoritmos de planificación. Plantea el hecho de la importancia que tiene la calidad de la información en los siste- Ingenierías Por otro lado, a continuación se detallan los principales trabajos que tienen el mayor acercamiento al problema del manejo de la calidad de la información en la planificación de consultas en SIBM. 557 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO mas distribuidos a gran escala y enfatiza en la ausencia de investigaciones que apliquen razonamiento sobre ella en el área de planificación de consultas sobre la Web. Como aplicación experimental desarrolla un sistema que encuentra resultados óptimos (con alta calidad basado en los criterios de calidad definidos), aplicado sobre un meta-motor de búsqueda que usa motores de búsqueda existentes como sus fuentes de información distribuidas. En el trabajo se cubren todos los aspectos de la integración: desde la definición de las fuentes, definición de IQ y criterios de IQ, métricas de los criterios y métodos para evaluarlos, hasta modelamiento de resultados y algoritmos que producen resultados de alta calidad. En [28] se presenta una investigación sobre la calidad del procesamiento de consultas en la www, debido a muchos factores tales como tiempo de respuesta impredecible, resultados irrelevantes y datos no actualizados. Propone un método para el procesamiento de consultas controlando la calidad en este ambiente e introduce parámetros de calidad que los usuarios pueden especificar con las consultas, al igual que funciones que son usadas para evaluar la bondad de estos parámetros y algoritmos de programación, planificación y ejecución. Ingenierías El trabajo presentado en [50], está enfocado hacia la evaluación de calidad. Se intenta describir el problema de gestión/manejo de calidad en SIBM, proponiendo una solución para evaluación de calidad y experimentando con algunas propiedades y su clasificación, basado en la diferencia entre requerimientos de calidad del usuario y calidad ofrecida por las fuentes. Propone un mecanismo para deducir la calidad ofrecida por estos sistemas, la cual propaga los valores de calidad de las fuentes a las vistas del usuario y también hace conversiones entre diferentes clases de propiedades de calidad. Se demuestra que las propiedades de calidad no son siempre las mismas, pues la visión de los usuarios es diferente a la de los administradores del sistema, especificando la calidad requerida y la calidad real de la información de la fuente. En [51], desarrollan un sistema de venta de libros en la Web, como una aproximación al tratamiento de criterios de IQ como: precio y relevancia. El precio es tratado como un rango máximo y mínimo entre el cual pueden oscilar la información de libros devuelta a una consulta. La relevancia es tratada como una fuente adicional al sistema en la cual el usuario evalúa los libros devueltos en 558 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO consultas anteriores, de acuerdo a la relevancia que tenga con sus necesidades de búsqueda, permitiendo al sistema utilizar esa información como un promedio general de relevancia para los libros de los que posee información el sistema. En [52], manejan el criterio de relevancia, en el sistema desarrollado para responder consultas AQUA, y soportan su desempeño con el uso de ontologías de cada fuente de información del sistema y con el mapeo de ontologías que se logra entre cada uno de los agentes del sistema. 5. CONCLUSIONES Y TRABAJOS FUTUROS En este artículo se mostraron diferentes trabajos relacionados con la Planificación de Consultas con Control de Calidad en el desarrollo de Sistemas de Información Basados en Mediadores, los cuales inicialmente se han enfocado hacia valorar los criterios de calidad relacionados con el proceso de planificación teniendo en cuenta los costos de planificación, costos de ejecución y completitud operacional de los planes de consulta, evolucionando luego a tener en cuenta la calidad de la información de las respuestas a las consultas valorando aspectos tales como la relevancia de las respuestas de acuerdo a las necesidades iniciales del usuario y la exactitud de éstas. Es importante proponer soluciones para evaluación de calidad, experimentando con nuevas propiedades o criterios de calidad, pero teniendo en cuenta la diferencia entre ‘calidad requerida por los usuarios’ y ‘calidad ofrecida por las fuentes’. Lograr una caracterización formal y precisa de criterios de calidad Ingenierías Se convierte en una necesidad el orientar la planificación de la consulta en SIBM hacia la calidad de la información devuelta como respuesta a una consulta inicial. Para avanzar en este campo, como base preliminar para posibles investigaciones, es importante tener en cuenta trabajos como los desarrollados alrededor de Criterios de IQ en [28] y [13] y de Evaluación de IQ en [50] y tratar todos los aspectos de la integración de información, como: definición de fuentes de información, definición de calidad de información y criterios de IQ, métricas de los criterios para dominios específicos, modelamiento de los resultados, métodos para evaluarlos y algoritmos que hacen uso de éstos para producir resultados de consultas de alta calidad. 559 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO de la información es un problema difícil de tratar y es trabajo de algunas investigaciones como [50][53] pero aún permanece sin resolver. De la misma forma hay problemas abiertos relacionados con métricas, representación y manejo de criterios de calidad de la información, que pueden ser objeto de trabajos posteriores. Como una primera aproximación para enfrentar el problema de encontrar planes de ejecución de consultas a través de fuentes de información web, que permitan el control de la calidad de las respuestas a las consultas, se pretende desarrollar un Modelo de Planificación de Consultas orientado hacia el control de la calidad de la información, que trate criterios de calidad de la información relacionados con las fuentes, como completitud y frecuencia de actualización, y relacionados con la intervención del usuario, como relevancia de las respuestas. Además se buscara que el modelo permita una continua intervención del usuario especificando los parámetros de calidad que desee en cada consulta. Este modelo de planificación se planea incluir en un SIBM existente y valorar su funcionamiento mediante un caso de estudio particular. Se espera que este modelo de planificación de consultas, además de razonar acerca de la calidad de la información que procesa, propicie un espacio más de discusión acerca de la pertinencia de hablar de ‘calidad de información’ dentro del proceso de planificación de consultas en SIBM. 6. RECONOCIMIENTOS Ingenierías El contenido de este artículo se enmarca dentro del trabajo desarrollado en los siguientes proyectos de investigación: Tesis de Maestría “Modelo de Planificación de Consultas con Control de Calidad en Sistemas de Información Basados en Mediadores” [54], apoyado por la Escuela de Sistemas de la Universidad Nacional de Colombia, Sede Medellín. Tesis de Doctorado “Modelo Distribuido y Cooperativo Basado en Agentes Ontológicos y de Planificación, para la composición Automática de Servicios Web Semánticos”, auspiciada por Colciencias, ICFES, ICETEX, Universi- 560 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO dad Nacional de Colombia, Sede Medellín y el Banco Mundial, en el marco del programa de apoyo a la comunidad científica nacional a través de los programas de Doctorado 2004. REFERENCIAS BIBLIOGRÁFICAS [1] Levy, A. Y. Combining Intelligence Artificial and Databases for Data Integration. Department of Computer Science and Engineering. University of Washington. Seatle, 1998. [2] Halevy, A. y Li, C.. Information Integration Research. Summary of NSF IDM Workshop Breakout Session. Seattle, Washington. 2004. [3] Wiederhold, G. Mediators in the architecture of future information systems. IEEE Computer No.5, Vol. 3. 1992. [4] Ullman, J. D. Information Integration Using Logical Views. Stanford University, 1997. [5] Lesser, U. Query Planning in Mediator Based Information Systems. PhD. Thesis Vom Fachbereich 13 –Informatik. Universitat Berlin, 2000. [6] Lesser, U. y Naumann, F. Query Planning with Information Quality Bounds. University of Technology y Humbordt University. Germany, 2000. [7] Ambite, J. L. y Knoblock, C. A. Planning by rewriting: Eficiently generating high-quality plans. En Proc. of the 14th National Conference on Artificial Intelligence, Providence, 1997. [9] Ambite, J. L. y Knoblock,C. A. Flexible and Scalable Query Access Planning using an AI Planner. En: Proceedings of KDEX’97, Newport Beach, California November, 1997. Ingenierías [8] Cisterna N., M. Métodos de Optimización de Consultas para el Lenguaje SQL. Departamento de Matemática y Ciencia de la Computación, Universidad de Santiago de Chile. Santiago – Chile, 2002. 561 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO [10] Singh, Dilpreet. An Agent Based Architecture for Query Planning and Cost Modeling of Web Sources. Tesis MsC University of Georgia. Georgia, 2000. [11] Chu, W. W. y Hurley, P.. Optimal query processing for distributed database systems. IEEE Transactions on Computers, Septiembre 1982. [12] Swami, A. Optimization of large join queries: Combining heuristic and combinatorial techniques. En: Proc. of the ACM SIGMOD International Conference on Management of Data. Portland, Oregon, Mayo 1989. [13] Naumann, Felix. Quality-driven Query Planning. Dissertation Outline Humboldt-Universitat zu Berlin, 2000. [14] Burgess, M., Gray, W.A. y Fiddian, N.J. Establishing a Taxonomy of Quality for Use in Information Filtering. Proc. 19th British National Conference on Databases (BNCOD 19), Sheffield, 2002. UK:103-113. [15] Naumann, F. From Databases to Information Systems: Information Quality Makes the Difference. IBM Almaden Research Center, 2001. [16] Chaudhuri, S., Krishnamurthy, R., Potamianos, S. y Shim, K. Optimizing queries with materializad views. En: Proc. 15th International Conference on Artificial Intelligence, 1998. [17] Wang, R.Y. y Strong, D.M. Beyond Accuracy: What Data Quality Means to Data Consumers. Journal of Management Information Systems. 12(4):534. 1996. Ingenierías [18] Wand, Y. y Wang, R. Y. Anchoring Data Quality Dimensions in Ontological Foundations. Communications of the ACM, November 1996. Vol. 39, No.11. [19] Duschka, O. M. Query Planning and Optimization in Information Integration. Tesis PhD. Stanford University. December 1997. 562 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO [20] Pan, A., Montoto, P., Molano, A., Álvarez, M., Raposo, J. y Viña Á. A Model for Advanced Query Capability Description in Mediator Systems. Memorias ICEIS’02. Universidad de Coruña. España, 2002. [21] Shankaranarayan, G., Ziad, M. y Wang, R. Y. Managing data quality in dynamic decision environments: An information product Approach. Journal of Database Management; Oct-Dec 2003. 14, 4; ABI/INFORM Global pg.14. [22] Naumann, F., Leser, U. y Freytag J. C. Quality-driven Integration of Heterogeneus Information Systems. Humboldt-Universitat zu Berlin, 2001. [23] Pernici B. Data Quality evolution in Web Information Systems: model and management. Universita’ di Roma. Abril, 2002. [24] Dvir, R. y Evans, S.. A TQM Approach to the improvement of Information Quality. Cranfield University. Cranfield UK, 2001. [25] Naumann, F., Freytag J. C. y Leser U. Completeness of Information Sources. IBM Almaden Research Center y Humboldt-Universität zu Berlin, 2003. [26] Levy, A. Y., Mendelzon, A., Sagiv, Y. y Srivastava, D. Answering queries using views. En: Proc. 14th ACM Symposium on Principles of Database Systems, San Jose, California, 1995. [27] Duschka, O. M. y Genesereth, M. R.. Answering recursive queries using views. En: Proc. of the 16th ACM Symposium on Principles of Database Systems, Arizona, Mayo 1997. [29] Levy, A. Y., Rajaraman, A. y Ordille, J. Query-Answering algorithms for Information Agents. En: 13th National Conference on Artificial Intelligence, Portland, 1996. Ingenierías [28] Chen, Y., Zhu, Q. y Wang, N. Query processing with quality control in the World Wide Web. World Wide Web, 1998, 1(4): 241-255pp. 563 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO [30] Neiling, M., Jurk S., Lenz H. y Naumann F. Object identification quality. En: Proc. of the International Workshop on Data Quality in Cooperative Information Systems. Siena, 2003. [31] Nie, Z. y Kambhampati, S. Joint Optimization of Cost and Coverage of Query Plans in Data Integration. Department of Computer Science and Engineering. Arizona State University, Tempe, 2001. [32] Garcia-Molina, H., Hammer, J., Ireland, K., Papakonstantinou, Y., Ullman J. y Widom, J. Integrating and Accessing Heterogeneous Information Sources in TSIMMIS. Proc. AAAI Symposium on Information Gathering. 1995. [33] Garcia-Molina, H., Papakonstantinou, Y., Quass, D., Rajaraman, A., Sagiv, Y., Ullman, J., Vassalos, V. y Widom, J. The TSIMMIS Approach to Mediation: Data Models and Languages. Journal of Intelligent Information Systems, 1997. 8(2. [34] Adali, S., Brink, A., Emery, R., Lu, J., Rajput, A., Rogers, T., Ross, R., Subrahmanian, V.S. y Ward, C. HERMES: A Heterogeneous Reasoning and Mediator System. Manuscript. URL: http://www.cs.umd.edu/projects/ hermes/publications-/abstracts/hermes.html. 1995. [35] Adali, S. y Emery, R. A Uniform Framework for Integrating Knowledge in Heterogeneous Knowledge Systems. En: Proc. 11th Int. Conf. on Data Engineering (ICDE’95). IEEE, 1995. Ingenierías [36] Eiter, T., Fink, M., Sabbatini, G. y Tompits, H. Using Methods of Declarative Logic Programming for Intelligent Information Agents. Technische Universitat Wien, Institut fur Informationssysteme. Vienna, Austria, 2001. [37] Kashyap, V. Information Brokering across Heterogeneous Digital Data: A Metadata-based Approach. The Kluwer International Series on Advances in Database Systems, Volume 20. Editorial: Kluwer Academic Publishers. Boston, 2000. 248pp. 564 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO [38] Roth, M. T. y Schwarz, P. Don’t Scrap It,Wrap It! A Wrapper Architecture for Legacy Data Sources. En: Proc. 23th International Conference on Very Large Data Bases. Athens, 1997. [39] Roth, M. T., Arya M., Haas L., Carey M., Cody W., Fagin R., Schwarz R., Thomas J. y Wimmers E. The Garlic Project. Proceedings of ACM SIGMOD 1996: International Conference on Management of Data. Montreal, Canada, 1996. [40] Topaloglou, T., Kosky A. y Markowitz, V. Seamless Integration of Biological Applications within a Database Framework. American Association for Artificial Intelligence. Berkeley, 1999. [41] Knoblock, C. A. Planning, Executing, Sensing, and Replanning for Information Gathering. En: Proceedings of the 14th International Joint Conference on Artificial Intelligence. Montreal, Canadá, 1995. [42] Kwok, C. T. y Weld, D. S. Planning to gather information. En: Proceedings of the Thirteenth National Conference on Artificial Intelligence, Portland, OR, 1996. [43] Friedman, M. y Weld, D. Decision-theoretic execution of information gathering plans. Technical report, University of Washington, Department of Computer Science and Engineering. 1996. [44] Ambite, J. L. Planning by Rewriting. PhD Thesis, University of Southern California, 1999. [46] Ives, Z. G. Efficient Query Processing for Data Integration. PhD Thesis, University of Washington, 2000. Ingenierías [45] Ambite J. L. y Knoblock C.A. Flexible and Scalable Query Planning in Distributed and Heterogeneous Environments. En: Journal AAAI, 1998. 565 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO [47] Camacho D., Molina J. M., Borrajo D. y Aler R. MAPWEB: Cooperation between Planning Agents and Web Agents. En: Information & Security. An International Journal, 2002. [48] Knoblock C. A., Minton S., Ambite J. L., Ashish N., Modi P. J., Muslea I., Philpot A. G. y Tejada S. Modeling web sources for information integration. En: Proc. of the 15th National Conference on Artificial Intelligence, Madison, 1998. [49] Knoblock C. A., Minton S., Ambite J. L., Ashish N., Muslea I., Philpot A. G. y Tejada S. The ARIADNE approach to Web-Based Information Integration. En: International Journal of Cooperative Information Systems. Originalmente en: AAAI’98. 2000. [50] Marotta A. y Ruggia R. Quality Management in Multi-Source Information Systems. Facultad de Ingeniería. Universidad de la República. Montevideo, Uruguay, 2002. [51] Pan A., Montoto P. y Molano A. A Model for advanced query capability description in Mediators Systems. Proceedings ICEIS 2002. Universidad de A. Coruña. España, 2002. [52] Nagy M., Vargas-Vera M. y Motta E. Ontology Mapping with domain specific agents in the AQUA Question Answering System. Knowledge Media Institute, The Open University. United Kingdom, 2005. Ingenierías [53] Levy A. Y. Logic-Based Techniques in Data Integration. Department of Computer Science and Engineering. University of Washington, Seattle, WA. 2000. [54] Manrique L., B. Modelo de Planificación de Consultas con Control de Calidad en Sistemas de Información Basados en Mediadores. Proyecto de Tesis de Maestría en Ingeniería de Sistemas, Universidad Nacional de Colombia-Sede Medellín, 2004. 566 CENTRO DE INVESTIGACIONES Y DESARROLLO CIENTÍFICO