Bases de datos. La informatización de la información en los
Transcripción
Bases de datos. La informatización de la información en los
BASES DE DATOS LA INFORMATIZACIÓN DE LA INFORMACIÓN EN LOS SERVICIOS DE DOCUMENTACIÓN Paloma Hidalgo Goyanes CONCEPTO Las bases de datos son una consecuencia más de la denominada “explosión de la información” Posibilidad de tener toda la información contenida en los documentos “almacenada en la memoria de un ordenador” Posibilidad de recuperarla siempre que sea necesario Posibilidad de modificar, actualizar o suprimir cuando sea preciso Ahorro de espacio y de tiempo Paloma Hidalgo Goyanes DEFINICIONES Colección de datos relacionados entre sí, y almacenados en su conjunto sin que existan redundancias perjudiciales o innecesarias, e independientes de los programas informáticos que los usan. Conjunto de textos, sonidos, imágenes o la combinación de todos ellos, registrados de modo que pueden ser leídos por un ordenador y organizados por un programa informático que permite su localización y recuperación. Paloma Hidalgo Goyanes TIPOLOGÍA DE BASES DE DATOS BASES DE DATOS “RELACIONALES” BASES DE DATOS “REFERENCIALES” BASES DE DATOS “DOCUMENTALES” Paloma Hidalgo Goyanes BASES DE DATOS RELACIONALES Estructuran la información en tablas Permite operaciones algebraicas Campos de extensión definida, sin subcampos y no repetibles Bases de datos relacionales puras: Access (Microsoft): ofimática Dbase (Asthon -Tate) Oracle (Oracle Corporation) Paloma Hidalgo Goyanes BASES DE DATOS REFERENCIALES .- No disponen de la información final .- Contienen “referencias” .- Clases de bases referenciales: Bases de datos bibliográficas Bases de datos directorio Paloma Hidalgo Goyanes BASES DE DATOS DOCUMENTALES Formada por ficheros lineal, inverso y de palabras vacías Permite operaciones booleanas. Campos de extensión variable, repetibles y con subcampos Bases de datos documentales puras: Knosys, Verity, Excalibur, WinIsis, Archivo 3000... Paloma Hidalgo Goyanes CARACTERÍSTICAS DE LAS BASES DE DATOS DOCUMENTALES Formadas por grandes depósitos de información Pueden contener información “homogénea” (bases de datos textuales, fotográficas, etc.) o “heterogénea” (multimedia) Gestionadas por un software de gestión de bases de datos documentales (personales y profesionales) Pueden distribuirse en línea o en diversos soportes físicos. Paloma Hidalgo Goyanes DISEÑO DE LA BASE DE DATOS: FASES 1.-Análisis de las necesidades y requisitos 2.-Diseño: 2.1.- Diseño conceptual 2.2.- Diseño lógico 2.3.- Diseño físico 3.- Implantación Paloma Hidalgo Goyanes DISEÑO DE LA BASE DE DATOS: FASE 1 Propósito y objetivos Actores principales Actividades relevantes Entorno Paloma Hidalgo Goyanes DISEÑO DE LA BASE DE DATOS: FASE 1 Estudiar las necesidades y características de los usuarios. Analizar el tipo de información. Definir la cobertura temática, cronológica y/o geográfica. Seleccionar el programa informático y el soporte físico. Diseñar la estructura de campos Normalización del contenido Paloma Hidalgo Goyanes DISEÑO DE LA BASE DE DATOS: FASE 2 2.-Diseño: 2.1.- Diseño conceptual 2.2.- Diseño lógico 2.3.- Diseño físico Paloma Hidalgo Goyanes DISEÑO CONCEPTUAL Como organizar la información Utilización de un lenguaje claro y no ambigüo Descripción de alto nivel del contenido de información de la base de datos, independiente del SGBD que se vaya a utilizar Modelo E-R (Entidad – Relación). Conceptos: Entidad: elemento del mundo real del que almacenamos informaci on Atributo: propiedades relevantes que caracterizan cada entidad Relación: conexión entre dos entidades Cardinalidad: numero de entidades que participan en una relación Paloma Hidalgo Goyanes DISEÑO LÓGICO Representación del diseño conceptual en un ordenador Descripción de la estructura de la base de datos según el modelo del SGBD que se vaya a utilizar Con el propósito de obtener una representación que use de la manera más eficiente los recursos disponibles en el modelo lógico para estructurar datos y modelar restricciones El diseño lógico depende del modelo de BD que soporta el SGBD Paloma Hidalgo Goyanes DISEÑO FÍSICO Se realiza partiendo del “diseño lógico” de la base de datos Ya se debe tener decidido el SGBD Existencia o no de una base de datos anterior Se fija la estructura de los campos, el tipo de campos, los datos que se incluirán en cada campo Se define la manera de acceso a la información Se expresa haciendo uso del lenguaje de definición de datos del SGBD Paloma Hidalgo Goyanes IMPLANTACIÓN Pruebas con una colección-test de documentos (lo más amplia posible) Efectuar los cambios o ajustes necesarios Formación del personal técnico y de los usuarios finales Elaboración del Manual de estilo de la base de datos, que incluye la versión definitiva del modelo conceptual, la normativa de indexación y, en su caso, a modo de anexo, la lista de descriptores autorizados o el tesauro Acciones de promoción, formación de usuarios finales, etc. Paloma Hidalgo Goyanes CARACTERÍSTICAS DE LAS BASES DE DATOS DOCUMENTALES Flexibilidad (tiempos de respuesta) Acceso múltiple (acceso simultáneo) Uso múltiple (visiones particulares) Seguridad (contra accesos no autorizados) Integridad (ante fallos en el hardware o en el software) Paloma Hidalgo Goyanes ELEMENTOS DE UNA BD Modelo de registro textual integrado por campos de extensión variable y basado en un diccionario de datos Fichero invertido (fichero inverso) Diccionarios de control de indización (diccionarios de palabras vacías, diccionarios de sinónimos, diccionarios de autoridades) Sistema de recuperación basado en el álgebra de Boole que permita realizar combinaciones lógicas entre conjuntos de documentos Sistema de recuperación basado en relaciones entre cadenas de caracteres (ecuaciones de búsqueda, etc.) Paloma Hidalgo Goyanes DICCIONARIO DE DATOS Herramienta que ayuda al diseñador de una base de datos a garantizar la calidad, la fiabilidad, la consistencia y la coherencia de la información introducida en la base de datos Consiste en la lista detallada de cada uno de los campos que forman los distintos modelos de registro de la base de datos. A cada campo de cada modelo de registro se le aplica una parrilla de análisis que contempla, como mínimo, los siguientes aspectos: 1. Etiqueta 2. Dominio 3. Tipo de datos 4. Indexación 5. Tratamiento documental 6. Lengua 7. Otros controles de validación u observaciones Paloma Hidalgo Goyanes CARACTERÍSTICAS DE CADA “CAMPO” Etiqueta Nombre del campo Dominio Conjunto del que un campo puede obtener sus valores Tipo Tipo de datos que admite el campo. Numérico (permite búsquedas aritméticas o por rangos de valores), Alfanumérico (admite números pero los trata como caracteres), fechas(en formato establecido que permitirá búsquedas por rangos de fechas o por valores superiores o inferiores a una fecha) y lógico (admite uno de dos valores, SI/NO V/F). Tratamiento de indización Indica si el campo está indizado y cómo es la indización (por palabras, términos, frases o campo completo) Tratamiento documental Establece si se debe utilizar algún lenguaje documental para introducir los valores del campo Lengua Idioma en el que se introducen los valores del campo, puede ser la de la BD o la del documento. Otros controles de validación Indicación de que el campo no puede quedar vacío, limitaciones de rango, etc. Paloma Hidalgo Goyanes EJEMPLO DE APLICACIÓN Etiqueta: Fecha de producción Dominio: Cualquier fecha anterior a la actual Tipo: Fechas Tratamiento de indización: Sí, campo completo Tratamiento documental: AAAA/MM/DD Lengua:---- Otros controles de validación: No puede quedar vacío (obligatorio) Paloma Hidalgo Goyanes EJEMPLO DE APLICACIÓN Etiqueta: Título Dominio: Título del documento. Se transcribe de la siguiente forma: Título: antetítulo: subtítulo. Tipo: Alfanumérico Tratamiento indexación: Indexado Tratamiento documental: Lenguaje libre Lengua: Lengua del documento Controles de validación: No puede quedar vacío. Si por alguna razón el documento careciera de título, el documentalista asignará un título descriptivo. Paloma Hidalgo Goyanes SISTEMAS DE GESTIÓN DOCUMENTALES Sistemas creados para recuperar información (SRI) Creación de índices (fichero inverso) Registros de extensión indefinida Gran potencia de recuperación de información Diversos niveles de seguridad Posibilidad de definir los diversos campos Posibilidad de definir la obligatoriedad de los campos Paloma Hidalgo Goyanes LENGUAJES DE INTERROGACIÓN Referencias simples (palabra) Referencias genéricas (truncamiento) Referencias de proximidad Referencias cualificadas (campos) Operadores booleanos Operadores relacionales o de comparación Paloma Hidalgo Goyanes REFERENCIAS CUALIFICADAS TITULO: LA CASA ROJA (THE RED HOUSE) SERIE: ARQUITECTURA (ARCHITECTURE) GENERO: TECNICA* ARTE* REPORTAJE FORMA: DOCUMENTAL Paloma Hidalgo Goyanes LENGUAJE BOOLEANO .- “Intersección” (documentos que contengan A y B) .- “Unión” (documentos que contengan A o B) .- “Exclusión” (documentos que contengan A pero no B) Paloma Hidalgo Goyanes OTROS OPERADORES .- OPERADORES RELACIONALES >, <, <>, =, .- OPERADORES DE PROXIMIDAD ADJ, NEXT, NEAR Paloma Hidalgo Goyanes EL MERCADO DE LAS BASES DE DATOS Factores que intervienen : Los Productores Los Distribuidores (Baratz, Ebsco, Doc6, etc.) Las redes de telecomunicación Paloma Hidalgo Goyanes NUEVAS NECESIDADES Flujos de trabajo documentales Transcodificación y envío Motor de indexación único OCR de voz y vídeo Catalogación automática Streaming de audio y vídeo Marcas de agua Ordenación por relevancia Integración de contenidos Proveedor de contenidos Único interfaz de acceso Integración con los diferentes procesos de negocio de la empresa Integración a partir de estándares (Arquitectura SOA) Distribución multicanal (web, dispositivos móviles,..) Gestor audiovisual para la baja resolución ORGANISMOS Y OBJETIVOS Archivos Audiovisuales Nacionales Medios de Comunicación (televisiones y productoras) Mediatecas (Universitarias, Académicas, etc.) Recopilar Analizar Preservar Hacer accesibles los contenidos Venta de documentos y contenidos Paloma Hidalgo Goyanes