Bases de datos. La informatización de la información en los

Transcripción

Bases de datos. La informatización de la información en los
BASES DE DATOS
LA INFORMATIZACIÓN DE
LA INFORMACIÓN EN LOS
SERVICIOS DE
DOCUMENTACIÓN
Paloma Hidalgo Goyanes
CONCEPTO





Las bases de datos son una consecuencia más de
la denominada “explosión de la información”
Posibilidad de tener toda la información contenida
en los documentos “almacenada en la memoria de
un ordenador”
Posibilidad de recuperarla siempre que sea
necesario
Posibilidad de modificar, actualizar o suprimir
cuando sea preciso
Ahorro de espacio y de tiempo
Paloma Hidalgo Goyanes
DEFINICIONES

Colección de datos relacionados entre sí, y almacenados en
su conjunto sin que existan redundancias perjudiciales o
innecesarias, e independientes de los programas informáticos
que los usan.

Conjunto de textos, sonidos, imágenes o la combinación de
todos ellos, registrados de modo que pueden ser leídos por
un ordenador y organizados por un programa informático que
permite su localización y recuperación.
Paloma Hidalgo Goyanes
TIPOLOGÍA DE BASES DE
DATOS

BASES DE DATOS “RELACIONALES”

BASES DE DATOS “REFERENCIALES”

BASES DE DATOS “DOCUMENTALES”
Paloma Hidalgo Goyanes
BASES DE DATOS
RELACIONALES




Estructuran la información en tablas
Permite operaciones algebraicas
Campos de extensión definida, sin
subcampos y no repetibles
Bases de datos relacionales puras:



Access (Microsoft): ofimática
Dbase (Asthon -Tate)
Oracle (Oracle Corporation)
Paloma Hidalgo Goyanes
BASES DE DATOS
REFERENCIALES



.- No disponen de la información final
.- Contienen “referencias”
.- Clases de bases referenciales:


Bases de datos bibliográficas
Bases de datos directorio
Paloma Hidalgo Goyanes
BASES DE DATOS
DOCUMENTALES




Formada por ficheros lineal, inverso y de
palabras vacías
Permite operaciones booleanas.
Campos de extensión variable, repetibles y
con subcampos
Bases de datos documentales puras:
Knosys, Verity, Excalibur, WinIsis, Archivo
3000...
Paloma Hidalgo Goyanes
CARACTERÍSTICAS DE LAS BASES DE
DATOS DOCUMENTALES




Formadas por grandes depósitos de información
Pueden contener información “homogénea” (bases
de datos textuales, fotográficas, etc.) o
“heterogénea” (multimedia)
Gestionadas por un software de gestión de bases
de datos documentales (personales y
profesionales)
Pueden distribuirse en línea o en diversos soportes
físicos.
Paloma Hidalgo Goyanes
DISEÑO DE LA BASE DE
DATOS: FASES



1.-Análisis de las necesidades y requisitos
2.-Diseño:
 2.1.- Diseño conceptual
 2.2.- Diseño lógico
 2.3.- Diseño físico
3.- Implantación
Paloma Hidalgo Goyanes
DISEÑO DE LA BASE DE
DATOS: FASE 1




Propósito y objetivos
Actores principales
Actividades relevantes
Entorno
Paloma Hidalgo Goyanes
DISEÑO DE LA BASE DE
DATOS: FASE 1






Estudiar las necesidades y características de los
usuarios.
Analizar el tipo de información.
Definir la cobertura temática, cronológica y/o
geográfica.
Seleccionar el programa informático y el soporte
físico.
Diseñar la estructura de campos
Normalización del contenido
Paloma Hidalgo Goyanes
DISEÑO DE LA BASE DE
DATOS: FASE 2

2.-Diseño:



2.1.- Diseño conceptual
2.2.- Diseño lógico
2.3.- Diseño físico
Paloma Hidalgo Goyanes
DISEÑO CONCEPTUAL




Como organizar la información
Utilización de un lenguaje claro y no ambigüo
Descripción de alto nivel del contenido de información de la
base de datos, independiente del SGBD que se vaya a utilizar
Modelo E-R (Entidad – Relación). Conceptos:




Entidad: elemento del mundo real del que almacenamos informaci on
Atributo: propiedades relevantes que caracterizan cada entidad
Relación: conexión entre dos entidades
Cardinalidad: numero de entidades que participan en una relación
Paloma Hidalgo Goyanes
DISEÑO LÓGICO




Representación del diseño conceptual en un
ordenador
Descripción de la estructura de la base de datos
según el modelo del SGBD que se vaya a utilizar
Con el propósito de obtener una representación
que use de la manera más eficiente los recursos
disponibles en el modelo lógico para estructurar
datos y modelar restricciones
El diseño lógico depende del modelo de BD que
soporta el SGBD
Paloma Hidalgo Goyanes
DISEÑO FÍSICO






Se realiza partiendo del “diseño lógico” de la base
de datos
Ya se debe tener decidido el SGBD
Existencia o no de una base de datos anterior
Se fija la estructura de los campos, el tipo de
campos, los datos que se incluirán en cada campo
Se define la manera de acceso a la información
Se expresa haciendo uso del lenguaje de
definición de datos del SGBD
Paloma Hidalgo Goyanes
IMPLANTACIÓN





Pruebas con una colección-test de documentos (lo más
amplia posible)
Efectuar los cambios o ajustes necesarios
Formación del personal técnico y de los usuarios finales
Elaboración del Manual de estilo de la base de datos,
que incluye la versión definitiva del modelo conceptual,
la normativa de indexación y, en su caso, a modo de
anexo, la lista de descriptores autorizados o el tesauro
Acciones de promoción, formación de usuarios finales,
etc.
Paloma Hidalgo Goyanes
CARACTERÍSTICAS DE LAS BASES DE
DATOS DOCUMENTALES



Flexibilidad (tiempos
de respuesta)
Acceso múltiple
(acceso simultáneo)
Uso múltiple (visiones
particulares)

Seguridad (contra
accesos no
autorizados)

Integridad (ante fallos
en el hardware o en el
software)
Paloma Hidalgo Goyanes
ELEMENTOS DE UNA BD





Modelo de registro textual integrado por campos de extensión
variable y basado en un diccionario de datos
Fichero invertido (fichero inverso)
Diccionarios de control de indización (diccionarios de palabras
vacías, diccionarios de sinónimos, diccionarios de
autoridades)
Sistema de recuperación basado en el álgebra de Boole que
permita realizar combinaciones lógicas entre conjuntos de
documentos
Sistema de recuperación basado en relaciones entre cadenas
de caracteres (ecuaciones de búsqueda, etc.)
Paloma Hidalgo Goyanes
DICCIONARIO DE DATOS


Herramienta que ayuda al diseñador de una base de datos a
garantizar la calidad, la fiabilidad, la consistencia y la coherencia de
la información introducida en la base de datos
Consiste en la lista detallada de cada uno de los campos que forman
los distintos modelos de registro de la base de datos. A cada campo
de cada modelo de registro se le aplica una parrilla de análisis que
contempla, como mínimo, los siguientes aspectos:







1. Etiqueta
2. Dominio
3. Tipo de datos
4. Indexación
5. Tratamiento documental
6. Lengua
7. Otros controles de validación u observaciones
Paloma Hidalgo Goyanes
CARACTERÍSTICAS DE
CADA “CAMPO”







Etiqueta Nombre del campo
Dominio Conjunto del que un campo puede obtener sus valores
Tipo Tipo de datos que admite el campo. Numérico (permite búsquedas
aritméticas o por rangos de valores), Alfanumérico (admite números pero los
trata como caracteres), fechas(en formato establecido que permitirá
búsquedas por rangos de fechas o por valores superiores o inferiores a una
fecha) y lógico (admite uno de dos valores, SI/NO V/F).
Tratamiento de indización Indica si el campo está indizado y cómo es la
indización (por palabras, términos, frases o campo completo)
Tratamiento documental Establece si se debe utilizar algún lenguaje
documental para introducir los valores del campo
Lengua Idioma en el que se introducen los valores del campo, puede ser la
de la BD o la del documento.
Otros controles de validación Indicación de que el campo no puede quedar
vacío, limitaciones de rango, etc.
Paloma Hidalgo Goyanes
EJEMPLO DE APLICACIÓN







Etiqueta: Fecha de producción
Dominio: Cualquier fecha anterior a la actual
Tipo: Fechas
Tratamiento de indización: Sí, campo completo
Tratamiento documental: AAAA/MM/DD
Lengua:----­
Otros controles de validación: No puede quedar
vacío (obligatorio)
Paloma Hidalgo Goyanes
EJEMPLO DE APLICACIÓN







Etiqueta: Título
Dominio: Título del documento. Se transcribe de la siguiente
forma: Título: antetítulo: subtítulo.
Tipo: Alfanumérico
Tratamiento indexación: Indexado
Tratamiento documental: Lenguaje libre
Lengua: Lengua del documento
Controles de validación: No puede quedar vacío. Si por
alguna razón el documento careciera de título, el
documentalista asignará un título descriptivo.
Paloma Hidalgo Goyanes
SISTEMAS DE GESTIÓN
DOCUMENTALES







Sistemas creados para recuperar información (SRI)
Creación de índices (fichero inverso)
Registros de extensión indefinida
Gran potencia de recuperación de información
Diversos niveles de seguridad
Posibilidad de definir los diversos campos
Posibilidad de definir la obligatoriedad de los
campos
Paloma Hidalgo Goyanes
LENGUAJES DE
INTERROGACIÓN






Referencias simples (palabra)
Referencias genéricas (truncamiento)
Referencias de proximidad
Referencias cualificadas (campos)
Operadores booleanos
Operadores relacionales o de comparación
Paloma Hidalgo Goyanes
REFERENCIAS CUALIFICADAS




TITULO: LA CASA ROJA (THE RED
HOUSE)
SERIE: ARQUITECTURA
(ARCHITECTURE)
GENERO: TECNICA* ARTE* REPORTAJE
FORMA: DOCUMENTAL
Paloma Hidalgo Goyanes
LENGUAJE BOOLEANO

.- “Intersección” (documentos
que contengan A y B)

.- “Unión” (documentos que
contengan A o B)

.- “Exclusión” (documentos que
contengan A pero no B)
Paloma Hidalgo Goyanes
OTROS OPERADORES

.- OPERADORES RELACIONALES
 >, <, <>, =,

.- OPERADORES DE PROXIMIDAD

ADJ, NEXT, NEAR
Paloma Hidalgo Goyanes
EL MERCADO DE LAS
BASES DE DATOS

Factores que intervienen :



Los Productores
Los Distribuidores (Baratz, Ebsco, Doc6,
etc.)
Las redes de telecomunicación
Paloma Hidalgo Goyanes
NUEVAS NECESIDADES









Flujos de trabajo
documentales
Transcodificación y envío
Motor de indexación único
OCR de voz y vídeo
Catalogación automática
Streaming de audio y vídeo
Marcas de agua
Ordenación por relevancia
Integración de contenidos






Proveedor de contenidos
Único interfaz de acceso
Integración con los
diferentes procesos de
negocio de la empresa
Integración a partir de
estándares (Arquitectura
SOA)
Distribución multicanal
(web, dispositivos
móviles,..)
Gestor audiovisual para la
baja resolución
ORGANISMOS Y OBJETIVOS



Archivos Audiovisuales Nacionales
Medios de Comunicación (televisiones y
productoras)
Mediatecas (Universitarias, Académicas, etc.)





Recopilar
Analizar
Preservar
Hacer accesibles los contenidos
Venta de documentos y contenidos
Paloma Hidalgo Goyanes

Documentos relacionados