1 Introducción Objetivos

Transcripción

1 Introducción Objetivos
Diplomado en Minería de Datos para la Toma de Decisiones
Modulo II
Data Warehouse y OLAP
1 Introducción.
2 Arquitectura del Data
Warehouse.
3 Construcción e
Implementación de un
Data Warehouse
Autor: Ing. Eugenio Lojero Alvarado
1
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
Diplomado en Minería de Datos para la Toma de Decisiones
Modulo II
Data Warehouse y OLAP
1
Introducción
1.1 Historia de las Computadoras .
1.2 Historia de la Ingeniería de
Software.
1.3 Sistemas Operacinales y
DataWarehouses.
1.4 Bases de Datos.
1.5 Modelo Relacional.
1.6 Modelo Multidimensional.
Objetivos
• Conocer en forma general la historia de la
computación y de la Ingeniería del
Software lo cual permitirá reconocer su
evolución y “el por qué” de las problemas
en
los
desarrollos
de
sistemas
Operacionales y Data Warehouses.
• Reconocer a la Minería de Datos como
parte de los conceptos de la Inteligencia
de Negocios o BI (Bussines Intelligence)
• Conocer e identificar las diferencias de los
sistemas
Operacionales
y
de
los
Datawarehouses.
• Identificar las características y tipos de
Bases de Datos.
• Identificar las características de los análisis
OLAP.
2
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Historia de las Computadoras
Primeras Máquinas de Cálculo
3000 A.C. El Abaco
• AL parecer su origen es en China.
• Hay variantes utilizadas por diversas
culturas entre ellas los Mayas.
1622
Regla de Cálculo
Diseñada por el matemático Inglés
William Oughtred.
• Se utilizó hasta la década de 1970.
3
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Historia de las Computadoras
Calculadoras Mecánicas
1642
1671
1801
1822
Calculadora Mecánica de Blaise Pascal
• Sumadora con mecanismos de ruedas y engranes.
Calculadora Universal de Leibniz
•Realizaba sumas, restas, divisiones y raíces
cuadradas.
Primera Tarjeta Perforada J. Marie Jacquard
• Usada en un telar que podía reproducir patrones
de tejidos..
Máquina de Diferencias de Babagge.
• Capaz de calcular tablas matemáticas de hasta
veinte cifras con ocho decimales y polinomios de
sexto grado..
1834
•
•
•
•
•
Máquina Analítica de Babagge
Máquina de propósito general.
Programación mediante fichas perforadas.
Incluye ya los elementos de los ordenadores modernos.
En 1843 J.M. Jacquard sugiere adaptar las tarjetas
perforadas.
Se considera una de las primeras computadoras..
1900s Aparecen gran variedad. Que se utilizaron
hasta los años 1960s.
4
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Historia de las Computadoras
Calculadoras Electromecánicas
1890
Tabuladora de Holllerith.
• Compuesta por un lector de tarjetas, un
contador, un clasificador y un aparato de tabular.
• Se utilizó en el censo de USA de 1890
empleando un tiempo de 3 años , sin la máquina
se estimaban 10 años para obtener los
resultados.
• Fue la primera calculadora electromecánica.
1930s-1960s Aparecen gran cantidad de
calculadoras mecánicas que fueron
rediseñadas para usar motores eléctricos..
5
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Historia de las Computadoras
Primeras Computadoras
1939
Computadora ABC ( Atanasoff Berry Computer )
• Construida por John V. Atanasoff catedrático de la
Universidad de Iowa y por Cifford Edward Berry
estudiante graduado de física.
• Considerada como la primera computadora digital.
1944
Mark-I
• Construida por Howard H. Aiken de la Universidad de
Harvard con la colaboración de IBM.
• Máquina automática con componentes electromecánicos.
• Podía realizar 5 operaciones: suma, resta, multiplicación,
división y referencia a resultados anteriores.
1946
ENIAC (Electronic Numerical Integrator And Computer )
• Diseñada por W. Mauchly y John Presper Eckert en la
Universidad de Pennsylvania.
• Pesaba 30 toneladas con 18000 bulbos y ocupaba 450 m2.
• Se programaba mediante 3 tableros con 6000 interruptores.
• Operaba con sistema decimal.
6
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Historia de las Computadoras
Generaciones de Computadoras
1951-1958
Primera Generación
•De bulbos con tarjetas perforadas.
•Programadas con lenguaje máquina.
•UNIVAC, utilizada en censo de USA de 1950.
•Fabricantes: HonyWell, Burroughs, UNIVAC, NCR, CDC, IBM
1959-1964
Segunda Generación
•De Transistores.
•Memorias de núcleos magnéticos.
•Lenguajes ensambladores.
•Lenguajes de alto nivel como fortran 1954 y cobol 1959.
•Minicomputadoras.
1964-1971
Tercera Generación
•De Circuitos Integrados.
•Memorias RAM y ROM.
•IBM 360, CDC 6400.
•Minicomputadoras tuvieron su auge mayor entre 1960 y
1970.
1971-
Cuarta Generación
•De Microprocesadores – Chips •Discos duros magnéticos.
•Apple 1 en 1976, Apple III en 1980.
•IBM-PC en 1981 con SO de Microsoft.
7
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Historia de la Ingeniería de Software
Ingeniería de Software
Hay quienes opinan que debería decirse
Ingeniería de Desarrollo de Sistemas
• Es la aplicación práctica del conocimiento
científico al diseño, construcción, documentación,
operación y mantenimiento de programas de
computadora.
• Es el estudio y aplicación de Modelos y
Metodologías para el Desarrollo de Sistemas con
calidad y en tiempo.
Software
Es todo el conjunto de programas o elementos
“Lógicos” de una Computadora diferenciándose de
todos los elementos físicos o “Hardware.
La problemática del desarrollo da inicio
a la Ingeniería de Software.
•
•
•
•
•
Retrasos considerables en los desarrollos.
Poca productividad.
Baja calidad y fiabilidad.
Mantenimiento excesivo.
Alta dependencia de los constructores.
En la primera conferencia en 1968
organizada por la OTAN sobre desarrollo
de software se usaron por primera vez los
términos de “Ingeniería del Software” y
“Crisis del Software”
8
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Historia de la Ingeniería de Software
Ingeniería de Software
1945-1955
• Lenguajes de máquina y ensamblador.
• Programar no es una tarea diferenciada del
diseño de una máquina.
1955-1970
•
•
•
•
•
Aparecen multitud de lenguajes
Todo es posible.
Se desarrollan grandes programas.
Inicio de la Crisis del Software.
Inicia la Ingeniería del Software.
1970-1980
• Innovación Conceptual.
• Programación Estructurada
• Metodologías de Análisis y Diseño
Estructurados.
• Bases de Datos.
1990-2000
•
•
•
•
•
Nace la WWW (Internet)
Metodologías Orientadas a Objetos.
Primeras Aplicaciones de BI
Minería de Datos Inteligente
Los sistemas continúan aumentando su
complejidad.
• Las metodologías continúan evolucionando.
2000 a la Fecha
• Consolidación de las plataformas de BI
• Metodologías Orientadas a Objetos.
• Los sistemas continúan aumentando su
complejidad.
• Las metodologías continúan evolucionando.
• Las computadoras siguen evolucionando y cada día
con mayor capacidad y potencia.
1980-1990
•
•
•
•
•
Los sistemas aumentan mucho su complejidad.
Conceptos de Datawarehouse
Conceptos de Minería de Datos
Nacen las redes.
Tecnología CASE
9
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Modelos
y
Metodologías
Historia de la Ingeniería de Software
1968 Conceptos de la programación Estructurada.
1974 Diseño Estructurado y fundamentos de programación
1974 Técnicas de Programación Estructurada.
1975 SADT Análisis Estructurado y Técnica de Desarrollo
1975 Primeros conceptos sobre Diseño Estructurado.
1976 Modelo Entidad-Relación para estructuras de datos
1977 Método basado en Estructuras de Datos
1978 SASS Análisis estructurado y Especificación de Sistemas
1979 Análisis Estructurado de Sistemas.
1979 NIAM Análisis de Información
1980 Diseño Estructurado de Sistemas
1981 Ingeniería de Software (orientado a datos y CASE)
1985 Análisis y diseño estructurado para Sistemas de tiempo real
1989 Tarjetas de Clase Responsabilidad
1991 Análisis orientado a objetos
1992 OMT Técnica de Modelado de Objetos
1992 Data WareHousing and Business Inteligence
1992 Building the Data Warehouse
1994 Método Orientado a Objetos
1994 OOSE Ingeniería del Software Orientada a Objetos
1996 Métodos Orientados a Objetos
1997 UML Unified Model Language versión 0.8
Jacobson
1997 UML Unified Model Language version 1.1
2004 UML Unified Model Language versión 2.0
Dijkstra. (sin GoTo)
Constantine - Myers
Jackson.
Ross - Schoman
Myers y Yourdon
Chen
Warnier - Orr
Tom de Marco
Gane y Sarson
Nijssen
Page - Jones
Martin - Finklestein
Wardy y Mellor
Beck y Cunningham
Coad-Yourdon
Rumbaugh
Ralph Kimball
Bill Inmon
Booch
Jacobson
Martin – Odell
Booch-RumbaughGrupo OMG
Grupo OMG
10
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Historia de la Ingeniería de Software
Edward Yourdon
Modelos
y
Metodologías
Es uno de los principales responsables de la evolución y
difusión de los métodos Estructurados en los inicios de las
metodologías, Trabajaron con él Tom de Marco, Larry
Constantine, Ken-Orr, ChrisGane, Trish Sarson, Paul Ward,
Stephen Mellor.
Grady Book, Ivar Jacobson y James Rumbaugh
Principales responsables de la evolución e integración de los
métodos Orientados a Objetos con el modelo unificado UML
Bill Inmon y Ralph Kimball
Trabajando por separado, principales responsables de la
evolución de los conceptos de Data Warehouse e Inteligencia
de Negocios (BI)
11
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Sistemas Operacionales y Data Warehouses
¿ Qué es una Data Warehouse ?
En el contexto de Informática.
Es una Base de Datos usada por Gerentes y Directivos para Procesos de elaboración de Reportes,
Análisis en Línea (OLAP) y Minería de Datos.
Los Datos que se almacenan en ella provienen de Sistemas o Bases de Datos OPERACIONALES..
Características principales:
•
•
•
•
•
Sólo se accesa de Lectura.
No permite actualización de datos, sólo adiciones
Integra datos de diversas aplicaciones.
Almacena Datos antiguos y actuales.
Almacena Datos de resumen en diferentes
grados.
• Permite consultas complejas no predefinidas.
12
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Sistemas Operacionales y Data Warehouses
Bases de Datos de
Sistemas Operacionales
Consultas de Usuarios
Finanzas
ETLs
Ventas
Procesos de
Extracción,
Transformación y
Carga
BD Data
Warehouse
Plataforma de
Data Warehouse
Contabilid
ad
Producció
n
13
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Sistemas Operacionales y Data Warehouses
Análisis en Línea (OLAP)
Los Sistemas o plataformas con tecnología de Data Warehouse deben soportar requerimientos de
análisis complejos con grandes volúmenes , analizando los datos desde diferentes perspectivas.
A este análisis se le conoce como Análisis OLAP (On Line Analytical Process) el cual se realiza con
herramientas o sistemas OLAP.
Características Principales
• Consultas (análisis) no planeadas o predefinidas.
• Es un análisis multidimensional.
• Rotación (Swap). Cambiar filas por columnas, permutar dos
dimensiones.
• Bajar (Drilldown) . Permite bajar de nivel de visualización en el
detalle de los datos.
• Expandir (Expand) y Colapsar (Collapse) de niveles sin perder el
posicionamiento..
14
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Sistemas Operacionales y Data Warehouses
Inteligencia de Negocios (BI)
Los Sistemas Data Warehouse son parte de una plataforma o conceptos a un nivel mayor llamado
Inteligencia de Negocios o Business Intelligence abreviado BI.
La plataforma BI
•
•
•
•
•
•
•
•
•
•
Data Warehouses
Data Marts
DBMS de Base de Datos Relacional
DBMS de Base de Datos y herramientas de análisis OLAP.
Herramientas de transformación y Limpieza de datos.
Herramientas de Reportes.
Herramientas de visualización de datos
Herramientas de Minería de Datos
Scorecards y dashboards.
Hojas de cálculo
15
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Sistemas Operacionales y Data Warehouses
Los Sistema Operacionales
Procesan información de Aplicaciones o Funciones por separado.
Ejemplos: Sistema de Nómina, Sistema de Inventarios, Sistema de Contabilidad, Sistema de
Producción, Sistema de Control de Proyectos, etc.
Características Generales
• Están hechos para soportar la operación de las empresas en sus
diferentes funciones y/o procesos.
• Orientados a la actualización de sus datos.
• También se les conoce como Sistemas de Transacciones.
• Manejan datos con todo el detalle para validar y hacer todos los
cálculos que sean requeridos.
• Muchos de estos sistemas no están implementados con Bases de
Datos, utilizan Hojas de Cálculo (excel) o archivos independientes.
• Al estar como aplicaciones o sistemas independientes pueden
tener inconsistencia de información entre ellos.
• Son la principal fuente para alimentar datos al Data Warehouse.
16
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Sistemas Operacionales
Sistemas Operacionales y Data Warehouses
Data Warehouse
Muchos usuarios concurrentes
Pocos usuarios concurrentes
Consultas predefinibles y
actualizables
Consultas complejas,
usualmente no predefinidas
Volumen pequeño de datos en
detalle
Volumen grande de datos en
detalle
Requerimientos de respuesta
inmediata
Requerimientos de respuesta
no críticos
Datos Detallados
Datos Detallados + Resumen
Datos cambian continuamente
Datos Estables, no cambian,
sólo hay adiciones
Datos Operacionales
Datos del negocio para toma
de decisiones.
17
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Bases de Datos
¿ Qué es una Base de Datos ?
En el contexto de Informática.
Una Base de Datos o Banco de Datos es un
conjunto de datos que pertenecen a un mismo
contexto y que están organizados en archivos
digitales o tablas que permiten su uso con las
siguientes características principales:
• Acceso concurrente a los registros para “n”
usuarios, controlando actualizaciones.
• Mecanismos de protección para los datos con
procesos de respaldos automáticos o
manuales.
• Registro de bitácoras de modificaciones.
• Mecanismos de validación de población,
verificando existencia de valores de datos en
tablas dependientes.
• Mecanismos o facilidades para consultar
registros de diferentes tablas.
Empresas
Deptos
Proyectos
Empleados
Servicios
Clientes
18
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Bases de Datos
Sistemas Gestores de Bases de Datos
Una Base de Datos es administrada o manejada por programas (software) denominados DBMS Data
Base Management System o en español SGBD Sistema gestor de Base de Datos quien se encarga
de realizar o proporcionar las características descritas.
DBMS más utilizados:
• ORACLE
¿ Excel es un DBMS ?
• MS SQL SERVER
• DB2
• INFORMIX
• PROGRESS
• MS ACCESS
19
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Bases de Datos
Tipos de Bases de Datos
Bases de Datos Jerárquicas
Bases de Datos de Relacionales
Almacenan la información en una estructura jerárquica que enlaza
los registros en forma de Estructura de Árbol (similar a un árbol
visto al revés), en donde un nodo padre de información puede tener
varios nodos hijo.
Este es el modelo más usado.,
Basado fundamentalmente en relaciones de conjuntos
de datos. El diseño de sus estructuras conlleva un
proceso llamado “Normalización”.
Bases de Datos de Red
Bases de Datos de Multidimensionales
En este modelo se permite que un registro (nodo) tenga
varios padres.
Se utilizan para aplicaciones OLAP.
En sus estructuras no se diferencian demasiado de las
bases de datos relacionales, la diferencia es más de tipo
conceptual en donde los campos o atributos de una tabla
pueden representar una dimensión o una métrica.
Bases de Datos de Orientadas a Objetos
Es un modelo reciente que incluye todos los conceptos
del análisis y programación orientada a objetos como
Encapsulación, Herencia y Polimorfismo.
20
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Modelo Relacional
¿ Qué es una Base de Datos Relacional
Es un conjunto de una o más tablas estructuradas en registros (líneas o filas) y campos (columnas),
que se vinculan entre sí por un campo en común.
Empresas
Num_Empresa
Departamentos
Nombre
Num_Depto
Empleados
Giro
Nombre
Num_Empleado
Presupuesto
Presupuesto
Nombre
Num_Empresa
Sexo
Num_Depto
Sueldo Mens
Un buen diseño, con realidades correctas, representa gran parte del
éxito de los Desarrollos de Sistemas.
21
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Modelo Relacional
Características Generales
•
•
•
•
•
•
•
•
•
•
Postuladas por E.F. Codd en 1970.
Es el modelo más utilizado.
Con él se pueden representar Estructuras Jerárquicas o de Red.
Mantiene una redundancia mínima controlada.
Se le conoce también como el modelo de Entidad-Relación.
Su diseño conlleva un proceso llamado “Normalización”.
Soportada con un modelo matemático: “Algebra Relacional”
Presenta un modelo flexible con independencia de información.
Las Relaciones o vínculos permiten la Integridad Referencial
Para las consultas y actualizaciones emplea el lenguaje SQL
Su Estructura
• Cada fila contiene un registro o “tupla”
• Cada columna representa un campo o atributo de la entidad.
• Cada registro debe tener al menos un campo cuyo valor sea único.
A este campo se le llama Llave Primaria y sirve para identificar a
cada registro.
22
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Modelo Multidimensional
¿ Qué es una Base de Datos Multidimensional ?
Es un conjunto de tablas organizadas con dos tipos de tablas, las que representan Métricas (hechos)
y las que representan Dimensiones, siendo éstas últimas las que permiten seleccionar o localizar los
registros requeridos de las Métricas por diferentes condiciones o datos de las dimensiones.
Dimensión
Tiempo
Dimensión
Tiienda
(Lugar)
Id_Tiempo
Fecha
aaaamm
Id_Tiienda
Clave de
Tienda
Año
Estado
Mes
Región
Trimestre
Semestre
Métrica: Venta de
Productos
Ciudad
Id_Tiempo
Pais
Id_Tienda
Id_Producto
Cantidad
Id_Producto
Importe
Dimensión
Producto
Diseño en Estrella
Clave de
Producto
Nombre
Tipo
Color
23
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México
1. Introducción
Modelo Multidimensional
Características Generales
•
•
•
•
•
•
Postuladas por I. Inmom y R. Kimbal desde 1992.
Es el modelo que utilizan los Data Warehouse
Permite el análisis OLAP.
No difieren mucho del modelo relacional.
Se permite cierta redundancia y la desnormalización.
Se maneja el concepto “Cubo” que puede ser de 3 dimensiones o
más.
Lugar
(Tiendas)
Tiempo
Ventas
Su Estructura
• Hay dos tipos de tablas. Métricas (facts) y Dimensiones.
• Con el esquema Estrella se tiene la tabla de Métrica al centro y
alrededor de ella en forma radial están las dimensiones.
• La llave primaria de la tabla central se conforma de la
concatenación de Identificadores de las dimensiones..
• Cada grupo de una tabla de Métrica y sus tablas de dimensiones
se le llama cubo y puede tener “n” dimensiones.
24
© Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México

Documentos relacionados