1 Introducción Objetivos
Transcripción
1 Introducción Objetivos
Diplomado en Minería de Datos para la Toma de Decisiones Modulo II Data Warehouse y OLAP 1 Introducción. 2 Arquitectura del Data Warehouse. 3 Construcción e Implementación de un Data Warehouse Autor: Ing. Eugenio Lojero Alvarado 1 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México Diplomado en Minería de Datos para la Toma de Decisiones Modulo II Data Warehouse y OLAP 1 Introducción 1.1 Historia de las Computadoras . 1.2 Historia de la Ingeniería de Software. 1.3 Sistemas Operacinales y DataWarehouses. 1.4 Bases de Datos. 1.5 Modelo Relacional. 1.6 Modelo Multidimensional. Objetivos • Conocer en forma general la historia de la computación y de la Ingeniería del Software lo cual permitirá reconocer su evolución y “el por qué” de las problemas en los desarrollos de sistemas Operacionales y Data Warehouses. • Reconocer a la Minería de Datos como parte de los conceptos de la Inteligencia de Negocios o BI (Bussines Intelligence) • Conocer e identificar las diferencias de los sistemas Operacionales y de los Datawarehouses. • Identificar las características y tipos de Bases de Datos. • Identificar las características de los análisis OLAP. 2 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Historia de las Computadoras Primeras Máquinas de Cálculo 3000 A.C. El Abaco • AL parecer su origen es en China. • Hay variantes utilizadas por diversas culturas entre ellas los Mayas. 1622 Regla de Cálculo Diseñada por el matemático Inglés William Oughtred. • Se utilizó hasta la década de 1970. 3 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Historia de las Computadoras Calculadoras Mecánicas 1642 1671 1801 1822 Calculadora Mecánica de Blaise Pascal • Sumadora con mecanismos de ruedas y engranes. Calculadora Universal de Leibniz •Realizaba sumas, restas, divisiones y raíces cuadradas. Primera Tarjeta Perforada J. Marie Jacquard • Usada en un telar que podía reproducir patrones de tejidos.. Máquina de Diferencias de Babagge. • Capaz de calcular tablas matemáticas de hasta veinte cifras con ocho decimales y polinomios de sexto grado.. 1834 • • • • • Máquina Analítica de Babagge Máquina de propósito general. Programación mediante fichas perforadas. Incluye ya los elementos de los ordenadores modernos. En 1843 J.M. Jacquard sugiere adaptar las tarjetas perforadas. Se considera una de las primeras computadoras.. 1900s Aparecen gran variedad. Que se utilizaron hasta los años 1960s. 4 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Historia de las Computadoras Calculadoras Electromecánicas 1890 Tabuladora de Holllerith. • Compuesta por un lector de tarjetas, un contador, un clasificador y un aparato de tabular. • Se utilizó en el censo de USA de 1890 empleando un tiempo de 3 años , sin la máquina se estimaban 10 años para obtener los resultados. • Fue la primera calculadora electromecánica. 1930s-1960s Aparecen gran cantidad de calculadoras mecánicas que fueron rediseñadas para usar motores eléctricos.. 5 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Historia de las Computadoras Primeras Computadoras 1939 Computadora ABC ( Atanasoff Berry Computer ) • Construida por John V. Atanasoff catedrático de la Universidad de Iowa y por Cifford Edward Berry estudiante graduado de física. • Considerada como la primera computadora digital. 1944 Mark-I • Construida por Howard H. Aiken de la Universidad de Harvard con la colaboración de IBM. • Máquina automática con componentes electromecánicos. • Podía realizar 5 operaciones: suma, resta, multiplicación, división y referencia a resultados anteriores. 1946 ENIAC (Electronic Numerical Integrator And Computer ) • Diseñada por W. Mauchly y John Presper Eckert en la Universidad de Pennsylvania. • Pesaba 30 toneladas con 18000 bulbos y ocupaba 450 m2. • Se programaba mediante 3 tableros con 6000 interruptores. • Operaba con sistema decimal. 6 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Historia de las Computadoras Generaciones de Computadoras 1951-1958 Primera Generación •De bulbos con tarjetas perforadas. •Programadas con lenguaje máquina. •UNIVAC, utilizada en censo de USA de 1950. •Fabricantes: HonyWell, Burroughs, UNIVAC, NCR, CDC, IBM 1959-1964 Segunda Generación •De Transistores. •Memorias de núcleos magnéticos. •Lenguajes ensambladores. •Lenguajes de alto nivel como fortran 1954 y cobol 1959. •Minicomputadoras. 1964-1971 Tercera Generación •De Circuitos Integrados. •Memorias RAM y ROM. •IBM 360, CDC 6400. •Minicomputadoras tuvieron su auge mayor entre 1960 y 1970. 1971- Cuarta Generación •De Microprocesadores – Chips •Discos duros magnéticos. •Apple 1 en 1976, Apple III en 1980. •IBM-PC en 1981 con SO de Microsoft. 7 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Historia de la Ingeniería de Software Ingeniería de Software Hay quienes opinan que debería decirse Ingeniería de Desarrollo de Sistemas • Es la aplicación práctica del conocimiento científico al diseño, construcción, documentación, operación y mantenimiento de programas de computadora. • Es el estudio y aplicación de Modelos y Metodologías para el Desarrollo de Sistemas con calidad y en tiempo. Software Es todo el conjunto de programas o elementos “Lógicos” de una Computadora diferenciándose de todos los elementos físicos o “Hardware. La problemática del desarrollo da inicio a la Ingeniería de Software. • • • • • Retrasos considerables en los desarrollos. Poca productividad. Baja calidad y fiabilidad. Mantenimiento excesivo. Alta dependencia de los constructores. En la primera conferencia en 1968 organizada por la OTAN sobre desarrollo de software se usaron por primera vez los términos de “Ingeniería del Software” y “Crisis del Software” 8 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Historia de la Ingeniería de Software Ingeniería de Software 1945-1955 • Lenguajes de máquina y ensamblador. • Programar no es una tarea diferenciada del diseño de una máquina. 1955-1970 • • • • • Aparecen multitud de lenguajes Todo es posible. Se desarrollan grandes programas. Inicio de la Crisis del Software. Inicia la Ingeniería del Software. 1970-1980 • Innovación Conceptual. • Programación Estructurada • Metodologías de Análisis y Diseño Estructurados. • Bases de Datos. 1990-2000 • • • • • Nace la WWW (Internet) Metodologías Orientadas a Objetos. Primeras Aplicaciones de BI Minería de Datos Inteligente Los sistemas continúan aumentando su complejidad. • Las metodologías continúan evolucionando. 2000 a la Fecha • Consolidación de las plataformas de BI • Metodologías Orientadas a Objetos. • Los sistemas continúan aumentando su complejidad. • Las metodologías continúan evolucionando. • Las computadoras siguen evolucionando y cada día con mayor capacidad y potencia. 1980-1990 • • • • • Los sistemas aumentan mucho su complejidad. Conceptos de Datawarehouse Conceptos de Minería de Datos Nacen las redes. Tecnología CASE 9 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Modelos y Metodologías Historia de la Ingeniería de Software 1968 Conceptos de la programación Estructurada. 1974 Diseño Estructurado y fundamentos de programación 1974 Técnicas de Programación Estructurada. 1975 SADT Análisis Estructurado y Técnica de Desarrollo 1975 Primeros conceptos sobre Diseño Estructurado. 1976 Modelo Entidad-Relación para estructuras de datos 1977 Método basado en Estructuras de Datos 1978 SASS Análisis estructurado y Especificación de Sistemas 1979 Análisis Estructurado de Sistemas. 1979 NIAM Análisis de Información 1980 Diseño Estructurado de Sistemas 1981 Ingeniería de Software (orientado a datos y CASE) 1985 Análisis y diseño estructurado para Sistemas de tiempo real 1989 Tarjetas de Clase Responsabilidad 1991 Análisis orientado a objetos 1992 OMT Técnica de Modelado de Objetos 1992 Data WareHousing and Business Inteligence 1992 Building the Data Warehouse 1994 Método Orientado a Objetos 1994 OOSE Ingeniería del Software Orientada a Objetos 1996 Métodos Orientados a Objetos 1997 UML Unified Model Language versión 0.8 Jacobson 1997 UML Unified Model Language version 1.1 2004 UML Unified Model Language versión 2.0 Dijkstra. (sin GoTo) Constantine - Myers Jackson. Ross - Schoman Myers y Yourdon Chen Warnier - Orr Tom de Marco Gane y Sarson Nijssen Page - Jones Martin - Finklestein Wardy y Mellor Beck y Cunningham Coad-Yourdon Rumbaugh Ralph Kimball Bill Inmon Booch Jacobson Martin – Odell Booch-RumbaughGrupo OMG Grupo OMG 10 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Historia de la Ingeniería de Software Edward Yourdon Modelos y Metodologías Es uno de los principales responsables de la evolución y difusión de los métodos Estructurados en los inicios de las metodologías, Trabajaron con él Tom de Marco, Larry Constantine, Ken-Orr, ChrisGane, Trish Sarson, Paul Ward, Stephen Mellor. Grady Book, Ivar Jacobson y James Rumbaugh Principales responsables de la evolución e integración de los métodos Orientados a Objetos con el modelo unificado UML Bill Inmon y Ralph Kimball Trabajando por separado, principales responsables de la evolución de los conceptos de Data Warehouse e Inteligencia de Negocios (BI) 11 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Sistemas Operacionales y Data Warehouses ¿ Qué es una Data Warehouse ? En el contexto de Informática. Es una Base de Datos usada por Gerentes y Directivos para Procesos de elaboración de Reportes, Análisis en Línea (OLAP) y Minería de Datos. Los Datos que se almacenan en ella provienen de Sistemas o Bases de Datos OPERACIONALES.. Características principales: • • • • • Sólo se accesa de Lectura. No permite actualización de datos, sólo adiciones Integra datos de diversas aplicaciones. Almacena Datos antiguos y actuales. Almacena Datos de resumen en diferentes grados. • Permite consultas complejas no predefinidas. 12 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Sistemas Operacionales y Data Warehouses Bases de Datos de Sistemas Operacionales Consultas de Usuarios Finanzas ETLs Ventas Procesos de Extracción, Transformación y Carga BD Data Warehouse Plataforma de Data Warehouse Contabilid ad Producció n 13 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Sistemas Operacionales y Data Warehouses Análisis en Línea (OLAP) Los Sistemas o plataformas con tecnología de Data Warehouse deben soportar requerimientos de análisis complejos con grandes volúmenes , analizando los datos desde diferentes perspectivas. A este análisis se le conoce como Análisis OLAP (On Line Analytical Process) el cual se realiza con herramientas o sistemas OLAP. Características Principales • Consultas (análisis) no planeadas o predefinidas. • Es un análisis multidimensional. • Rotación (Swap). Cambiar filas por columnas, permutar dos dimensiones. • Bajar (Drilldown) . Permite bajar de nivel de visualización en el detalle de los datos. • Expandir (Expand) y Colapsar (Collapse) de niveles sin perder el posicionamiento.. 14 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Sistemas Operacionales y Data Warehouses Inteligencia de Negocios (BI) Los Sistemas Data Warehouse son parte de una plataforma o conceptos a un nivel mayor llamado Inteligencia de Negocios o Business Intelligence abreviado BI. La plataforma BI • • • • • • • • • • Data Warehouses Data Marts DBMS de Base de Datos Relacional DBMS de Base de Datos y herramientas de análisis OLAP. Herramientas de transformación y Limpieza de datos. Herramientas de Reportes. Herramientas de visualización de datos Herramientas de Minería de Datos Scorecards y dashboards. Hojas de cálculo 15 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Sistemas Operacionales y Data Warehouses Los Sistema Operacionales Procesan información de Aplicaciones o Funciones por separado. Ejemplos: Sistema de Nómina, Sistema de Inventarios, Sistema de Contabilidad, Sistema de Producción, Sistema de Control de Proyectos, etc. Características Generales • Están hechos para soportar la operación de las empresas en sus diferentes funciones y/o procesos. • Orientados a la actualización de sus datos. • También se les conoce como Sistemas de Transacciones. • Manejan datos con todo el detalle para validar y hacer todos los cálculos que sean requeridos. • Muchos de estos sistemas no están implementados con Bases de Datos, utilizan Hojas de Cálculo (excel) o archivos independientes. • Al estar como aplicaciones o sistemas independientes pueden tener inconsistencia de información entre ellos. • Son la principal fuente para alimentar datos al Data Warehouse. 16 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Sistemas Operacionales Sistemas Operacionales y Data Warehouses Data Warehouse Muchos usuarios concurrentes Pocos usuarios concurrentes Consultas predefinibles y actualizables Consultas complejas, usualmente no predefinidas Volumen pequeño de datos en detalle Volumen grande de datos en detalle Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos Datos Detallados Datos Detallados + Resumen Datos cambian continuamente Datos Estables, no cambian, sólo hay adiciones Datos Operacionales Datos del negocio para toma de decisiones. 17 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Bases de Datos ¿ Qué es una Base de Datos ? En el contexto de Informática. Una Base de Datos o Banco de Datos es un conjunto de datos que pertenecen a un mismo contexto y que están organizados en archivos digitales o tablas que permiten su uso con las siguientes características principales: • Acceso concurrente a los registros para “n” usuarios, controlando actualizaciones. • Mecanismos de protección para los datos con procesos de respaldos automáticos o manuales. • Registro de bitácoras de modificaciones. • Mecanismos de validación de población, verificando existencia de valores de datos en tablas dependientes. • Mecanismos o facilidades para consultar registros de diferentes tablas. Empresas Deptos Proyectos Empleados Servicios Clientes 18 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Bases de Datos Sistemas Gestores de Bases de Datos Una Base de Datos es administrada o manejada por programas (software) denominados DBMS Data Base Management System o en español SGBD Sistema gestor de Base de Datos quien se encarga de realizar o proporcionar las características descritas. DBMS más utilizados: • ORACLE ¿ Excel es un DBMS ? • MS SQL SERVER • DB2 • INFORMIX • PROGRESS • MS ACCESS 19 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Bases de Datos Tipos de Bases de Datos Bases de Datos Jerárquicas Bases de Datos de Relacionales Almacenan la información en una estructura jerárquica que enlaza los registros en forma de Estructura de Árbol (similar a un árbol visto al revés), en donde un nodo padre de información puede tener varios nodos hijo. Este es el modelo más usado., Basado fundamentalmente en relaciones de conjuntos de datos. El diseño de sus estructuras conlleva un proceso llamado “Normalización”. Bases de Datos de Red Bases de Datos de Multidimensionales En este modelo se permite que un registro (nodo) tenga varios padres. Se utilizan para aplicaciones OLAP. En sus estructuras no se diferencian demasiado de las bases de datos relacionales, la diferencia es más de tipo conceptual en donde los campos o atributos de una tabla pueden representar una dimensión o una métrica. Bases de Datos de Orientadas a Objetos Es un modelo reciente que incluye todos los conceptos del análisis y programación orientada a objetos como Encapsulación, Herencia y Polimorfismo. 20 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Modelo Relacional ¿ Qué es una Base de Datos Relacional Es un conjunto de una o más tablas estructuradas en registros (líneas o filas) y campos (columnas), que se vinculan entre sí por un campo en común. Empresas Num_Empresa Departamentos Nombre Num_Depto Empleados Giro Nombre Num_Empleado Presupuesto Presupuesto Nombre Num_Empresa Sexo Num_Depto Sueldo Mens Un buen diseño, con realidades correctas, representa gran parte del éxito de los Desarrollos de Sistemas. 21 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Modelo Relacional Características Generales • • • • • • • • • • Postuladas por E.F. Codd en 1970. Es el modelo más utilizado. Con él se pueden representar Estructuras Jerárquicas o de Red. Mantiene una redundancia mínima controlada. Se le conoce también como el modelo de Entidad-Relación. Su diseño conlleva un proceso llamado “Normalización”. Soportada con un modelo matemático: “Algebra Relacional” Presenta un modelo flexible con independencia de información. Las Relaciones o vínculos permiten la Integridad Referencial Para las consultas y actualizaciones emplea el lenguaje SQL Su Estructura • Cada fila contiene un registro o “tupla” • Cada columna representa un campo o atributo de la entidad. • Cada registro debe tener al menos un campo cuyo valor sea único. A este campo se le llama Llave Primaria y sirve para identificar a cada registro. 22 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Modelo Multidimensional ¿ Qué es una Base de Datos Multidimensional ? Es un conjunto de tablas organizadas con dos tipos de tablas, las que representan Métricas (hechos) y las que representan Dimensiones, siendo éstas últimas las que permiten seleccionar o localizar los registros requeridos de las Métricas por diferentes condiciones o datos de las dimensiones. Dimensión Tiempo Dimensión Tiienda (Lugar) Id_Tiempo Fecha aaaamm Id_Tiienda Clave de Tienda Año Estado Mes Región Trimestre Semestre Métrica: Venta de Productos Ciudad Id_Tiempo Pais Id_Tienda Id_Producto Cantidad Id_Producto Importe Dimensión Producto Diseño en Estrella Clave de Producto Nombre Tipo Color 23 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México 1. Introducción Modelo Multidimensional Características Generales • • • • • • Postuladas por I. Inmom y R. Kimbal desde 1992. Es el modelo que utilizan los Data Warehouse Permite el análisis OLAP. No difieren mucho del modelo relacional. Se permite cierta redundancia y la desnormalización. Se maneja el concepto “Cubo” que puede ser de 3 dimensiones o más. Lugar (Tiendas) Tiempo Ventas Su Estructura • Hay dos tipos de tablas. Métricas (facts) y Dimensiones. • Con el esquema Estrella se tiene la tabla de Métrica al centro y alrededor de ella en forma radial están las dimensiones. • La llave primaria de la tabla central se conforma de la concatenación de Identificadores de las dimensiones.. • Cada grupo de una tabla de Métrica y sus tablas de dimensiones se le llama cubo y puede tener “n” dimensiones. 24 © Derechos reservados. Prohibida su reproducción por cualquier medio sin autorización de la Universidad Nacional Autónoma de México