Mejores Prácticas de DataWarehouse con SQL Server

Transcripción

Mejores Prácticas de DataWarehouse con SQL Server
Mejores Prácticas de
DataWarehouse con SQL Server
Casos de referencia
Ing. Eduardo Castro, PhD
Speaker Bio
PASS Board of Directors – LATAM Advisor
PASS Regional Mentor for LATAM
Microsoft SQL Server MVP
Picture Here
ecastrom
edocastro
eduardocastrom
2
Derechos de autor
Este presentación contiene información parcial de las siguientes fuentes
• Prácticas reales: la escala del rendimiento MICROSOFT SQL Server 2008 Analysis SERVICIOS EN MICROSOFT ADCENTER
• DBI407 Mejor Prácticas para la construcción 1 empresas soluciones de inteligencia empresarial de nivel con el análisis de Microsoft SQL Server Servicios,
Adán Jorgensen
• El diseño escalable y complejo Cubos servicio de análisis, Denny Lee, Thomas Kejser
• http://msdn.microsoft.com/en-us/library/dd758814 (v = SQL.100).aspx
• http://technet.microsoft.com/en-us/library/cc966414.aspx
• Almacenamiento de datos moderno, Minería y Visualización: Core Conceptos por George M. Marakas
• Data Warehousing Diez Común Los errores de Jon C. Choe
3
Data Warehouse: Una arquitectura de varios niveles
Otras
fuentes
Operacional
DBs
Metadatos
Extraer
Transformar
Cargar
Refrescar
Controlar
Y
Integrador
OLAP Server
Servir
Datos
Almacén
Análisis
Pregunta
Informes
La minería
de datos
Data Marts
Fuentes de datos
Almacenamiento de Datos
OLAP Engine
4
Herramientas de
aplicaciones para usuario
Arquitecturas OLAP Server
OLAP relacional (ROLAP)
 Utilice relacional o relacional ampliada DBMS para almacenar y gestionar datos de
almacenes y OLAP media de consumo
 Incluya optimización de DBMS backend, la implementación de la lógica de navegación
agregación y herramientas y servicios adicionales
 Mayor escalabilidad
OLAP multidimensional (MOLAP)
 Escaso motor de almacenamiento multidimensional basada en arreglos
 Indexación rápida a los datos resumidos previamente calculados
OLAP híbrido (HOLAP) (Por ejemplo, Microsoft SQL Server)
 La flexibilidad, por ejemplo, el bajo nivel: relacional de alto nivel: array
5
Uso de almacenamiento de datos
Tres tipos de aplicaciones de almacenamiento de datos
 Tratamiento de la información
 apoya la consulta, el análisis estadístico básico, y la presentación de informes con tablas de
referencias cruzadas, tablas, cuadros y gráficos
 Procesamiento analítico
 análisis multidimensional de datos de almacenamiento de datos
 apoya las operaciones básicas de OLAP, rebanada-dados, perforación, pivotantes
 La minería de datos
 descubrimiento de conocimiento a partir de patrones ocultos
 apoya las asociaciones, la construcción de modelos analíticos, realizar la clasificación y
predicción, y la presentación de los resultados de minería de datos utilizando herramientas
de visualización
6
DW Arquitectura Áreas Componente Clave
Arquitectura de datos - cada área en un negocio se basa en diferentes
dimensiones. Donde se cruzan es necesario definir el mismo (el cliente que
compra es el mismo proyecto).
Arquitectura Infraestructura - cuestiones de tamaño, la escalabilidad y la
capacidad deben ser diseñados y dimensionados.
Arquitectura técnica - Este es impulsado por el catálogo de metadatos. Los
servicios deben elaborar los parámetros de las tablas.
http://courseware.finntrack.eu/it/data/marakas_dw_ch6.ppt
7
Variedad de datos
Archivos de Hadoop (almacenamiento no relacional)



8
El almacén de datos tradicional
2
1
Volumenes de
datos
creciente
Las fuentes de datos
9
3
Datos en
tiempo
real
Nuevo datos
fuentes y tipos
Inclusión de datos no tradicionales
2
3
1
Volumenes de
datos
creciente
Las fuentes de datos
10
Datos en
tiempo
real
Nuevo datos
fuentes y tipos
Los datos no relacionales
El almacén de datos moderna

Los datos no relacionales
Las fuentes de datos
11
Big Data + BI tradicional = Nuevo Enfoque de Análisis
010101010101010101
1010101010101010
01010101010101
101010101010
Hadoop
NoSQL
Tabular
OLAP
SQL
grandes
cantidades
de datos
Polibase
12
Visualización
Best Practice # 1
Usar un modelo de datos que se ha optimizado para la recuperación de la
información
 Modelo tridimensional
 Sin normalizar
 Enfoque híbrido
13
Best Practice # 2
Diseñar cuidadosamente la adquisición de datos y procesos de limpieza para
su DW
 Asegurar que los datos se procesan de manera eficiente y precisa
 Considere la adquisición de ETL y herramientas de limpieza de datos
 Úsalos bien!
14
Best Practice # 3
Diseñar una arquitectura de metadatos que permite el intercambio de
metadatos entre los componentes de su DW
 Considerar los estándares de metadatos como Metamodelo Cómun de Datos de OMG
(CWM)
15
Diseñar el bus del Datawarehouse
Determinar qué dimensiones serán compartidos a través de
múltiples data marts
Conformar las dimensiones compartidas
 Producir una suite principal de dimensiones compartidas
Determinar qué hechos serán compartidos a través de mercados de
datos
Conformar los hechos
 Estandarizar las definiciones de los hechos
Más información en http://www.slideshare.net/ecastrom/arquitecura-de-bodega-de-datos del 2013
16
Best Practice # 4
Adoptar un enfoque que consolida los datos en "una sola versión de la
verdad"
 Data Warehouse Bus de Kimball
 Dimensiones y Hechos
Más información en http://www.slideshare.net/ecastrom/arquitecura-de-bodega-de-datos del 2013
17
Best Practice # 5
Considere la posibilidad de la aplicación de un ODS sólo cuando
los requisitos de recuperación de información están cerca de la
parte inferior de la pirámide de la abstracción de datos y / o cuando
hay múltiples fuentes operativas que necesitan ser consideradas
 Debe asegurarse que el modelo de datos está integrado, no sólo
consolidada
 Se puede considerar modelo de datos 3NF
 Evite a toda costa un “volcado de datos”
18
Best Practice # 6
Crear un plan de capacidad para su aplicación BI y monitorear
cuidadosamente
Considere la posibilidad de futuras demandas adicionales de
rendimiento
 Establecer consultas de referencia de rendimiento estándar y ejecutar
regularmente tareas de comparación de rendimiento
 Implementar herramientas de control de capacidad
 Construir escalabilidad en su arquitectura
 Puede ser necesario para permitir escalar hacia arriba y hacia fuera!
19
El aumento Requisitos de hardware
El uso de SSD
Tamaño de bloque
ROLAP
20
DBI407 Mejores prácticas para la construcción 1 empresas soluciones de inteligencia empresarial de nivel con
Microsoft SQL Server Analysis Services, Adam Jorgensen
Uso de particionamiento para DW
1 Partition per Day
31 Partitions, 1 Month of Data
Facts Database
Current Day Partition
ALTER PARTITION FUNCTION PerDay ()
SPLIT RANGE(CAST(CONVERT(varchar, GETDATE()+1, 112) AS int))
0
1
2
3
4
5
6
7
8
9
10 11
12 13 14 15 16 17 18 19 20 21 22 23
8 Parallel Partition
Processing Jobs
Cube
Current Day Partition Set
...
WHERE [date] = CAST(CONVERT(varchar, GETDATE(), 112) AS int)
AND [hour] IN (0, 11, 17)
0
11
17
1
14
18
2
5
22
3
12
21
4
13
19
6
15
23
7
9
20
8
10
16
8 Evenly Distributed Partitions per Day
3120 Partitions, 13 Months of Data
21
DBI407 Mejores prácticas para la construcción 1 empresas soluciones de inteligencia empresarial de nivel con
Microsoft SQL Server Analysis Services, Adam Jorgensen
Concurrencia mejorar desempeño multiusuario
Escalar Analysis Services: Sólo Lectura
Diseñar los cubos servicio de análisis escalables y complejas, Denny Lee, Thomas Kejser
22
Estudio de caso - AdCenter
EMC DMX V-Max para manejar la E / S




V-Max son dedicados a la aplicación
Cientos de discos y ejes dedicados a este proceso
Discos para asegurarse rápido de E / S
Trabaja en estrecha colaboración con EMC directamente (presente en el EMC
World regularmente)
 Pruebas con EMC EFDs (Enterprise Flash Drives)
 Equipo de Ingeniería de Sistemas dedicado al proceso de DW
 Trabajar en estrecha colaboración con varios proveedores (EMC, HDS, etc)
 Referencias
 Acelerar Microsoft adCenter con Microsoft SQL Server 2008 Analysis Services.
 PRÁCTICAS REALES: prestaciones de escalado de Microsoft adCenter con Microsoft SQL Server
2008 Analysis Services de EMC VMAX
23
Cubo adCenter
PRÁCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
24
EMC Symmetrix VMAX
Cada servidor está conectado a una EMC Symmetrix VMAX a través de bus
con doble adaptadores
El servidor utiliza un volumen de 3 TB organizado en 80 400 GB 10000 rpm
Fibra Discos de canal en una configuración duplicada y rayas (RAID 1 + 0).
Cada 24 horas el volumen replica los cambios en un volumen de informes 3 TB
hecho por nueve EFDs 400 GB configurado en una configuración de paridad
distribuida (RAID 5)
PRÁCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
25
Carga de datos diaria
Cada trimestre una operación de ProcessUpdate se utiliza para actualizar
dimensión datos
PRÁCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
26
Consulta de datos
PRÁCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
27
Administración
La actualización de datos del cubo multidimensional del servidor de
procesamiento soporta las tareas de carga de datos (carga de datos de los
datos relacionales) y el procesamiento del cubo
PRÁCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
28
Actualización diaria de datos
PRÁCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
29
Montaje diario por medio de clonar cubos
PRÁCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
30
Centro de Producción adCenter
adCenter Production Environment
OLAP Standby Server
Windows Server 2003 x64 SP2
SQL Server Analysis Services
64GB RAM, 8 Xeon procs (16 cores)
HBA A
HBA A
HBA B
HBA B
OLAP Processing Server
Staging Data Warehouse
Windows Server 2003 x64 SP2
SQL Server Analysis Services
64GB RAM, 8 Xeon procs (16 cores)
Windows Server 2003 x64 SP2
SQL Server Enterprise Edition
32 GB RAM, 8 Xeon procs (16 cores)
HBA
HBAAA
HBA
HBABB
HBA
HBAAA
Data Feeds
Windows Server 2003 x64 SP2
SQL Server Integration Services
Network Load Balancing
HBA
HBABB
Host Bus Adapters: 400 MB/sec each
SAN
Fabric B
SAN
Fabric A
Standby OLAP LUN
RAID 1
19200 Max Reads
9600 Max Writes
180 300GB 10K Drives
Storage Area Network
OLAP LUN
RAID 1
DW LUN
19200 Max Reads
9600 Max Writes
180 300GB 10K Drives
RAID 1
2560 Max Reads
2560 Max Writes
32 300GB 10K Drives
31
DBI407 Mejores prácticas para la construcción 1 empresas soluciones de inteligencia empresarial de nivel con
Microsoft SQL Server Analysis Services, Adam Jorgensen
ESTUDIO DE CASO: E & D
Xbox Live
Estrategia de Particiones
Uniformemente distribuida, continuo y no se solapan
Diseñar los cubos servicio de análisis escalables y complejas, Denny Lee, Thomas Kejser
33
Xbox Live - SSD Performance
3000
2500
Run Tme (seconds)
2000
1500
1000
500
0
Day
Week
Month
Quarter
7 months
Dev SSD
14
29
101
203
506
Dev HDD
14
29
104
610
1191
UAT SAN
9
73
445
1025
2800
V2 Cube, SSD
5
10
15
31
72
V2 Cube, HDD
5
7
30
244
540
Amount of Data
DBI407 Mejores
prácticas
parade
la análisis
construcción
1 empresas
soluciones Denny
de inteligencia
empresarial
de nivel con Microsoft SQL Server Analysis Services, Adam Jorgensen
Diseñar
los cubos
servicio
escalables
y complejas,
Lee, Thomas
Kejser
Concurrencia de consultas
Utilizar SSD para que cada servidor para manejar más consultas simultáneas
Diseñar los cubos servicio de análisis escalables y complejas, Denny Lee, Thomas Kejser
35
ESTUDIO DE CASO: YAHOO!
Cubo de 12 TB
Yahoo - Datos Masivos a gran escala
Oracle 10g
CDF
Archivo1
SSAS Cube Constructor
Partición 1
Partición 1
Partición 2
Partición 2
Partición N
Partición N
1.2TB/day
Archivo2
Filen
12 TB
cubo
NAS
50 GB /hr
Servidores de consultas SSAS
HW NLB
DBI407 Mejores prácticas para la construcción 1 empresas soluciones de inteligencia empresarial de nivel con Microsoft SQL Server Analysis Services, Adam Jorgensen
MOLAP conmutación En Acción
Idea básica:
 Utilizar MOLAP para los datos históricos
 Procesar últimas particiones MOLAP más a menudo
 Latencias típicas en minutos
Preocupaciones:
 Tiempo de procesamiento de las particiones actualizadas
 Manejo el bloqueo del proceso cuando necesite actualizar los datos
Diseñar los cubos servicio de análisis escalables y complejas, Denny Lee, Thomas Kejser
38
Particiones del cubo
Particiones tanto por el tiempo y región
Procesamiento completo se puede hacer en Particiones "activas"
Diseñar los cubos servicio de análisis escalables y complejas, Denny Lee, Thomas Kejser
39
Cube Flipping
Recall: Bloqueo nivel de servidor necesaria para realizar el proceso
Solución alternativa:
 Dos copias del cubo, por turnos
 “Intercambiar"entre ellos
Dos maneras de mover
 Utilice ASLB de CodePlex
 Excel Plug-in
40
Diseñar los cubos servicio de análisis escalables y complejas, Denny Lee, Thomas Kejser
41
Diseñar los cubos servicio de análisis escalables y complejas, Denny Lee, Thomas Kejser
42
Diseñar los cubos servicio de análisis escalables y complejas, Denny Lee, Thomas Kejser
43
Resumiendo
Usted tiene que conseguir el diseño correcto si desea escalar
El particionamiento es absolutamente fundamental
•
Partición de velocidad de procesamiento
•
Partición de latencia de los datos (en tiempo real frente a históricos)
•
Partición de archivos de datos antiguos
Hardware realmente importa para grandes cubos
•
Dispositivos SSD.
•
Las pruebas muestran dos CPU core con frecuencia puede soportar
cientos de usuarios
•
Con cuidado equilibrio IOPS frente memoria, considere parte más
utilizada del cubo
44
DBI407 Mejores prácticas para la construcción 1 empresas soluciones de inteligencia empresarial de nivel con
Microsoft SQL Server Analysis Services, Adam Jorgensen
DW Appliance
Aparatos DW, que consisten en paquetes de soluciones que
proporcionan todo el software y hardware necesario, están
empezando a ofrecer el precio / rendimiento muy prometedor
45
SQL Server Fast Track Reference Architecture
Fuente: http://www.emc.com/collateral/technical-documentation/h13566-data-warehouse-fast-track-ms-sql-2014.pdf
46
SQL Server Fast Track Reference Architecture
Fuente: http://www.emc.com/collateral/technical-documentation/h13566-data-warehouse-fast-track-ms-sql-2014.pdf
47
SQL Server Fast
Track Reference
Architecture
Fuente: http://www.emc.com/collateral/technicaldocumentation/h13566-data-warehouse-fast-trackms-sql-2014.pdf
48
Obstáculos para un almacén de datos moderna
Mantener la inversión
legado
Escalabilidad limitada y
capacidad de gestionar
nuevos tipos de datos
Adquirir Big Data
solución
Comprar nuevo nivel
uno dispositivo de
hardware
Alta adquisición y
costos de
migración
Entrenamiento
49
Adquirir la inteligencia
de negocios
Complejidad y
adopción
Introducción al sistema Microsoft Analytics Platform
Un moderno dispositivo de almacenamiento de datos llave en mano
• De datos relacionales y no
relacionales en un único
dispositivo
• Hadoop lista para la empresa
• Consultas integradas a través de
Hadoop y PDW utilizando T-SQL
• La integración directa con las
herramientas de BI de Microsoft,
como Microsoft Excel
• Cerca de rendimiento en tiempo
real con In-Memory Columnstore
• Precio de appliance de datos
más bajo por terabyte
• Capacidad de escalabilidad para
incluir cada vez mayor de datos
• Valor a través de una única
solución
• La eliminación del almacén de
datos cuellos de botella con MPP
SQL Server
• Valor con opciones de hardware
flexibles utilizando hardware
comercial
• Concurrencia que ayuda rápida
adopción
APS listo para la empresa Hadoop con HDInsight
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
SQL Server
Parallel Data
warehouse
Alto rendimiento y
sintonizado en el
hardware
Autenticación del
usuario final con
Active Directory
100-por ciento de
Apache Hadoop
Administrado y
monitoreado
utilizando System
Center
Polibase
Microsoft
HDInsight
Accesible ideas para
todo el mundo con las
herramientas de
Microsoft BI
Resumen hardware APS
Carga en paralelo de
depósito de datos
Cada carga de trabajo contiene los
siguientes límites:
Fabric
•
Seguridad
•
Medida
•
Prestación de servicios
Aparato
Una región es un contenedor lógico
dentro de un appliance
Hardware
HDInsight carga de trabajo
Conexión de islas de datos con polybase
Trayendo soluciones de punto de Hadoop y el almacén de datos junto a los usuarios y TI
Seleccionar
...
Microsoft Azure
HDInsight
Hortonworks para
Windows y Linux
Cloudera
Conjunto de
resultados
SQL Server
PDW
Proporciona un único Modelo de consulta T-SQL
para PDW y Hadoop con ricas características de TSQL, incluyendo joins sin ETL
Utiliza el poder del MPP para mejorar el
rendimiento de ejecución de consultas
Polybase
Microsoft
HDInsight
Compatible con Windows Azure HDInsight para
permitir escenarios híbrido de la nube
Ofrece la posibilidad de consultar las distribuciones
no Microsoft Hadoop, como Hortonworks y
Cloudera
Automatic MapReduce pushdown
Fuente sistemas
Analytics / Ad-hoc / Visualización
SQL Server
Data Marts
Hadoop / Data Lake
(Cloudera, Hortonworks,
HDInsight)
MapReduce
SQL Server
Parallel Data
Warehouse
T-SQL
SQL Server
Reporting Services
Polibase
Microsoft
HDInsight
APS
Actualizar Día / Hora / Minuto
SQL Server
Analysis Services
Concurrencia de datos
Gran rendimiento con cargas de trabajo mixtas
Analytics Platform System
ETL / ELT con SSIS, DQS, MDS
ERP
CRM
LOB
ETL / ELT con DWLoader
Intra-Day
CRTAS
APPS
SMP SQL Server
Linked Table
Casi en tiempo real
PDW
Real-Time
Presentación de informes y cubos
Almacén de columnas
ROLAP / MOLAP
DirectQuery
Hadoop / Big Data
Consultas ad hoc
Polibase
Polibase
Fast ad hoc
HDInsight
SNAC
Herramientas de BI
Hardware y software de ingeniería junto
Integrado apoyo
con un solo
contacto Microsoft
Co-dirigido con
HP, Dell, Quanta
y mejores
prácticas
Pre-configurado,
construido, y
ajustado
software y
hardware
Liderando el
rendimiento con
hardware
comercial
PDW
Polybase
HDInsight
Rack #2
Rack #1
Hardware architecture
InfiniBand
InfiniBand
InfiniBand
InfiniBand
Ethernet
Ethernet
Ethernet
HDI extension base
unit
Failover node
Networking
Ethernet
Control node
Failover node
PDW region
HST-01
Master node
HST-02
Failover node
Compute nodes
Economical disk storage
Compute nodes
HDI active scale
unit
Compute nodes
Economical disk storage
HSA-01
Economical disk storage
Economical
disk storage
HDInsight region
HST-02
Compute nodes
HDI active scale
unit
Economical disk storage
Active Unit
Dos nodos adicionales
Passive Unit
HDInsight
Failover Node
Alta Disponibilidad
Compute nodes
Compute nodes
Economical disk storage
IB and Ethernet
HDI extension base
unit
Economical disk storage
PDW region
SQL Data Warehouse
Data warehouse como servicio
Posee una arquitectura elástica con soporte a grandes cantidades de datos
Capacidad elástica
Soporte para grandes cargas de trabajo, ajustado para ciclo de procesamiento
Se compra tiempo de procesamiento según las necesidades
Portal de administración
SQL DW: Basado en SQL DB
SQL DW
Elastic, Petabyte Scale
DW Optimized
99.99% uptime SLA,
Geo-restore
Azure Compliance (ISO, HIPAA, EU, etc.)
SQL DB
Service Tiers
True SQL Server Experience;
Se utilizan las herramientas existentes
Datos no estructurados a través de Polybase/T-SQL
Cita:
************************
Consulta TSQL
**********************
*********************
**********************
***********************
servidor
SQL
Nombre
Jim Gray
Fecha de Estad
Nacimient o
11.13.58
Wash
o
Ann Smith
04.29.76
ingto
YO
n
Hadoop
$ 658.39
Unidad de almacenamiento de datos (TCU)
Medida de
Potencia
Transparencia
Bajo demanda
Basta con comprar el rendimiento de las consultas que necesita, no sólo el
hardware
Cuantificado por objetivos de carga de trabajo: cómo se escanean filas rápidas,
cargado, copian
Servicio de primera DW para ofrecer potencia de computación bajo demanda,
independiente de almacenamiento
Scan 1B filas
100 DWU
Velocidad de
lectura
xx Fila M / seg
Cargando Tasa
xx K fila / seg
Tabla Copiar
Rate
xx Fila K / seg
100 DWU
=
297 seg
400 DWU
=
74 seg
800 DWU
=
37 seg
1600 DWU
=
19 seg
Almacén de datos SQL Azure
Almacenamiento por separado
y de cómputo
Capacidad elástica
Integrado con Power BI, Azure
Machine Learning, y Azure Data
Factory
Escala de salida relacional
almacén de datos
Preguntas?
Thank You for Attending
Follow @pass24hop
Share your thoughts with hashtags
#pass24hop & #sqlpass

Documentos relacionados