BIG DATA ANALYTICS
Transcripción
BIG DATA ANALYTICS
Como SAS está apalancando las nuevas tecnologías Copyright © 2014, SAS Institute Inc. All rights reserved. BIG DATA ANALYTICS Es el volumen o la complejidad de datos que te saca de tu zona de confort VOLUMEN VARIEDAD Definición Tradicional VELOCIDAD VALOR COMPLEJIDAD “Addressing only volume leads to some serious self-delusion regarding what you have accomplished.“ James Richardson Copyright © 2014, SAS Institute Inc. All rights reserved. BIG DATA ANALYTICS ¿Desde cuándo el big data es big data? Líneas de Código Líneas de Código 70,000 1,500,000 Sistema Operativo Sistema Operativo MVS PC-DOS, SUN/HP UNIX PL/1, Ensamblador C Ensamblador 1976 1989 1966 1980 1999 2014 Líneas de Código Líneas de Código Líneas de Código Líneas de Código 35,000 310,000 8,000,000 50,000,000 Sistema Operativo Sistema Operativo Sistema Operativo Sistema Operativo MVS MVS, VM/CMS Win, Mac, UNIX, OS/2 MVS, UNIX, Windows PL/1, Ensamblador PL/1, Ensamblador C Ensamblador C Java Flex 140Kb RAM Copyright © 2014, SAS Institute Inc. All rights reserved. HTML5 C++ BIG DATA ANALYTICS ¿Qué ha cambiado? Precios Históricos RAM Año Precio / MB 1957 $ 411,041,792.00 1960 $ 5,242,880.00 1965 $ 2,642,412.00 1970 $ 734,003.00 1975 $ 421,888.00 1980 $ 6,480.00 1985 $ 880.00 1990 $ 106.00 1995 $ 30.90 2000 $ 1.12 2005 $ 0.19 2010 $ 0.01 2013 $ 0.01 Precios Históricos HD Año Precio / GB 1980 $ 193,000.00 1984 $ 120,000.00 1989 $ 53,000.00 1996 $ 207.00 2000 $ 7.14 2005 $ 0.70 2009 $ 0.07 2013 $ 0.04 10,000,000,000 de Cálculos por segundo por cada $1000 USD *The Kurzweil Curve, Raymond Kurzweil Copyright © 2014, SAS Institute Inc. All rights reserved. BIG DATA ANALYTICS SMP vs MPP SMP – Symmetrical Multi-Processing • “Una arquitectura de hardware basada en una computadora con dos o más procesadores que comparten la misma memoria y son controlados por una sola instancia de Sistema operativo.” MPP – Massively Parallel Processing • “Un Sistema de computo con memoria distribuida que esta conformado por diferentes nodos individuales, cada uno de los cuales es una computadora en si misma, con su propio procesador, memoria y conexión a red, la cual permite que los nodos se interconecten.” Copyright © 2014, SAS Institute Inc. All rights reserved. BIG DATA ANALYTICS SAS® High-Performance Analytics Copyright © 2014, SAS Institute Inc. All rights reserved. BIG DATA ANALYTICS SAS® Grid Computing AMBIENTE GRID GRID CTRL GRID NODO1 AMBIENTE SAS GRID NODON SAS GRID MANAGER Copyright © 2014, SAS Institute Inc. All rights reserved. SAS Grid Capacidades clave INFRAESTRUCTURA ANALÍTICA Copyright © 2014, SAS Institute Inc. All rights reserved. SAS Copyright © 2014, SAS Institute Inc. All rights reserved. SAS Grid Manager SAS Grid SAS Grid Manager Control Server SAS Grid Manager Nodes Copyright © 2014, SAS Institute Inc. All rights reserved. C 0 ... SAS Grid Balanceo de Cargas Multi-Usuario Balanceo de cargas en paralelo Programación empresarial de procesos distribuidos Alta disponibilidad Escalabilidad Copyright © 2014, SAS Institute Inc. All rights reserved. SAS Grid Razones para paralelizar procesos Copyright © 2014, SAS Institute Inc. All rights reserved. Bank of America SERVICIOS FINANCIEROS Retos • Reducir el tiempo de procesamiento entorno al modelado del riesgo de crédito y pronostico de pérdidas • Mas tiempo para hacer análisis AdHoc • Asegurar la continuidad del negocio y garantizar disponibilidad Solución • SAS Enterprise Risk Management • SAS Grid Manager Historia completa C opy r i ght © 2013, SAS I nsti tute I nc . All r i ghts r eser ved. RESULTADOS /BENEFICIOS Reducir el calculo de la probabilidad de incumplimiento de 96 horas a 4 horas. Decisiones oportunas en torno a la cartera vencida minimizar perdidas por incumplimiento. Búsqueda de nuevas oportunidades en torno a la cartera del banco. SAS® HIGH-PERFORMANCE ANALYTICS SAS® In-Database CAPACIDADES SAS INDATABASE AMBIENTE RDBMS Copyright © 2014, SAS Institute Inc. All rights reserved. NEW Product SAS In-Database Quality Accelerator NOMBRE DIRECCIÓN TEL EMAIL INDICE RDBMS RDBMS Copyright © 2014, SAS Institute Inc. All rights reserved. CÓDIGO DE CONCORDANCIA SAS In-Database R T1 T2 Consulta resuelta en SAS resultado escrito en Data Sets SAS DBMS T1 R T2 Consulta resuelta en DBMS resultado escrito en Data Sets SAS DBMS R T2 DBMS Copyright © 2014, SAS Institute Inc. All rights reserved. SAS T1 Consulta resuelta en DBMS resultado escrito en DBMS SAS SAS SAS In-Database T1 R DBMS 1 T2 Consulta resuelta en SAS bases de datos heterogéneas SAS DBMS 2 T1 R DBMS 1 T2 Consulta resuelta en DBMS bases de datos heterogéneas SAS DBMS 2 R T1 Resolución proceso analítico dentro DBMS DBMS 1 Copyright © 2014, SAS Institute Inc. All rights reserved. SAS Anónimo SERVICIOS FINANCIEROS Retos RESULTADOS /BENEFICIOS • Presiones regulatorias que lo forzaban a tener una infraestructura de administración de riesgo más integrada y gobernada. • Publicar scores en Batch y en tiempo real • Acelerar el desarrollo y la implementación de modelos Solución • SAS Credit Scoring for Banking • SAS Model Manager • SAS Scoring Accelerator for Oracle C opy r i ght © 2013, SAS I nsti tute I nc . All r i ghts r eser ved. Reducir a un par de meses el proceso actual de 12 a 18 meses para el desarrollo e implementación de modelos. Cumplir los requerimientos regulatorios y mejorar las decisiones en torno al riesgo tomadas por la organización. SAS® HIGH-PERFORMANCE ANALYTICS SAS® In-Memory Analytics Copyright © 2014, SAS Institute Inc. All rights reserved. Copyright © 2014, SAS Institute Inc. All rights reserved. Anónimo SERVICIOS FINANCIEROS RESULTADOS /BENEFICIOS Retos • Transformar al Banco con cálculos de riesgo efectuados cerca del tiempo real. • El proceso del calculo diversos factores de riesgo sobre millones de créditos e instrumentos tomaba varios días, y era muy lento. Solución • SAS® High-Performance Analytics C opy r i ght © 2013, SAS I nsti tute I nc . All r i ghts r eser ved. El banco ahora es capaz de realizar sus cálculos de riesgo en un tiempo cercano al tiempo real, lo cual les ha permitido llevar nuevos productos al mercado más rápidamente, así como salir de mercados más rápidamente, así como descubrir nuevas oportunidades en los mercados, lo cual les ha permitido lograr una ventaja competitiva. BIG DATA ANALYTICS 50 40 30 20 10 Miles de Millones de Dispositivos Cada vez más todo estará conectado con todo 50 “Billion Objetos Inteligentes Punto de Inflexión Índice de adopción de la infraestructura digital: 5X más rápido que la electricidad y la telefonía 25 12.5 6.8 0 7.6 Tiempo 2010 Copyright © 2014, SAS Institute Inc. All rights reserved. 7.2 2015 2020 Población Mundial BIG DATA ANALYTICS Una ciudad, un país, una empresa Conectados Centro de Control & Comando Municipal Red eléctrica Inteligente Nube, Servicios & Datos Abiertos Optimización de La Fabrica Optimización del Flujo de Tráfico Optimización de Gestión de Servicios de Salud Energía en El Hogar Optimización de Logística Optimización de Redes de Comunicación CIUDAD INTELIGENTE FABRICA INTELIGENTE HOSPITAL INTELIGENTE Dispositivos Médicos Ambulancias Inteligentes Conectadas VIALIDADES INTELIGENTES Sistemas Señalización Digital Automotrices automatizados Inteligente Source: Intel Copyright © 2014, SAS Institute Inc. All rights reserved. Cámaras BIG DATA ANALYTICS El reto actual Source: IDC Digital Universe Study, sponsored Copyright © 2014, SAS Institute Inc. All rights reserved. Ordenes de Magnitud Métrica Equivalencia 8 Bits 1 Byte 1024 Bytes 1 Kilobyte 1024 Kilobytes 1 Megabyte 1024 Megabytes 1 Gigabyte 1024 Gigabytes 1 Terabyte 1024 Terabytes 1 Petabyte by EMC, May 2010 1024 Petabytes 1 Exabyte 1024 Exabytes 1 Zettabyte 1024 Zettabytes 1 Yottabyte BIG DATA ANALYTICS La tendencia $100,000,000 Copyright © 2014, SAS Institute Inc. All rights reserved. $4,008 $5,096 $5,550 $5,826 $5,671 $6,618 $5,985 $5,901 $7,666 $7,743 $10,497 $16,712 $20,963 $29,092 $31,125 $31,512 $46,774 $70,333 $108,065 $154,714 $232,735 $342,502 $752,080 $1,352,982 $3,063,820 $7,147,571 $8,927,342 $9,047,003 $9,408,739 $10,474,556 $11,455,315 $11,732,535 $12,585,659 $13,801,124 $16,180,224 $16,159,699 $17,534,970 $18,519,312 $19,934,346 $20,442,576 $28,780,376 $40,157,554 $20,000,000 $53,751,684 $60,000,000 $61,448,422 $80,000,000 $70,175,437 $40,000,000 1.5 Gb Costo por Genoma 120,000,000 171 PB Genoma Humano $95,263,072 $120,000,000 150 ZB Costo por Genoma $0 1999-12-06 2001-04-19 2002-09-01 2004-01-14 2005-05-28 2006-10-10 2008-02-22 2009-07-06 2010-11-18 2012-04-01 2013-08-14 2014-12-27 Conclusiones ¿Por donde comenzar? Corto Plazo Mediano Plazo Entrenar personal en visualización y exploración de Datos Capacitación del Personal Nuevas Tecnologías Gente Nuevos Roles en la organización Automatizar procesos de Adquisición y homologación de Datos Roles y responsabilidades del personal involucrado en el Plan de Big Data Procesos Largo Plazo Entrenar al personal en herramientas de análisis avanzado Estado Generar estructuras adecuadas por tipo de análisis Limpieza y estandarización de datos Mecanismos de adquisición de información Auditoria de datos, análisis de brechas Estrategia EDW Datos Estado Actual Copyright © 2014, SAS Institute Inc. All rights reserved. Tecnologías Adecuadas de Adquisición de Datos Arquitectura de Datos Tecnología Usar tecnología de que permita soportar en flujo completo Comité Ejecutivo de Gobierno de Información • • Escalabilidad Capacity Plan Calidad de Datos Futuro Desarrollar flujos de análisis avanzados y automatizarlos Fase 3 • Análisis avanzado de Datos • Gobierno de información Gestionar los Datos como un Activo Institucional Mejores practicas para el uso de la tecnología Casos del uso para utilización de la tecnología Cultura • Fase 2 Calidad de Datos Exploración y descubrimiento de Datos Escalabilidad Fase 1 • Capacitación • Nuevos Roles • Herramientas de gestión de datos • Arquitectura de Datos Text Copyright © 2010, SAS Institute Inc. All rights reserved.