BIG DATA DATA BIG DATA
Transcripción
BIG DATA DATA BIG DATA
BIG DATA BIG DATA Julio, 2013 Big BigData dataNo Noes esuna una Big Data No es un caso de uso tecnología Arquitectura Big Data Es un movimiento que demanda uso de nueva información Habilitando nuevas ideas y conocimiento Q Que es Bi Big Data » Big Data = Grandes Volúmenes de Información » Big Data = Grandes Volúmenes de Información 9 Las bases de datos de procesamiento paralelo han soportado grandes volumenes de información desde hace una decada » Big Data = Grandes Volúmenes de Información 9 Las bases de datos de procesamiento paralelo han soportado grandes volumenes de información desde hace una decada • Big Data = Nuevos Tipos de Información » Big Data = Grandes Volúmenes de Información 9 Las bases de datos de procesamiento paralelo han soportado grandes volumenes de información desde hace una decada • Big Data = Nuevos Tipos de Información 9 Nuevos tipos de datos multi‐estructurados con relaciones desconocidas, requiriendo procesamiento especializado independiente de su volumen para descubrir ideas. Ejemplos : Web logs, sensores, redes sociales, texto, audio a texto, decodificadores. User Generated Content BIG DATA Social Network Mobile Web User Click Stream Web logs Sentiment WEB Offer history A/B testing Dynamic Pricing External Demographics Business Data Feeds HD Video Affiliate Networks CRM Segmentation Speech to Text Search marketing Offer details ERP Purchase detail P Purchase h record d Payment record Customer Touches Support Contacts Behavioral Targeting Dynamic Funnels Increasing data variety and complexity g y p y Product/Service Logs SMS/MMS » Big Data = Grandes Volúmenes de Información 9 Las bases de datos de procesamiento paralelo han soportado grandes volumenes l d i f de información ió desde d d hace h una decada d d • Big Data = Nuevos Tipos de Información 9 N Nuevos tipos ti d d t multi‐estructurados de datos lti t t d con relaciones l i d desconocidas, id requiriendo procesamiento especializado independiente de su volumen para descubrir ideas. Ejemplos : Web logs, sensores, redes sociales, texto, audio a texto, decodificadores. • Big Data = Nuevos analiticos ( No‐SQL) » Big Data = Grandes Volúmenes de Información 9 Las bases de datos de procesamiento paralelo han soportado grandes volumenes l d i f de información ió desde d d hace h una decada d d • Big Data = Nuevos Tipos de Información 9 N Nuevos tipos ti d d t multi‐estructurados de datos lti t t d con relaciones l i d desconocidas, id requiriendo procesamiento especializado independiente de su volumen para descubrir ideas. Ejemplos : Web logs, sensores, redes sociales, texto, audio a texto, decodificadores. • Big Data = Nuevos analiticos ( No‐SQL) 9 Nuevos paradigmas analíticos que proveen procesamiento paralelo en datos multi‐estructurados. Aprovechando el poder de MapReduce( basado en Java C C++ Python) en Java, C, C++, Python) » Un framework de Programación Paralela Hecho popular por Google + Search indexes + Algorithms de Scoring Map Function C++, Java, Python, etc. Aprovechando granjas de PCs Scheduler » MapReduce Provee map Paralelismo automático Tolerancia a Fallos Monitoreo shuffle reduce Hadoop (Two Primary Parts) (Two Primary Parts) 1. Hadoop Distributed File System (HDFS) 2. MapReduce (Data processing) “Hadoop is not a substitute for a database” ‐ http://wiki.apache.org/hadoop/HadoopIsNot Results Source: CEO Advisory: ‘Big Data’ Equals Big Opportunity, Gartner, 31 March 2011. VALOR PARA EL NEGOCIO VALOR PARA EL NEGOCIO Web Logs Mobile Social Mobile ‐ Email ATM Call Center BIG DATA ASSETS External Finance HR Core Promotions Products TRADITIONAL ASSETS Metodo Clasico de BI Análisis estructurado y Repetible y Repetible El Negocio determina las preguntas a resolver l IT estructura los datos para dar respuestas t “Captura solo lo necesario” Metodo Clasico de BI Análisis estructurado y Repetible y Repetible El Negocio determina las preguntas a resolver l IT estructura los datos para dar respuestas t “Captura solo lo necesario” IT Provee una plataforma para almacenar y analizar cualquier fuente de Data “Captura por si genera valor” Big Data Analytics Multi-estructurado , Iterativo El Negocio Explora la información para descubrir respuestas p p Fuente : Metodo Clasico de BI Análisis estructurado y Repetible y Repetible El Negocio determina las preguntas a resolver l IT estructura los datos para dar respuestas t SQL performance and structure “Captura solo lo necesario” MapReduce Processing Flexibility IT Provee una plataforma para almacenar y analizar cualquier fuente de Data “Captura por si genera valor” Big Data Analytics Multi-estructurado , Iterativo El Negocio Explora la información para descubrir respuestas p p » Habilitando H bilit d cualquier l i usuario i para analizar li diversas di f fuentes t y relacionarlas l i l Java, C/C++, Python, R, SAS, SQL, Excel, BI, Visualization Reporting and Execution i the in th Enterprise E t i Discover and Explore Capture, Store and Refine Audio/ Vid Video Images g Docs Text Web & S i l Social Machine L Logs CRM SCM ERP All Data Non NonRelational Data MultiStructured Data Structured Data OLTP DBMS’s Entre mas data mejor DISCOVERY TOOLS SQL Entre mas herramientas mejor MapReduce BI Behavioral Analytics • • • • Customer Products Machine Supply chain USERS Suficientemente poderoso para los cientificos de datos Suficientemente simple para los analistas de datos Data Scientist Data Analyst All Data DISCOVERY DISCOVERY TOOLS NonNon Relational Data Big Data Platform SQL MapReduce MultiStructured Data Structured Data • Doesn’t require extensive modeling p • Data completeness can be good enough • No stringent SLAs • No persistency OLTP DBMS’s Iterative Analysis Fuente : USERS Data Scientist BI-Mining Behavioral Analytics • • • • Customer Products Machine data Social Data Analyst Ejemplo: Busqueda de Patrones MapReduce • Single-pass of data • Linked list sequential analysis Traditional SQL • Self-Joins for sequencing • Limited operators for ordered data Fuente : Fuente : Jan 5: Reverse Fee Request Jan 20: Account Closed Jan 10: Request Made Again Jan 7: Request Made Again Jan 15: Request Made Again What if I knew that this customer was likely to leave? I could… • Apologize • Offer an explanation • Reverse the $5 fee “I takes “It k 3 3x more to acquire i a customer than h to retain i one” ” Fuente : 1. 1 2. Find people who watch MMA Fight Night Find people who watch MMA Fight Night What do they watch 1, 2, 3 shows prior and 1 show after? • They must watch channel > 10 min y • Ignore channel flips 3. Advertise PPV Boxing during those shows. ad (opt) Fuente : ad? (opt) ad (req) ad (req) (opt) Fuente : Fuente : Fuente : • Import accident report data and combine this information with customer drive route data to identify individuals that are consistently driving on high-risk traffic routes. • In the example below, multiple accidents have occurred involving drivers travelling for +¼ mile south on South Grand Avenue and then making a right turn onto Venice Boulevard. Customers driving this route during rush hour may be at a higher risk of involvement in an accident accident. Fuente : Tres pasos básicos para considerar : 1. Identificar un área de Negocio con potencial Mercadeo, con un líder convencido del poder de la información 2 Id 2. Identificar tifi dos d o tres t oportunidades t id d de d negocio i en Big Bi Data D t Definir el impacto al negocio Identificar otros usos y beneficios de ese análisis 3. Identificar el partner con la experiencia necesaria para apoyar en el esfuerzo de descubrimiento y pruebas.