BIG DATA DATA BIG DATA

Transcripción

BIG DATA DATA BIG DATA
BIG DATA
BIG DATA
Julio, 2013
Big
BigData
dataNo
Noes
esuna
una
Big Data No es un caso de uso
tecnología
Arquitectura
Big Data Es un
movimiento que demanda
uso de nueva información
Habilitando nuevas ideas
y conocimiento
Q
Que es Bi
Big Data
» Big Data = Grandes Volúmenes de Información
» Big Data = Grandes Volúmenes de Información
9 Las bases de datos de procesamiento paralelo han soportado grandes volumenes
de información desde hace una decada
» Big Data = Grandes Volúmenes de Información
9 Las bases de datos de procesamiento paralelo han soportado grandes volumenes
de información desde hace una decada
• Big Data = Nuevos Tipos de Información
» Big Data = Grandes Volúmenes de Información
9 Las bases de datos de procesamiento paralelo han soportado grandes volumenes
de información desde hace una decada
• Big Data = Nuevos Tipos de Información
9 Nuevos tipos de datos multi‐estructurados con relaciones desconocidas, requiriendo procesamiento especializado independiente de su volumen para
descubrir ideas. Ejemplos : Web logs, sensores, redes sociales, texto, audio a texto, decodificadores.
User Generated
Content
BIG DATA
Social Network
Mobile Web
User Click Stream
Web logs
Sentiment
WEB
Offer history
A/B testing
Dynamic Pricing
External
Demographics
Business Data Feeds
HD Video
Affiliate Networks
CRM
Segmentation
Speech to Text
Search marketing
Offer details
ERP
Purchase detail
P
Purchase
h
record
d
Payment record
Customer Touches
Support Contacts
Behavioral Targeting
Dynamic Funnels
Increasing data variety and complexity
g
y
p
y
Product/Service Logs
SMS/MMS
» Big Data = Grandes Volúmenes de Información
9 Las bases de datos de procesamiento paralelo han soportado grandes
volumenes
l
d i f
de información
ió desde
d d hace
h
una decada
d d
• Big Data = Nuevos Tipos de Información
9 N
Nuevos tipos
ti
d d t multi‐estructurados
de datos
lti t t d con relaciones
l i
d
desconocidas, id
requiriendo procesamiento especializado independiente de su volumen
para descubrir ideas. Ejemplos : Web logs, sensores, redes sociales, texto, audio a texto, decodificadores.
• Big Data = Nuevos analiticos ( No‐SQL)
» Big Data = Grandes Volúmenes de Información
9 Las bases de datos de procesamiento paralelo han soportado grandes
volumenes
l
d i f
de información
ió desde
d d hace
h
una decada
d d
• Big Data = Nuevos Tipos de Información
9 N
Nuevos tipos
ti
d d t multi‐estructurados
de datos
lti t t d con relaciones
l i
d
desconocidas, id
requiriendo procesamiento especializado independiente de su volumen
para descubrir ideas. Ejemplos : Web logs, sensores, redes sociales, texto, audio a texto, decodificadores.
• Big Data = Nuevos analiticos ( No‐SQL)
9 Nuevos paradigmas analíticos que proveen procesamiento paralelo en datos multi‐estructurados. Aprovechando el poder de MapReduce( basado
en Java C C++ Python)
en Java, C, C++, Python)
» Un framework de Programación Paralela
Hecho popular por Google
+ Search indexes
+ Algorithms de Scoring
Map Function
C++, Java, Python, etc.
Aprovechando granjas de PCs
Scheduler
» MapReduce Provee
map
Paralelismo automático
Tolerancia a Fallos
Monitoreo
shuffle
reduce
Hadoop (Two Primary Parts)
(Two Primary Parts)
1. Hadoop Distributed File System (HDFS)
2. MapReduce (Data processing)
“Hadoop is not a substitute for a database”
‐ http://wiki.apache.org/hadoop/HadoopIsNot
Results
Source: CEO Advisory: ‘Big Data’ Equals Big Opportunity, Gartner, 31 March 2011.
VALOR PARA EL NEGOCIO
VALOR PARA EL NEGOCIO
Web Logs
Mobile Social
Mobile ‐
Email
ATM
Call Center
BIG DATA
ASSETS
External
Finance
HR
Core
Promotions
Products
TRADITIONAL
ASSETS
Metodo Clasico de BI
Análisis estructurado y Repetible
y Repetible
El Negocio determina las preguntas
a resolver
l
IT estructura los datos para dar
respuestas
t
“Captura solo lo necesario”
Metodo Clasico de BI
Análisis estructurado y Repetible
y Repetible
El Negocio determina las preguntas
a resolver
l
IT estructura los datos para dar
respuestas
t
“Captura solo lo necesario”
IT Provee una plataforma para
almacenar y analizar cualquier
fuente de Data
“Captura por si genera valor”
Big Data Analytics
Multi-estructurado , Iterativo
El Negocio Explora la información
para descubrir respuestas
p
p
Fuente : Metodo Clasico de BI
Análisis estructurado y Repetible
y Repetible
El Negocio determina las preguntas
a resolver
l
IT estructura los datos para dar
respuestas
t
SQL performance and structure
“Captura solo lo necesario”
MapReduce Processing Flexibility
IT Provee una plataforma para
almacenar y analizar cualquier
fuente de Data
“Captura por si genera valor”
Big Data Analytics
Multi-estructurado , Iterativo
El Negocio Explora la información
para descubrir respuestas
p
p
» Habilitando
H bilit d cualquier
l i usuario
i para analizar
li diversas
di
f
fuentes
t y relacionarlas
l i
l
Java, C/C++, Python, R, SAS, SQL, Excel, BI, Visualization
Reporting and Execution
i the
in
th Enterprise
E t
i
Discover and Explore
Capture, Store and Refine
Audio/
Vid
Video
Images
g
Docs
Text
Web &
S i l
Social
Machine
L
Logs
CRM
SCM
ERP
All Data
Non
NonRelational
Data
MultiStructured
Data
Structured
Data
OLTP
DBMS’s
Entre mas data mejor
DISCOVERY TOOLS
SQL
Entre mas herramientas mejor
MapReduce
BI
Behavioral
Analytics
•
•
•
•
Customer
Products
Machine
Supply chain
USERS
Suficientemente poderoso para los cientificos de datos
Suficientemente simple para los analistas de datos
Data
Scientist
Data
Analyst
All Data
DISCOVERY
DISCOVERY TOOLS
NonNon
Relational
Data
Big Data
Platform
SQL
MapReduce
MultiStructured
Data
Structured
Data
• Doesn’t require
extensive modeling
p
• Data completeness
can be good
enough
• No stringent SLAs
• No persistency
OLTP
DBMS’s
Iterative Analysis
Fuente : USERS
Data
Scientist
BI-Mining
Behavioral
Analytics
•
•
•
•
Customer
Products
Machine data
Social
Data
Analyst
Ejemplo: Busqueda de Patrones
MapReduce
• Single-pass of data
• Linked list sequential analysis
Traditional SQL
• Self-Joins for sequencing
• Limited operators for ordered data
Fuente : Fuente : Jan 5: Reverse Fee Request
Jan 20: Account Closed
Jan 10: Request Made Again
Jan 7: Request Made Again
Jan 15: Request Made Again
What if I knew that this customer was likely to leave? I could…
• Apologize
• Offer an explanation
• Reverse the $5 fee
“I takes
“It
k
3
3x more to acquire
i
a customer than
h
to retain
i one”
”
Fuente : 1.
1
2.
Find people who watch MMA Fight Night
Find
people who watch MMA Fight Night
What do they watch 1, 2, 3 shows prior and 1 show after?
• They must watch channel > 10 min
y
• Ignore channel flips
3.
Advertise PPV Boxing during those shows.
ad
(opt)
Fuente : ad?
(opt)
ad
(req)
ad
(req)
(opt)
Fuente : Fuente : Fuente : •
Import accident report data and combine this information with customer drive route data to identify
individuals that are consistently driving on high-risk traffic routes.
•
In the example below, multiple accidents have occurred involving drivers travelling for +¼ mile
south on South Grand Avenue and then making a right turn onto Venice Boulevard. Customers
driving this route during rush hour may be at a higher risk of involvement in an accident
accident.
Fuente : Tres pasos básicos para considerar :
1. Identificar un área de Negocio con potencial
Mercadeo, con un líder convencido del poder de la información
2 Id
2.
Identificar
tifi
dos
d
o tres
t
oportunidades
t id d
de
d negocio
i en Big
Bi Data
D t
Definir el impacto al negocio
Identificar otros usos y beneficios de ese análisis
3. Identificar el partner con la experiencia necesaria para apoyar en
el esfuerzo de descubrimiento y pruebas.

Documentos relacionados