Quiénes somos: Analytics Equifax Quiénes somos: Analytics

Transcripción

Quiénes somos: Analytics Equifax Quiénes somos: Analytics
Quiénes somos: Analytics - Equifax
Norte América
ƒ USA 1899
ƒ Canadá
Europa
ƒ Inglaterra e
Irlanda
ƒ España y
Portugal
C t y Sur
Centro
S América
A éi
ƒ Brasil, Argentina, Chile, Perú,
Uruguay, Paraguay, Ecuador, El
Salvador,
Salvador Honduras y Costa Rica
Asia
ƒ Rusia
ƒ India
Business Analytics
Técnicas estadísticas para la potenciación de los
procesos de negocio. Una visión sobre la originación
y administración de cuentas.
¿Qué vamos a ver hoy?
• Business Analytics
• Credit Scoring
– Técnicas Estadísticas
– Problemas metodológicos
• Los 10 errores más comunes en Business Analytics
Business Analytics
Negocios
Business
Analytics
Estadística
Tecnología
y
Datos
Business Analytics
“Es la práctica de la exploración metódica e iterativa de
los datos de una organización, con énfasis en el
análisis estadístico
estadístico, utilizado por compañías
comprometidas con la toma de decisiones guiada por la
información que reside en los datos.”
datos. [[*]]
[*] www.SearchBusinessAnalytics.com
Ciclo de vida del cliente
Recuperación
Captación
Gestión
Originación
Credit Scoring
Recuperación
Captación
Gestión
Originación
Credit Scoring
“Es una expresión numérica obtenida estadísticamente
que expresa la solvencia crediticia de una persona. Se
utiliza por acreedores para evaluar la verosimilitud de
q e la persona ccumpla
que
mpla con los compromisos de pago
asumidos. Un credit score se basa, entre otras cosas,
en la historia de comportamiento crediticio de la
persona.[*]”
[*] http://www.investopedia.com
Información Negativa
Población
Existencia
d
de
Información
Volumen
de
Transacciones
Comportamiento
hi tó i
histórico
Existe
(hit)
Ninguna
Indeter
minado
i d
No Existe
(no hit)
Bajo
Comp
No
Deseado
Alto
Información Positiva
Población
Existencia
d
de
Información
Volumen
de
Transacciones
Comportamiento
hi tó i
histórico
Existe
(hit)
Ninguna
No Existe
(no hit)
Bajo
Comp
Deseado
Comp
No
Desado
Alto
Comp
Deseado
Comp
No
Deseado
Técnicas Estadísticas
Técnicas Estadísticas
•
•
•
•
Regresión
Árboles de Decisión
K – vecinos más cercanos
Redes Neuronales
Regresiones
Regresiones - ejemplo
Individuo
edad
consFNB
inc
y = Score
Pablo
38
2
0
280
Julio
60
2
0
500
Diego
53
0
0
530
Matilde
65
0
1
150
Segmentación ejemplo Score 2
2.0
0
Tabla de Performance de Score de Riesgo
Score
Total
%
Comp.
Total Deseado
% Comp. Comp. No % Comp. Prob . Comp.
Deseado Deseado No Deseado No Deseado
753 - 999
36624
20 0
20.0
35375
32 0
32.0
1249
17
1.7
34
3.4
542 - 752
36624
20.0
34017
30.8
2607
3.6
7.1
148 - 541
36624
20 0
20.0
26055
23 6
23.6
10569
14 5
14.5
28 9
28.9
11 - 147
36624
20.0
11236
10.2
25388
34.9
69.3
1 - 10
36623
20 0
20.0
3721
34
3.4
32902
45 2
45.2
89 8
89.8
Total
183119
100
110404
100.0
72715
100.0
39.7
Árboles de Decisión
Árboles de Decisión
Población
total
Edad <= 24
Edad >24
NSE
alto
NSE
bajo
No Hit
3%
Hit
15%
A
Sin
Incumpl
Con
Incumpl
D
Sin
I
Incumpl
l
Con
I
Incumpl
l
10%
75%
5%
80%
C
E
B
F
Segmentación – Árbol de decisión
Tabla de Performance del Árbol de Decisión
Score
Total
% Comp.
Comp. % Comp. Comp. No
No
Deseado Deseado Deseado
Deseado
%
Total
Prob .
Comp.
No
Deseado
A
500
27.8
485
36.3
15
3.2
3.0
B
200
11.1
190
14.2
10
2.2
5.0
C
250
13.9
225
16.9
25
5.4
10.0
D
400
22.2
340
25.5
60
12.9
15.0
E
100
5.6
25
1.9
75
16.1
75.0
F
350
19.4
70
5.2
280
60.2
80.0
1800
100.0
1335
100.0
465
100.0
25.8
Total
Otras técnicas
K vecinos más cercanos
Redes Neuronales
K – vecinos más cercanos
Redes neuronales
[*] http://www.wikipedia.com
Lo posible no siempre es lo mejor
Interpretabilidad
Árboles de decisión
Regresiones
K - vecinos más cercanos
Redes neuronales
Precisión
Hasta acá vimos
vimos…
Business
A l ti
Analytics
Evaluación
Validación
Problemas de
Negocio
Ej: Credit Scoring
Modelización
Segmentación
Definición
correcta de
Preguntas
Tratamiento
Previo de los
Datos
Información de
Valor
Selección de
Técnicas
Estadísticas
Muestreo
Decisiones
de Negocio
Problemas metodológicos
Problemas metodológicos
•
•
•
•
•
Definición del problema
Tamaño de muestra
Desbalance de los datos
Medición del error
Sesgo de dominio de los datos
Problemas metodológicos
•
•
•
•
•
Definición del problema
Tamaño de muestra
Desbalance de los datos
Medición del error
Sesgo de dominio de los datos
Definición del problema
• Medida de desempeño
– Comportamiento deseado
– Comportamiento no deseado (atraso 30,
30 60,
60 90 días)
– Indeterminados
• Ventana de desempeño
– 1 año?
– 2 años?
• Exclusiones por reglas de negocio
Fecha de
Observación
Comportamiento histórico
+1 año
+2 años
Ventana de desempeño
Problemas metodológicos
•
•
•
•
•
Definición del problema
Tamaño de muestra
Desbalance de los datos
Medición del error
Sesgo de dominio de los datos
Tamaño de muestra
“Los diagnósticos de laboratorio […] son realizados en base a unas
cuantas gotas de sangre. Este procedimiento está basado en la
suposición
i ió d
de que, en ell ttorrente
t circulatorio,
i l t i lla sangre está
tá bi
bien
mezclada y que una gota cuenta la misma historia que otra […] pero
cuando el material está lejos de ser uniforme, es crítico el método
por el cual fue tomada la muestra […].”
William Cochran [1]
[1] “Sampling Techniques”. (1971). Pág. 19; edición en castellano. John Wiley & Sons, INC.
0.30
0.29
0.28
Más datos no
agregan información
0.27
7
Variabilidad de lo
os datos
0.3
31
0.32
La Sorpresa en los Datos
0
2000
4000
6000
Tamaño de Muestra
8000
10000
Problemas metodológicos
•
•
•
•
•
Definición del problema
Tamaño de muestra
Desbalance de los datos
Medición del error
Sesgo de dominio de los datos
Desbalance y
Falta de Información
Problemas metodológicos
•
•
•
•
•
Definición del problema
Tamaño de muestra
Desbalance de los datos
Medición del error
Sesgo de dominio de los datos
Alto
La Capacidad de Generalización
Errror de prediccción
Muestra de
validación
Bajo
Muestra de
desarrollo
Baja
“overfitting”
Complejidad
Alta
Problemas metodológicos
•
•
•
•
•
Definición del problema
Tamaño de muestra
Desbalance de los datos
Medición del error
Sesgo de dominio de los datos
“Battle Tank example.”
Sesgo de Dominio
Ejemplo: “Rechazados”
Población
Aceptados
Comportamiento
Deseado
Comportamiento
No Deseado
Rechazados
IInferencia
f
i de
d R
Rechazados
h
d
Champion Challenger
Datos de Buró
Los 10
errores
más comunes
Mal
formulamiento
inicial
?
“Mejor una respuesta aproximada
a una
na preg
pregunta
nta correcta
correcta,
q una respuesta
que
p
exacta
a una pregunta incorrecta.”
Mal
formulamiento
inicial
Muestra no
aleatoria
?
1,2,3...
Mal balanceo
de los datos
Basura
Basura
asura Ba
Basura
ra
Bas
“Lo que no se hace es tan importante
cómo lo que se hace
hace.””
Mal
formulamiento
inicial
Muestra no
aleatoria
?
1,2,3...
Escuchar sólo
a los datos
Considerar sólo
una técnica
Mal balanceo
de los datos
Basura
Basura
asura Ba
Basura
ra
Sobre ajuste
Bas
Temprano con
la computadora
“Desconfiar de modelos muy precisos.”
Mal
formulamiento
inicial
Muestra no
aleatoria
?
1,2,3...
Escuchar sólo
a los datos
Considerar sólo
una técnica
Mal balanceo
de los datos
Temprano con
la computadora
Basura
Basura
asura Ba
Basura
ra
Sobre ajuste
Bas
No validación
Train
Test
Extrapolación
inválida
Habíamos visto…
visto
Business
A l ti
Analytics
Evaluación
Validación
Problemas de
Negocio
Ej: Credit Scoring
Modelización
Segmentación
Definición
correcta de
Preguntas
Tratamiento
Previo de los
Datos
Información de
Valor
Selección de
Técnicas
Estadísticas
Muestreo
Decisiones
de Negocio
Finalmente vimos
vimos…
Business
A l ti
Analytics
Evaluación
Validación
Problemas de
Negocio
Ej: Credit Scoring
Modelización
Segmentación
Definición
correcta de
Preguntas
Tratamiento
Previo de los
Datos
Información de
Valor
Selección de
Técnicas
Estadísticas
Muestreo
Decisiones
de Negocio
“Nuestras acciones no son aleatorias,
el desafío es aprender los patrones y explotarlos
explotarlos.”
Gracias
The New Know. Innovation Powered by Analytics – Thorton May, 2008

Documentos relacionados