El enfoque de suficiencia en la reducción de dimensiones

Transcripción

El enfoque de suciencia en la reducción de dimensiones
para el reconocimiento de patrones
Diego Tomassi
Trabajo conjunto con Liliana Forzani y Diego Milone
sinc(i )
C O N I CE T
11 de junio de 2010
Introducción
Antecedentes
Reducciones sucientes
Simulaciones
Comentarios nales
Organización
1
Introducción
2
Antecedentes
3
El enfoque de reducción suciente de dimensiones
4
Simulaciones
5
Comentarios nales
Diego Tomassi (sinc(i)-IMAL)
Enfoque de suciencia en discrimimación
11 de junio de 2010
2 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Organización
1
Introducción
2
Antecedentes
3
4
Simulaciones
5
Comentarios nales
11 de junio de 2010
3 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
El problema de clasicación
Ejemplos
Detección de patologías para asistencia de diagnóstico médico.
Reconocimiento de rostros y aplicaciones biométricas en general.
Reconocimiento de escritura manuscrita (tablet PC).
Reconocimiento del habla.
Filtros anti-spam.
11 de junio de 2010
4 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Sean Y = 1, 2, . . . , h las clases y X ∈ Rp las características.
Un clasicador es una función f : Rp → {1, 2, . . . , h} tal que la predicción
Yb = f (X) tiene una mínima probabilidad de error.
11 de junio de 2010
5 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Sean Y = 1, 2, . . . , h las clases y X ∈ Rp las características.
Un clasicador es una función f : Rp → {1, 2, . . . , h} tal que la predicción
Yb = f (X) tiene una mínima probabilidad de error.
Si conocemos p(Y, X) la regla óptima es
f (X) = arg max p(Y = y|X)
y
11 de junio de 2010
5 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Suponemos modelos paramétricos para p(X|Y = y).
Usamos un conjunto de ejemplos {(Yi , Xi )} para estimar.
11 de junio de 2010
6 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Denidos los modelos, el diseño del clasicador se reduce a un problema
de estimación de parámetros.
11 de junio de 2010
6 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
¾Qué modelos se usan?
Gaussianas
Mezclas de Gaussianas
Modelos ocultos de Markov
...
11 de junio de 2010
6 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
¾Qué modelos se usan?
Gaussianas
X|Y = y ∼ N (X|µy , ∆y )
11 de junio de 2010
6 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Reducción de dimensiones
¾Para qué?
Disminuir varianza de estimadores.
11 de junio de 2010
7 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
¾Para qué?
Facilitar la decisión del clasicador.
11 de junio de 2010
7 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
2500
2000
1500
1000
500
1
2
0.3
0.2
0.1
1
0
−1
−2
−2.5
−3
−3.5
−4
−4.5
5001000
1500
2000
2500
0.1 0.2 0.3 −2
−1
0
1 −4.5 −4 −3.5 −3 −2.5
11 de junio de 2010
7 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
SDR−2
Analysis using SDR model
SDR−1
11 de junio de 2010
7 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
¾Para qué?
Reducir costo computacional.
11 de junio de 2010
7 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
¾Para qué?
Reducir costo computacional.
¾Qué buscamos?
Una reducción R : Rp → Rd , d ≤ p tal que para cada X
p(Y = y|R(X)) = p(Y = y|X)
11 de junio de 2010
7 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Organización
1
Introducción
2
Antecedentes
3
4
Simulaciones
5
Comentarios nales
11 de junio de 2010
8 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Métodos usados comúnmente
Consideremos:
Reducciones lineales R(X) = θT X, con θ ∈ Rp×d .
Estimación de máxima verosimilitud.
11 de junio de 2010
9 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Análisis discriminante lineal (LDA)
11 de junio de 2010
9 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Análisis discriminante lineal para modelos heteroscedásticos (HLDA).
Sea Θ = (θ θ0 ) ∈ Rp×p , θ ∈ Rp×d , θT θ = Id , θT θ0 = 0.
Supongamos ΘT X ∼ N (µ∗y , ∆∗y ), con
µ∗y
T θ µy
=
θ T0 µ
∆∗y
Ωy 0
=
0 Ω0
11 de junio de 2010
9 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Análisis discriminante lineal para modelos heteroscedásticos (HLDA).
Sea Θ = (θ θ0 ) ∈ Rp×p , θ ∈ Rp×d , θT θ = Id , θT θ0 = 0.
Supongamos ΘT X ∼ N (µ∗y , ∆∗y ), con
µ∗y
T θ µy
=
θ T0 µ
∆∗y
Ωy 0
=
0 Ω0
HLDA busca Θ que maximiza
h
n
1X
˜ y θ|.
ny log |θ T ∆
LHLDA (θ) = − log |θ T Σ̃−1 θ| −
2
2
y=1
11 de junio de 2010
9 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Nos preguntamos...
¾Se satisface p(Y = y|θTHLDA X) = p(Y = y|X) para todo X?
¾Es span(θHLDA ) el menor subespacio que conserva la información?
11 de junio de 2010
10 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Organización
1
Introducción
2
Antecedentes
3
4
Simulaciones
5
Comentarios nales
11 de junio de 2010
11 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Resultados conocidos
Cook y Yin, 2001: para X|Y = y ∼ N (µy , ∆y ):
f (θ T X) = f (X) ⇔ X|(Y, θ T X) ∼ X|θ T X
11 de junio de 2010
12 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
11 de junio de 2010
12 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Cook y Forzani, 2008:
Supongamos que X|Y = y ∼ N (µy , ∆y ), y = 1, 2, . . . , h. Sea ∆ = E(∆y ),
θ ∈ Rp×d una matriz semiortogonal y sea (θ θ 0 ) ∈ Rp×p una matriz
ortogonal. θT X es una reducción lineal suciente si y sólo si
1
2
span(µy − µ) ⊆ ∆span(θ).
θ T0 ∆y−1 es constante.
11 de junio de 2010
12 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Cook y Forzani, 2008:
Supongamos que X|Y = y ∼ N (µy , ∆y ), y = 1, 2, . . . , h. Sea ∆ = E(∆y ),
θ una matriz semiortogonal y sea (θ θ 0 ) ∈ Rp×p una matriz ortogonal.
θ T X es una reducción lineal suciente si y sólo si
µy = µ + ∆θνy ,
∆y = ∆ + ∆θTy θ T ∆ .
con E(νy ) = 0 y E(Ty ) = 0.
11 de junio de 2010
12 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Estimador MLE para θ
El estimador de máxima verosimilitud θLAD que maximiza la función
LLAD (θ) = const +
n
1X
˜ y θ|,
log |θ T Σ̃θ| −
ny log |θ T ∆
2
2 y
provee una reducción lineal suciente mínima θTLAD X.
11 de junio de 2010
13 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
HLDA bajo el enfoque de suciencia
Recordemos que en HLDA ΘT X ∼ N (µ∗y , ∆∗y )
µ∗y =
T θ µy
θ T0 µ
∆∗y =
Ωy 0
0 Ω0
X|Y = y ∼ N (µ + θγy , θΩy θ T + θ 0 Ω0 θ T0 ).
Si Ω = E(Ωy ), ∆ = θΩθT + θ0 Ω0 θT0 . Entonces ∆θ = θA y
µy = µ + θγy = µ + θAνy = µ + ∆θνy .
∆y − ∆ = θ(Ωy − Ω)θ T = θATy AT θ T = ∆θTy θ T ∆.
Luego, θ = θHLDA es una reducción suciente bajo este modelo para
X|Y = y .
11 de junio de 2010
14 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
µ∗y =
T θ µy
θ T0 µ
∆∗y =
Ωy 0
0 Ω0
X|Y = y .
11 de junio de 2010
14 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
µ∗y =
T θ µy
θ T0 µ
∆∗y =
Ωy 0
0 Ω0
X|Y = y .
11 de junio de 2010
14 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
µ∗y =
T θ µy
θ T0 µ
∆∗y =
Ωy 0
0 Ω0
X|Y = y .
11 de junio de 2010
14 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
µ∗y =
T θ µy
θ T0 µ
∆∗y =
Ωy 0
0 Ω0
X|Y = y .
11 de junio de 2010
14 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
HLDA y minimalidad
Cuando ∆y satisface el modelo de HLDA, el subespacio de reducción
estimado, ¾es el menor posible? No necesariamente.
Sea α ∈ Ru una base para ese subespacio de reducción mínimo.
span(θ) ⊇ span(α) también es un subespacio de reducción suciente.
En HLDA, θ es una base para el subespacio que contiene a span(α) tal
que ∆y = θΩy θT + θ0 Ω0 θT0 .
Existe A ∈ Rd×u : α = θA y α maximiza
n
n
log |θ T Σ̃−1 θ| − log |θ T Σ̃θ| −
2
2
n
1X
T T
˜ y θA|.
− log |A θ Σ̃θA| −
ny log |AT θ T ∆
2
2 y
L(θ, A) = const −
11 de junio de 2010
15 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
HLDA y minimalidad
n
n
2
2
n
1X
T T
˜ y θA|.
ny log |AT θ T ∆
2
2 y
11 de junio de 2010
15 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
HLDA y minimalidad
n
n
2
2
n
1X
T T
˜ y θA|.
ny log |AT θ T ∆
2
2 y
11 de junio de 2010
15 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
HLDA y minimalidad
n
n
2
2
n
1X
T T
˜ y θA|.
ny log |AT θ T ∆
2
2 y
11 de junio de 2010
15 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
HLDA y minimalidad
n
n
2
2
n
1X
T T
˜ y θA|.
ny log |AT θ T ∆
2
2 y
11 de junio de 2010
15 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Consideraciones
Qué puede heredar HLDA del enfoque de suciencia?
Herramientas mejor justicadas para inferir d.
Eciencia de cómputo.
Limitaciones
jado d, HLDA estima un subespacio de reducción suciente sólo para
una estructura particular de ∆y .
SHLDA no es invariante ni equivariante ante una transformación de las
características X.
Propaganda: ½½deberíamos usar θLAD !!
11 de junio de 2010
16 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Consideraciones
Limitaciones
características X.
11 de junio de 2010
16 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Consideraciones
Limitaciones
características X.
11 de junio de 2010
16 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Consideraciones
Limitaciones
características X.
11 de junio de 2010
16 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Consideraciones
Limitaciones
características X.
11 de junio de 2010
16 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Consideraciones
Limitaciones
características X.
11 de junio de 2010
16 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Consideraciones
Limitaciones
características X.
11 de junio de 2010
16 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
¾Cómo extendemos esto a modelos ocultos de Markov?
11 de junio de 2010
17 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Datos secuenciales y modelos ocultos de Markov (HMM)
w1
w2
w3
11 de junio de 2010
18 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Datos secuenciales y modelos ocultos de Markov (HMM)
Las características observadas no son independientes, sino que forman
una secuencia X = w1 , w2 , . . . , wN .
Modelamos esas secuencias mediante modelos ocultos de Markov.
11 de junio de 2010
18 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Reducción suciente de dimensiones para HMM
¾Cómo son los modelos de las clases ahora?
p(X|Y = ϑ) =
T
XY
bqt (xt )aqt−1 qt ,
q t=1
11 de junio de 2010
19 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Reducción suciente de dimensiones para HMM
¾Cómo son los modelos de las clases ahora?
p(X|Y = ϑ) =
T
XY
bqt (xt )aqt−1 qt ,
q t=1
¾Cómo estimamos parámetros?
Q(ϑ, ϑold )
=
X
p(q|X, ϑold ) log p(q, X|ϑ)
q
(
=
X
q
=
p(q|X, ϑ
old
)×
)
X
log aqt−1 qt +
t
X
log bqt (xt )
t
Qa (ϑ, ϑold ) + Qb (ϑ, ϑold )
11 de junio de 2010
19 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Reducción de dimensiones en HMM
Si by (wt ) = N (wt |µy , ∆y )
Qb (ϑ, ϑold ) =
Nq T
X
X
p(qt = y|X, ϑold ) log N (wt |µy , ∆y )
y=1 t=1
=
Nq T
X
X
γt (y) log N (wt |µy , ∆y ),
y=1 t=1
11 de junio de 2010
20 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Organización
1
Introducción
2
Antecedentes
3
4
Simulaciones
5
Comentarios nales
11 de junio de 2010
21 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Simulaciones
Tasa de reconocimiento vs tamaÃ±o de muestra
Tasa de reconocimiento vs tamaÃ±o de muestra
0.7
0.7
LDA
LDA
HLDA
0.65
HLDA
0.65
LAD
LAD
0.55
0.55
RR
0.6
RR
0.6
0.5
0.5
0.45
0.45
0.4
0.4
0.35
0
20
40
60
n
80
100
0.35
120
Figura: Tasas de reconocimiento para
d
0
20
40
60
n
80
100
120
conocida. Izq.: datos generados con el
modelo de HLDA. Der.: datos generados con el modelo de HLDA y luego
multiplicados con una matriz
A.
11 de junio de 2010
22 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Simulaciones
HLDA
LAD
1
1
0.8
0.8
0.6
0.6
0.4
0.4
AIC
BIC
AIC
0.2
LRT
0.2
BIC
LRT
0
50
100
150
200
Figura: Inferencia sobre
250
d
300
350
0
100
150
200
250
300
350
cuando los datos corresponden al modelo de HLDA.
11 de junio de 2010
22 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Simulaciones
HLDA
LAD
0.14
AIC
BIC
LRT
0.12
1
0.8
0.1
0.08
0.6
0.06
0.4
0.04
0.2
AIC
0.02
BIC
LRT
0
50
100
150
200
Figura: Inferencia sobre
matriz
250
d
300
350
0
50
100
150
200
250
300
350
para los mismo datos, después de multiplicarlos por una
A.
11 de junio de 2010
22 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
Organización
1
Introducción
2
Antecedentes
3
4
Simulaciones
5
Comentarios nales
11 de junio de 2010
23 / 24
Introducción
Antecedentes
Simulaciones
Comentarios nales
muchas gracias
11 de junio de 2010
24 / 24

El enfoque de suficiencia en la reducción de dimensiones

Transcripción

Documentos relacionados

Un sistema inteligente evita los olvidos. Plataforma SINC