Teoría Bayesiana de la Decisión - Universidad Autónoma de Madrid

Transcripción

Teoría Bayesiana de la Decisión - Universidad Autónoma de Madrid
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL:
TEORÍA Y APLICACIONES A PROBLEMAS DE
PREDICCIÓN
Manuel Sánchez-Montañés
Luis Lago
Ana González
Escuela Politécnica Superior
Universidad Autónoma de Madrid
Teoría Bayesiana de la Decisión
•
El Test del Cociente de Verosimilitudes
•
Probabilidad de error
•
Riesgo de Bayes
•
Criterios de Bayes, MAP y ML
•
Problemas multi-clase
•
Funciones discriminantes
El Test del Cociente de Verosimilitudes
•
Supongamos que queremos clasificar un objeto basándonos en la evidencia
proporcionada por una medida (escalar o vectorial) x
•
¿ Seria una regla de decisión razonable la siguiente ?
- Elegir la clase que es más “probable” dada la observación x
- Más formalmente: Calcular la probabilidad a posteriori de cada clase, P(i|x), y
elegir la clase con mayor valor
El Test del Cociente de Verosimilitudes
•
Examinemos las implicaciones de esta regla de decisión en el caso de un problema de dos clases
- En este caso la regla de decisión es:
Si P(1|x) > P(2|x), elegir 1
En caso contrario,
elegir 2
- De una manera más compacta,
- Aplicando la Regla de Bayes,
•
P(x) no afecta a la regla de decisión, con lo que se puede eliminar, obteniendo:
•
El término (x) se denomina cociente de verosimilitudes, y la regla resultante es el Test del
Cociente de Verosimilitudes
El Test del Cociente de Verosimilitudes:
ejemplo
•
Dado un problema de clasificación con las siguientes densidades condicionadas a las clases,
derivar una regla de decisión basada en el Test del Cociente de Verosimilitudes (asumir
probabilidades
a priori iguales)
•
Solución
- Sustituyendo las densidades y prioris en la expresión TCV:
- Simplificando la expresión TCV:
El Test del Cociente de Verosimilitudes:
- Cambian signos y tomando logaritmos:
- Esto tiene sentido ya que las densidades son idénticas salvo sus medias
•
¿ Cómo cambiaría la regla de decisión TCV en el caso de que las probabilidades a priori fueran
P(1) = 2 P(2) ?
Probabilidad de error (1)
•
La eficiencia de cualquier regla de decisión puede ser medida por su probabilidad de error
P[error] la cual, haciendo uso del Teorema de la probabilidad total, puede ser expresada como:
•
La probabilidad de error condicionada a la clase, P[error|i], puede expresarse como:
•
De esta forma, para nuestro problema de dos clases, la probabilidad de error es:
- donde i es la integral de la verosimilitud P(x| i) sobre la región escogida
Probabilidad de error (2)
•
Dibujamos a continuación las integrales i y 2 calculadas para el ejemplo numérico anterior:
- Si las probabilidades a priori son iguales, entonces P[error] = (i + 2 ) / 2
Probabilidad de error (3)
•
¿ Cómo de buena es la regla de decisión basada en el Test del Cociente de Verosimilitudes ?
- Calculamos el error, ahora expresándolo en términos de la probabilidad a posteriori P[error|x]:
- La regla de decisión óptima es aquella que para un x dado, escoge la clase que minimiza
P[error|x]. De esta forma, el valor de la integral es el menor posible.
- En cada punto x’, P[error|x’] es igual a P[i|x’] cuando elegimos la otra clase j
Probabilidad de error (4)
- Para cualquier valor de x’, la regla del Test del Cociente de Verosimilitudes tendrá
siempre el menor P[error|x´]
P[error|x´] = min ( P(i |x´) ); donde i=1 ... C
- De esta forma, la integral tendrá el menor valor posible P[error]
A esta probabilidad se le llama Error de Bayes y es el menor error que
cualquier clasificador puede cometer al clasificar.
Para una problema dado, la regla de decisión basada en el Test del Cociente
de Verosimilitudes alcanza la probabilidad de error más pequeña que se
puede obtener.
Riesgo de Bayes (1)
•
Si al diseñar el sistema minimizamos P[error|x], estamos asumiendo de manera
implícita que la penalización por clasificar mal un ejemplo de clase 1 es la misma que
la de clasificar mal un ejemplo de la clase 2
- Por ejemplo, clasificar un paciente con cáncer como sano es un problema mucho más
serio que al revés
•
Este concepto puede ser formalizado en términos de la función de costo Cij
- Cij representa el coste de predecir “clase i, i“ siendo la clase real j, j
•
Definimos el Riesgo de Bayes como el valor esperado del costo:
Riesgo de Bayes (2)
•
Supongamos dos clases.
¿ Cuál es la regla de decisión que minimiza el Riesgo de Bayes ?
- Primero tenemos en cuenta que
- De esta forma, el Riesgo de Bayes es:
Riesgo de Bayes (3)
•
•
Por otra parte, tenemos la siguiente igualdad:
Haciendo uso de esta igualdad en la expresión de R, llegamos a:
Riesgo de Bayes (4)
•
•
Los dos primeros términos no dependen de R1 (la manera en que clasifiquemos), así
que no influyen en nuestra minimización.
De esta forma buscamos una región de decisión R1 que minimice:
Esta cantidad es mínima si x se clasifica de la siguiente manera:
Si g(x) < 0, clasificar x como 1 Termino dominante corresponde a 1
En caso contrario, clasificar x como 2
Riesgo de Bayes (5)
•
Lo que nos lleva a:
Siempre suponiendo que
C21 > C11 y C12 > C22
•
Con lo que la minimización del Riesgo de Bayes conduce a un Test de Cociente
de Verosimilitudes
Sin Riesgo
Con Riesgo
Variaciones del Test del Cociente de
Verosimilitudes
•
•
La regla de decisión TCV que minimiza el Riesgo de Bayes es conocida como el
“Criterio de Bayes”
Caso particular: Cij=1-δij
La regla de decisión se conoce en este caso como “Criterio del Máximo a Posteriori”,
ya que maximiza la probabilidad a posteriori P(i | x).
Variaciones del Test del Cociente de
Verosimilitudes
•
Caso Particular 2: P[1 ] = P[2 ] = 1 / 2, tendremos el Criterio de Maximización de
la Verosimilitud, ya que maximizaremos la verosimilitud P(x| i ):
Técnicas de estimación de pdfs
-
Técnicas paramétricas
- Hipótesis de pdfs gaussianas: ¿Vivimos en un mundo gaussiano?
Pdf de sumas de efectos independientes Teorema del Límite Central
Cualquier variable que
sea la contribución de
muchos factores
aleatorios
independientes tiende a
ser Gaussiana.
N
y = ∑ xi
i =1
Limitaciones: unimodal
- Sumas de gaussianas u otras distribuciones:
-
maximización de la verosimilitud (ML) para el cálculo de los parámetros algoritmo EM
Técnicas de estimación de pdfs
Técnicas no paramétricas:
- Histogramas
-
Está bien definido para D=1
Depende de la anchura de las cajas
- Estimadores de funciones de densidad con núcleos
p ( x) =
- Ventanas de Parzen
-
K
NV
Centra un hipercubo en el punto x y se calcula el número de puntos que caen en él
p( x) =
1
N
⎧ 1,
H ( u ) = ⎨
⎩0,
N
hD
∑
n =1
⎛ x − xn ⎞
H ⎜
⎟
⎝ h ⎠
ui ≤ 1 / 2,
i = 1,...., D
otherwise
- Kernels suaves
Caso de Gaussianas
1
p( x) =
N
- Vecinos más próximos: Fijar K y determinar V
⎧ x − x
n
1
⎪
exp
−
⎨
∑
2 1/ 2
2σ 2
n =1 ( 2πσ )
⎪
⎩
N
2
⎫
⎪
⎬
⎪
⎭
Técnicas de estimación de pdfs
Técnicas mixtas:
-
Simplificación para el caso de dimensionalidad “alta”: Naïve Bayes
- Se asume una forma factorizada de la pdf
D
p( x1...xD ) = ∏ p(xi )
i =1
-
A cada dimensión se le aplica una técnica de las anteriores
Clasificadores cuadráticos
•
Clasificadores de Bayes para clases distribuidas según Gaussianas
Matrices de covarianza iguales:
- Caso 1: i = 2 I, matriz de covarianza isotrópica
- Caso 2: i = , con diagonal
- Caso 3: i = , con no diagonal
Matrices de covarianza diferentes:
- Caso 4: i = i2 I
- Caso 5: i j, caso general
•
Ejemplo numérico
•
Conclusiones
Clasificadores de Bayes para clases
distribuidas como Gaussianas (1)
•
La regla de decisión que minimizaba la probabilidad de error:
etiquetar x como clase i si gi(x) > gj(x) para todo j i,
donde gi(x) = P(i | x)
- Clases que están distribuidas como Gaussianas, esta familia de
funciones discriminantes puede ser reducida a expresiones muy
sencillas
Clasificadores de Bayes para clases
distribuidas como Gaussianas (2)
•
Expresión general para densidades gaussianas
- La función de densidad multivariable gaussiana era:
- Usando la regla de Bayes, la función discriminante MAP es:
- Eliminando términos constantes:
- Ahora tomamos logaritmos
- A esta expresión se la denomina función discriminante cuadrática
Caso general
•
Reorganizando términos podemos reescribir gi(x) como:
donde
•
Puntos equiprobables P(x|i) son hiper-elipses, cuyos ejes principales son los autovectores
de i para esa clase.
•
Las fronteras de decisión son cuadráticas: hiper-elipses o hiper-paraboloides
•
La expresión cuadrática en el discriminante es proporcional a la distancia de Mahalanobis
usando la covarianza de la clase i, i
Caso general, ejemplo
•
Para ilustrar el resultado anterior, calcularemos las
fronteras de decisión para un problema de 3 clases, y
2 atributos, con los siguientes vectores promedio y
matrices de covarianza (asumiremos prioris iguales):
Casos específicos importantes:
Matrices de covarianza iguales: i = No intervienen
en la
discriminación
•
•
En este caso particular las Wi son iguales con lo cual no intervienen en la discriminación.
Las fronteras de separación son hiperplanos lineales:
gi(x) = wiTx + wi0
•
Cuando hay dos clases, la regla “si g1(x) > g2(x), tomar clase 1, si no clase 2” es
equivalente a
“si vTx > , clasificar como 1, si no, como 2”
con
v = -1 (1-2)
= w20-w10
Tiene una relación directa con el Discriminante de Fisher
Casos específicos importantes:
Matrices de covarianza iguales: i = && Probabilidades a priori iguales
•
Las funciones discriminantes gi originales se pueden expresar de un modo sencillo
de interpretar:
•
La cantidad:
medida estadística de distancia
•
La regla de decisión “escoger la clase del máximo gi(x)” se puede interpretar como:
“escoger la clase cuya distancia estadística (Mahalanobis) al ejemplo x sea mínima”
Casos específicos importantes:
Matrices de covarianza isotrópicas: i = 2 I
&& Probabilidades a priori iguales
• = 2 I, prioris iguales
–
–
atributos son independientes
igual varianza para todas las clases
Entonces,
No interviene en los
discriminante
•
•
Luego la distancia de Mahalanobis se convierte en la distancia Euclídea
Regla de decisión:
“escoger la clase cuyo vector promedio (µ) esté más cerca de x” Clasificar
por distancia a la media
Distancia Mahalanobis versus Euclídea
Distancia Mahalanobis
Distancia Euclídea
Casos específicos importantes:
Matrices de covarianza isotrópicas: i = 2 I
&& Probabilidades a priori iguales
• = 2 I, prioris iguales
•
Como ejemplo, calculamos las fronteras de
decisión para un problema de 3 clases, 2
atributos, y asumimos igual prioris.
Casos específicos importantes:
Matrices de covarianza Diagonal: i = D
&& Probabilidades a priori iguales
• = D diagonal, prioris iguales
–
–
atributos son independientes
diferente varianza
Entonces,
gi (x) = −
•
1 d
2
∑ (x k − ik ) / k2
2 k =1
La distancia de Mahalanobis es ahora una especie de distancia Euclídea en la que
los componentes individuales se normalizan por su varianza
Ejemplo
•
•
Derivar una función discriminante para el problema de clasificación con dos
clases, 3D, definido por los siguientes datos (distribuciones gaussianas):
Clasificar el patrón x = [0.1 0.7 0.8]T
Ejemplo
•
Solución:
Regla de decisión:
•
Clasificar el patrón x = [0.1 0.7 0.8]T
Funciones discriminantes
• Todas las reglas de decisión presentadas tienen la misma
estructura:
- Dado el objeto a clasificar x, escoger la clase i que maximice (o
minimice) alguna medida gi(x)
• Esta estructura puede ser formalizada por un conjunto de funciones
discriminantes gi(x), con i=1..C, y la siguiente regla de decisión:
“ etiquetar x como clase i si gi(x) > gj(x) para todo j i “
Funciones discriminantes
•
De esta manera, podemos ver la regla de decisión como una red o “máquina”
que computa C funciones discriminantes y selecciona la clase correspondiente
al discriminante mayor:
•
Finalmente, para demostrar la generalidad de esta formulación, expresamos las tres
reglas básicas de decisión (Bayes, MAP y ML) en términos de funciones discriminantes:
Conclusiones
•
El clasificador de Bayes para clases normalmente distribuidas:
1.
2.
•
El clasificador que minimiza la distancia de Mahalanobis es óptimo según Bayes si se
cumple que:
–
–
–
•
en el caso general un clasificador cuadrático
con matrices de covarianza iguales, es un clasificador lineal
Las clases están normalmente distribuidas
Las matrices de covarianza son las mismas
Los prioris son iguales
El clasificador que minimiza la distancia Euclídea es óptimo según Bayes si se cumple
que:
–
–
–
Las clases están normalmente distribuidas
Las matrices de covarianza son iguales, y múltiplos de la matriz identidad
Los prioris son iguales
•
Clasificar por mínima distancia Mahalanobis o mínima distancia Euclídea implica
fronteras de decisión lineales (igual covarianza) Discriminantes Lineales
•
En un problema real, rara vez podremos concluir la validez o no de estas
suposiciones.
En casi todos los casos nos limitaremos a intentar contestar a la pregunta:
“¿Resuelve el clasificador nuestro problema?”
•

Documentos relacionados