Teoría Bayesiana de la Decisión - Universidad Autónoma de Madrid
Transcripción
Teoría Bayesiana de la Decisión - Universidad Autónoma de Madrid
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Teoría Bayesiana de la Decisión • El Test del Cociente de Verosimilitudes • Probabilidad de error • Riesgo de Bayes • Criterios de Bayes, MAP y ML • Problemas multi-clase • Funciones discriminantes El Test del Cociente de Verosimilitudes • Supongamos que queremos clasificar un objeto basándonos en la evidencia proporcionada por una medida (escalar o vectorial) x • ¿ Seria una regla de decisión razonable la siguiente ? - Elegir la clase que es más “probable” dada la observación x - Más formalmente: Calcular la probabilidad a posteriori de cada clase, P(i|x), y elegir la clase con mayor valor El Test del Cociente de Verosimilitudes • Examinemos las implicaciones de esta regla de decisión en el caso de un problema de dos clases - En este caso la regla de decisión es: Si P(1|x) > P(2|x), elegir 1 En caso contrario, elegir 2 - De una manera más compacta, - Aplicando la Regla de Bayes, • P(x) no afecta a la regla de decisión, con lo que se puede eliminar, obteniendo: • El término (x) se denomina cociente de verosimilitudes, y la regla resultante es el Test del Cociente de Verosimilitudes El Test del Cociente de Verosimilitudes: ejemplo • Dado un problema de clasificación con las siguientes densidades condicionadas a las clases, derivar una regla de decisión basada en el Test del Cociente de Verosimilitudes (asumir probabilidades a priori iguales) • Solución - Sustituyendo las densidades y prioris en la expresión TCV: - Simplificando la expresión TCV: El Test del Cociente de Verosimilitudes: - Cambian signos y tomando logaritmos: - Esto tiene sentido ya que las densidades son idénticas salvo sus medias • ¿ Cómo cambiaría la regla de decisión TCV en el caso de que las probabilidades a priori fueran P(1) = 2 P(2) ? Probabilidad de error (1) • La eficiencia de cualquier regla de decisión puede ser medida por su probabilidad de error P[error] la cual, haciendo uso del Teorema de la probabilidad total, puede ser expresada como: • La probabilidad de error condicionada a la clase, P[error|i], puede expresarse como: • De esta forma, para nuestro problema de dos clases, la probabilidad de error es: - donde i es la integral de la verosimilitud P(x| i) sobre la región escogida Probabilidad de error (2) • Dibujamos a continuación las integrales i y 2 calculadas para el ejemplo numérico anterior: - Si las probabilidades a priori son iguales, entonces P[error] = (i + 2 ) / 2 Probabilidad de error (3) • ¿ Cómo de buena es la regla de decisión basada en el Test del Cociente de Verosimilitudes ? - Calculamos el error, ahora expresándolo en términos de la probabilidad a posteriori P[error|x]: - La regla de decisión óptima es aquella que para un x dado, escoge la clase que minimiza P[error|x]. De esta forma, el valor de la integral es el menor posible. - En cada punto x’, P[error|x’] es igual a P[i|x’] cuando elegimos la otra clase j Probabilidad de error (4) - Para cualquier valor de x’, la regla del Test del Cociente de Verosimilitudes tendrá siempre el menor P[error|x´] P[error|x´] = min ( P(i |x´) ); donde i=1 ... C - De esta forma, la integral tendrá el menor valor posible P[error] A esta probabilidad se le llama Error de Bayes y es el menor error que cualquier clasificador puede cometer al clasificar. Para una problema dado, la regla de decisión basada en el Test del Cociente de Verosimilitudes alcanza la probabilidad de error más pequeña que se puede obtener. Riesgo de Bayes (1) • Si al diseñar el sistema minimizamos P[error|x], estamos asumiendo de manera implícita que la penalización por clasificar mal un ejemplo de clase 1 es la misma que la de clasificar mal un ejemplo de la clase 2 - Por ejemplo, clasificar un paciente con cáncer como sano es un problema mucho más serio que al revés • Este concepto puede ser formalizado en términos de la función de costo Cij - Cij representa el coste de predecir “clase i, i“ siendo la clase real j, j • Definimos el Riesgo de Bayes como el valor esperado del costo: Riesgo de Bayes (2) • Supongamos dos clases. ¿ Cuál es la regla de decisión que minimiza el Riesgo de Bayes ? - Primero tenemos en cuenta que - De esta forma, el Riesgo de Bayes es: Riesgo de Bayes (3) • • Por otra parte, tenemos la siguiente igualdad: Haciendo uso de esta igualdad en la expresión de R, llegamos a: Riesgo de Bayes (4) • • Los dos primeros términos no dependen de R1 (la manera en que clasifiquemos), así que no influyen en nuestra minimización. De esta forma buscamos una región de decisión R1 que minimice: Esta cantidad es mínima si x se clasifica de la siguiente manera: Si g(x) < 0, clasificar x como 1 Termino dominante corresponde a 1 En caso contrario, clasificar x como 2 Riesgo de Bayes (5) • Lo que nos lleva a: Siempre suponiendo que C21 > C11 y C12 > C22 • Con lo que la minimización del Riesgo de Bayes conduce a un Test de Cociente de Verosimilitudes Sin Riesgo Con Riesgo Variaciones del Test del Cociente de Verosimilitudes • • La regla de decisión TCV que minimiza el Riesgo de Bayes es conocida como el “Criterio de Bayes” Caso particular: Cij=1-δij La regla de decisión se conoce en este caso como “Criterio del Máximo a Posteriori”, ya que maximiza la probabilidad a posteriori P(i | x). Variaciones del Test del Cociente de Verosimilitudes • Caso Particular 2: P[1 ] = P[2 ] = 1 / 2, tendremos el Criterio de Maximización de la Verosimilitud, ya que maximizaremos la verosimilitud P(x| i ): Técnicas de estimación de pdfs - Técnicas paramétricas - Hipótesis de pdfs gaussianas: ¿Vivimos en un mundo gaussiano? Pdf de sumas de efectos independientes Teorema del Límite Central Cualquier variable que sea la contribución de muchos factores aleatorios independientes tiende a ser Gaussiana. N y = ∑ xi i =1 Limitaciones: unimodal - Sumas de gaussianas u otras distribuciones: - maximización de la verosimilitud (ML) para el cálculo de los parámetros algoritmo EM Técnicas de estimación de pdfs Técnicas no paramétricas: - Histogramas - Está bien definido para D=1 Depende de la anchura de las cajas - Estimadores de funciones de densidad con núcleos p ( x) = - Ventanas de Parzen - K NV Centra un hipercubo en el punto x y se calcula el número de puntos que caen en él p( x) = 1 N ⎧ 1, H ( u ) = ⎨ ⎩0, N hD ∑ n =1 ⎛ x − xn ⎞ H ⎜ ⎟ ⎝ h ⎠ ui ≤ 1 / 2, i = 1,...., D otherwise - Kernels suaves Caso de Gaussianas 1 p( x) = N - Vecinos más próximos: Fijar K y determinar V ⎧ x − x n 1 ⎪ exp − ⎨ ∑ 2 1/ 2 2σ 2 n =1 ( 2πσ ) ⎪ ⎩ N 2 ⎫ ⎪ ⎬ ⎪ ⎭ Técnicas de estimación de pdfs Técnicas mixtas: - Simplificación para el caso de dimensionalidad “alta”: Naïve Bayes - Se asume una forma factorizada de la pdf D p( x1...xD ) = ∏ p(xi ) i =1 - A cada dimensión se le aplica una técnica de las anteriores Clasificadores cuadráticos • Clasificadores de Bayes para clases distribuidas según Gaussianas Matrices de covarianza iguales: - Caso 1: i = 2 I, matriz de covarianza isotrópica - Caso 2: i = , con diagonal - Caso 3: i = , con no diagonal Matrices de covarianza diferentes: - Caso 4: i = i2 I - Caso 5: i j, caso general • Ejemplo numérico • Conclusiones Clasificadores de Bayes para clases distribuidas como Gaussianas (1) • La regla de decisión que minimizaba la probabilidad de error: etiquetar x como clase i si gi(x) > gj(x) para todo j i, donde gi(x) = P(i | x) - Clases que están distribuidas como Gaussianas, esta familia de funciones discriminantes puede ser reducida a expresiones muy sencillas Clasificadores de Bayes para clases distribuidas como Gaussianas (2) • Expresión general para densidades gaussianas - La función de densidad multivariable gaussiana era: - Usando la regla de Bayes, la función discriminante MAP es: - Eliminando términos constantes: - Ahora tomamos logaritmos - A esta expresión se la denomina función discriminante cuadrática Caso general • Reorganizando términos podemos reescribir gi(x) como: donde • Puntos equiprobables P(x|i) son hiper-elipses, cuyos ejes principales son los autovectores de i para esa clase. • Las fronteras de decisión son cuadráticas: hiper-elipses o hiper-paraboloides • La expresión cuadrática en el discriminante es proporcional a la distancia de Mahalanobis usando la covarianza de la clase i, i Caso general, ejemplo • Para ilustrar el resultado anterior, calcularemos las fronteras de decisión para un problema de 3 clases, y 2 atributos, con los siguientes vectores promedio y matrices de covarianza (asumiremos prioris iguales): Casos específicos importantes: Matrices de covarianza iguales: i = No intervienen en la discriminación • • En este caso particular las Wi son iguales con lo cual no intervienen en la discriminación. Las fronteras de separación son hiperplanos lineales: gi(x) = wiTx + wi0 • Cuando hay dos clases, la regla “si g1(x) > g2(x), tomar clase 1, si no clase 2” es equivalente a “si vTx > , clasificar como 1, si no, como 2” con v = -1 (1-2) = w20-w10 Tiene una relación directa con el Discriminante de Fisher Casos específicos importantes: Matrices de covarianza iguales: i = && Probabilidades a priori iguales • Las funciones discriminantes gi originales se pueden expresar de un modo sencillo de interpretar: • La cantidad: medida estadística de distancia • La regla de decisión “escoger la clase del máximo gi(x)” se puede interpretar como: “escoger la clase cuya distancia estadística (Mahalanobis) al ejemplo x sea mínima” Casos específicos importantes: Matrices de covarianza isotrópicas: i = 2 I && Probabilidades a priori iguales • = 2 I, prioris iguales – – atributos son independientes igual varianza para todas las clases Entonces, No interviene en los discriminante • • Luego la distancia de Mahalanobis se convierte en la distancia Euclídea Regla de decisión: “escoger la clase cuyo vector promedio (µ) esté más cerca de x” Clasificar por distancia a la media Distancia Mahalanobis versus Euclídea Distancia Mahalanobis Distancia Euclídea Casos específicos importantes: Matrices de covarianza isotrópicas: i = 2 I && Probabilidades a priori iguales • = 2 I, prioris iguales • Como ejemplo, calculamos las fronteras de decisión para un problema de 3 clases, 2 atributos, y asumimos igual prioris. Casos específicos importantes: Matrices de covarianza Diagonal: i = D && Probabilidades a priori iguales • = D diagonal, prioris iguales – – atributos son independientes diferente varianza Entonces, gi (x) = − • 1 d 2 ∑ (x k − ik ) / k2 2 k =1 La distancia de Mahalanobis es ahora una especie de distancia Euclídea en la que los componentes individuales se normalizan por su varianza Ejemplo • • Derivar una función discriminante para el problema de clasificación con dos clases, 3D, definido por los siguientes datos (distribuciones gaussianas): Clasificar el patrón x = [0.1 0.7 0.8]T Ejemplo • Solución: Regla de decisión: • Clasificar el patrón x = [0.1 0.7 0.8]T Funciones discriminantes • Todas las reglas de decisión presentadas tienen la misma estructura: - Dado el objeto a clasificar x, escoger la clase i que maximice (o minimice) alguna medida gi(x) • Esta estructura puede ser formalizada por un conjunto de funciones discriminantes gi(x), con i=1..C, y la siguiente regla de decisión: “ etiquetar x como clase i si gi(x) > gj(x) para todo j i “ Funciones discriminantes • De esta manera, podemos ver la regla de decisión como una red o “máquina” que computa C funciones discriminantes y selecciona la clase correspondiente al discriminante mayor: • Finalmente, para demostrar la generalidad de esta formulación, expresamos las tres reglas básicas de decisión (Bayes, MAP y ML) en términos de funciones discriminantes: Conclusiones • El clasificador de Bayes para clases normalmente distribuidas: 1. 2. • El clasificador que minimiza la distancia de Mahalanobis es óptimo según Bayes si se cumple que: – – – • en el caso general un clasificador cuadrático con matrices de covarianza iguales, es un clasificador lineal Las clases están normalmente distribuidas Las matrices de covarianza son las mismas Los prioris son iguales El clasificador que minimiza la distancia Euclídea es óptimo según Bayes si se cumple que: – – – Las clases están normalmente distribuidas Las matrices de covarianza son iguales, y múltiplos de la matriz identidad Los prioris son iguales • Clasificar por mínima distancia Mahalanobis o mínima distancia Euclídea implica fronteras de decisión lineales (igual covarianza) Discriminantes Lineales • En un problema real, rara vez podremos concluir la validez o no de estas suposiciones. En casi todos los casos nos limitaremos a intentar contestar a la pregunta: “¿Resuelve el clasificador nuestro problema?” •