Sistemas de recomendación basados en modelo y en grafos

Transcripción

Sistemas de recomendación basados en modelo y en grafos
Sistemas de recomendación basados en modelo y
en grafos
Estudio Independiente Tutelado I
Saúl Vargas Sandoval
3 de febrero de 2011
Introducción
Introducción
Sistemas basados en modelo
Modelo de semántica latente: pLSA
Modelo de factorización de matrices
Procesos de decisión de Markov
Otras propuestas
Sistemas basados en grafos
Tipos de grafos
Probabilidad estacionaria en caminos aleatorios
Similitudes sobre caminos aleatorios
Proyección espacial del grafo
Puenteamiento
Métodos espectrales
Técnicas de recuperación asociativa
Conclusiones
Referencias
Introducción
Los sistemas de recomendación se pueden clasificar según dos
propiedades básicas:
I Qué tipo de información se usa:
I
I
I
I
el contenido del ı́tem (recomendación basada en contenido),
las preferencias de una comunidad de usuarios (filtrado colaborativo)
o una combinación de ambas (recomendación hı́brida).
Cómo se usa la información:
I
I
si esta se usa directamente (basada en memoria o heurı́stica)
o se genera un modelo (estadı́stico, jerárquico, sobre red neuronal)
sobre el que se crean las recomendaciones.
Introducción
Definición (Métodos heurı́sticos o basados en memoria)
Son sistemas de recomendación que hacen predicción de puntuaciones a
partir de la colección entera de los ı́tems puntuados por los usuarios.
r (u, i) = aggru0 ∈U r (u 0 , i)
0
r (u, i) = aggri 0 ∈I r (u, i )
(basado en usuario)
(basado en ı́tem)
Introducción
Definición (Métodos basados en modelo)
Son sistemas de recomendación que generan, a partir de las puntuaciones
conocidas, un modelo (probabilı́stico, vectorial, etc.) que es el que se
usará para hacer predicciones.
r (u, i) = E [r (u, i)] =
n
X
i=0
v · P(r (u, i) = v |r (u, i 0 ), i 0 ∈ Iu )
Introducción
Definición (Métodos basados en grafos)
Son sistemas que extraen estructuras de grafos a partir de los datos
conocidos y que aplicarán diversos algoritmos de grafos para generar
predicciones. Veremos tres tipos de grafos:
I
Grafo bipartito de ı́tems y usuarios.
I
Grafo de ı́tems.
I
Grafo con información social y de etiquetado.
Introducción
Problemas tı́picos de los métodos heurı́sticos o basados en memoria:
I
tener un acierto sub-óptimo,
I
no “aprender” de los datos de los usuarios,
I
no escalar bien, en general, en cuanto a uso de memoria y tiempo de
proceso,
I
y no tener capacidad de moldearse o adaptarse a problemas
especı́ficos.
La familia de algoritmos basados en modelo intentará, por tanto, afrontar
los problemas anteriores al comprimir los datos en un modelo compacto
que permita calcular predicciones.
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Hofmann [5] introduce el probabilistic Latent Semantic Analysis (pLSA).
I
En el caso más sencillo se busca calcular las probabilidades P(y |u).
I
Se define una función de pérdida para cuantificar el acierto de una
predicción:
L((u, y ), θ) = − log P(y |u; θ)
I
La función de riesgo empı́rica medirá el error global:
R emp (θ) =
1 X
L((u, y ), θ)
N
hu,y i
I
El objetivo del modelo θ será por tanto minimizar el riesgo R. Esto
se hará con Expectation Maximization.
I
Se introduce un conjunto Z de estados que intentarán modelizar un
“causas ocultas”.
θ = ({P(z|u)} , {P(y |z)})
X
P(y |u; θ) =
P(y |z)P(z|u)
z
1 X
log P(y |z) + log P(z|u)
R c (θ) = −
N
hu,y ,zi
I
La distribución de probabilidad variacional Q(z; u, y ) modelará el
conocimiento sobre las variables latentes dados los parámetros
actuales. Define una nueva función de riesgo que es una cota
superior de la anterior:
R̃(θ, Q) = −
1 XX
Q(z; u, y ) [log P(y |z) + log P(z|u)]
N
z
hu,y i
I
Expectation: a partir de un modelo inicial θ̂, encontrar una
distribución Q ∗ óptima en cuanto que minimice la cota superior de
R(θ̂):
P̂(y |z)P̂(z|u)
Q ∗ (z; u, y ; θ̂) = P
0
0
z 0 P̂(y |z )P̂(z |u)
donde la notación P̂ indica probabilidades según el modelo θ̂.
I
Maximization: encontrar un nuevo modelo θ que minimice R̃(θ, Q ∗ ).
La solución será la siguiente:
P
∗
hu,y 0 iy 0 =y Q (z; u, y ; θ̂)
P(y |z) = P
∗
hu,y i Q (z; u, y ; θ̂)
P
hu 0 ,y iu 0 =u
P(z|u) = P P
z0
Q ∗ (z; u, y ; θ̂)
hu 0 ,y iu 0 =u
Q ∗ (z; u, y ; θ̂)
Con uso de ratings se tienen cuatro posibilidades:
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Koren et al. [8] utiliza un método de factorización matricial.
I
Se caracteriza al conjunto de usuarios e ı́tems a partir de un
conjunto de factores inferidos a partir de los patrones de preferencia.
I
El objetivo del modelo será encontrar para cada usuario un vector
pu ∈ Rk y qi ∈ Rk para cada ı́tem tales que expresen cuánto de cada
factor tienen cada uno.
I
La interacción entre usuario e ı́tem vendrá dada por el producto
escalar de sus vectores:
r̂ (u, i) = qit · pu
I
Lo que se busca es minimizar el error cuadrático medio sin
sobreajuste:
X
mı́n
(r (u, i) − qit · pu )2 + λ(kqi k2 + kpu k2 )
q,p
r (u,i)6=∅
Descenso por gradiente estocástico
Básicamente consiste de un bucle que itera sobre los datos de
entrenamiento proporcionados, sobre los que se calcula el error de
predicción asociado en un paso:
eui = r (u, i) − qit · pu
En base a este error se modificarán los parámetros en la dirección
opuesta al gradiente, resultando:
qi ← qi + γ(eui pu − λqi )
pu ← pu + γ(eui qi − λpu )
Mejoras:
I
Añadir sesgos por usuario, por ı́tem y global:
r̂ (u, i) = µ + bu + bi + qit · pu
mı́n
q,p,b
I
I
I
X
(r (u, i)−µ−bu −bi −qit ·pu )2 +λ(kqi k2 +kpu k2 +bu2 +bi2 )
r (u,i)6=∅
Fuentes de información adicionales.
Dinámicas temporales.
Niveles de confianza:
X
mı́n
cui (r (u, i)−µ−bu −bi −qit ·pu )2 +λ(kqi k2 +kpu k2 +bu2 +bi2 )
q,p,b
r (u,i)6=∅
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Shani et al. [12] proponen un modelo de recomendación basado en
Procesos de Decisión de Markov (MDP).
I Predicción o decisión.
I
Beneficio para el usuario y para el sistema.
I
Beneficio a corto y largo plazo.
I
Naturaleza secuencial de la recomendación: importa el orden.
Procesos de decisión de Markov (MDP)
I
S de estados posibles, acciones A disponibles para todos los estados.
I
Recompensa Rwd : S × A −→ R
I
Transición tr (s, a, s 0 )
I
Objetivo: obtener una polı́tica µ : S −→ A que maximice la
recompensa.
I
Algoritmo: iteración de polı́tica mediante la función de valor:
X
V µ (s) = Rwd(s, µ(s)) +
tr (s, µ(s), sj )V µ (sj )
sj ∈S
Observación: un MDP sin acciones es una cadena de Markov.
Modelo predictivo
I
A partir de los datos de entrenamiento se construye un modelo de
cadenas de Markov sobre el que se aplicará el MDP.
I
Cada estado s ∈ S será una secuencia ordenada de valoraciones de
un usuario a los ı́tems.
I
La función de transición de un estado a otro se aproximará por
verosimilitud:
count(s)
trMC (s, s 0 ) =
count(s 0 )
Configuración del MDP
I
I
I
Acciones: se considerará una acción como la recomendación de uno
o más elementos.
Recompensa: expresará la utilidad de vender un ı́tem (o cualquier
otro fin esperado del sistema de recomendación). Por ejemplo, se
puede usar el beneficio neto de la transacción.
Transición: se definirá la transición como la probabilidad de que el
usuario haga una de las siguientes acciones:
I
El usuario acepta la recomendación.
trMDP (s, r , s · r ) = αs,r trMC (s, s · r )
I
El usuario selecciona otro elemento.
trMDP (s, r 0 , s · r ) = βs,r trMC (s, s · r )
I
αs,r > 1
r 6= r 0
βs,r < 1
El usuario no selecciona ningún elemento, es decir, no hace una
transición.
X
trMDP (s, r , s) = 1 −
trMDP (s, r , s · r )
r
Otras propuestas
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Otras propuestas
Método de clustering
Ungar et al. [13] sugieren un método de recomendación basada en
clustering sobre valoración binaria (el ı́tem es útil o no).
Pk = probabilidad de que un usuario al azar esté en la clase k
Pl = probabilidad de que un ı́tem al azar esté en la clase l
Pkl = probabilidad de que un usuario en la clase k
haya valorado un ı́tem en la clase l.
La estimación de grupos se hará mediante K-means o Gibbs sampling.
Otras propuestas
Método bayesiano
Chen et al. [3] asumen que los usuarios pueden ser divididos en grupos en
los cuales sus miembros comparten la distribución de probabilidad de
ratings.
Z
f (ykl |x) =
f (ykl |p, q)f (x|p, q)π(p)π(q)dpdq
p,q
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Tipos de grafos
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Tipos de grafos
I
Grafo de ı́tems:
I
I
Enlaces ponderados cuando tienen usuarios en común.
Mayor peso a mayor número de usuarios en común.
I
Red de blogs: enlaces correspondientes a hiperenlaces no ponderados
con información de preferencias de usuarios.
I
Grafo bipartito usuarios-ı́tems: Enlaces ponderados respecto a la
valoración de un usuario para un ı́tem, número de reproducciones
I
Grafo con información social y de etiquetado:


UU
UTr
UTg
0
TrTg 
S =  UTr t
t
t
UTg TrTg
0
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Abbassi et al. [1] aplican a la red de blogs PageRank personalizado con
un componente de “vagancia”, cuya matriz de transición es:

1−α−l

 deg (i) + α r (j) (i, j) ∈ E
Aij = l + α r (j)
i =j


α r (j)
(i, j) ∈
/E
La personalización se basará en los blogs favoritos del usuario. Para evitar
sumideros, se adapta la probabilidad de teleportación y el peso de os
arcos.
Otras propuestas que usan PageRank u otro camino aleatorio
personalizado son:
I Konstas et al. [7] con la información de red social y etiquetado,
personalizando en los ı́tems reproducidos por el usuario.
I Onuma et al. [10] calculan probabilidades estacionarias usando la
normalización laplaciana de la matriz del grafo Ã = D−1/2 AD−1/2 y
personalización respecto al nodo del usuario.
I Y. Zhang [15] usan caminos aleatorios absorbentes.
I L. Zhang et al. [16] proponen usar una variante de Topical
PageRank sobre el grafo de ı́tems:
R u = dαMR u + d(1 − α)MF u + (1 − d)I u

1
u


||G |
Ri,g (0) = |IP
|G |
u
u
Fi,g
(t) =
Ri,g
(t − 1) Pi,g
g
=1


R u (t) = dαMR u (t − 1) + d(1 − α)MF u (t) + (1 − d)I u
Iu =
Ĩ u
|Ĩ u |
TR
u
Ĩi,g
= r (u, i)Pi,g
=
|G |
X
Ru P
Mei et al. [9] presentan DivRank, un algoritmo que pretende captar
diversidad. Para ello hace un camino aleatorio con refuerzo de
transiciones.
(
(u,v )
si u 6= v
β wdeg
(u)
p0 (u, v ) =
1−β
si u = v ,
pT (u, v ) = αp ∗ (v ) + (1 − α)
DT (u) =
X
p0 (u, v )NT (v )
DT (v )
p0 (u, v )NT (v )
v ∈V
El efecto de NT (v ) es que los nodos adyacentes competirán entre sı́ por
una mayor puntuación, donde los nodos mayores tenderán a absorber la
puntuación de sus vecinos menores, y a su vez de los vecinos de éstos.
Finalmente, los nodos con mayor puntuación estarán, en general,
débilmente conectados y, con ello, se mejora la diversidad de los
resultados.
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Fouss et al. [4] no usan las probabilidades estacionarias de caminos
aleatorios, sino los tiempos de tránsito entre nodos de la red bipartita
para calcular similitudes entre usuario e ı́tem, entre usuarios y entre ı́tems.
Definición (Matriz laplaciana de un grafo)
La matriz laplaciana se un grafo se define como L = D − A donde D es
una matriz diagonal con los grados de los nodos del grafo y A es la
matriz de adyacencia del mismo. Es fácil ver que, si el grafo es conexo, L
tiene rango n − 1. Además es doblemente centrada, simétrica y
semidefinida positiva.
Definición (Pseudoinversa de Moore-Penrose)
La pseudoinversa de Moore-Penrose de L es una matriz L+ que cumple:
1. LL+ L = L
2. L+ LL+ = L+
3. (LL+ )t = LL+
4. (L+ L)t = L+ L
También es doblemente centrada, simétrica y semidefinida positiva.
Definición (Tiempo medio de primer paso)
(
m(k|k) = 0
PN
m(k|i) = 1 + j=1 pij m(k|j) si i 6= k
Definición (Coste medio de primer paso)
(
o(k|k) = 0
PN
PN
o(k|i) = j=1 pij c(j|i) + j=1 pij o(k|j) si i 6= k
Definición (Tiempo medio de transición)
n(i, j) = m(j|i) + m(i|j)
m(k|i) =
n
X
+
(lij+ − lik+ − lkj+ + lkk
)deg (j)
j=1
o(k|i) =
n
X
+
(lij+ − lik+ − lkj+ + lkk
)bj
bi =
j=1
n(i, j) =VG (lii+ + ljj+ − 2lij+ ) VG =
n
X
aij c(j|i)
j=1
n
X
k=1
deg (k)
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Distancia de tiempo de conmutación euclı́dea (ECTD).
n(i, j) = VG (lii+ + ljj+ − 2lij+ ) VG =
n
X
deg (k)
k=1
Se define ei = (0 . . . 0 1 0 . . . 0)t como el vector asociado al nodo i,
1
i−1 i i+1
n
por tanto:
n(i, j) = VG (ei − ej )t L+ (ei − ej )
p
n(i, j) define una distancia euclı́dea.
I
Mediante la descomposición de Jordan
matriz L+ = UΛUt se
√ de la
t
pueden hacer la transformación xi = ΛU ei de modo que:
n(i, j) = VG kxi − xj k2
I
Además, estos vectores están centrados y la matriz de sus productos
escalares es precisamente L+ , esto es, lij+ = xti xj , con lo que L+ se
puede considerar como una matriz de similitud.
I
Por otro lado, se puede aproximar L+ tomando los m < (n − 1)
primeros autovectores de su descomposición espectral:
L̃+ = ŨΛ̃Ũt
Puenteamiento
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Puenteamiento
Onuma et al. [10] combinan puntuaciones de caminos aleatorios con
coeficientes de puenteamiento sobre la red bipartita usuarios-ı́tems para
encontrar sorpresa.
I Puntuación de “puenteamiento” (bridging score BRS), basada en
detectar elementos que unen grupos por otra parte disjuntos.
I Para cada nodo n, la subred de elementos adyacentes a este. Toma
entonces la media de puntuaciones de relevancia ~ri,j entre nodos i y
j de la subred, cuya inversa bn será la BRS.
bn =
I
1
avgi,j∈adj(n)~ri,j
Idea: un nodo que una grupos disjuntos producirá una subred con
menos enlaces entre elementos.
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Abbassi et al. [1] emplean técnicas de clustering espectral junto con
caminos aleatorios sobre la red de blogs:
1. Sean 1 = λ1 ≥ λ2 ≥ . . . ≥ λn los autovalores de P, se computan los
autovectores v2 , v3 , . . . , vt correspondientes a λ2 , λ3 , . . . , λt .
2. Se determinan un conjunto de pesos c2 , . . . , ct para cada autovector.
3. Para cada blog u y autovector vi se define la diferencia
di (u) = |vi (w ) − vi (u)|.
4. Se ordenan
los nodos en un orden creciente según el valor
P
qu = 2≤i≤t ci di (u).
El vector q es el conjunto de distancias al nodo w .
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Z. Huang et al. [6] se centran en el uso de técnicas de recuperación
asociativa para afrontar el problema de la dispersión de datos.
I
Uso de la red bipartita usuarios-ı́tems para explorar relaciones de
transitividad.
I
Longitud máxima de camino usuario-ı́tem M.
I
Penalización por longitud de camino α < 1.
(
αA
si M = 1
AM
α =
2
t
M−2
α (AA )Aα
si M = 3, 5, 7, . . .
I
Esta aproximación matricial es costosa, existen alternativas más
eficientes:
I
Constrained Spread Activation: Leaky Capacitor Model,
Branch-and-Bound y Hopfield Networks.
Conclusiones
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Conclusiones
I
De las cinco propuestas basadas en modelo, tres de ellas ([3],[5] y
[13]) tienen el concepto de crear grupos.
I
La mayorı́a de los modelos propuestos sobre grafos se basa en
caminos aleatorios en sus múltiples variantes, ya sea con
teleportación (personalizada o no), nodos absorbentes, refuerzo de
arcos o uso de tópicos.
I
La mayorı́a de ellos usa las probabilidades estacionarias de los
caminos aleatorios como estimadores de utilidad de los ı́tems para
los usuarios, Fouss et al. [4] usa tiempos de tránsito entre nodos del
grafo para estimar similitudes entre usuarios e ı́tems.
I
Otras técnicas sobre grafos son activación y búsqueda de
puenteamiento.
Referencias
Introducción
Otras propuestas
Tipos de grafos
Puenteamiento
Conclusiones
Referencias
Referencias
Z. Abbassi and V. S. Mirrokni, “A recommender system based on local
random walks and spectral methods,” in Proceedings of the 9th WebKDD
and 1st SNA-KDD 2007 workshop on Web mining and social network
analysis (WebKDD/SNA-KDD ’07). ACM, New York, NY, USA, 102-108.
(2007)
G. Adomavicius, A. Tuzhilin, “Toward the Next Generation of
Recommender Systems: A Survey of the State-of-the-Art and Possible
Extensions” on IEEE Trans. Knowl. Data Eng. 17(6): 734-749 (2005)
Y.-H. Chen and E. I. George, “A Bayesian Model for Collaborative
Filtering,” in Proceedings of the 7th International Workshop on Artificial
Intelligence and Statistics, 1999.
F. Fouss, A. Pirotte, J.-m. Renders, and M. Saerens, “Random-Walk
Computation of Similarities between Nodes of a Graph with Application to
Collaborative Recommendation,” IEEE Transactions on Knowledge and
Data Engineering, vol. 19, no. 3, pp. 355-369, March 2007.
T. Hofmann, “Latent Semantic Models for Collaborative Filtering” on
ACM Transactions on Information Systems, Vol. 22, No. 1. (January
2004), pp. 89-115.
Referencias
Z. Huang, H. Chen, and D. Zeng, “Applying associative retrieval
techniques to alleviate the sparsity problem in collaborative filtering,”
ACM Transactions on Information Systems (TOIS), vol. 22, no. 1, pp.
116-142, January 2004.
I. Konstas, V. Stathopoulos, and J. M. Jose, “On social networks and
collaborative recommendation,” in SIGIR ’09: Proceedings of the 32nd
international ACM SIGIR conference on Research and development in
information retrieval. New York, NY, USA: ACM, 2009, pp. 195-202.
Y. Koren, R. Bell, and C. Volinsky. 2009. Matrix Factorization Techniques
for Recommender Systems. Computer 42, 8 (August 2009), 30-37.
Q. Mei, J. Guo, and D. Radev, “DivRank: the interplay of prestige and
diversity in information networks,” in Proceedings of the 16th ACM
SIGKDD international conference on Knowledge discovery and data
mining, ser. KDD ’10. New York, NY, USA: ACM, 2010, pp. 1009-1018.
K. Onuma, H. Tong, and C. Faloutsos, “TANGENT: a novel, ‘Surprise
me’, recommendation algorithm,” in KDD ’09: Proceedings of the 15th
ACM SIGKDD international conference on Knowledge discovery and data
mining. New York, NY, USA: ACM, 2009, pp. 657-666.
Referencias
A. Pucci, M. Gori, and M. Maggini, “A random-walk based scoring
algorithm applied to recommender engines,” in WebKDD’06: Proceedings
of the 8th Knowledge discovery on the web international conference on
Advances in web mining and web usage analysis. Berlin, Heidelberg:
Springer-Verlag, 2007, pp. 127-146.
G. Shani, D. Heckerman, and R. I. Brafman, “An MDP-Based
Recommender System,” Journal of Machine Learning Research, vol. 6, pp.
1265-1295, 2005.
L. Ungar and D. Foster, “Clustering Methods For Collaborative Filtering,”
in Proceedings of the Workshop on Recommendation Systems. AAAI
Press, Menlo Park California, 1998.
H. Yildirim and M. S. Krishnamoorthy, “A random walk method for
alleviating the sparsity problem in collaborative filtering,” in RecSys ’08:
Proceedings of the 2008 ACM conference on Recommender systems. New
York, NY, USA: ACM, 2008, pp. 131-138.
Y. Zhang, J.-Q. Wu, and Y.-T. Zhuang, “Random walk models for top-N
recommendation task,” Journal of Zhejiang University - Science A, vol.
10, no. 7, pp. 927-936, July 2009.
Referencias
L. Zhang, K. Zhang, and C. Li, “A topical PageRank based algorithm for
recommender systems,” in SIGIR ’08: Proceedings of the 31st annual
international ACM SIGIR conference on Research and development in
information retrieval. New York, NY, USA: ACM, 2008, pp. 713-714.
X. Zhu, A. B. Goldberg, J. Van, and G. D. Andrzejewski, “Improving
diversity in ranking using absorbing random walks,” in Physics Laboratory
– University of Washington, 2007, pp. 97-104.

Sistemas de recomendación basados en modelo y en grafos

Transcripción

Documentos relacionados

Desafíos Computacionales - Centro de Investigación de la Web

1. Para los siguientes ejercicios: a. Escribir el conjunto de vértices. b

GRAFOS

Leonard Euler y la Teoría de Grafos