slides - Denis Parra

Transcripción

Evaluación deRecomendadores
Centrada enelUsuario
DenisParra
IIC3633,Sistemas Recomendadores
PUCChile
2016
AgendaSemestral
Temas
Transparencia yExplicabilidad
Controlabilidad
Visualizaciones eInteractividad
Algunos ejemplos para evaluación dela
experiencia delusuario
• Frameworkspara evaluación
•
•
•
•
– PearlPu
– BartKnijnenburg
Por qué evaluación centrada enel
usuario?
• Mayoría deinvestigación evalúa resultado de
recomendaciones off-line.
• Mejoras pequeñas depredicción enlos
algoritmos nosiempre setraducen enuna
mejor percepción delosusuarios (Konstan &
Riedl 2012)
• Laprecisión delosalgoritmos es sólo uno de
losfactores que influencian laaceptación de
las recomendaciones por partedelosusuarios
Explicabilidad
• Capítulo en“HandBook ofRecommender
Systems”[Tintarev &Masthoff,2012]
• Ellas proponen algunas direcciones generales
paradiseñar explicaciones paraSisRec
– Considerar beneficios aobtener (propósito)
– Evitar (obuscar)relación confuncionamiento del
recomendador
– Presentación yformadeinteracción
– Relación entrealgoritmo ytipo deexplicaciones
1.Criterios deExplicación
Propósito
Descripción
1.1Transparencia
Explicar cómo funciona elsistema
1.2Escrutabilidad
Dejar alusuario indicar que elsistema comete unerror
1.3Confianza
Incrementar confianza delusuario enelsistema
1.4Efectividad
Ayudar alusuario atomar buenas decisiones
1.5Persuasión
Convencer ausuario aprobar oacomprar
1.6Eficiencia
Ayudar ausuarios atomar decisiones más rápido
1.7Satisfacción
Aumentar facilidad deuso oeldisfrute en elsistema
1.1Transparencia
• Ejemplo apartir deartículo delWallStreet
Journal:
“IfTiVoThinksYouAreGay,Here’sHowtoSetIt
Straight”
• Unusuario sospechó que TiVopensó que él era
homosexualpues elsistema comenzó agrabar
automáticamente estos programas.
• Enelartículo,seexplica que este es uncaso en
que unusuario podría requerir transparencia en
elalgoritmo recomendador.
Escrutabilidad
• Permitir alusuario inpeccionar o“escrutar”el
resultado delarecomendación
• Sibien está relacionado contransparencia,se
sugiere identificar ysepararlo como ítem.
Escrutabilidad
Confianza
• Mayortransparencia yposibilidad de
interactuar conelrecomendador está
asociado envarios estudios conmayor
confianza enelsistema
• Podría estar asociado directamente ala
precisión depredicción delarecomendación,
pero nosiempre!
• Una buena métrica deconfianza:Lealtad del
usuario envolver ausar elsistema
Confianza
• Dostrabajos muestran que
confianza/satisfacción ypredicción nosiempre
están correlacionados
McNee etal. Don'tlookstupid:avoidingpitfalls
whenrecommendingresearchpapers.CSCW
(2006)
Crameretal.Theeffectsoftransparencyon
trustinandacceptanceofacontent-basedart
recommender.UMUAI18(5),455–496(2008).
Persuasión
• Unodelosprimeros trabajos enelárea de
“explicabilidad”derecomendaciones
intentaba explicar alusuario las
recomendaciones hechas;probaron 21
métodos posibles.
• Elautor delpaperenalgún momento llamó la
atención denoconsiderar ese estudio como el
modelo deexplicabilidad,ya que hacer al
usuario consciente deuna decisión y
persuadirlo puede tener efectos importantes
Persuasión II
Herlocker,J.L.,Konstan,J.A.,Riedl,J.:Explaining collaborativefilteringrecommendations.
In:ACMconferenceonComputersupportedcooperativework,pp.241–250(2000)
Efectividad
• Conectado conladefinición anterior,la
explicación/persuasión deuna recomendación
debiese estar asociada auna buena percepción
delusuario
• “Vig etal.measureperceivedeffectiveness:“This
explanationhelpsmedeterminehowwellIwill
likethismovie.”[62].”
• Sepodría medir como ladiferencia entrela
percepción delítem almomento deelegirlo y
después delconsumo.
Efectividad II
Efectividad III
Eficiencia
• Bajo este parámetro,lostipos de
explicaciones debieran optimizarse por
dominio para elegir entreopciones que
compiten.Por ejemplo,encámaras
<<”LessMemoryandLowerResolution and
Cheaper”>>
Altamente usado en“Conversational” SisRec,
donde elusuario refina iterativamente sus
preferencias.
Satisfacción
• Esta es probablemente lamétrica que
resumen demejor formaelobjetivo deun
sistema recomendador
• Existen algunos instrumentos (cuestionarios
convarios setsdepreguntas)que intentan
medir esta dimensión.Loveremos enmás
detalle enUserCentricEvaluation
Frameworks.
Visualizaciones
RelatedworkonVisualRS- 1
•
•
•
2008:PeerChooser
(CHI2008)
JohnO’Donovan and
BarrySmyth(UCD)
Brynjar Gretarsson,
Svetlin Bostandjiev,
TobiasHollerer (UCSB)
2009:Behavior-driven
Visualization
Recommendations
(IUI 2009)
• DavidGotz,ZhenWen
(IBM Research)
Given certaintasks
inferred fromuser’s
behavior, recommend
visualizations to
accomplishthose tasks
moreefficiently
•
RelatedworkonVisualRS– 2
•
•
•
2010:“SmallWorlds:
VisualizingSocial
Recommendations”
IEEE-VGTC 2010
Brynjar Gretarsson,
JohnO'Donovan ,
Svetlin Bostandjiev,
Christopher Hall,Tobias
Höllerer(UCSB)
User studywith17
users
• 2010:Pharos“Who
isTalkingabout
What:SocialMapbased
Recommendation
forContent-Centric
SocialWebsites”
(RecSys 2010)
• Zhaoetal.(IBM
China)
RelatedWork– 3.5J
•
•
•
2010:Opinion
Space:AScalable
ToolforBrowsing
OnlineComments
Siamak Faridani,
Ephrat Bitton,Kimiko
Ryokai,KenGoldberg
Softwaresponsored
byUSGovernment
todiversifypolitical
opinnions
•
•
2011:VisualRecommendationsforNetworkNavigation.IEEESymposiumon
Visualization.Tarik Crnovrsanin,IsaacLiao,Yingcai Wu,Kwan-LiuMa
Buildontopofnetzen:http://vis.cs.ucdavis.edu/~correac/netzen/index.html
• 2011:SFViz:
interest-based
friendsexploration
and
recommendationin
socialnetworks
SFVIZ(VINCI2011)
• Gou,You(?)etal.
• SetFusion
• DenisParra,Peter
Brusilovsky,and
Christoph
Trattner.2014.
Seewhatyou
wanttosee:
visualuser-driven
approachfor
hybrid
recommendation
(IUI2014)
https://www.youtube.com/watch?v=9LwSx1V6Yxk
• Moodplay
•
IvanaAndjelkovic,
DenisParra,andJohn
O'Donovan.2016.
Moodplay:Interactive
Mood-based Music
Discoveryand
Recommendation.
(UMAP2016)
https://www.youtube.com/watch?v=eEdo32oOmcE
Controlabilidad
¿Por qué controlabilidad?
• Beyondpredictionaccuracy,transparencyand
explainabilityin#recsys haveprovedtobe
relatedtousersatisfaction.
• Studiesshowaneffectofcontrollabilityon
usersatisfaction(papersI,II,III)~nowthe
detailsarestillnotcompletelyclear
• Whathasnotbeenstudied?
– InsightsfromourTalkExplorerstudies(submitted
toIUI)
PaperI
BartP.Knijnenburg,Niels J.M.Reijmer,and
Martijn C.Willemsen.2011.Eachtohisown:
howdifferentuserscallfordifferentinteraction
methodsinrecommender
systems. In ProceedingsofthefifthACM
conferenceonRecommender systems (RecSys
'11).
PaperI
• RecommenderforEnergy-savingmeasures
• Mainmessage:Controllabilitymatters,but
mainlyforexperts.Fornovices,aTopN
recommendationwithouttoomuchcontrol
ledtobetterusersatisfaction
PaperII
• BartP.Knijnenburg,Svetlin Bostandjiev,John
O'Donovan,andAlfredKobsa.2012.
Inspectability andcontrolinsocial
recommenders.In Proceedingsofthesixth
ACMconferenceonRecommender
systems (RecSys '12).
PaperII
• StudyonTasteWeights:NewSystem
introducedatRecSys 2012
• Facebookmusicrecommender
• Givesusercontrolsandexplainshowthey
cameabout
• Studywith267(recruitedincraiglist and
mechanicalturk)
PaperII
Inspectability
PaperII
• SummaryofResults
– Positiveeffectsofinspectability andcontrol,but
severalnuances
– Inthefullgraphcondition,people“recognize”more
recommendation,leadingtobettertrustbutlower
systemsatisfaction(diffthanrecomm.Quality)
• PersonalCharacteristics:
– Trustingpropensitypositivelycorrelatedwithuser
satisfaction
– Musicexpertsfeellessincontrol(bandstofiltermight
betoorough)buthaveanoverallpositiveperception
ofthesystem
PaperIII
• YoshinoriHijikata,YukiKai,andShogoNishida.
2012.Therelationbetweenuserintervention
andusersatisfactionforinformation
recommendation.In Proceedingsofthe27th
AnnualACMSymposiumonApplied
Computing (SAC'12)
PaperIII
• Terms:UserInterventioninsteadofControl
• StudyonMusicRecommendation,84users
• Methodsofuserintervention
– Rating:usualexplicitfeedback
– (CI)ContextInput:When/Where/WithWhom
– (CAS)Contextattributeselection:country,gender,
sex,unit,year
– (PE)ProfileEditing:notclear,butthehighestlevel
ofintervention
PaperIII
• Condition:100songsusedforlearning,1000
fortesting(experimentitself)
• 1st step:gatherdatafromusertobuild
recommendations
• 2nd step:randomlyassigntoeachuser2ofthe
conditions:ratings,CI,CAS,PE
PaperIII- results
• “”…Therefore,resultsshowthatthechanges
ofrecommendationresultsbyuser
interventionsimprovetheprecision…“
PaperIII- results
• Consideringgroupofpeoplewithfeedback
effectofinterestdegree
SummarypaperIII
• Whensystemrecommendsitemswithhigh
precisiontouserswithhighinterestinmusic,
themoretheuserintervenes->thebetter
theusersatisfaction
• NEVERTHELESS,Itisstillunclearwhetheruser
interventionitselfinfluencesusersatisfaction
PAWSinsigths
• Ahn,Jae-wookandBrusilovsky,Peterand
Grady,JonathanandHe,Daqing andSyn,Sue
Yeon.2007.Openuserprofilesforadaptive
newssystems:helporharm?WWW2007
• Verbert,Parra,Brusilovsky.2013.Visualizing
RecommendationstoSupportExploration,
TransparencyandControllability
TalkExplorer
TalkExplorer
SetFusion vs.TalkExplorer
Drawback:VisualizingIntersections
• Venndiagram:morenaturalwaytovisualize
intersections
Clustermap
10/06/2014
Venndiagram
Verbet,Parra,&Brusilovsky.~IntRsasRecSys2014
47
ResultsofStudiesI&II
• Effectiveness
increaseswith
intersectionsof
moreentities
• Effectivenesswasn’t
affectedinthefield
study(study2)
• …butexploration
distributionwas
affected
10/06/2014
Verbet,Parra,&Brusilovsky.~IntRsas
RecSys2014
48
TalkExplorer vs.SetFusion
• Comparingdistributionsofexplorations
In studies 1 and 2 over
talkEplorer we observed an
important change in the
distribution of explorations.
10/06/2014
RecSys2014
49
TalkExplorer vs.SetFusion
• Comparingdistributionsofexplorations
Comparing the field studies:
- In TalkExplorer, 84% of
the explorations over
intersections were
performed over clusters of
1 item
- In SetFusion, was only
52%, compared to 48%
(18% + 30%) of multiple
intersections, diff. not
statistically significant
10/06/2014
RecSys2014
50
Cheers!
@denisparra

slides - Denis Parra

Transcripción

Documentos relacionados

Creación nuevos usuarios de OM Dentro del menú de

Serie BSC10 Rollo de papel recomendado