slides - Denis Parra
Transcripción
slides - Denis Parra
Evaluación deRecomendadores Centrada enelUsuario DenisParra IIC3633,Sistemas Recomendadores PUCChile 2016 AgendaSemestral Temas Transparencia yExplicabilidad Controlabilidad Visualizaciones eInteractividad Algunos ejemplos para evaluación dela experiencia delusuario • Frameworkspara evaluación • • • • – PearlPu – BartKnijnenburg Por qué evaluación centrada enel usuario? • Mayoría deinvestigación evalúa resultado de recomendaciones off-line. • Mejoras pequeñas depredicción enlos algoritmos nosiempre setraducen enuna mejor percepción delosusuarios (Konstan & Riedl 2012) • Laprecisión delosalgoritmos es sólo uno de losfactores que influencian laaceptación de las recomendaciones por partedelosusuarios Explicabilidad • Capítulo en“HandBook ofRecommender Systems”[Tintarev &Masthoff,2012] • Ellas proponen algunas direcciones generales paradiseñar explicaciones paraSisRec – Considerar beneficios aobtener (propósito) – Evitar (obuscar)relación confuncionamiento del recomendador – Presentación yformadeinteracción – Relación entrealgoritmo ytipo deexplicaciones 1.Criterios deExplicación Propósito Descripción 1.1Transparencia Explicar cómo funciona elsistema 1.2Escrutabilidad Dejar alusuario indicar que elsistema comete unerror 1.3Confianza Incrementar confianza delusuario enelsistema 1.4Efectividad Ayudar alusuario atomar buenas decisiones 1.5Persuasión Convencer ausuario aprobar oacomprar 1.6Eficiencia Ayudar ausuarios atomar decisiones más rápido 1.7Satisfacción Aumentar facilidad deuso oeldisfrute en elsistema 1.1Transparencia • Ejemplo apartir deartículo delWallStreet Journal: “IfTiVoThinksYouAreGay,Here’sHowtoSetIt Straight” • Unusuario sospechó que TiVopensó que él era homosexualpues elsistema comenzó agrabar automáticamente estos programas. • Enelartículo,seexplica que este es uncaso en que unusuario podría requerir transparencia en elalgoritmo recomendador. Escrutabilidad • Permitir alusuario inpeccionar o“escrutar”el resultado delarecomendación • Sibien está relacionado contransparencia,se sugiere identificar ysepararlo como ítem. Escrutabilidad Confianza • Mayortransparencia yposibilidad de interactuar conelrecomendador está asociado envarios estudios conmayor confianza enelsistema • Podría estar asociado directamente ala precisión depredicción delarecomendación, pero nosiempre! • Una buena métrica deconfianza:Lealtad del usuario envolver ausar elsistema Confianza • Dostrabajos muestran que confianza/satisfacción ypredicción nosiempre están correlacionados McNee etal. Don'tlookstupid:avoidingpitfalls whenrecommendingresearchpapers.CSCW (2006) Crameretal.Theeffectsoftransparencyon trustinandacceptanceofacontent-basedart recommender.UMUAI18(5),455–496(2008). Persuasión • Unodelosprimeros trabajos enelárea de “explicabilidad”derecomendaciones intentaba explicar alusuario las recomendaciones hechas;probaron 21 métodos posibles. • Elautor delpaperenalgún momento llamó la atención denoconsiderar ese estudio como el modelo deexplicabilidad,ya que hacer al usuario consciente deuna decisión y persuadirlo puede tener efectos importantes Persuasión II Herlocker,J.L.,Konstan,J.A.,Riedl,J.:Explaining collaborativefilteringrecommendations. In:ACMconferenceonComputersupportedcooperativework,pp.241–250(2000) Efectividad • Conectado conladefinición anterior,la explicación/persuasión deuna recomendación debiese estar asociada auna buena percepción delusuario • “Vig etal.measureperceivedeffectiveness:“This explanationhelpsmedeterminehowwellIwill likethismovie.”[62].” • Sepodría medir como ladiferencia entrela percepción delítem almomento deelegirlo y después delconsumo. Efectividad II Efectividad III Eficiencia • Bajo este parámetro,lostipos de explicaciones debieran optimizarse por dominio para elegir entreopciones que compiten.Por ejemplo,encámaras <<”LessMemoryandLowerResolution and Cheaper”>> Altamente usado en“Conversational” SisRec, donde elusuario refina iterativamente sus preferencias. Satisfacción • Esta es probablemente lamétrica que resumen demejor formaelobjetivo deun sistema recomendador • Existen algunos instrumentos (cuestionarios convarios setsdepreguntas)que intentan medir esta dimensión.Loveremos enmás detalle enUserCentricEvaluation Frameworks. Visualizaciones RelatedworkonVisualRS- 1 • • • 2008:PeerChooser (CHI2008) JohnO’Donovan and BarrySmyth(UCD) Brynjar Gretarsson, Svetlin Bostandjiev, TobiasHollerer (UCSB) RelatedworkonVisualRS- 2 2009:Behavior-driven Visualization Recommendations (IUI 2009) • DavidGotz,ZhenWen (IBM Research) Given certaintasks inferred fromuser’s behavior, recommend visualizations to accomplishthose tasks moreefficiently • RelatedworkonVisualRS– 2 • • • 2010:“SmallWorlds: VisualizingSocial Recommendations” IEEE-VGTC 2010 Brynjar Gretarsson, JohnO'Donovan , Svetlin Bostandjiev, Christopher Hall,Tobias Höllerer(UCSB) User studywith17 users RelatedworkonVisualRS- 3 • 2010:Pharos“Who isTalkingabout What:SocialMapbased Recommendation forContent-Centric SocialWebsites” (RecSys 2010) • Zhaoetal.(IBM China) RelatedWork– 3.5J • • • 2010:Opinion Space:AScalable ToolforBrowsing OnlineComments Siamak Faridani, Ephrat Bitton,Kimiko Ryokai,KenGoldberg Softwaresponsored byUSGovernment todiversifypolitical opinnions RelatedworkonVisualRS- 4 • • 2011:VisualRecommendationsforNetworkNavigation.IEEESymposiumon Visualization.Tarik Crnovrsanin,IsaacLiao,Yingcai Wu,Kwan-LiuMa Buildontopofnetzen:http://vis.cs.ucdavis.edu/~correac/netzen/index.html RelatedworkonVisualRS- 5 • 2011:SFViz: interest-based friendsexploration and recommendationin socialnetworks SFVIZ(VINCI2011) • Gou,You(?)etal. RelatedworkonVisualRS- 6 • SetFusion • DenisParra,Peter Brusilovsky,and Christoph Trattner.2014. Seewhatyou wanttosee: visualuser-driven approachfor hybrid recommendation (IUI2014) https://www.youtube.com/watch?v=9LwSx1V6Yxk RelatedworkonVisualRS- 7 • Moodplay • IvanaAndjelkovic, DenisParra,andJohn O'Donovan.2016. Moodplay:Interactive Mood-based Music Discoveryand Recommendation. (UMAP2016) https://www.youtube.com/watch?v=eEdo32oOmcE Controlabilidad ¿Por qué controlabilidad? • Beyondpredictionaccuracy,transparencyand explainabilityin#recsys haveprovedtobe relatedtousersatisfaction. • Studiesshowaneffectofcontrollabilityon usersatisfaction(papersI,II,III)~nowthe detailsarestillnotcompletelyclear • Whathasnotbeenstudied? – InsightsfromourTalkExplorerstudies(submitted toIUI) PaperI BartP.Knijnenburg,Niels J.M.Reijmer,and Martijn C.Willemsen.2011.Eachtohisown: howdifferentuserscallfordifferentinteraction methodsinrecommender systems. In ProceedingsofthefifthACM conferenceonRecommender systems (RecSys '11). PaperI • RecommenderforEnergy-savingmeasures • Mainmessage:Controllabilitymatters,but mainlyforexperts.Fornovices,aTopN recommendationwithouttoomuchcontrol ledtobetterusersatisfaction PaperII • BartP.Knijnenburg,Svetlin Bostandjiev,John O'Donovan,andAlfredKobsa.2012. Inspectability andcontrolinsocial recommenders.In Proceedingsofthesixth ACMconferenceonRecommender systems (RecSys '12). PaperII • StudyonTasteWeights:NewSystem introducedatRecSys 2012 • Facebookmusicrecommender • Givesusercontrolsandexplainshowthey cameabout • Studywith267(recruitedincraiglist and mechanicalturk) PaperII Inspectability PaperII • SummaryofResults – Positiveeffectsofinspectability andcontrol,but severalnuances – Inthefullgraphcondition,people“recognize”more recommendation,leadingtobettertrustbutlower systemsatisfaction(diffthanrecomm.Quality) • PersonalCharacteristics: – Trustingpropensitypositivelycorrelatedwithuser satisfaction – Musicexpertsfeellessincontrol(bandstofiltermight betoorough)buthaveanoverallpositiveperception ofthesystem PaperIII • YoshinoriHijikata,YukiKai,andShogoNishida. 2012.Therelationbetweenuserintervention andusersatisfactionforinformation recommendation.In Proceedingsofthe27th AnnualACMSymposiumonApplied Computing (SAC'12) PaperIII • Terms:UserInterventioninsteadofControl • StudyonMusicRecommendation,84users • Methodsofuserintervention – Rating:usualexplicitfeedback – (CI)ContextInput:When/Where/WithWhom – (CAS)Contextattributeselection:country,gender, sex,unit,year – (PE)ProfileEditing:notclear,butthehighestlevel ofintervention PaperIII • Condition:100songsusedforlearning,1000 fortesting(experimentitself) • 1st step:gatherdatafromusertobuild recommendations • 2nd step:randomlyassigntoeachuser2ofthe conditions:ratings,CI,CAS,PE PaperIII- results • “”…Therefore,resultsshowthatthechanges ofrecommendationresultsbyuser interventionsimprovetheprecision…“ PaperIII- results • Consideringgroupofpeoplewithfeedback effectofinterestdegree SummarypaperIII • Whensystemrecommendsitemswithhigh precisiontouserswithhighinterestinmusic, themoretheuserintervenes->thebetter theusersatisfaction • NEVERTHELESS,Itisstillunclearwhetheruser interventionitselfinfluencesusersatisfaction PAWSinsigths • Ahn,Jae-wookandBrusilovsky,Peterand Grady,JonathanandHe,Daqing andSyn,Sue Yeon.2007.Openuserprofilesforadaptive newssystems:helporharm?WWW2007 • Verbert,Parra,Brusilovsky.2013.Visualizing RecommendationstoSupportExploration, TransparencyandControllability TalkExplorer TalkExplorer SetFusion vs.TalkExplorer Drawback:VisualizingIntersections • Venndiagram:morenaturalwaytovisualize intersections Clustermap 10/06/2014 Venndiagram Verbet,Parra,&Brusilovsky.~IntRsasRecSys2014 47 ResultsofStudiesI&II • Effectiveness increaseswith intersectionsof moreentities • Effectivenesswasn’t affectedinthefield study(study2) • …butexploration distributionwas affected 10/06/2014 Verbet,Parra,&Brusilovsky.~IntRsas RecSys2014 48 TalkExplorer vs.SetFusion • Comparingdistributionsofexplorations In studies 1 and 2 over talkEplorer we observed an important change in the distribution of explorations. 10/06/2014 Verbet,Parra,&Brusilovsky.~IntRsas RecSys2014 49 TalkExplorer vs.SetFusion • Comparingdistributionsofexplorations Comparing the field studies: - In TalkExplorer, 84% of the explorations over intersections were performed over clusters of 1 item - In SetFusion, was only 52%, compared to 48% (18% + 30%) of multiple intersections, diff. not statistically significant 10/06/2014 Verbet,Parra,&Brusilovsky.~IntRsas RecSys2014 50 Cheers! @denisparra