DOCTEUR DE L`UNIVERSITE TOULOUSE III De la perception
Transcripción
DOCTEUR DE L`UNIVERSITE TOULOUSE III De la perception
UNIVERSITE TOULOUSE III – PAUL SABATIER UFR SVT – Science de la Vie et de la Terre THESE Pour obtenir le grade de DOCTEUR DE L’UNIVERSITE TOULOUSE III Discipline : Neurosciences Présentée et soutenue Le 26 mars 2007 par Marianne Latinus Titre De la perception unimodale à la perception bimodale des visages Corrélats électrophysiologiques et interactions entre traitements des visages et des voix JURY Pr Pier-Giorgi Zanone – LAPMA – U. Paul Sabatier, Toulouse Pr Pascal Belin – Voice Neurocognition Laboratory – U. of Glasgow, Glasgow Dr Bruno Rossion – CODE – U.Catholique de Louvain, Louvain-la-neuve Dr Margot Taylor – Diagnostic Imaging – Hospital for Sick Children, Toronto Dr Rufin VanRullen – CERCO – U. Paul Sabatier, Toulouse Centre de Recherche Cerveau et Cognition (CerCo) UMR 5549 Université Toulouse 3-CNRS Faculté de Médecine de Rangueil 31062 Toulouse Cedex 9 Président Rapporteur Rapporteur Examinateur Directeur de thèse à mes parents, à Jean-Marc. PUBLICATIONS Articles publiés Latinus, M., Taylor, M.J. (2006). Face processing stages: impact of difficulty and the separation of effects. Brain Research. 1123(1):179-87. Itier, R.J., Latinus, M. and Taylor, M.J. (2006). Face, eye and object early processing: What is the face specificity? Neuroimage. 29(2), 667-676. Latinus, M., Taylor, M.J. (2005). Holistic processing of faces; learning effects with Mooney faces. Journal of Cognitive Neuroscience. 17(8), 1316-1327. Articles soumis Latinus, M., Bayle D., Bohler, K. Deltheil, T. & Taylor M.J. Early processing differences between learned and famous faces. Brain and Cognition. Latinus, M., Taylor, M.J. Faces are easier: Gender Categorisation of faces and voices. European Journal of Neuroscience. Article en préparation Latinus, M., Taylor M.J. Top-down and bottom-up attentional modulation in processing bimodal face/voice stimuli. Neuroimage. Résumés de conférences publiés Latinus, M. & Taylor, M.J. Different face processing. Journal of Cognitive Neuroscience Supplement 2004, 81. Latinus, M. & Taylor, M.J. Perceptual learning of faces. Journal of Psychophysiology (17) supplement 2003, S53. Itier, R.J., Latinus, M. & Taylor, M.J. Effects of inversion, contrast-reversal and their conjunction on face, eye and object processing: an ERP study. Journal of Cognitive Neuroscience AVANT-PROPOS… 11 PARTIE 1 : LES VISAGES… 17 1. Le cheminement de l’information visuelle 1.1. De la rétine au cortex inférotemporal 1.2. La catégorisation dans le cortex temporal 18 18 21 2. Les visages : une catégorie à part ? 2.1. Spécificité comportementale Effet d’inversion, de visage chimérique et de négation a. Effet d’expertise et du niveau de traitement b. 2.2. Corrélats neuronaux de la reconnaissance des visages 2.2.1. Enregistrements cellulaires chez le primate 2.2.2. Aires spécifiques des visages chez l’homme : localisation et fonctions Localisation a. Etudes fonctionnelles des aires spécifiques des visages b. 2.2.3. Décours temporel du traitement des visages Enregistrements intracrâniens : N200 a. EEG, MEG : N170, VPP & M170 b. EEG, MEG : autres composantes c. 2.3. Théories 2.3.1. Modèle fonctionnel de la reconnaissance des visages (Bruce & Young, 1986) 2.3.2. Une histoire d’expertise… 2.3.3. Une histoire de traitement… Configuration de premier ordre a. Traitement holistique b. Configuration de second ordre c. 24 25 26 31 34 35 36 36 39 47 47 50 60 62 62 65 66 67 69 70 3. Travail expérimental : de la détection à l’identification des visages 3.1. D’où vient la spécificité du visage ? 3.2. Traitement holistique des visages : les Mooney Faces 3.3. Les trois étapes du traitement des visages et leur corrélat neurophysiologiques 3.4. Discrimination du genre 3.5. Identification du visage 75 77 89 103 115 117 4. Discussion 4.1. En Résumé 4.2. Le traitement du visage : de la détection à la reconnaissance L’extraction de la configuration générique du visage débute à 100 ms La construction du gestalt commence à la N170 Le traitement analytique comme aide à la détection et à l’identification Traitement analytique : traitement des yeux ? Catégorisation du genre Traitement de l’identité à partir de 220 ms ? Conclusion 147 147 148 149 151 153 154 154 155 156 PARTIE 2 : VOIX ET INTERACTIONS BIMODALES 161 A. Les Voix et le Système auditif 162 1. Le système auditif 1.1. De la cochlée au cortex auditif primaire 1.1.1. Anatomie et fonctionnement de la cochlée 1.1.2. De la cochlée au cortex auditif primaire 1.2. A1 et les aires auditives associatives 1.2.1. Chez le primate 1.2.2. Chez l’homme 163 163 163 165 166 166 168 7 1.3. Décours temporel du traitement auditif : potentiels évoqués 171 2. La voix : de la production à l’écoute 2.1. Appareil phonatoire et structure de la voix 2.2. Ecouter la voix : langage et perception 2.2.1. Le langage : la communication verbale Caractéristiques acoustiques du langage a. Structures cérébrales impliquées dans le langage b. 2.2.2. Perception de la voix, informations paralinguistiques Etudes comportementales a. Localisation cérébrale du traitement de la voix b. Décours temporel c. Modèle de la perception des voix d. 174 175 176 177 177 178 180 181 187 193 198 3. Travail expérimental : la perception du genre de la voix 203 4. Discussion Perception du genre de la voix Comparaison entre le genre du visage et le genre de la voix 235 235 237 B. Interactions bimodales 239 1. La preuve par les illusions 1.1. L’effet McGurk 1.2. Ventriloquie : illusion spatiale et temporelle 1.3. Flashs illusoires 1.4. Un cas particulier d’interaction intermodale : La synesthésie 239 240 241 242 243 2. Etudes comportementales des interactions multimodales 2.1. Facilitation intersensorielle 2.2. Effet de redondance 2.3. Règles de synchronies 2.4. Modèles expliquant les interactions multimodales 2.4.1. Modèles expliquant la facilitation 2.4.2. Hypothèses sur la dominance sensorielle 245 246 247 250 250 251 252 3. Corrélats neuronaux des interactions multimodales 3.1. Localisation de cibles bimodales 3.1.1. Localisation cérébrale 3.1.2. Décours temporel 3.2. La perception des objets, du langage, des visages et des voix 3.2.1. Localisation cérébrale 3.2.2. Décours temporel Activité précoce a. P1 visuelle et N1 auditive b. Activité plus tardive c. Effets liés à la dominance sensorielle des sujets d. 3.3. Conclusions 254 256 256 258 259 259 262 263 264 265 266 267 4. Travail expérimental 273 5. Discussion 315 APRES-PROPOS 319 REFERENCES 329 8 9 10 Avant-propos… L’homme dispose de cinq modalités sensorielles bien connues : le toucher, la vision, l’odorat, le goût et l’audition. A ces différents sens s’ajoute la proprioception, considérée comme le «sixième sens». Les informations sensorielles, quelle que soit la modalité de provenance, transitent toutes par le thalamus avant d’être transmises aux cortex sensoriels primaires, puis dans les aires sensorielles associatives où s’effectue l’intégration des informations. Les informations sensorielles sont traitées de manière indépendante, mais elles sont également combinées de façon à construire un percept unifié de notre environnement. Par exemple, afin de lire cet avant-propos, vous vous asseyez sur une chaise, vos récepteurs proprioceptifs sont stimulés et vous signalent votre position assise, les récepteurs somesthésiques s’éveillent et vont, par exemple, vous informer du confort de votre posture. Vos yeux parcourent la feuille, les informations visuelles permettent de distinguer des mots qui en un lieu cérébral différent trouvent leur signification sémantique ; le contenu du texte est alors accessible. Simultanément, les récepteurs olfactifs sont actifs et l’entrée d’une personne portant du parfum va suffire à vous faire lever la tête, peut-être même la reconnaîtrez-vous. Au moment où vous levez la tête, son visage stimulera le système visuel et vous donnera des informations sur cette personne. Lorsqu’elle se mettra à parler, l’audition entrera en jeu, et vous aurez accès à d’autres informations redondantes ou non avec celles déjà reçues. Ces différentes informations seront intégrées pour permettre une perception globale de ce nouveau venu ainsi que sa reconnaissance. Nos sens sont en perpétuel éveil et nous donnent en permanence des informations sur notre environnement nous permettant de reconstruire un percept cohérent du monde qui nous entoure. En reprenant l’exemple de la personne entrant dans le bureau, les informations visuelles et auditives s’associent pour reconstruire une perception globale permettant un accès à l’identité de cette personne; l’information olfactive facilite probablement la reconnaissance. Ainsi, dans notre vie quotidienne, la multisensorialité est la règle plutôt que l’exception, puisqu’à chaque instant tous nos sens sont en éveil. Dans un contexte social extrêmement important pour l’espèce humaine, la perception multisensorielle de l’autre repose en premier lieu sur sa voix et son visage. C’est donc ce qui fera l’objet de cette thèse. S’il faut parler de la perception multisensorielle de l’autre par sa voix et son visage, qui révèlent plus que tout autres informations les éléments du soi, tant au niveau ethnique et 11 social que culturel, ne faut-il pas commencer par s’intéresser à la perception isolée des visages et des voix ? Comment parler de l’intégration d’informations provenant de deux de nos sens, si nous ne connaissons pas le traitement de cette même information individuellement dans chacun de ces deux sens ? Plan Dans une première partie constituée par cinq études, j’aborderai la perception des visages. A travers une revue de la littérature, nous verrons que la singularité des visages n’est plus à démontrer tant de nombreux indices aussi bien comportementaux que neurophysiologiques l’ont mise en évidence ces dernières années. Plusieurs hypothèses tentent d’expliquer cette particularité ; elles seront abordées à la fin de la première partie, juste avant la présentation des travaux expérimentaux réalisés au cours de ma thèse. Parmi ces hypothèses, deux théories principales se dégagent. La première de ces théories explique la spécificité des visages par l’existence de processus particuliers qui seraient orientés, de manière innée, vers la reconnaissance des visages. La seconde explique que les visages ne sont pas « spéciaux » en tant que tels mais qu’ils bénéficient de l’expertise que nous en avons ; c’est cette expertise qui conduit à l’utilisation de processus particuliers. Les différentes expériences de ma thèse mettent en évidence les corrélats neuronaux sous-tendant la perception du visage, de sa détection à sa reconnaissance, c’est à dire l’identification du visage. Ma première étude compare les mécanismes cérébraux mis en jeu par les visages à ceux mis en jeu par une variété d’objets. Dans les deux études suivantes, je me suis intéressée aux différentes étapes du traitement des visages et à leur contribution aux modulations des potentiels évoqués observées dans certaines conditions expérimentales. Ces différentes études mettent en évidence les processus sous-tendant la détection du visage. Les deux dernières études ont porté sur un niveau inférieur de catégorisation : dans la première, j’ai étudié les corrélats de la perception du genre de l’individu puis, dans la seconde, nous avons exploré la reconnaissance des visages au niveau individuel afin de comprendre l’implication des différents types de traitements dans l’encodage et la reconnaissance des visages. Dans la seconde partie de ma thèse, j’aborderai la perception bimodale des visages. J’entends par perception bimodale des visages l’intégration visuo-auditive d’informations provenant des visages et des voix. La voix est un « visage auditif » car, comme le visage, elle véhicule des informations paralinguistiques renseignant sur l’identité, le genre, ou l’état émotionnel d’un individu. Avant d’étudier les interactions bimodales, j’ai logiquement exploré la perception de la voix, A travers une revue de la littérature, nous verrons que la 12 perception des informations paralinguistiques dépend en premier lieu des informations spectrales, en particulier de la fréquence fondamentale, de la voix ; elle dépend également d’autres facteurs comme la dynamique spectrale de la voix, c’est à dire les variations de fréquences au cours du temps. La perception des voix a été moins étudiée que celle des visages ; néanmoins, les voix sont des stimuli auditifs spéciaux ne serait-ce que parce qu’elles sont le support du langage.Cette spécificité des voix est également démontrée par l’existence de régions répondant spécifiquement aux stimuli vocaux. Du fait de cette spécificité, il a été proposé un modèle de reconnaissance des voix similaire à celui de la reconnaissance des visages ; ce modèle de la perception des voix sera présenté à la fin du chapitre A de la seconde partie. Dans mon travail expérimental, j’ai étudié la perception de la voix via la discrimination du genre ; deux expériences, qui font l’objet d’un seul article, ont été réalisées au cours de ma thèse. Dans la première expérience, j’ai exploré la perception du genre de la voix sur des voix normales ; dans la deuxième étude, j’ai investigué le rôle de la fréquence fondamentale dans la reconnaissance du genre. Dans le chapitre B de la seconde partie, nous aborderons les interactions multimodales. Les recherches sur ce sujet sont assez récentes ; différentes approches ont été utilisées conduisant à une multitude de résultats pas toujours cohérents. Un schéma semble néanmoins se distinguer ; il apparaît que les interactions multimodales mettent en jeu non seulement les aires hétéromodales (recevant des entrées de plusieurs systèmes sensoriels), mais également les aires unimodales. Mes études sur la perception « bimodale » des visages ont porté sur la reconnaissance du genre sur des stimuli bimodaux : un visage présenté simultanément à une voix. En utilisant 3 tâches avec différentes instructions attentionnelles, j’ai étudié l’influence de l’attention sur le traitement des informations bimodales, plus particulièrement sur les informations portées par les visages et les voix. Un mot sur la méthode La technique d’imagerie utilisée au cours de ma thèse est la technique des potentiels évoqués. Les potentiels évoqués représentent l’activité cérébrale évoquée par une stimulation sensorielle. L’activité électrique est enregistrée à la surface du scalp via un certain nombre d’électrodes posées en des endroits particuliers du scalp ; dans mes études, les EEG (ElectroEncéphaloGramme) sont enregistrés grâce à 64 électrodes, excepté dans les études 11 et 32 où 32 électrodes ont été utilisées. L’enregistrement de l’activité cérébrale se fait en 1 2 (Itier, Latinus et al., 2006) (Latinus & Taylor, 2006) 13 continu ; après l’enregistrement, l’EEG continu est découpé en morceaux (« les époques »). Les époques sont ensuite moyennées en prenant comme référence temporelle la présentation du stimulus ; on obtient ainsi les potentiels évoqués. Cette technique permet d’isoler le décours temporel des traitements cérébraux dans différentes conditions expérimentales. Un potentiel évoqué (PE) visuel classique est triphasique ; dans certains cas, une première composante est enregistrée 50 ms après la stimulation : la C1. La C1 est suivie d’une onde positive vers 100 ms après la présentation du stimulus (la P1), suivie d’une déflexion négative, la N1 ou N170, puis à nouveau une composante positive, la P2 (Figure 1). Ces différentes composantes des PE reflètent différentes étapes du traitement visuel. La P1 et la P2 sont en général observées sur les électrodes occipitales, et occipito-pariétales ; la N170 est enregistrée sur les électrodes temporales. Ce sont ces trois composantes que j’ai mesurées dans mes différentes expériences sur les visages (Figure 1). Un potentiel évoqué auditif classique a également plusieurs composantes. Une composante est enregistrée 50 ms après la stimulation, la Pa ou P50 ou encore P1. Cette première onde est suivie de la N1 auditive, onde négative apparaissant 120 ms après le début de la stimulation, puis de la P2 auditive apparaissant autour de 200 ms après la stimulation. Les composantes auditives sont mesurées sur les électrodes fronto-centrales. Ces notions, illustrées par la figure 1, nous serons utiles par la suite pour l’interprétation des résultats expérimentaux présentés dans cette thèse. Figure 1. Potentiels évoqués par les visages (a), les voix (b). 14 « Partie antérieure de la tête de l’homme…» « Figure, face considérée comme…» « Aspect d’une chose » 15 16 Partie 1 : Les visages… La vision est l’un des cinq sens de l’homme. Il s’agit du sens le plus développé (30 à 40% du cortex cérébral est consacré à l’analyse du monde visuel). Les stimuli s’adressant au système visuel sont multiples et variés – objets statiques, dynamiques, texture etc. Parmi ces différents stimuli, les visages sont probablement les plus courants. Les visages ont acquis une importance capitale au cours de l’évolution parce qu’ils véhiculent des informations essentielles à la vie en société telles que l’appartenance ethnique, l’âge, le sexe, l’état émotionnel ou encore l’identité. Ils sont une véritable signature de l’individu. L’étude des mouvements oculaires permet de mettre en évidence le centre d’intérêt visuel ; en effet, la direction du regard est fonction de l’information recherchée. Les patterns d’exploration de scènes visuelles décrits par Yarbus (1967) témoignent du rôle fondamental des visages dans la recherche d’informations sociales telles que l’âge ou l’émotion (Figure 2) (Yarbus, 1967). Figure 2. Visualisation des saccades oculaires enregistrées par Yarbus (1967) sur la peinture originale ("Unexpected Return" Illya Repin). L'exploration libre de la scène se fait via un grand nombre de saccades dirigées vers les visages. L'estimation de l'âge ou de la durée de la séparation (notifiée par les expressions faciales des différents personnages) se fait essentiellement par l'exploration du visage. Issu de la thèse de M.A. Lipps (2002)3. 3 http://www.cis.rit.edu/vpl/publications/Lipps_MS_Thesis_full.pdf 17 Au sein même du visage, les yeux et la bouche sont les principaux lieux d’exploration visuelle, témoignant certainement qu’ils révèlent plus que toute autre partie les informations inhérentes à la personne (Yarbus, 1961). Pendant une conversation, les yeux se fixent essentiellement sur la bouche, la lecture labiale favorisant la compréhension du discours. Ainsi les visages portent un certain nombre d’informations impliquées dans la communication verbale, via la lecture labiale, et non-verbale, via les yeux et les expressions faciales. L’importance des visages dans les interactions sociales explique l’engouement des scientifiques pour l’étude des mécanismes cérébraux impliqués dans leur perception. La première partie a pour but d’exposer les connaissances acquises sur les mécanismes cérébraux sous-tendant la perception des visages via une revue de la littérature et de 5 expériences réalisées au cours de ma thèse. La perception d’un visage commence, comme celle de tout autre stimulus visuel, par l’activation des photorécepteurs de la rétine qui assurent la transduction de l’information lumineuse en messages nerveux. Les potentiels d’action, générés au niveau des cellules ganglionnaires, convergent vers le cortex visuel primaire via le thalamus puis dans les aires visuelles associatives jusqu’au cortex inférotemporal et au gyrus fusiforme. 1. Le cheminement de l’information visuelle 1.1. De la rétine au cortex inférotemporal Tout commence à l’ouverture des yeux. Les photons viennent à la rencontre de la rétine après avoir traversé la cornée, l’humeur aqueuse, le cristallin puis l’humeur vitrée. Ils agissent dans le segment terminal des photorécepteurs où ils modifient la conformation de la rhodopsine – protéine photosensible – induisant alors une cascade de réactions qui entraînent la génération d’un potentiel d’action au niveau des cellules ganglionnaires. Le traitement visuel commence dès la rétine, lieu de compactage de l’image : plusieurs millions de photorécepteurs reçoivent le signal visuel mais, seulement 1,5 million de cellules ganglionnaires transmettent ce signal vers les aires visuelles. Les axones des cellules ganglionnaires, constituant le nerf optique, projettent sur l’aire visuelle primaire via le corps genouillé latéral (CGL), noyau du thalamus, avec une grande précision topographique ; on parle de rétinotopie. Entre la rétine et le CGL, il y a une décussation partielle des fibres sensorielles au niveau du chiasma optique. A partir de cet instant, les informations provenant de l’hémichamp droit – recueillies par la rétine temporale de l’œil gauche et la rétine nasale de l’œil droit – sont envoyées vers le cortex visuel gauche et vice versa. Dès les cellules 18 ganglionnaires l’image est «segmentée», les différentes informations de la scène visuelle (mouvement, contraste, couleur) sont envoyées par vagues successives indépendantes jusqu’à l’aire visuelle primaire. Ces trois vagues d’informations, canal magnocellulaire, canal parvocellulaire et canal koniocellulaire, aboutissent sur des régions différentes du CGL puis dans différentes couches du cortex visuel primaire, aire 17 selon l’architecture cérébrale décrite par Brodmann, également appelée V1. A partir de V1, les informations visuelles sont envoyées vers une mosaïque d’aires visuelles associatives interconnectées ; il en fut d’abord rapporté 32 chez le macaque (Van Essen et al., 1992), mais ce nombre augmente régulièrement avec l’approfondissement des recherches. Dans chacune de ces aires, les caractéristiques de la scène visuelle vont être analysées ; à chaque étape, différents indices sont extraits, de l’orientation dans V1 à la forme dans le cortex inférotemporal (IT). Après V1, le flux d’informations est divisé en deux et emprunte deux voies distinctes mais connectées : la voie occipito-temporale ou voie ventrale et la voie occipito-pariétale ou voie dorsale. Les aires V2, V4 et IT constituent la voie ventrale et jouent un rôle essentiel dans la perception des formes et des couleurs d’où son autre nom : voie du « quoi » (Figure 3c). Le mouvement, la position dans l’espace etc. sont analysés au niveau des aires pariétales – MT (cortex temporal médian), MST, LIP (lobule pariétal inférieur), lobule pariétal supérieur (Aire 7) – qui forment la voie dorsale : voie du « où » (Figure 3c). Cette dissociation voie ventrale/voie dorsale a également été décrite chez l’homme, grâce aux études lésionnelles ou à l’imagerie cérébrale chez les sujets sains (Figure 3a, b) (Haxby et al., 1991; Haxby et al., 1994). 19 Figure 3. Voie Ventrale et Voie Dorsale chez l'homme (a, b) et chez le macaque (c). (a) Voie ventrale et Voie dorsale chez l'homme. Les aires visuelles 17 et 18 selon la nomenclature de Brodmann sont communes aux deux voies. La voie ventrale (en vert) est la voie occipitotemporale, elle se termine dans le cortex temporal inférieur. La voie dorsale (en mauve) se termine dans le lobule pariétal supérieur4. (b) Adapté de Haxby et al. (1991). En violet, zones cérébrales activées par une tâche de localisation spatiale; en vert, zones cérébrales activées par une tâche d'appariement de visages. (c) Voie Ventrale et Dorsale chez le macaque. Issu de Haxby et al. (1991), voir aussi Desimone et Ungerleider (1990). Dès la première aire visuelle, les propriétés bas niveau de l’image sont analysées. La progression le long des aires de la voie ventrale est associée à une complexification des informations extraites de la scène visuelle. Les neurones de V4 présentent une sélectivité à des formes simples, couleurs ou textures. C’est dans le cortex inférotemporal (IT) que les premiers neurones répondant à des formes complexes ou à des catégories de stimuli sont enregistrés. Le cortex inférotemporal projette en partie sur le sulcus temporal supérieur (STS), qui est une aire hétéromodale puiqu’il reçoit également des projections en provenance des aires auditives et somesthésiques (Allison et al., 2000). 4 Adapté de http://dr-lozanov.dir.bg/book/25pa.htm 20 1.2. La catégorisation dans le cortex temporal Le cortex inférotemporal est considéré comme étant la dernière aire purement visuelle puisque 85% des neurones de IT répondent exclusivement à des stimuli visuels (Desimone et al., 1984 ; Logothetis et al., 1995). Chez le singe, le cortex inférotemporal est subdivisé en TEO dans sa partie postérieure et TE dans sa partie la plus antérieure (Figure 3c) ; TEO est activé par des formes simples (type barre ou disque) tandis que les neurones de TE répondent à des formes plus complexes (Fujita et al., 1992; Tanaka et al., 1991 ). On trouve dans IT des neurones répondant à une grande variété de stimuli (Logothetis et al., 1995 ; Lueschow et al., 1994). Des populations de neurones répondant de manière sélective aux visages ont été mises en évidence dans IT et les régions avoisinantes, la majorité se trouvant dans le STS (Desimone et al., 1984; Gross et al., 1972 ; Perrett et al., 1992 ; Tsao et al., 2006). Outre les visages, les neurones du cortex inférotemporal répondent, par exemple, à des images de papillon (Sheinberg & Logothetis, 1997), des formes générées par ordinateur ressemblant à des amibes (Logothetis et al., 1995), des images d’objets naturels complexes allant des fruits à des parties du corps etc. (Figure 4) (Hung et al., 2005; Tamura & Tanaka, 2001 ). Figure 4. Enregistrements multiunitaires chez le macaque sur 3 sites différents pour 5 objets. Adapté de Hung et al. (2005). Les neurones déchargent de manière préférentielle pour certains objets. Un grand nombre d’études montrent que les neurones d’IT répondent à des formes complexes ; leurs taux de décharge semblent d’ailleurs supérieurs pour les images d’objets complexes que pour des formes géométriques en 2 dimensions (Tamura & Tanaka, 2001). La sélectivité des neurones d’IT est parfois décrite comme étant invariante à la taille ou à la position rétinotopique, mais sensible à l’orientation ou à l’angle de vue de l’objet (Ito et al., 1995; Logothetis et al., 1995; Lueschow et al., 1994) ; il semble cependant que cette sélectivité dépende des sites d’enregistrements (Gochin, 1996). Suite à ces observations, il a été proposé que la représentation cérébrale des objets passe par une population de cellules dédiée à chaque catégorie et pour chaque angle de vue ; cette hypothèse est toutefois peu probable. Tanaka et collaborateurs ont exploré la réponse des neurones de IT en enlevant peu à peu les éléments constituant l’image ; ils ont ainsi montré que certains éléments de l’image étaient plus à même que d’autres de générer la réponse maximale du neurone (Fujita et al., 1992; Kobatake & Tanaka, 1994; Tanaka, 1992, 1993; Tanaka et al., 1991). L’organisation 21 des cellules de la partie antérieure d’IT paraît donc semblable à celle de V1, à savoir une organisation en colonnes. Chaque colonne est constituée de cellules présentant une sélectivité similaire mais légèrement différente à des éléments visuels complexes (Fujita et al., 1992; Tanaka, 1992) ; la reconnaissance d’un objet se ferait par l’activation de différentes cellules dans chaque colonne (Tanaka, 1996). Chez l’homme, les techniques de neuroimagerie cérébrale ont mis en évidence des zones cérébrales spécifiquement dédiées à la perception de certaines catégories d’objets. Les électrodes placées à la surface du cortex chez les patients épileptiques ont permis d’enregistrer une onde négative 200 ms après le début de la stimulation, la N200. La N200 semble être spécifique de certaines catégories puisque son lieu d’émergence dépend de la stimulation (Allison et al., 1994; Allison et al., 1999; McCarthy et al., 1999). Ainsi, les N200 évoquées par différents objets complexes, ainsi que par des lettres ou des nombres, proviennent d’une région s’étendant du gyrus lingual inférieur au gyrus occipital médian (Figure 5a) (Allison et al., 1999). D’autres études ont révélé l’existence de régions impliquées dans la représentation de l’environnement visuel, c’est à dire activées par différents types de repères visuels tels que les scènes visuelles (Epstein et al., 1999; Epstein & Kanwisher, 1998 ), les bâtiments (Aguirre et al., 1998 ) ou les maisons (Figure 5d) (Ishai et al., 1999). Ces régions sont localisées dans la partie postérieure du lobe temporal, allant du gyrus lingual (Aguirre et al., 1998 ) au cortex parahippocampique (Epstein et al., 1999; Epstein & Kanwisher, 1998 ), en passant par le gyrus fusiforme médian (Figure 5a, c) (Ishai et al., 1999). Les enregistrements intracrâniens ont révélé l’existence, dans l’hippocampe, de neurones répondant spécifiquement à des items particuliers d’une catégorie, par exemple l’opéra de Sydney ; ces neurones répondent également à la présentation écrite du nom (Figure 5b) (Quiroga et al., 2005). Les enregistrements multiunitaires chez l’homme ont également révélé la présence, dans le cortex entorhinal, de neurones déchargeant de façon préférentielle pour les images d’animaux, sans distinction au sein de la catégorie (Kreiman et al., 2000). D’autres catégories de stimuli non visage ont fait l’objet d’études ; il en ressort en général une activité plus ou moins étendue dans le gyrus temporal inférieur ou dans le gyrus fusiforme médian (Figure 5c) (Ishai et al., 1999). Cependant, bien que de nombreuses études semblent démontrer un corrélat neuronal à la catégorisation dans le lobe temporal, l’existence de modules spécifiques de chaque catégorie d’objets est peu probable ; « il y a simplement trop de catégories et trop peu de cortex » (Ishai et al., 1999). Certains auteurs proposent donc que la représentation des catégories dans IT soit en fait largement distribuée dans le cortex temporal et que les 22 catégories soient codées en terme d’un pattern d’activation des différentes régions répondant aux différents objets (Haxby et al., 2001; Ishai et al., 2000 ; Ishai et al., 1999 ). Ces différents patterns d’activités permettent de coder un nombre illimité de catégories (Haxby et al., 2001; Ishai et al., 1999 ). Cette hypothèse est appuyée par des études montrant des recouvrements entre les zones cérébrales répondant spécifiquement à certaines catégories (Allison et al., 1994). Ainsi, les zones répondant aux maisons ne sont pas inactives lors de la présentation de chaises, elles sont seulement moins actives, le contraire est également vérifié (Ishai et al., 1999). Parallèlement à l’étude des catégories non visage, de nombreuses études se sont intéressées à la perception des visages, leurs résultats seront détaillés au cours du prochain chapitre. En résumé, elles s’accordent toutes sur l’activation d’un locus particulier dans le gyrus fusiforme latéral et des régions du gyrus temporal inférieur par les visages (Allison et al., 1999 ; Ishai et al., 1999; Kanwisher et al., 1997 ). Néanmoins, il semble de plus que la représentation des visages dans le cortex soit plus restreinte que celle des objets car, bien que le gyrus fusiforme latéral ne réponde pas exclusivement aux visages, les visages n’activent que très peu les zones répondant aux autres objets (Ishai et al., 2000; Ishai et al., 1999 ). Figure 5. Catégorisation dans le lobe temporal humain. (a) Visualisation schématique des aires cérébrales répondant de façon maximale à certaines catégories d'objets. Le gyrus lingual est situé entre la fissure calcarine et la fissure collatérale, en avant on trouve le gyrus parahippocampique; aires impliquées dans le traitement des scènes visuelles. Adapté de Gray's Anatomy Human body (via Wikipédia). (b) Enregistrements multiunitaires chez l'homme dans l'hippocampe antérieur droit. La décharge des neurones est généralisée à différentes vues de l'opéra de Sydney. Adapté de 23 Quiroga et al. (2005). (c) Visualisation des aires montrant des réponses maximales aux maisons (vert), visages (rouge) et chaises (bleu foncé) sur une vue latérale (en haut) et ventrale (en bas) de l'hémisphère droit. A: cortex occipital dorsal, B: STS, C: gyrus occipital médian, D: gyrus occipital inférieur, E: gyrus temporal inférieur, F: gyrus fusiforme latéral, G: gyrus fusiforme postérieur, H: gyrus fusiforme médian. Adapté de Ischaï et al. (2000). (d) IRM fonctionnelle montrant les zones cérébrales majoritairement activées par les maisons (vert), les visages (rouge) et les chaises (bleu foncé). Issu de Ishaï et al. (1999). Chez l’homme, comme chez le singe, les différentes catégories visuelles sous-tendent une représentation corticale particulière dans le lobe temporal, soit au sein de régions discrètes, soit via des patterns d’activation distincts. Parmi toutes ces catégories, la représentation corticale de la catégorie «visage» semble se distinguer. Dans le chapitre suivant, nous allons voir que les visages diffèrent des autres objets tant au niveau comportemental qu’au niveau neuronal. Les différentes hypothèses qui expliquent la spécificité de la catégorie « visage » seront également décrites. 2. Les visages : une catégorie à part ? La reconnaissance des visages humains a été explorée chez de nombreuses espèces animales, en particulier chez l’homme et le singe mais, de façon plus surprenante, elle a également été étudiée chez le pigeon (Troje et al., 1999) ou l’abeille (Dyer et al., 2005). L’étude de la perception des visages chez les pigeons a permis de mettre en évidence le rôle des informations texturales dans les mécanismes de discrimination des formes complexes ; les pigeons sont capables de discriminer deux visages humains en fonction du genre mais seulement en présence d’informations texturales (Huber et al., 2000; Troje et al., 1999). Quant à l’étude de la reconnaissance des visages par les abeilles, il en ressort que les abeilles utilisent les informations configurales5 pour distinguer deux visages, et que ces informations ne sont plus disponibles lorsque le visage est inversé (Dyer et al., 2005). Ces quelques études prouvent l’importance de l’étude des visages chez les animaux car ils sont des stimuli complexes partageant une configuration précise reproductible d’un stimulus à l’autre ; cette configuration est la signature de la catégorie. Ce n’est que chez l’homme que les visages acquièrent une dimension sociale leur conférant un rôle de première importance, d’où de nombreuses études sur le sujet. Des cas de patients présentant une agnosie spécifique des visages furent pour la première fois rapportés au 19ème siècle (Quaglino, 1867; Wigan, 1844); en 1947, cette 5 Sauf précision et jusqu’à une définition plus précise dans la partie « théories », le terme configural est utilisé de manière générique comme synonyme de traitement relationnel, c’est à dire le traitement des relations entre les traits. 24 pathologie fut nommée prosopagnosie par Joachim Bodamer (Bodamer, 1947). Plusieurs cas furent publiés par la suite. La prosopagnosie se définit comme un trouble de la perception6 des visages dans lequel la reconnaissance de ces derniers est fortement altérée, sans impact sur celle des objets (Farah, Levinson et al., 1995). Ainsi, la prosopagnosie peut résulter soit une incapacité à détecter un visage soit en une incapacité à le reconnaître ; certains auteurs considèrent néanmoins que la prosopagnosie touche exclusivement la reconnaissance du visage. Il existe plusieurs prosopagnosies ; les mêmes déficits comportementaux, à savoir perte du sentiment de familiarité et de la capacité à identifier, peuvent résulter de dysfonctionnements à différents niveaux du traitement des visages. On observe, en effet, des prosopagnosies liées à des troubles de la perception, à des troubles du traitement configural ou à des déficits dans l’association entre le visage perçu et les informations biographiques stockées en mémoire (Sergent & Signoret, 1992b). La prosopagnosie a pour cause des lésions occipito-temporales bilatérales, bien que des lésions de l’hémisphère droit suffisent à la provoquer (Michel et al., 1989). Chaque type de prosopagnosie correspond toutefois à l’atteinte de régions distinctes de la voie occipito-temporale (Sergent & Signoret, 1992a, b). L’existence de lésions touchant spécifiquement la perception des visages suggère une dissociation fonctionnelle entre traitements des visages et traitements des objets, justifiant de l’intérêt de la recherche pour le sujet. Il a également été rapporté des cas de patients présentant une agnosie visuelle sans atteinte de la reconnaissance des visages (Moscovitch et al., 1997). Il existe donc une double dissociation entre le traitement des visages et celui des objets. Par la suite, chez les sujets sains, l’utilisation d’une grande variété de protocoles comportementaux a permis d’asseoir définitivement la catégorie « visage » en révélant des différences dans les processus engagés par les visages et les objets (Diamond & Carey, 1986; Farah, 1996; Itier & Taylor, 2004a; Valentine, 1988; Yin, 1969). 2.1. Spécificité comportementale Considérer la perception des visages comme étant distincte de celle des objets est une évidence au vu du nombre de données comportementales et neurophysiologiques recueillies depuis plusieurs années. 6 Le terme « perception » regroupe tous les processus de haut niveau effectués sur les visages, de la détection à l’extraction des informations sur l’identité (reconnaissance du visage), le genre, les humeurs etc. tel qu’il est défini par Kanwisher et al. (1997). Les termes « reconnaissance » ou « identification » référent, quant à eux, à des tâches requérant une discrimination du visage à un niveau individuel. 25 D’une part, les études développementales montrent une préférence pour les visages dès l’enfance ; dès la première heure de vie, les nouveau-nés suivent plus facilement du regard un visage en mouvement qu’un stimulus non visage (Goren et al., 1975; Johnson et al., 1991). Cependant, les attributs conférant cette préférence pourraient être relativement simples. Certaines études montrent en effet que les enfants préfèrent des formes complexes colorées et en mouvement (Fantz & Miranda, 1975; Miranda & Fantz, 1973), ces divers paramètres se retrouvant dans le visage humain. Un autre étude révèle que la préférence des nouveaux-nés pour les visages dépend d’une asymétrie entre la partie haute et la partie basse d’un stimulus ; ils préfèrent un stimulus, visage ou non, constitué de deux éléments dans sa partie haute et d’un seul dans sa partie basse (Turati et al., 2002). Ces résultats sont en défaveur d’une spécificité des visages ; néanmoins, la préférence pour les stimuli présentant une asymétrie verticale pourrait découler de l’expérience que les nouveaux-nés ont des visages (Turati et al., 2002). Ainsi, bien que certains auteurs proposent que la spécificité des visages existent dès la naissance, d’autres études présentent des arguments forts s’opposant à cette hypothèse. D’autre part, chez l’adulte,la perception des visages est affectée par différentes manipulations expérimentales qui n’affectent pas, ou peu, la perception des objets, suggérant ainsi que les visages sont des stimuli spéciaux. a. Effet d’inversion, de visage chimérique et de négation Un élément essentiel ayant permis de montrer la spécificité des visages est la sensibilité du traitement des visages à l’inversion. Non seulement la reconnaissance des visages est meilleure que celle des objets (Yin, 1969), mais l’inversion la diminue de manière drastique et a moins d’impact sur la reconnaissance des objets (Valentine, 1988; Yin, 1969 ). Cette perturbation se traduit par une diminution des performances et une augmentation des temps de réaction ; c’est ce que l’on appelle l’effet d’inversion du visage (« Face Inversion Effect »). Les observations comportementales rapportées par Yin (1969) ont été reproduites maintes fois par la suite dans des tâches d’identification de visages familiers (Valentine & Bruce, 1986), d’appariements de visages non familiers (Diamond & Carey, 1986 ; Farah, Tanaka et al., 1995; Itier & Taylor, 2002 ; 2004a ; Leder & Carbon, 2006 ; Rhodes et al., 1993 ; Rossion, Delvenne et al., 1999) mais également dans de simples tâches de détection du visage (Purcell & Stewart, 1988). Chez un patient prosopagnosique, il est rapporté un effet d’inversion anormal ; l’inversion améliore la reconnaissance du visage (effet d’inversion 26 inversé) (Farah, Wilson et al., 1995)7. Les traitements engagés par les visages à l’endroit et à l’envers paraissent donc différents. Par ailleurs, ce patient s’étant révélé incapable de généraliser les traitements qu’il utilise pour reconnaître les visages à l’envers à la reconnaissance des visages à l’endroit, les auteurs proposent que le traitement des visages à l’endroit serait automatique chez le sujet sain (Farah, Wilson et al., 1995). La reconnaissance des visages n’est pas restreinte au seul domaine visuel puisque les sujets aveugles peuvent reconnaître un visage par le toucher (Pietrini et al., 2004) ; cette reconnaissance tactile du visage existe également chez les sujets sains (Kilgour & Lederman, 2002). La reconnaissance tactile des visages est perturbée par l’inversion, qui n’a cependant pas d’influence sur la reconnaissance tactile des objets (e.g. théières) (Kilgour & Lederman, 2006) ; le patient prosopagnosique, décrit ci-dessus, présente également un effet d’inversion anormal pour la reconnaissance tactile de visage (Kilgour et al., 2004). Ceci suggère que la reconnaissance d’un visage n’est pas unimodale mais multimodale. La collaboration entre différentes modalités sensorielles sera abordée au cours de la deuxième partie. Comprendre pourquoi l’effet d’inversion est limité à la reconnaissance des visages a donné lieu à de nombreuses études. L’une des premières manipulations ayant expliqué l’effet d’inversion est l’illusion de Thatcher (Figure 6 – image du milieu) (Thompson, 1980). Dans cette manipulation du visage, les éléments internes sont inversés ; le visage paraît alors saugrenu à l’endroit mais normal lorsqu’il est inversé (Figure 6 – image du milieu). L’illusion de Thatcher révèle que l’inversion perturbe le traitement configural du visage (Bartlett & Searcy, 1993; Boutsen & Humphreys, 2003). Il a été démontré par la suite que la négation (l’inversion de contraste) avait également un impact sur la configuration du visage ; un visage en négatif dont les traits internes sont inversés n’est pas non plus considéré comme grotesque (Figure 6 – image de droite) (Lewis & Johnston, 1997). 7 Il faut noter que de nombreux patients prosopagnosiques ne présentent pas le profil décrit par Farah et al. (1995) (commentaire de Bruno Rossion, 2007). 27 Figure 6. Illusion de "Thatcher". Cette illusion est ainsi nommée car une photo de Margaret Thatcher fut utilisée la première fois par Thompson(1980). Elle est, ici, adaptée avec une autre photographie. Des rectangles contenant les yeux et la bouche ont été coupés puis inversés, et replacés au sein du visage. Lorsque l'image ainsi transformée est présentée à l'envers ou en négatif, l'inversion des éléments n'est pas perçue, mais lorsqu'elle est présentée à l'endroit, le visage paraît hideux. Plusieurs études se sont ensuite intéressées aux effets d’inversion sur le traitement de la configuration du visage ou des éléments le constituant (yeux, bouche, nez etc.) ; il en résulte que l’inversion affecte principalement le traitement de la configuration (Bartlett et al., 2003; Freire et al., 2000; Leder & Bruce, 2000 ; Rhodes et al., 1993; Tanaka & Farah, 2003 ). Searcy et Bartlett (1996), dans une tâche où les sujets évaluent la bizarrerie d’un visage, ont montré que seule celle liée à une modification des éléments (par exemple, les dents coloriées en noir) persiste après inversion ; les visages dont les relations spatiales entre les éléments sont modifiées ne sont plus considérés comme bizarres lorsqu’ils sont inversés (Searcy & Bartlett, 1996). De la même façon, Freire et al. (2000) ont montré que l’inversion diminue la capacité à discriminer deux visages différant par les relations spatiales entre les traits, alors qu’elle n’a pas d’effet si les modifications concernent les traits internes du visage (Freire et al., 2000 ; Tanaka & Farah, 1993). L’évaluation de la distance entre les éléments du visage dépend aussi de la configuration puisqu’elle est perturbée par l’inversion (Leder et al., 2001). L’utilisation de visages chimériques – visages composés de deux moitiés appartenant à deux individus (Figure 7) – confirme l’importance de la configuration dans la reconnaissance des visages. Young et al. (1987) démontre que l’identification des moitiés de deux visages connus constituant un visage chimérique est difficile à l’endroit : le visage chimérique est considéré comme nouveau et non familier (Young, Hellawell et al., 1987). Cet effet est appelé l’effet composite du visage, et est observé pour des visages familiers ou non familiers (pour exemple, Figure 7) (Hole, 1994; Young, Hellawell et al., 1987). L’effet composite du visage est annihilé par l’inversion et le non-alignement des moitiés supérieure et inférieure du visage (Figure 7) (Schiltz & Rossion, 2006; Young, Hellawell et al., 1987). 28 Figure 7. Exemples de visages composites. Première ligne: moitié inférieure du visage identique. Seconde ligne: moitié inférieure du visage différente. Les moitiés peuvent être alignées, à l'endroit (première colonne) ou à l'envers (dernière colonne). Les moitiés peuvent également être non alignées (colonne du milieu). La reconnaissance de la moitié supérieure du visage n'est perturbée que dans la condition moitiés alignées à l'endroit. Adapté de Schiltz et Rossion (2006). D’autres paradigmes expérimentaux révèlent le rôle important à la configuration dans la perception du visage. Ainsi, dans une tâche de choix forcé (discrimination entre deux items), il a été montré que la reconnaissance d’un élément du visage (par exemple, le nez) est plus facile lorsqu’il est présenté au sein du visage initial que lorsqu’il est présenté seul. Cette facilitation s’observe mais de façon moindre lorsque l’élément à reconnaître est présenté au sein d’une nouvelle configuration (Tanaka & Farah, 1993). A contrario, la reconnaissance d’un élément d’un objet ( par exemple, une fenêtre) n’est pas facilitée par sa présentation dans une vue globale de l’objet (Tanaka & Sengco, 1997; Tanaka, 1993). Par la suite, ces auteurs ont montré que modifier la position spatiale d’un élément perturbait non seulement la reconnaissance de cet élément, mais également celle des autres éléments du visage (Tanaka & Sengco, 1997). Dans la même veine, une étude de Rhodes et collaborateurs (1993) montre qu’un changement sur un élément isolé est difficilement détecté lorsqu’il est présenté au sein du visage, démontrant ainsi que les différents éléments du visage ne sont pas traités de manière indépendante (Rhodes et al., 1993). Ces données prêchent en faveur d’un traitement holistique du visage ; les informations sur les éléments et la configuration étant réunies au sein d’un « gestalt8 » (Farah et al., 1998; Tanaka & Farah, 2003; Tanaka & Sengco, 1997; Tanaka, 1993). Le traitement holistique des visages est supporté en grande partie par les basses fréquences spatiales comme le montre la persitance de l’effet composite du visage9 en présence des seules basses fréquences spatiales et son absence lorsque seules les hautes 8 « Gestalt » vient de l’allemand et signifie forme ; il est utilisé dans de nombreuses langues sous sa forme générique. Il est surtout connu par la théorie de la forme (« gestalt theory »), théorie de l’esprit qui propose que, dans le cerveau, les opérations sont effectuées en parallèle, de manière holistique et répétitive avec des tendances à l’auto-organisation. Une des règles de la théorie de la forme est que le tout vaut plus que la somme des parties. Dans la reconnaissance des objets et des visages, cela signifie que toutes les informations sont réunies dans une forme globale indivisible, ne permettant pas de définir les différents éléments qui la compose. 9 L’effet composite du visage est un indice du traitement holistique du visage (Goffaux & Rossion, 2006; Maurer et al., 2002). 29 fréquences spatiales sont présentes dans l’image (Goffaux et al., 2005; Goffaux & Rossion, 2006). Cependant, dans une autre étude utilisant des visages chimériques à l’endroit, à l’envers ou en négatif (Figure 8a, b), Hole et collaborateurs (1999) montrent que l’identification d’une moitié d’un visage composite est facilitée non seulement par l’inversion quel que soit le contraste, mais également par la négation (Figure 8c). Après examen des stimuli, les auteurs ont constaté que la négation mettait en saillance des éléments de l’image tels que la limite peau/cheveux pouvant servir d’indice à la reconnaissance. En conséquence de quoi, ils ont reproduit l’expérience ((Hole et al., 1999) – expérience 2) en utilisant des visages présentés sous différents angles de vue (1 photo ¾ versus 1 photo de face) afin d’empêcher la reconnaissance basée sur des éléments locaux. Les résultats de cette deuxième expérience sont similaires quel que soit le contraste : l’inversion améliore la reconnaissance et la négation n’a plus d’effet facilitateur sur l’identification (Figure 8d). Ces résultats suggèrent qu’une partie des informations relationnelles persistent après la négation. Or, nous avons vu précédemment que la négation perturbait l’extraction de la configuration (preuve en est l’illusion de Thatcher qui est présente pour les visages en négatif) (Lewis & Johnston, 1997). Il apparaît ainsi que la négation et l’inversion perturbent les différents traitements relationnels du visage (Kemp et al., 1990). Plus particulièrement, Hole et al. (1999) distinguent traitements holistique et configural ; le traitement holistique se réfère à la représentation du visage dans un gestalt, alors que le traitement configural signifie le traitement des relations spatiales entre les traits (définition de Searcy et Bartlett, 1996). Selon Hole et al. (1999), l’inversion perturberait tout type de traitements relationnels (holistique et configural), alors que la négation n’aurait un effet que sur le traitement configural. 30 Figure 8. Visages composites. Tâche de discrimination entre la moitié haute de deux visages en choix forcé. Les sujets répondent "pareil" si le haut du visage provient d'un même individu ou "différent" dans le cas inverse. (a, b) Exemples de visages chimériques dont la moitié haute est identique (a) ou différente (b), à l'endroit, à l'envers ou en négatif. (c) Expérience 1: Temps de réaction pour les différentes conditions lorsque la moitié haute est identique (histogramme de gauche) ou différente (histogramme de droite). L'inversion et la négation facilitent la reconnaissance du visage (TR plus courts). (d) Expérience 2: Temps de réaction lorsque les visages d'une paire sont présentés sous différents angles de vue lorsque la moitié haute est identique (histogramme de gauche) ou différente (histogramme de droite). La moitié haute des visages en négatif est aussi difficile à identifier que dans les visages normaux, l'effet d'inversion persiste néanmoins.. Adapté de Hole et al. (1999). Toutes ces études tendent à démontrer que la reconnaissance du visage requiert une configuration intacte ; toute modification entraînant une altération des relations entre les traits telle que l’inversion ou la négation (Itier & Taylor, 2004a ; Lewis & Johnston, 1997) se traduit par des troubles de la reconnaissance, et ce dès l’enfance (Itier & Taylor, 2004b). Ces différents résultats suggèrent une dissociation fonctionnelle entre visages et objets due à la mise en jeu de processus différents. Les visages seraient reconnus grâce à l’extraction de leur configuration, alors que les objets seraient traités élément par élément afin d’être reconnus. b. Effet d’expertise et du niveau de traitement Parallèlement à ces études explorant la spécificité des visages du point de vue des processus mis en jeu, d’autres auteurs montrent que l’effet d’inversion peut être reproduit avec des objets non visage dans certaines conditions. Diamond et Carey (1986) ont ainsi montré que l’effet d’inversion n’est pas cantonné à la seule catégorie « visage ». En utilisant plusieurs catégories de stimuli (paysages, chiens, visages), ils ont montré que l’inversion d’un 31 stimulus non visage entraîne également un déficit dans la reconnaissance seulement si les sujets sont experts en cette catégorie (Diamond & Carey, 1986; Gauthier, Skudlarski et al., 2000). Une étude récente remet, cependant, en cause ces résultats ; en appliquant différents paradigmes comportementaux ayant permis de mettre en évidence la spécificité des visages, à la reconnaissance des chiens par des sujets experts, Robbins et McKone (2007) ne sont pas parvenus à révéler un comportement similaire pour les visages et les objets (Robbins & McKone, 2007). Figure 9. Rencontre avec les «greebles». (a) Exemple de «greebles» : 5 familles, 2 genres. Une famille est définie par la forme de la partie centrale, le genre est défini par l'orientation des excroissances relativement à la partie centrale ("plok": vers le bas). L'unicité d'un individu est révélée par les relations spatiales entre les parties. (b) Résultats comportementaux observés lors d'une tâche d'identification d'un élément d'un Greeble soit présenté seul (isolated part - noir), soit présenté dans la configuration générale du Greeble (gris). La tâche est une tâche de discrimination, en choix forcé, entre deux images présentées en même temps à l'endroit ou à l'envers. A gauche: performance, à droite: temps de réaction pour des sujets novices ou experts. Issu de Gauthier et Tarr (1997). NB: Les pourcentages de réponses correctes augmentent lorsque l'élément est présenté dans sa configuration originale, les TR sont néanmoins plus court pour la reconnaissance de l'élément isolé. L’importance de la configuration dans la reconnaissance des objets pour lesquels les sujets sont experts a également été démontrée via l’utilisation de stimuli nouveaux n’ayant aucune signification biologique («greebles») mais qui partagent une même configuration générale (Figure 9a) ; les différences entre les individus reposent sur la position relative des éléments (Figure 9a). En appliquant le paradigme de Tanaka et Sengco (1997) aux « greebles », à savoir un tâche requérant la reconnaissance d’un élément lorsqu’il est présenté 32 seul, dans le visage d’origine ou dans un nouveau visage, Gauthier & Tarr (1997) montrent, que la présentation de l’élément au sein de sa configuration originale facilite sa reconnaissance quel que soit le niveau d’expertise des sujets (Figure 9b, c). Rappelons que dans le cadre de la perception du visage, la présentation d’un élément dans une nouvelle configuration diminue sa reconnaissance ; dans l’étude de Gauthier et Tarr, la diminution de la reconnaissance lorsque l’élément est présenté dans une nouvelle configuration n’a lieu que chez les sujets experts (Gauthier & Tarr, 1997). D’autres études s’intéressant à la relation entre expertise et spécificité des visages montrent que visages et objets se distinguent également par le niveau auquel ils sont catégorisés. Tous les objets peuvent être reconnus à différents niveaux d’abstraction ; les objets sont regroupés dans des catégories sur la base du partage de certaines caractéristiques. Les différents niveaux d’abstraction sont hiérarchisés ; du niveau le plus général au niveau le plus spécifique, on parle de niveau super-ordonné (par exemple, animal), de niveau de base (par exemple, singe), puis de niveau subordonné (par exemple, macaque) (Mervis & Rosch, 1981). Dans cette hiérarchie, le niveau de base a un statut particulier puisqu’il correspond au niveau d’entrée, c’est le niveau auquel les objets sont le plus souvent reconnus (Rosch et al., 1976), excepté pour les objets atypiques dont le niveau d’entrée est subordonné par rapport au niveau de base (par exemple, les pingouins) (Jolicoeur et al., 1984). Les visages sont des « objets » particuliers puisqu’ils sont généralement reconnus au niveau subordonné (genre), voire même, lorsque l’information est disponible, au niveau individuel (identité) (Tanaka, 2001). Tanaka (2001) a aussi montré que les temps de réaction des sujets ne varient pas en fonction du niveau d’abstraction de la reconnaissance des visages tandis que les chiens sont plus rapidement reconnus au niveau de base. De plus, il montre que la reconnaissance des visages à un niveau identitaire ne requiert pas de traitements perceptuels additionnels ; au contraire, la reconnaissance des objets au niveau subordonné requiert, elle, des traitements additionnels puisqu’elle est affectée par des temps courts de présentation des images. Bien que l’approche de ces dernières études soit différente de celles citées précédemment, elles mettent également en évidence la singularité des visages. Ces derniers sont traités à un niveau subordonné par rapport aux objets, le déplacement du niveau de reconnaissance vers des niveaux plus spécifiques semble lié à l’expertise (Gauthier & Tarr, 1997). Cette hypothèse est soutenue par des études montrant que la faculté de discriminer deux visages est restreinte à notre propre ethnie du moins après la première année de la vie (Pascalis et al., 2002) ; l’expertise dans une ethnie particulière conduirait à une spécialisation 33 des traitements. Cette faculté à accéder à l’identité d’un visage quasi instantanément montre bien une particularité des visages par rapport aux autres objets. En résumé, il est montré que les visages sont en général traités à un niveau plus spécifique que les objets : le niveau subordonné. A niveau d’abstraction égal, ils sont donc plus rapidement traités que les objets (Tanaka, 2001). En outre, la sensibilité à l’inversion pour les visages et les objets diffère. La reconnaissance des visages est plus affectée par l’inversion que celle des autres objets. De plus, la reconnaissance des éléments du visage est favorisée par leur présentation au sein de la configuration du visage ; cela n’avantage pas la reconnaissance d’un élément d’un objet. Quelle qu’en soit la raison, les visages semblent entraîner des réponses comportementales différentes de celles engendrées par la reconnaissance des objets. Les corrélats neuronaux de cette spécificité ont été explorés grâce à l’utilisation de nombreuses techniques d’imagerie cérébrale allant de l’IRMf à l’EEG. 2.2. Corrélats neuronaux de la reconnaissance des visages Les corrélats neuronaux de la perception des visages ont été explorés aussi bien chez l’homme que chez le primate. Les différentes techniques utilisées apportent des informations différentes mais complémentaires sur la localisation cérébrale et le décours temporel du traitement des visages. Les enregistrements cellulaires chez le primate informent sur ces deux aspects des traitements cérébraux. Chez l’homme, l’avènement des techniques de neuroimagerie et l’amélioration des résolutions spatiale et temporelle de ces dernières ont permis d’examiner les processus sous-tendant la reconnaissance des visages. Elles ont révélé l’existence de modules spécifiques dédiés aux visages. L’IRM10 et la TEP11 renseignent sur les variations du débit sanguin et du métabolisme cérébral – témoins indirects de l’activité cérébrale – dans certaines régions cérébrales et ainsi, informent sur la localisation spatiale des processus de traitement des visages. Ces deux techniques disposent d’une faible résolution temporelle, elles ne peuvent donc nous renseigner sur les décours temporels de ces processus. Cependant, l’IRMf est aujourd’hui utilisée dans des paradigmes de type évènementiel ce qui améliore sa résolution temporelle et permet de suivre le décours temporel des activations des différentes aires corticales (Thierry et al., 1999). La résolution temporelle de l’IRMf reste, néanmoins, nettement inférieure à celle des techniques d’enregistrements de l’activité électromagnétique à la surface du scalp. 10 11 Imagerie par Résonnance Magnétique, IRMf : IRM fonctionnelle. Tomographie par Emission de Positron 34 L’EEG12 et la MEG13, quant à elles, sont des techniques basées sur les variations de l’activité électromagnétique et ont, aujourd’hui, une résolution temporelle de l’ordre de la milliseconde. Associées à certains logiciels d’analyse de source (Loreta, Laura, Besa etc.), elles permettent également de recueillir des renseignements sur la localisation des sources cérébrales des signaux enregistrés en surface, mais ces informations sont nettement moins précises que l’IRMf ou la TEP. 2.2.1. Enregistrements cellulaires chez le primate Chez le macaque, la perception des visages a été étudiée via des visages humains ou simiens ; certaines études n’ont utilisé que des visages simiens, d’autres ont regroupé les visages humains et simiens dans la catégorie « visage » (Perrett et al., 1982; Rolls, 1992). Les enregistrements cellulaires chez le macaque ont mis en évidence la présence de cellules répondant de manière spécifique aux visages dans le cortex inférotemporal et dans le sulcus temporal supérieur (Desimone et al., 1984; Gross et al., 1972 ; Perrett et al., 1992 ; Rolls, 1992; Tovee et al., 1996). Les réponses des neurones du STS sont relativement constantes malgré des modifications de différents paramètres tels que la couleur, l’orientation (Rolls, 1992). Il a été mis en évidence des cellules répondant préférentiellement à la configuration (Perrett et al., 1992) tandis que d’autres populations de neurones déchargent de manière sélective pour certains traits du visage (Perrett et al., 1982; Rolls, 1992). La majorité des cellules enregistrées dans le cortex temporal présentent une invariance à la rotation, à la position dans l’espace ou à la taille du stimulus (Logothetis et al., 1995; Perrett et al., 1982 ). Il semble que le codage du visage ne soit pas indépendant de la vue ; certains neurones répondent préférentiellement à certaines vue d’un visage (Perrett et al., 1982; Rolls, 1992). Par ailleurs, certaines études montrent que les neurones de la partie latérale d’IT déchargent préférentiellement pour les visages à l’endroit (Tanaka et al., 1991), alors que dans d’autres études les neurones répondant aux visages à l’endroit répondent également aux visages inversés, mais avec un délai (Perrett et al., 1988). Les latences des réponses des neurones aux stimuli de type visages varient entre 80 et 160 ms poststimulus (Oram & Perrett, 1992; Perrett et al., 1982 ), mais la présentation d’un visage dans une orientation non canonique (autre qu’à l’endroit) peut entraîner un délai dans les réponses du neurone. Par ailleurs, il apparaît que des neurones du STS sensibles aux informations sur la couleur ont des réponses plus précoces (autour de 66 ms après le début de la stimulation) que les neurones « achromatiques » 12 13 ElectroEncéphaloGraphie MagnétoEncéphaloGraphie 35 (Edwards et al., 2003). En combinant IRMf et enregistrements cellulaires, il a été démontré que 97% des cellules de certaines zones cérébrales dites spécifiques des visages sont activées par la présentation de visage (Tsao et al., 2006) ; ceci pourrait refléter un artefact dans la sélection des clusters spécifiques des visages. En effet, dans les zones cérébrales spécifiques des visages, il a été prouvé que des clusters répondant uniquement aux visages co-existent avec des clusters non spécifiques des visages (Grill-Spector et al., 2006); dans l’étude de Tsao et collaborateurs, les mesures peuvent avoir été faites sur les clusters répondant uniquement aux visages. 2.2.2. Aires spécifiques des visages chez l’homme : localisation et fonctions a. Localisation Comme nous l’avons vu dans le paragraphe 1.2, le lobe temporal est spécialisé dans la reconnaissance des formes. L’IRM et la TEP ont permis de mettre en évidence une région du gyrus fusiforme plus activée par la présentation de visage que par celle de stimuli non visage (Figure 10) (Clark et al., 1996; Gauthier et al., 1999 ; Haxby et al., 1991 ; Haxby et al., 1994; Kanwisher et al., 1997 ; Kanwisher et al., 1999 ; Puce et al., 1996 ; Puce et al., 1995 ; Sergent et al., 1992 ). Dans une étude en TEP, chez des sujets sains, Sergent et Signoret (1992) ont rapporté que le gyrus lingual et le gyrus fusiforme étaient impliqués dans les opérations perceptuelles permettant l’extraction de la configuration du visage et des invariants caractérisant l’individu ; le gyrus parahippocampique, quant à lui, serait engagé dans l’association entre la représentation configurale extraite et la mémoire sémantique (Sergent & Signoret, 1992a). Par ailleurs, les études lésionnelles ont montré qu’une lésion du lobe temporal droit suffit à provoquer une prosopagnosie. En comparant l’activité cérébrale dans une tâche de classification d’objets à celle observé dans une tâche d’identification du visage, Sergent et Signoret (1992) confirment l’importance du gyrus fusiforme droit dans le traitement du visage. Seule l’activité de l’hémisphère droit est spécifique des visages ; la classification d’objets, elle, active essentiellement des régions de l’hémisphère gauche dont le gyrus temporal médian. 36 Figure 10. Localisations des aires cérébrales répondant spécifiquement aux visages dans 5 études en neuroimagerie fonctionnelle. L'étude en TEP par Haxby et al. (1994) et celle en IRMf par Clark et al. (1996) mettent en évidence les régions activées lors de vue passive de visages. L'étude en TEP de Sergent et al. (1992) montre l'activité cérébrale liée à la discrimination de l'identité. Dans les études de McCarthy et al. (1997) et Kanwisher et al. (1997) la réponse du gyrus fusiforme est obtenue en soustrayant l'activité induite par les objets de celle induite par les visages. NB: Dans l'étude de Kanwisher, il y a aussi une activation dans le gyrus occipital inférieur. Issu de Haxby et al. (2000). En 1997, Kanwisher et collaborateurs présentent une série d’expériences dans lesquelles ils testent l’activation du gyrus fusiforme dans plusieurs situations expérimentales, permettant ainsi de révéler que le gyrus fusiforme latéral droit est supérieurement activé par les visages ; les auteurs en concluent que le gyrus fusiforme présente une activité sélective des visages (Kanwisher et al., 1997; Kanwisher et al., 1999). En conséquence de quoi, cette région fut baptisée « aire fusiforme des visages » (Fusiform Face Area – FFA) (Kanwisher et al., 1997; Kanwisher et al., 1999 ; Kanwisher et al., 1998; Yovel & Kanwisher, 2004). L’aire fusiforme des visages décrite par Kanwisher est localisée dans une région focalisée du gyrus fusiforme latérale similaire aux régions décrites précédemment14 (Figure 10). Cette étude révèle également que l’activation de cette zone est relativement constante chez un individu, mais également que le locus d’activation varie peu entre les individus, du moins lorsqu’il est identifié (i.e. 75% des gens – (Kanwisher et al., 1998)). La sélectivité des réponses de la FFA est mise en évidence par différentes manipulations. La FFA est plus activée par des visages que par les mêmes images morcelées et réarrangées (« scrambled faces ») ; la réponse de la FFA est donc indépendante de certaines caractéristiques de bas niveau (Allison et al., 1999; Kanwisher et al., 1997; Puce et al., 1995). Par ailleurs, il a été montré que, non seulement la FFA est plus activée par les visages que par une grande variété d’objets, mais également que cette activation ne reflète pas une discrimination entre les items d’une même catégorie (distinguer deux maisons par exemple) (Allison et al., 1994 ; Ishai et al., 1999; Kanwisher et al., 1997 ; Puce et al., 1996). Par ailleurs, la réponse de la FFA aux visages n’est pas fonction du côté « vivant », biologique du 14 Par souci de simplicité, dans la suite de la thèse, l’utilisation du terme « FFA » fera référence à la région focalisée du gyrus fusiforme latéral spécifique des visages, sans parti pris. 37 visage puisqu’elle n’est pas activée pour des stimuli tels que les mains (Kanwisher et al., 1997), les animaux (Kanwisher et al., 1999) etc. Ce dernier résultat est toutefois contesté par une autre étude montrant une activation pour les images d’animaux avec ou sans visages (Chao et al., 1999). La sélectivité des réponses de la FFA est également assise par une étude montrant que cette région focalisée du gyrus fusiforme est spécifiquement active pour les visages présentés dans une séquence dynamique d’images d’objets non visage ; l'utilisation d’une séquence dynamique permet d’activer en permanence les régions répondant aux objets, et donc d’isoler la réponse spécifique des visages (McCarthy et al., 1997). Un grand nombre d’études prouvent donc que la FFA est principalement activée par les visages démontrant ainsi sa sensibilité, voire sa sélectivité aux visages (Kanwisher et al., 1997; Kanwisher et al., 1999; Kanwisher & Yovel, 2006). Outre la FFA, deux autres régions du lobe temporal présentent une sensibilité aux visages : le gyrus occipital inférieur (Figure 10) dans la partie ventrale du complexe latéral occipital (LOC) (Occipital Face Area – OFA) (Dubois et al., 1999 ; Gauthier, Tarr et al., 2000 ; Halgren et al., 1999; Haxby et al., 1999; Rossion, Dricot et al., 2000) ainsi qu’une région dans le STS postérieur (Haxby et al., 2000; Haxby et al., 1999; Kanwisher et al., 1997; Puce et al., 1998; Yovel & Kanwisher, 2005) (Figure 11). Le complexe occipital latéral (LOC) est impliqué dans la perception des objets puisqu’il est plus activé par des images d’objets que par les mêmes images morcelées et réarrangées (« scrambled objects ») ou que par des stimuli de type textures (Grill-Spector et al., 1999; Malach et al., 1995 ) ; l’activation de LOC est, cependant, similaire pour différents objets. La région du STS spécifique des visages paraît impliquée dans les aspects changeant du visage (direction du regard, mouvement des lèvres etc. – (Hoffman & Haxby, 2000; Puce et al., 1998)) alors que la FFA et le gyrus occipital inférieur semblent impliqués dans l’extraction des invariants du visage et la reconnaissance de l’identité (Hoffman & Haxby, 2000; Sergent et al., 1992). 38 Figure 11. Activations spécifiques des visages. (a) Sur un cerveau gonflé d'un sujet en vue latérale et ventrale. Issu de Kanwisher & Yovel (2006). (b) En rouge activation supérieure pour les visages, en bleu régions répondant aux lettres (LA: Letter Area). Issu de Gauthier et al. (2000). b. Etudes fonctionnelles des aires spécifiques des visages Afin de comprendre quelles caractéristiques de la spécificité des visages conduisent à l’activation des différentes zones cérébrales spécifiques des visages, de nombreuses études se sont intéressées aux corrélats neuronaux des observations comportementales décrites précédemment. En conséquence, plusieurs paradigmes expérimentaux ont été utilisés pour explorer les activations de la FFA et du gyrus occipital inférieur. Effets d’inversion L’effet de l’inversion des visages sur l’activité de la FFA n’a pas été clairement démontré. En effet, certaines études révèlent une absence d’effet (Aguirre et al., 1999; Epstein et al., 2006; Haxby et al., 1999), d’autres une faible diminution de l’activité de la FFA, reproductible mais pas toujours significative, suite à l’inversion (Gauthier et al., 1999; Kanwisher et al., 1998 ; Schiltz & Rossion, 2006). Récemment, deux études ont montré une diminution significative de l’activité de la FFA pour les visages à l’envers (Figure 12b) (Yovel & Kanwisher, 2004, 2005). Yovel et Kanwisher (2005) suggèrent que l’absence ou la faiblesse de l’effet d’inversion sur l’activité de la FFA dans certaines études peut être le reflet d’un faible effet d’inversion au niveau comportemental. Une diminution de l’activité dans la FFA suite à l’inversion du visage a été mise en évidence pour un type particulier de visages : les Mooney Faces15. La présentation de Mooney Faces à l’endroit conduit à une activation de la FFA similaire à celle observée pour les visages normaux. L’inversion des Mooney Faces, 15 Les Mooney Faces sont des visages en noir et blanc photographiés dans un environnement très contrasté. La lumière est dirigée sur le visage de façon à l’éclairer en biais. Jouer avec le s seuils de luminosité permet de ne révéler que les ombres. Cette transformation rend difficile la détection, effet exagéré par l’inversion. Les Mooney Faces ont été utilisés par C.Mooney (1957) pour l’étude du développement de la capacité à lier les éléments d’un même ensemble. (Mooney, 1957). 39 qui entraîne une chute considérable des performances dans la détection du visage, est associée à une très forte diminution de l’activité dans la FFA ; elle reste toutefois supérieure à la réponse observée pour les objets (Kanwisher et al., 1998). Ces données ont conduit les auteurs à conclure que la FFA est impliquée dans la détection des visages et non dans leur reconnaissance (Kanwisher et al., 1998). Cependant, comme le font remarquer Gauthier et al. (1999, 2000), si le visage n’est pas détecté, sa reconnaissance est alors fortement compromise. Les résultats de Kanwisher et collaborateurs n’attestent donc pas, de façon sûre, de l’implication de la FFA dans la reconnaissance ou la détection du visage. Figure 12. Réponse des aires spécifiques des visages et des objets dans un tâche de détection de la répétition. (a) Design expérimental. Des visages à l'endroit et à l'envers sont présentés aux sujets; le sujet répond "pareil" si les deux visages sont identiques ou "différent" si ils sont différents. (b) Réponse de la FFA (au dessus) et de la OFA (dessous) pour les stimui répétés ("same") ou différents. Une activité plus forte pour les visages différents que pour les visages répétés montre une discrimination entre les deux visages. NB: la FFA et la OFA semble discriminer les visages au niveau individel; ces effets peuvent néanmoins refléter une adaptation sensorielle, le visage répété étant identique au premier visage présenté. (c) Réponse dans le complexe occipital latéral. NB: les visages inversés augmentent l'activité dans LOC. Adapté de Yovel & Kanwisher (2005). 40 L’influence de l’inversion du visage sur le gyrus occipital inférieur n’est pas non plus évidente. Certaines études montrent une activité similaire du gyrus occipital inférieur pour les visages à l’endroit et les visages à l’envers (Yovel & Kanwisher, 2005), mais une étude montre une augmentation du signal BOLD pour les visages à l’envers (Haxby et al., 1999). Parallèlement à la diminution de l’activité de la FFA ou du gyrus occipital inférieur pour les visages inversés, il est rapporté une augmentation de l’activité dans les régions répondant aux objets (LOC ou la région sélective des maisons) (Figure 12c) (Aguirre et al., 1999; Epstein et al., 2006; Gauthier et al., 1999; Haxby et al., 1999; Yovel & Kanwisher, 2005 ). A contrario, l’inversion d’un objet n’entraîne pas d’augmentation de l’activité dans la FFA ni dans les régions spécifiques des objets ((Haxby et al., 1999) mais voir (Epstein et al., 2006)). L’augmentation de l’activité dans les systèmes dédiés à la perception des objets pour les visages à l’envers tend à confirmer que le traitement des visages à l’envers est distinct de celui des visages à l’endroit. Les visages à l’envers utiliseraient le système de traitement des objets parce que l’extraction de la configuration est rendue difficile par l’inversion (Aguirre et al., 1999; Haxby et al., 1999). Ainsi, il est proposé que l’augmentation de l’activité dans les régions impliquées dans le traitement des objets soit le reflet de l’effet d’inversion comportemental (Haxby et al., 1999). Cependant, Yovel et Kanwisher (2005), par une étude corrélative entre la baisse des performances observée après inversion du visage et la diminution/augmentation des activités dans la FFA et LOC, montrent que seule la baisse d’activité dans la FFA est corrélée à l’effet d’inversion comportemental (Yovel & Kanwisher, 2005). En conséquence de quoi, ils suggèrent que l’effet d’inversion comportemental ne résulte pas de l’augmentation de l’activité de LOC pour les visages à l’envers, mais de la diminution de l’activité de la FFA (Yovel & Kanwisher, 2005). Effets de négation Au niveau comportemental, il a été démontré que l’inversion de contraste (ou négation) affecte le traitement de la configuration du visage, et donc sa reconnaissance. De la même façon, il semble que la négation a un impact sur l’activité cérébrale puisqu’une diminution de l’activité dans la FFA a été rapportée pour les visages en négatifs (George et al., 1999). Cette diminution pourrait refléter la non-reconnaissance du visage puisqu’elle n’est plus observée lorsque le visage en négatif est reconnu, grâce à la présentation d’une amorce (« priming ») en contraste positif (George et al., 1999). 41 Effets de visage composite L’effet composite du visage traduit le recrutement du traitement holistique par les visages à l’endroit. L’utilisation de visages chimériques dans une tâche de répétition a révélé que la FFA et le gyrus occipital inférieur sont impliqués dans le traitement holistique du visage. De manière générale, la répétition d’un stimulus entraîne une adaptation, se traduisant par une diminution de l’activité cérébrale (Grill-Spector et al., 1999; Henson et al., 2000) ; or, les visages chimériques (dont une moitié est répétée) provoquent une adaptation seulement si les visages sont inversés ou les moitiés non alignées. Les visages à l’endroit, perçus comme différents, n’entraînent pas d’adaptation des réponses de la FFA et du gyrus occipital inférieur ; l’effet de visage composite est plus fort dans la FFA que dans le gyrus occipital inférieur (Schiltz & Rossion, 2006). Ainsi, les différentes aires cérébrales spécifiques des visages sont sensibles à différentes manipulations expérimentales. Toute perturbation de la configuration du visage (inversion, négation etc.) conduit à une diminution de l’activité dans la FFA, qui peut être associée à une augmentation de l’activité dans les zones spécifiques des objets non visage et dans le gyrus occipital inférieur. Détection & reconnaissance La FFA et le gyrus occipital inférieur sont donc impliqués à la fois dans la détection et la reconnaissance du visage (Grill-Spector et al., 2004; Kanwisher & Yovel, 2006). La FFA et le gyrus occipital inférieur sont sensibles à la configuration du visage, suggérant que les traitements effectués par ces régions sont de type relationnels, holistique ou configural. Le gyrus occipital inférieur pourrait cependant, accomplir un traitement plus décomposé du visage (Schiltz & Rossion, 2006). L’implication de la FFA dans la reconnaissance du visage au niveau individuel est confirmée par des études montrant une modulation de l’activité dans la FFA et dans le gyrus occipital inférieur par la familiarité (Gobbini & Haxby, 2006; Rossion, Schiltz et al., 2003; Rossion et al., 2001). L’utilisation de visages familiers (appris) et de visages non familiers a montré que l’activité de la FFA décroit pour les visages familiers (Gobbini & Haxby, 2006; Rossion, Schiltz et al., 2003; Rossion et al., 2001). La diminution de l’activité est en général rapportée dans des tâches ne requérant pas une reconnaissance explicite du visage (Dubois et al., 1999; Henson et al., 2000). A l’opposé, une augmentation de l’activité dans des régions plus antérieures du lobe temporal a été rapportée dans des études utilisant des visages connus 42 (visages familiers associés à des informations sémantiques) ou requérant un traitement explicite de l’identité (George et al., 1999; Ishai & Yago, 2006; Leveroni et al., 2000). Les régions les plus antérieures du lobe temporal seraient donc impliquées dans l’association entre visage perçu et information sémantique (Sergent & Signoret, 1992a). Le gyrus occipital inférieur paraît, quant à lui, jouer un rôle dans la détection de la configuration générique des visages, ainsi que dans l’extraction d’informations sur le genre ou l’âge ne nécessitant pas un traitement identitaire (Bruce & Young, 1986; Dubois et al., 1999; Haxby et al., 2000; Haxby et al., 1999; Sergent & Signoret, 1992a ). L’implication du gyrus occipital inférieur dans la détection plutôt que dans l’identification du visage est également démontrée par une étude utilisant un continuum16 de visages allant d’un individu A à celle un individu B (Figure 13a) ; l’utilisation de trois images, choisies en des points précis du continuum permet de distinguer l’activité reflétant le traitement des différences physiques entre les stimuli, de celle liée aux processus catégoriels (Figure 13a, b). Le gyrus occipital inférieur (OFA) est activé par des stimuli présentant une différence physique quelle que soit l’identité perçue par les sujets (Figure 13c). Au contraire, la FFA n’est active que lorsque la différence physique entre les images fait passer la perception d’un individu à l’autre (Figure 13d) (de l’individu A à l’individu B) (Haxby et al., 2000; Rotshtein et al., 2005 ). L’étude de Yovel & Kanwisher (2005) semble montrer que le gyrus occipital inférieur et la FFA sont également impliqués dans la discrimination entre deux visages ; leurs réponses étant inférieures dans la condition où les visages sont répétés (Figure 12b). Néanmoins, comme je le mentionne dans la légende de la figure 12, dans la condition « pareil » les visages sont identiques ; la diminution d’activité peut donc probablement refléter une adaptation des réponses de la FFA et du gyrus occipital inférieur. De plus, en ce qui concerne l’activité du gyrus occipital inférieur en particulier, la différence entre les conditions « pareil » et « différent » disparaît lorsque les seuls essais corrects sont pris en compte dans l’analyse du signal BOLD (voir matériel supplémentaire de Yovel & Kanwisher, 2005). Cette observation confirmerait l’implication du gyrus occipital inférieur dans la détection du visage ; elle révèle également que l’expérience perceptuelle des sujets et l’activité cérébrale sont étroitement liées (Grill-Spector et al., 2004; Yovel & Kanwisher, 2005). 16 La technique du « morphing » permet de créer un continuum de stimuli entre deux extrema. Chaque extrême du continuum est constitué d’une image normale (ex : photo de Marylin Monroe), puis par la modification de points cruciaux pour l’identité du visage, des visages comportant 90% puis 80% etc. d’informations provenant de Marylin Monroe sont créés, les informations restantes proviennent de l’individu situé à l’autre extrême du continuum. Cette technique permet de distinguer les effets liés aux différences physiques des processus catégoriels. 43 Figure 13. Morphing & IRMf. Adapté de Rotshtein et al., 2005 (a) Résultats de la tâche de classification en fonction de l'identité (% de réponse Marylin Monroe) pour 11 niveaux d'un continuum allant de Margaret Thatcher à Marylin Monroe. La reconnaissance de l'identité est un phénomène catégoriel (rupture dans la courbe autour du visage contenant 50% de MM et 50% de MT). (b) Exemples de paires de stimuli utilisées dans une tâche d'appariement. "within" = "dans", les deux images sont catégorisées de la même façon (MT) mais elles présentent une différence physique de 30%. "identical" = les deux images sont identiques. "between" = "entre", les deux images présentent une différence physique de 30% (comme la paire "dans") mais sont perçues comme différentes. (c) Réponse du gyrus occipital inférieur (IOG) aux différences physiques. ("identique" moins "entre" + "dans" ). (d) Réponse de la FFA (FFG) à l'identité. (comparaison "entre" versus "identique"+"dans"). (e) Réponse dans le gyrus occipital inférieur (à gauche) et la FFA (à droite), prélocalisées, pour les différentes conditions. NB: la FFA est supérieurement activée lorsque les deux images à apparier traversent la région de rupture ("entre"); le gyrus occipital inférieur est, lui, supérieurement activé lorsque les deux images sont physiquement différentes. Pour résumer, la familiarité des visages entraîne une diminution d’activité dans la FFA, et une augmentation dans les zones plus antérieures. Il est donc possible que l’activité de la FFA soit corrélée à l’encodage perceptuel des visages. Les visages familiers déjà encodés ne nécessiteraient pas un traitement approfondi au niveau de la FFA, mais, les visages familiers, associés à des informations stockées en mémoire, activeraient des régions plus antérieures liées au recouvrement d’informations sémantiques. La détection du visage se ferait au niveau du gyrus occipital inférieur. 44 Effet de niveau de catégorisation & expertise Au niveau comportemental, l’effet d’inversion du visage a été reproduit, chez des sujets experts, pour certaines catégories non visage suggérant que l’effet d’inversion dépend du niveau d’abstraction dans la reconnaissance des objets. Les études en neuroimagerie ont cherché les corrélats de cette expertise dans les aires cérébrales spécifiques des visages. Ainsi, il a été montré que le niveau de catégorisation influence l’activation de la FFA ; la catégorisation à un niveau subordonné augmente l’activité dans la FFA mais elle est sans effet sur l’activité du gyrus occipital inférieur (Gauthier et al., 1997; Gauthier, Skudlarski et al., 2000). L’apprentissage perceptif d’un stimulus module également l’activité de la FFA ; la levée de l’ambiguïté d’une image par la présentation d’une amorce non ambiguë entraîne une augmentation de l’activité dans la FFA (Dolan et al., 1997; George et al., 1999). Outre ces effets d’apprentissage et de niveau de catégorisation, il est également montré un effet de l’expertise sur l’activité de la FFA et du gyrus occipital inférieur dans l’hémisphère droit ; l’activité est augmentée, chez les sujets experts, lors de la présentation d’objets de leur domaine d’expertise (Gauthier, Skudlarski et al., 2000; Tarr & Gauthier, 2000; Xu, 2005). Par ailleurs, en utilisant les «greebles», Gauthier et collaborateurs ont prouvé que l’activité dans la FFA droite augmente de façon corrélée avec l’expertise (Figure 14) (Gauthier et al., 1999; Tarr & Gauthier, 2000). Dans les deux premiers blocs de leur expérience, l’activité de la FFA pour les visages est supérieure à celle induite par les «greebles» ; cet effet s’amenuise avec la familiarisation des sujets avec les «greebles» (Gauthier et al., 1999). Le recrutement de la FFA chez les sujets experts est observé que ce soit dans une tâche d’appariement ou lors de la perception passive de «greebles». Comme cela a été montré pour les visages, l’inversion des «greebles» entraîne une augmentation de l’activité dans le complexe occipital latéral seulement chez les experts (Gauthier et al., 1999). Par ailleurs, l’utilisation de «greebles» chimériques, révélant l’utilisation du traitement holistique sous l’effet de l’expertise, tend à confirmer l’implication de la FFA dans le traitement holistique des stimuli (Gauthier & Tarr, 2002). Cependant, une autre étude montre que l’activation de la FFA ne dépend pas des processus mis en jeu mais bien de la catégorie : la FFA est activée par les visages mais pas par les maisons, que les stimuli diffèrent au niveau de leur configuration ou des traits internes (Yovel & Kanwisher, 2004). Néanmoins, bien que la tâche est réalisée soit sur les informations locales soit sur les informations configurales, il n’est pas dit que les sujets n’utilisent pas automatiquement des informations holistiques pour 45 traiter les visages, d’autant que la modification des traits internes du visage perturbe également la configuration du visage. Figure 14. Carte d'activation pour 3 sujets novices et 3 experts dans une tâche passive, pour les visages et les «greebles». Carré blanc: milieu du gyrus fusiforme, flèche: sulcus occipital latéral pour un expert. Issu de Gauthier et al. 1999. D’autres études, qui ont investigué l’effet d’expertise et du niveau de catégorisation, ne parviennent pas à mettre en évidence une quelconque modulation de l’activité de la FFA (Grill-Spector et al., 2004; Rhodes et al., 2004). Notamment en comparant l’activation de la FFA pour les visages et les lépidoptères (insectes), dans des tâches passives ou requérant un traitement à un niveau individuel, Rhodes et al. (2004) montrent que la FFA, à proprement parler, ne s’active que pour les visages. Une zone adjacente du gyrus fusiforme s’active pour la reconnaissance à un niveau individuel des lépidoptères chez les novices comme chez les experts (Rhodes et al., 2004). De la même façon, Grill-Spector et al. (2004) montrent que l’activation de la FFA n’est pas liée à la catégorisation de n’importe quelle classe d’objet à un niveau subordonné, que ce soit pour les sujets novices ou experts (Grill-Spector et al., 2004). Les résultats de ces deux dernières études sont en faveur de l’hypothèse selon laquelle la FFA est spécifiquement impliquée dans la catégorisation des visages. La disparité des résultats observés en IRMf pourrait venir des différents critères sélectionnés pour définir la FFA, par exemple le seuil de significativité utilisé pour asseoir sa sélectivité. Dans leur expérience avec les experts en reconnaissance d’oiseaux et de voitures, Gauthier et al. (1999) ont comparé les effets d’expertise en appliquant différents critères de significativité lors de la sélection des régions d’intérêt (voir matériel supplémentaire). Cette comparaison révèle que l’effet d’expertise est toujours présent mais n’a pas la même amplitude. Cette étude révèle également que, plus que le seuil de significativité, c’est la sélection des sujets qui est le facteur limitant. En effet, la technique utilisée par Kanwisher, 46 plus restrictive, a pour conséquence la sélection de sujets présentant une très forte activation pour les visages ; technique qui pourrait masquer les variations de l’activité dans d’autres cas, comme l’expertise. En résumé, les différentes techniques de neuroimagerie ont donc permis de mettre en évidence un large réseau d’aires cérébrales impliquées dans la perception des visages. En outre, il apparait que ce même réseau est impliqué dans la détection et dans la reconnaissance du visage. Les différences entre détection et reconnaissance pourraient être d’ordre temporel ; cette hypothèse ne peut pas être explorée avec l’IRMf et la TEP. Nous allons donc voir maintenant les études révélant les latences des différentes étapes de la perception du visage. 2.2.3. Décours temporel du traitement des visages Les potentiels évoqués par un stimulus visuel sont en général triphasique. Ils sont formés d’une première onde positive apparaissant une centaine de millisecondes après la stimulation, la P1 ou M100/M90 (P120 en enregistrement intracranien), suivie d’une déflection négative à 170 ms, la N170 ou M170, dont la N200 pourrait être l’équivalent en enregistrements intracrâniens. La N170 est suivie d’un pic positif autour de 200 ms après la stimulation : la P2. Les enregistrements intracrâniens, la MEG et l’EEG, ont permis de mettre en évidence la latence des différentes étapes du traitement des visages, allant du moment où il se différencie de celui des objets à la reconnaissance du visage au niveau individuel. Ces trois techniques mettent en évidence une activité sensible aux visages apparaissant entre 150 (en EEG et MEG) et 200 ms (enregistrements intracrâniens) après le début de la stimulation (Allison et al., 1994; Bentin et al., 1996; Liu et al., 2000). a. Enregistrements intracrâniens : N200 Les enregistrements intracrâniens17 permettent de donner une latence à des évènements localisés. Les électrodes placées en surface de certaines zones corticales révèlent la latence des traitements ayant lieu dans cette zone. Une activité spécifique des visages est enregistrée 200 ms après la présentation du visage dans le gyrus fusiforme latéral (Allison et al., 1994; Allison et al., 1999). La N200 enregistrée sur le gyrus fusiforme latéral est plus ample pour les visages que pour différentes catégories de stimuli non visage (Figure 15a) ; 17 Les enregistrements intracrâniens permettent d’enregistrer l’activité cérébrale à la surface du cortex. Il s’agit d’une technique d’imagerie invasive qui ne peut être utilisée que dans les cas cliniques, notamment chez les patients épileptiques résistants aux traitements médicamentaux. Des électrodes sont implantées à la surface, ou dans, le cerveau afin de localiser le foyer épileptique. Une fois les électrodes implantées, il est possible de faire passer des expériences aux patients et ainsi, d’enregistrer les PE directement à la surface corticale. L’utilisation de cette technique est assez restreinte du fait des problèmes éthiques qu’elle soulève. 47 l’amplitude de la N200 spécifique des visages est similaire pour différents types de stimuli non visage. Figure 15. Exemples de N200 spécifiques des visages enregistrées dans différentes conditions expérimentales. (a) La N200 est spécifique des visages. (b) La N200 est retardée et moins ample pour les images ne contenant que les hautes fréquences spatiales. (c) La N200 est sensible à la configuration du visage, pas à des traits en particulier. (d) La N200 n'est pas modulée par la familiarité (à gauche, Ronald Reagan). (e) Effet d'inversion. La N200 est plus tardive et plus petite pour les visages à l'envers. Extraits de la série de papiers de Allison (a), Mc Carthy (b,c, e) et Puce (d) (1999). En 1999, Allison, Puce et McCarthy rapportent, dans 3 articles distincts, la sensibilité de la N200 à différentes caractéristiques du traitement des visages (Allison et al., 1999; McCarthy et al., 1999; Puce et al., 1999). La N200 est sensible au traitement configural du visage ; son amplitude et sa latence sont affectées par diverses manipulations du visage perturbant l’extraction de sa configuration (Figure 15b, c, e). La N200 est retardée et diminuée par la présentation des traits isolés du visage (Figure 15c) (McCarthy et al., 1999). Par ailleurs, filtrer les images avec un filtre passe-bas ou passe-haut module différemment la N200. Les images auxquelles ont été appliquées un filtre passe-bas – ne laissant dans l’image que les basses fréquences spatiales – évoquent une N200 similaire à celle évoquée par les images non filtrées ; un filtre passe-haut, qui ne laisse que les informations hautes fréquences, entraîne un délai dans l’apparition de la N200, qui est également plus petite (Figure 15b) (McCarthy et al., 1999). Or, il a été démontré que les informations configurales sont plutôt portées par les basses fréquences spatiales, et que les hautes fréquences spatiales convoient plutôt les informations sur les traits du visage (Goffaux et al., 2005). Comme nous l’avons vu dans les parties précédentes, l’inversion du visage affecte sa catégorisation et entraîne une 48 diminution de l’activité de la FFA. La N200 est également affectée par l’inversion du visage : elle est plus tardive pour les visages à l’envers (Figure 15e) (McCarthy et al., 1999). Chez le singe, il a été proposé que les cellules qui répondent à la configuration du visage soient activées par des afférences des niveaux inférieurs portant les informations sur les traits du visage (Perrett et al., 1987; Tovée & Cohen-Tovée, 1993) ; la décomposition du visage précèderait le traitement de la configuration. Chez l’homme, l’extraction de la configuration du visage semble précèder le traitement des éléments (Goffaux & Rossion, 2006; McCarthy et al., 1999). Ces résultats confirment donc la sensibilité de la N200 à la configuration du visage. Dans le dernier papier d’Allison, Puce et McCarthy, les effets des influences descendantes (« top-down process») sont rapportées. En IRMf, l’activité de la FFA diminue avec la répétition du stimulus, mettant en évidence une adaptation ; de la même façon, la N200 décroit entre la première et la deuxième présentation d’un visage mais son amplitude reste constante après la deuxième présentation du visage (Puce et al., 1999). En IRMf, il a été montré que la FFA était impliquée aussi bien dans la détection du visage que dans sa reconnaissance ; la N200 n’est, elle, pas influencée par la familiarité du visage (Figure 15d). Les enregistrements intracrâniens ont aussi permis de démontrer que l’activation du gyrus fusiforme 200 ms après l’apparition du stimulus est liée à la détection du visage. L’encodage et l’identification arrivent plus tardivement, à la latence de la P290 et de la N700 (ondes enregistrées dans les sites spécifiques des visages, respectivement, onde positive 290 ms après le début de la présentation du stimulus, et onde négative 700 ms après le début de la stimulation) (Puce et al., 1999). Les expériences de Puce et al. (1999) n’ont cependant pas permis de mettre en évidence une composante sensible au « sentiment de familiarité », même dans les conditions où cette information est nécessaire à la réalisation de la tâche (familier/non familier). La N200 spécifique des visages n’est pas non plus influencée par le contenu émotionnel des images. Toutes ces études prouvent que la N200 est une réponse spécifique des visages, constante et automatique. Elle est observée dans des tâches passives, des tâches d’identification, de reconnaissance et de détection. La N200 reflète l’encodage structurel du visage : elle est plus précoce pour la configuration que pour les traits internes du visage ou le visage à l’envers. Elle ne paraît pas sous-tendre les traitements requis pour la reconnaissance du visage. 49 Les enregistrements intracrâniens apportent des informations sur la latence des processus impliqués dans la perception des visages. L’inconvénient majeur de cette technique est cependant qu’elle ne peut être utilisée que chez des patients épileptiques. L’EEG enregistrée à la surface du scalp et la MEG sont des techniques non invasives permettant l’enregistrement des activités électrique et magnétique en temps réel à la surface du scalp. L’activité à la surface du scalp va être le reflet de l’activation de plusieurs sources cérébrales, pouvant induire une modulation différente des potentiels évoqués par rapport aux potentiels intracrâniens, dans différentes conditions expérimentales. En EEG et MEG, la technique des potentiels évoqués a permis d’étudier le décours temporel du traitement des visages. b. EEG, MEG : N170, VPP & M170 Sensibilité aux visages La technique des potentiels évoqués (PE) a révélé l’existence d’une onde négative, sensible aux visages, apparaissant 170 ms après le début de la stimulation : la N170 (Bentin et al., 1996; George et al., 1996; George et al., 1997; Itier & Taylor, 2002; Rossion, Gauthier et al., 2000; Taylor, Edmonds et al., 2001; Taylor, Itier et al., 2001). La N170 est classiquement enregistrée au niveau des électrodes temporales postérieures ; son amplitude est plus grande dans l’hémisphère droit que dans l’hémisphère gauche (Bentin et al., 1996), en accord avec les nombreuses études en IRMf montrant une activation supérieure de la FFA droite pour les visages (Gauthier et al., 1999; Kanwisher et al., 1997; Rossion, Joyce et al., 2003). L’enregistrement de l’activité magnétique du cerveau révèle, quant à lui, l’existence d’une composante sensible aux visages, la M170, qui, comme la N170, apparaît autour de 170 ms après le début de la présentation du stimulus (Halgren et al., 2000; Linkenkaer-Hansen et al., 1998; Liu et al., 2000; Taylor, George et al., 2001). La M170 est une composante enregistrée dans la région occipitotemporale ventrale de chaque hémisphère ; son origine pourrait être le gyrus fusiforme ou les aires corticales avoisinantes (Taylor, George et al., 2001). Elle est plus importante pour les visages que pour une variété d’objets non visage ou pour les traits isolés du visage (Halgren et al., 2000; Liu et al., 2002; Liu et al., 2000; Taylor, George et al., 2001). Les résultats observés sur la M170 sont similaires aux modulations observées pour la N200, ce qui paraît logique puisqu’elles reflètent probablement l’activité des mêmes sources cérébrales, sources différentes de celles enregistrées en EEG à la surface du scalp. 50 La sensibilité de la N170 aux visages fut tout d’abord dévoilée par son amplitude plus grande pour les visages que pour les mêmes images morcelées et réarrangées (« scrambled faces »), révélant qu’elle n’est pas induite par les caractéristiques bas niveau des images (Bentin et al., 1996). La N170 est sensiblement plus ample pour les visages que pour une variété de stimuli non visage (Figure 16) (Bentin et al., 1996; Botzel et al., 1995; Caldara et al., 2003; Carmel & Bentin, 2002; Itier & Taylor, 2004c, d; Jeffreys, 1993, 1996; Rossion, Gauthier et al., 2000; Rossion, Joyce et al., 2003; Severac Cauquil et al., 2000). Figure 16. Exemple de N170 enregistrées sur les électrodes P7/P8, où elle est en général la plus ample, pour différentes catégories d'objets. NB: L'inversion du visage conduit à une N170 retardée et plus ample. Issu de Itier & Taylor (2004c). Dans les régions frontales, une onde positive est enregistrée à la même latence, la VPP (Vertex Positive Potential), elle aussi sensible aux visages : elle est plus ample pour les visages que pour des stimuli non visage (Botzel et al., 1995; Jeffreys, 1993, 1996; Rossion, Campanella et al., 1999). La VPP est également affectée par la modification des visages (inversion de contraste, inversion des visages etc. – (Botzel et al., 1995; Itier & Taylor, 2002; Jeffreys, 1993, 1996; Rossion, Campanella et al., 1999)). Considérée comme étant la contrepartie positive de la N170, la VPP reflète l’activité des mêmes sources que la N170 (Joyce & Rossion, 2005) ; certaines études montrent néanmoins des différences entre les modulations de la N170 et de la VPP pour certaines manipulations expérimentales (George et al., 1996). Cela pourrait être dû à des différences méthodologiques concernant, notamment, l’électrode de référence (Jemel, Schuller et al., 2003; Joyce & Rossion, 2005; Rossion, Joyce et al., 2003). La N170 est observée non seulement lors de la présentation de visages photographiques mais également pour d’autres types de visages tels que les visages schématiques (Henderson et al., 2003; Sagiv & Bentin, 2001), les caricatures ou les Mooney Faces (George et al., 2005; Jeffreys, 1996) du moins lorsque ces derniers sont perçus en tant que visage (George et al., 2005). Une N170 est également décrite dans certaines conditions 51 expérimentales favorisant la détection du visage ; ainsi, lorsque les sujets réalisent une tâche de détection de visage avec des Mooney Faces, une N170 est observée, bien que de moindre amplitude, et ce, même lorsque les sujets ne perçoivent pas les visages (George et al., 2005). Ceci suggère que la N170 indexe un certain traitement automatique inconscient du visage (Furey et al., 2006), hypothèse en accord avec des études réalisées chez des patients héminégligents qui mettent en évidence une N170 alors même qu’ils rapportent ne pas avoir vu le visage (Vuilleumier, 2000; Vuilleumier et al., 2001). Cette hypothèse justifierait également l’absence de différences entre la N170 évoquée par des visages cibles ou non cible (Rossion, Campanella et al., 1999; Severac Cauquil et al., 2000). Une deuxième hypothèse permettant d’expliquer les résulats de George et collaborateurs (2005) est la modulation de la N170 par les influences descendantes. Cette modulation est par exemple démontrée par l’utilisation de visages schématiques dans lesquels la place des éléments est perturbée. En effet, pour de tels visages, la N170 est plus petite que pour les visages présentant une configuration normale, mais lorsque la perception des sujets est biaisée vers la perception d’un visage, via un amorçage contextuel, la N170 devient aussi ample pour les visages (schématiques) normaux que pour les visages dont la configuration est perturbée (Bentin & Golland, 2002). Des études rapportent que la N170 évoquée par les visages humains est plus ample que celle évoquée par les visages d’animaux démontrant sa spécificité pour les visages humains (Bentin et al., 1996). Toutefois, d’autres études montrent une augmentation de la latence de la N170 évoquée par les visages d’animaux, son amplitude étant similaire pour tous les types de visages (humain ou animal) ((Carmel & Bentin, 2002; Rousselet et al., 2004b), en MEG (Liu et al., 2000)). Ce manque de cohérence est similaire à celui observé dans les résultats des études en IRMf sur l’activation de la FFA par les visages d’animaux ; certaines études démontrent une activation de la FFA pour les animaux (Chao et al., 1999) tandis que d’autres ne parviennent pas à la révéler (Kanwisher et al., 1999). Les différences observées entre les 3 études en potentiels évoqués pourraient refléter l’influence de processus descendants (« top-down »), les tâches réalisées par les sujets n’étant pas les mêmes. La diminution de l’amplitude de la N170 pour les visages d’animaux est observée dans le cas où les sujets regardent passivement des visages d’animaux ou d’humains (Bentin et al., 1996) ; l’amplitude de la N170 est similaire quel que soit le visage lorsque l’attention des sujets est orientée vers les visages, humains ou animaux (Carmel & Bentin, 2002; Rousselet et al., 2004b). Ainsi, il apparaît que la N170 est automatiquement générée par les visages humains alors qu’elle n’est évoquée par les visages d’animaux que lorsque l’attention est explicitement 52 dirigée vers le visage (humain ou animal). La N170 reflète donc un traitement automatique du visage humain. Cette hypothèse est également soutenue par les études montrant une diminution de la N170 lorsque deux visages sont en compétition pour les ressources sensorielles des sujets (via par exemple, l’utilisation de paradigme « d’encombrement » (« crowding »)) (Jacques & Rossion, 2004, 2006b). La N170 est, donc, non seulement générée automatiquement par les visages à l’endroit, reflétant ainsi l’automaticité des processus ascendants, mais elle est également modulée par des influences descendantes (Bentin & Golland, 2002; George et al., 2005; Jemel, Pisani et al., 2003). Sensibilité à la configuration et effet d’inversion La présentation d’un élément du visage provoque une augmentation de la latence et une diminution de l’amplitude de la N200 (McCarthy et al., 1999). La N170 est, elle, retardée et plus ample pour des yeux présentés seuls ; cet effet n’est pas reproduit pour la présentation d’autres éléments du visage tels que la bouche ou le nez (Bentin et al., 1996; Jemel et al., 1999; Severac Cauquil et al., 2000; Taylor, Edmonds et al., 2001). Parce que la N170 est plus ample pour les yeux, Bentin et collaborateurs ont émis l’hypothèse que la N170 reflète l’activité d’un détecteur d’yeux qui serait inhibé par la configuration du visage. Cette hypothèse est appuyée par les études montrant que la N170 évoquée par des yeux situés à une position inhabituelle (par exemple, au niveau du nez) est similaire à celle évoquée par les yeux seuls (Bentin et al., 1996; George et al., 1996). D’autres études contestent néanmoins cette hypothèse, notamment en révélant que l’amplitude de la N170 reste inchangée en l’absence des yeux (Eimer, 1998; Zion-Golumbic & Bentin, 2006), même si elle est retardée pour des yeux absents (Eimer, 1998) ou fermés (Taylor, Itier et al., 2001). La N170 semble donc refléter l’activité d’un détecteur de la configuration générique du visage ; elle est retardée et/ou augmentée lorsque l’intégrité de la configuration est modifiée (yeux seuls ou contour sans les yeux) (Eimer, 1998, 2000a, b; Zion-Golumbic & Bentin, 2006). Cependant, étirer les traits du visage de 20 à 30%, bien que provoquant la sensation d’un visage atypique, n’induit aucune modification de la N170 (Halit et al., 2000). Cela montre que la N170 est uniquement sensible à des modifications majeures de la configuration du visage comme le déplacement des éléments. La M170 est, elle aussi, influencée par la configuration du visage ; comme la N200, elle est réduite lorsque la configuration du visage est perturbée (Liu et al., 2002). 53 Les études en potentiels évoqués ont également exploré l’effet d’inversion du visage, et celui de la négation, sur la N170. Un nombre considérable d’études a montré une modulation de la N170 par l’inversion du visage : elle est retardée et/ou plus ample pour les visages à l’envers (Figure 16) (Bentin et al., 1996; Eimer, 2000a; Goffaux, Gauthier et al., 2003; Itier & Taylor, 2002; Jeffreys, 1993; Jeffreys, ; Linkenkaer-Hansen et al., 1998; Liu et al., 2000; Rossion, Delvenne et al., 1999; Rossion et al., 2002; Rossion, Gauthier et al., 2000; Rousselet et al., 2004a). La M170, quant à elle, est retardée, mais son amplitude n’est pas affectée par l’inversion du visage (Itier, Herdman et al., 2006; Liu et al., 2000). Le retard de latence observé après inversion ne semble pas spécifique de la catégorie « visage ». Certaines études ne révèlent pas de retard de latence suite à l’inversion de stimuli non visage (Bentin et al., 1996; Eimer, 2000a; Rebai et al., 2001; Rossion, Gauthier et al., 2000), alors que d’autres études le mettent en évidence (Rossion et al., 2002; Rossion, Joyce et al., 2003; Rousselet et al., 2004a). L’effet d’inversion pourrait traduire la perturbation de l’orientation canonique du stimulus. Ainsi, Rossion et collaborateurs, en 2000, montrent que la N170 évoquée par des images inversées de voitures en vue de face n’est pas retardée, mais, en 2003, ils observent un retard de la N170 pour des images inversées de voiture en vue de ¾ (vue canonique) (Figure 17) (Rossion, Joyce et al., 2003). Figure 17. Vue canonique et Inversion. (a) Visage, (b) Voiture en vue canonique. (a) et (b) noir: stimuli à l'endroit, bleu: stimuli inversés. Issu de Rossion et al. (2003). (c) Voiture, vue de face. trait épais: à l'endroit, fin: à l'envers. Issu de Rossion et al (2000) sauf la photo de voiture. NB: Décalage de latence pour les voitures inversées en (b) mais pas en (c). L’augmentation d’amplitude de la N170 n’est pas non plus systématiquement observée. Certaines études révèlent que la N170 est augmentée pour les visages à l’envers (Eimer, 2000a; Itier & Taylor, 2002, 2004c; Linkenkaer-Hansen et al., 1998; Rossion, Delvenne et al., 1999; Rossion et al., 2002; Rossion, Gauthier et al., 2000; Rousselet et al., 54 2004a; Sagiv & Bentin, 2001; Taylor, Edmonds et al., 2001), d’autres montrent que l’inversion du visage n’affecte pas l’amplitude de la N170 (Bentin et al., 1996; Rossion, Joyce et al., 2003). L’inversion des objets non visage n’est pas associée à une augmentation de l’amplitude de la N170 dans une majorité d’études (Bentin et al., 1996; Itier & Taylor, 2004c; Rossion, Gauthier et al., 2000; Rossion, Joyce et al., 2003; Rousselet et al., 2004a), De son côté, Eimer (2000) enregistre une augmentation de la N170 pour les maisons à l’envers plutôt qu’une augmentation de la latence ; il propose donc que l’indice de la spécificité des visages soit le retard de latence de la N170 après l’inversion. L’augmentation observée dans l’étude de Eimer est surprenante au vu des nombreuses études montrant un effet d’inversion sur la latence, et non sur l’amplitude, pour diverses catégories d’objets. Cette différence pourrait s’expliquer par la méthode utilisée pour mesurer les pics. Eimer (2000) a évalué l’amplitude de la N170 par l’amplitude moyenne entre 150 et 200 ms ; or, il est préconisé d’utiliser l’amplitude maximale du pic ; les études utilisant cette technique ne montrent pas d’augmentation de l’amplitude après inversion de stimuli non visage (Picton et al., 2000). L’indice de la spécificité des visages paraît donc résider dans l’augmentation de l’amplitude suite à l’inversion, et non dans l’augmentation de la latence (Rousselet et al., 2004a). Cette deuxième hypothèse a l’avantage d’être en accord avec les expériences en IRMf montrant une activation dans les aires répondant spécifiquement aux objets après inversion du visage (Aguirre et al., 1999; Haxby et al., 1999). Les potentiels évoqués enregistrés en surface peuvent en effet résulter de l’activation de plusieurs sources cérébrales au même moment. Ainsi, l’augmentation de la N170 pour les visages inversés pourrait traduire l’activation des zones impliquées dans le traitement des objets qui s’ajouterait à celle de la FFA afin de faciliter les traitements ultérieurs (Rossion, Delvenne et al., 1999; Rossion & Gauthier, 2002 ; Sagiv & Bentin, 2001). Les études utilisant des visages comme les Mooney Faces ou les visages schématiques abondent également dans ce sens. L’inversion des Mooney Faces ou des visages schématiques n’entraîne pas d’augmentation de l’amplitude de la N170 ; le recrutement des zones impliquées dans la reconnaissance des objets paraît n’être effectif que lorsque le visage est le support d’informations identitaires (Sagiv & Bentin, 2001). Par ailleurs, il a été montré que la N170 est retardée pour les visages « Thatchérisés » à l’endroit comparé aux visages normaux ; l’inversion d’un visage « Thatchérisés » entraîne une N170 similaire à celle évoquée par les visages normaux à l’envers (Boutsen et al., 2006). Ces résultats indiquent que la N170 indexe le traitement global du visage, et que l’augmentation de la latence est liée à une perturbation de la configuration qui, dans le cas des 55 visages « Thatchérisés », est plus forte dans les visages à l’endroit. Comme nous l’avons vu précédemment, la négation perturbe la reconnaissance des visages (George et al., 1999; Itier & Taylor, 2002), supposément parce qu’elle modifie les informations relationnelles entre les traits du visage (Hole et al., 1999). Parallèlement, il a été démontré une modulation de la N170 par l’inversion de contraste similaire à celle observée après rotation du visage à savoir une N170 retardée et plus ample (Itier & Taylor, 2002, 2004a). Une autre preuve de la sensibilité de la N170 à la configuration du visage est apportée par l’étude de l’influence des fréquences spatiales sur la N170. Rappelons que les informations configurales sont portées par les basses fréquences spatiales, alors que les informations sur les traits du visage sont révélées par les hautes fréquences spatiales (Goffaux et al., 2005; Goffaux & Rossion, 2006). La N170 évoquée par des visages représentés par les informations basses fréquences est similaire à celle évoquée par les visages normaux mais, lorsque seules les informations liées aux hautes fréquences spatiales sont disponibles, la N170 est plus petite, similaire à celle évoquée par les objets (Figure 18a) (Goffaux, Gauthier et al., 2003). En outre, l’effet d’inversion sur la N170 n’est présent que pour les images complètes ou ne contenant que les informations basses fréquences (Figure 18b). La modification des fréquences spatiales n’a pas d’impact sur la N170 évoquée par les objets (Goffaux, Gauthier et al., 2003). Cependant, en accord avec les études montrant une influence des processus descendants sur l’amplitude de la N170 (Bentin & Golland, 2002; George et al., 2005; Jemel, Pisani et al., 2003), l’influence des fréquences spatiales sur la N170 dépend de la tâche réalisée par les sujets. Lorsque les sujets doivent juger de la familiarité d’un visage appris, la N170 n’est plus modulée par les fréquences spatiales contenues dans l’image (Goffaux, Jemel et al., 2003). Ceci implique également qu’une part de la reconnaissance d’un visage appris artificiellement dépend de la disponibilité des informations portées par les traits du visage. 56 Figure 18. N170 & Fréquence spatiale. (a) Comparaison des N170 évoquées par les visages (en gras) et les voitures (traits fins) à différentes fréquences spatiales (FS). Broad pass: toutes les FS. LSF: basses FS. HSF: hautes FS. (b) Effet d'inversion et fréquence spatiale sur les visages. Trait large: à l'endroit, trait fin: à l'envers. Issu de Goffaux et al. (2003). Détection ou reconnaissance ? Les études précédentes indiquent que la latence et l’amplitude de la N170 sont modulées par différentes manipulations du visage amenant une rupture de sa configuration. Il est donc proposé que la N170 reflète l’encodage structurel du visage sous-tendant sa détection, sa catégorisation en tant que visage (Bentin et al., 1996; Eimer, 1998, 2000c; Sagiv & Bentin, 2001; Tanaka et al., 2006). L’implication de la N170 dans la détection du visage et non dans sa reconnaissance est confirmée par l’absence de différence entre la N170 évoquée par les visages familiers – visages célèbres ou appris – et non familiers (Bentin & Deouell, 2000; Eimer, 2000a, b; Itier & Taylor, 2002, 2004a; Jemel, Pisani et al., 2003; Rossion, Campanella et al., 1999; Zion-Golumbic & Bentin, 2006). La reconnaissance du visage apparaît plus tardivement que sa détection. Des modulations des potentiels évoqués par la familiarité sont rapportées sur les ondes cérébrales apparaissant après 200 ms, sur la P2 (210 à 57 250 ms après la présentation du stimulus – (Caharel et al., 2002)) et la N250 (250 ms après la présentation du stimulus – (Itier & Taylor, 2004a; Tanaka et al., 2006)), voire plus tardivement, autour de 400 ms (Eimer, 2000a, b; Itier & Taylor, 2004a). Cependant, certaines études montrent une modulation de la N170 par la familiarité du visage, indiquant qu’elle pourrait être impliquée dans la discrimination de l’identité du visage (Caharel et al., 2005; Caharel et al., 2006; Caharel et al., 2002; Jacques & Rossion, 2006a). En utilisant 3 visages extraits d’un continuum entre deux identités, Jacques & Rossion (2006) ont montré une diminution de la N170 lorsque la séquence d’images était constituée de visages situés d’un même côté du continuum, mais pas lorsque les deux visages de la séquence étaient catégorisés, au niveau comportemental, comme différents (Jacques & Rossion, 2006a). Les auteurs suggèrent que la N170 indexe la discrimination entre deux visages appartenant à des individus distincts (Campanella et al., 2000; Jacques & Rossion, 2006a). Cependant, du fait de l’organisation de l’expérience en blocs d’images (c’est à dire un bloc avec la paire de stimuli du même individu et un bloc avec une paire composée de visages d’individus différents), l’effet observé dans cette étude pourrait représenter un effet de répétition perceptuelle liée à l’influence de processus descendant (Campanella et al., 2002; Itier & Taylor, 2002, 2004a). L’influence des processus descendants sur l’amplitude de la N170 est également démontré dans une étude révélant une diminution de l’amplitude de la N170 évoquée par des Mooney Faces, seulement si leur présentation est précédée de la présentation d’un visage familier ayant le rôle d’amorce (Jemel, Pisani et al., 2003). Les auteurs suggèrent que la diminution de la N170 reflète sa sensibilité aux influences descendantes ; la présentation d’un visage familier préactive le système de reconnaissance et, ainsi, facilite le traitement du visage, résultant en une N170 diminuée (Jemel, Pisani et al., 2003). Ainsi, sous l’influence de processus descendants, la N170 pourrait être modulée par la familiarité du visage (Campanella et al., 2000; Jemel, Pisani et al., 2003) mais, les seules informations portées par les stimuli ne sont pas suffisantes. Expertise et N170 La N170 est également sensible au niveau de traitement des objets. Il a été démontré que la catégorisation des objets à un niveau subordonné entraîne une augmentation de la N170 par rapport à la catégorisation à un niveau superordonné (Tanaka et al., 1999). Par ailleurs, l’expertise dans une catégorie entraîne une augmentation de l’amplitude de la N170 pour les objets de cette même catégorie par rapport aux objets situés en dehors de la catégorie ; ainsi, la N170 est augmentée pour les oiseaux chez les sujets experts, alors qu’elle ne différencie 58 pas les autres objets (Gauthier et al., 2003; Tanaka & Curran, 2001). En MEG, l’expertise n’entraîne toutefois pas d’augmentation de l’amplitude de la M170 ce qui peut refléter le fait que la N170 et la M170 n’ont pas la même origine cérébrale ; l’augmentation de l’amplitude de la N170 pour les sujets experts serait liée au recrutement d’une autre source cérébrale qui ne pourrait pas être enregistrée en MEG (Xu et al., 2005). L’utilisation de «greebles» a permis de mettre en évidence un effet d’inversion sur la N170 pour des stimuli non visage. Avant un entraînement à la reconnaissance des «greebles», la N170 pour les visages était plus large et plus précoce que celle évoquée par les «greebles» ; l’effet d’inversion, à savoir retard et augmentation d’amplitude de la N170, n’etait visible que pour les visages (Rossion et al., 2002). Après l’apprentissage, la N170 évoquée par les «greebles» à l’endroit est similaire à celle évoquée par les visages à l’endroit, et l’inversion des «greebles» provoque un retard de latence plus marqué dans l’hémisphère gauche, et une augmentation d’amplitude restreinte à l’hémisphère gauche (Rossion et al., 2002). L’effet de l’expertise étant visible en priorité sur la latence (qui est augmentée), cela confirmerait que, dans le cadre de l’inversion des visages, l’augmentation d’amplitude de la N170 soit spécifique des visages (voir p45). L’effet de l’inversion des « greebles » sur la latence pourrait simplement refléter le développement d’une orientation canonique sous l’effet de l’apprentissage ; en effet, précédemment, nous avons vu que l’effet d’inversion sur la latence est trouvé sur des objets non visages, et chez des sujets non experts, dans le cas de stimuli présentés dans leur orientation canonique (Rossion, Joyce et al., 2003; Rousselet et al., 2004a). Une seconde différence, importante elle aussi, entre les effets de l’inversion des visages et des stimuli bénificiant d’une expertise est la latéralisation des effets ; l’effet d’inversion pour les visages est en général trouvé bilatéralement ou dans l’hémisphère droit, alors que, pour les «greebles», il est rapporté principalement à gauche. Il se pourrait donc que la bilatéralisation (avec une prédominance de l’hémisphère droit) des effets observés sur la N170 soit spécifique des visages, les mêmes régions à gauche étant impliquées dans n’importe quel traitement approfondi de type configural. Un effet de l’expertise a également été mis en évidence en étudiant les interférences dans les traitements mis en jeu par les visages et ceux mis en jeu par les objets soumis à une expertise. Ainsi, lorsque des sujets experts doivent prêter attention à la fois à une répétition d’un objet dans leur domaine d’expertise et à celle d’un visage, la N170 pour les visages est diminuée; cet effet n’est pas reproduit chez les sujets novices (Gauthier et al., 2003). Par ailleurs, nous avons vu précédemment que lorsque deux visages étaient en compétition pour 59 les ressources sensorielles allouées à chaque visage, la N170 était diminuée (Jacques & Rossion, 2004, 2006b). Le même paradigme a été utilisé pour observer les effets d’une compétition entre les visages et les «greebles» en fonction de l’expertise (Rossion et al., 2004). Cette étude montre, que après l’entraînement conférant l’expertise, la N170 pour les visages situés en périphérie est réduite seulement lorsque le stimulus central est un «greebles» (Rossion et al., 2004). Ainsi, sous l’effet de l’expertise, les sujets tendent à traiter les stimuli non visage comme les visages, ce qui entraîne une compétition entre les traitements recrutés automatiquement par chaque stimulus. Ces études suggèrent donc que la N170 sous-tend le recrutement de traitements configuraux dépendant de l’expertise des sujets et non spécifiques des visages (Diamond & Carey, 1986; Gauthier et al., 2003; Rossion et al., 2002; Rossion et al., 2004; Tanaka & Curran, 2001). Au vu du nombre et de la variabilité des données enregistrées grâce aux potentiels évoqués, il est difficile de dire si la spécificité des visages est assise par l’augmentation de la latence, ou par l’augmentation de l’amplitude de la N170 pour les visages inversés. Il semble que le retard observé après l’inversion résulte de la perturbation de l’orientation canonique, et qu’il n’est donc pas spécifique des visages. L’augmentation d’amplitude de la N170 est rarement observée pour les objets inversés et, peut être mise en relation avec les données en IRMf montrant le recrutement des régions spécifiques des objets par les visages à l’envers. Ainsi, le meilleur indice de la spécificité de la N170 pour les visages paraît être l’augmentation de son amplitude pour les visages à l’envers. En ce qui concerne l’implication de la N170 dans la détection ou la reconnaissance du visage, il semble qu’elle reflète essentiellement la détection du visage, mais que, dans certains conditions expérimentales, elle puisse subir l’influence de processus descendants, et être modulée par la familiarité du visage. c. EEG, MEG : autres composantes La P1, onde positive apparaissant 100 ms après le début de la présentation du stimulus, montre une sensibilité aux visages mais ces résultats sont controversés. La P1 paraît provenir des régions striées et extrastriées (Hillyard & Anllo-Vento, 1998; Itier & Taylor, 2002; Rossion, Campanella et al., 1999) ; l’équivalent de la P1 en MEG est la M100 ou M90 (Liu et al., 2002). Certaines études montrent une modulation de la P1 par l’inversion du visage ; elle est en général plus tardive pour les visages à l’envers (Itier & Taylor, 2002, 2004a; Linkenkaer-Hansen et al., 1998). Ces résultats seraient en faveur d’une sensibilité de la P1 aux visages. De plus, l’inversion de contraste n’affecte pas la latence de la P1 ; or, elle 60 préserve la configuration générique du visage, mais pas les informations relationnelles entre les traits. Ces différentes données suggèrent que la P1 indexe le traitement de la configuration générique du visage, et sous-tend la détection du visage, en accord avec une étude en MEG sur la M100 (Liu et al., 2002). De nombreuses études n’ont pas réussi à montrer une modulation de la P1 par l’inversion du visage, et proposent que la P1 reflète le traitement des informations bas niveau (Halit et al., 2000; Rossion, Delvenne et al., 1999). La P1 est également modulée par les processus attentionnels, tant au niveau de l’attention spatiale que de l’attention pour certaines caractéristiques (Halit et al., 2000; Hillyard & Anllo-Vento, 1998; Rossion, Campanella et al., 1999; Taylor, 2002). Les effets attentionnels, notamment lorsque l’attention est explicitement dirigée vers le visage, peuvent masquer les évènements arrivant à la latence de la P1, ce qui pourrait expliquer les observations assez disparates rapportées dans la littérature (Holmes et al., 2003). La troisième composante d’un potentiel évoqué visuel est la P2. Elle apparaît 220 ms après la stimulation, et est maximale sur les électrodes occipito-pariétales. La P2 n’est pas systématiquement mesurée dans les études sur la perception des visages. Elle paraît pourtant être modulée par la familiarité du visage. Une étude montre en effet que l’amplitude de la P2 diminue à l’inverse de la familiarité : plus le visage est familier, plus la P2 est petite (Caharel et al., 2002). De façon plus générale, il a été montré une sensibilité de la P2 à la familiarité du stimulus, visage ou non. Plus un stimulus est familier, plus la P2 sera précoce (Pernet et al., 2003). Tant au niveau comportemental que neuronal, diverses études montrent une spécificité des visages due à leur configuration particulière reproductible d’un stimulus à l’autre et requérant des traitements relationnels. Ces différentes études révèlent qu’un réseau d’aires cérébrales est spécifiquement impliqué dans les différentes étapes de la perception du visage allant de sa détection à sa reconnaissance, puis à son identification (Grill-Spector et al., 2004; Kanwisher & Yovel, 2006; Rossion, Schiltz et al., 2003). Les aires de ce réseau s’activent à différentes latences en fonction des informations à extraire. La première activation semble avoir lieu 170 ms après le début de la stimulation, peut-être plus précocement à la latence de la P1, et paraît liée à la détection du visage (Carmel & Bentin, 2002; Curran et al., 2002). La reconnaissance du visage et son identification nécessitent l’activation des mêmes aires 61 cérébrales (Grill-Spector et al., 2004; Rossion, Schiltz et al., 2003), mais celle-ci est plus tardive, entre 250 ms et 400ms (Bentin & Deouell, 2000; Eimer, 2000a). Cette revue de la littérature montre le volume des données enregistrées dans le domaine de la perception des visages. Le nombre de données n’a d’égal que leur disparité ; quelle que soit la technique utilisée, l’activité cérébrale enregistrée est sensible à la tâche réalisée par les sujets, aux stimuli, aux paradigmes etc. Cette grande variabilité des résultats amène une importante confusion dans la littérature. Différents modèles tentent d’expliquer un maximum de résultats observés, et de les regrouper de manière cohérente, c’est ce que nous allons voir maintenant. La spécificité des visages semble, en premier lieu, liée à l’utilisation de traitements particuliers pour leur reconnaissance. Toutes les études précitées tendent à démontrer que l’altération de la configuration du visage induit systématiquement une perturbation du traitement des visages, aussi bien au niveau comportemental qu’au niveau neuronal ; cet effet n’est pas systématiquement reproduit pour les stimuli non visage. La question de savoir pourquoi le traitement des visages est « global » alors que celui des objets semble plutôt « local » n’a toujours pas trouvé de réponse. Certains chercheurs proposent que cela reflète un comportement inné, démontrant une préférence pour les visages. D’autres en déduisent que le traitement global du visage est lié à l’expertise que nous en avons, et résulte d’un comportement acquis, généralisable à d’autres catégories suite à un apprentissage. 2.3. Théories Dans cette section, je présenterai un modèle fonctionnel de la reconnaissance des visages et quelques théories sur la perception des visages. La reconnaissance des visages a été expliquée par plusieurs modèles cognitifs ; j’ai choisi de présenter ici celui de Bruce & Young (1986) qui a beaucoup influencé la littérature sur les visages. Ce modèle s’intéresse à la reconnaissance du visage jusqu’à la dénomination, l’accès au nom. 2.3.1. Modèle fonctionnel de la reconnaissance des visages (Bruce & Young, 1986) Le modèle de Bruce & Young (1986) est plus adapté à la perception des visages familiers qu’à celle des visages non familiers, pour lesquels les informations sémantiques ne sont pas disponibles ; la dénomination ne peut donc avoir lieu. 62 Ce modèle s’appuie sur l’existence de trois voies de traitement parallèles et indépendantes mises en route à la présentation d’un visage ; ces trois voies de traitement partagent la première étape consistant à l’extraction d’une représentation dépendante de l’angle de vue (Figure 19). Une de ces voies est impliquée dans le décodage du discours facial, afin de faciliter la compréhension du discours sous certaines conditions ambigües (e.g. environnement bruité). La deuxième voie indépendante permet l’accès aux informations émotionnelles portées par le visage. La troisième, qui fut décrite en détail par Bruce & Young, est celle impliquée dans la reconnaissance des visages. Figure 19. Modèle de Bruce & Young (1986). Ce modèle explique les mécanismes de reconnaissance du visage. Par la suite les auteurs ont proposé que l'extraction des informations sémantiques dérivées des informations visuelles (informations sur le genre, l'âge, etc.) ait lieu en parallèle de l'encodage structurel (Bruce et al. 1993; Bruce et al. 1987). Les différentes informations extraites pourraient emprunter des routes différentes, par exemple, une route pour l'âge et le genre, une route pour les qualités "morales" etc. La perception du visage commence par l’encodage des informations structurelles, ces dernières permettant la création d’une représentation du visage ; cette étape est celle de détection du visage. Le pattern du visage perçu est ensuite comparé aux représentations stockées en mémoire dans des modules de reconnaissance du visage (« Face recognition unit ») (Figure 19). La force du signal envoyé depuis les modules de reconnaissance du visage vers les aires de plus haut niveau (cognitive system) dépend du résultat de la comparaison entre le code extrait du visage perçu et les codes stockés. Si la comparaison se révèle positive (sentiment de familiarité), les informations seront alors envoyées dans le module où est représentée l’identité d’une personne (« person identity nodes »). La représentation extraite sera alors associée aux informations sémantiques sur l’individu et 63 rendra ainsi possible l’accès au nom de la personne. Les modules de reconnaissance des visages sont spécifiques d’une modalité ; les informations en provenance d’autres modalités sensorielles convergent vers le module de l’identité (« person identity nodes ») et peuvent ainsi faciliter la reconnaissance. La reconnaissance d’une image ambiguë (Mooney Faces, etc.) est facilitée par une amorce non ambiguë (George et al., 1999; Jemel, Pisani et al., 2003), cela suggère que le module de l’identité peut avoir une influence descendante sur les modules de reconnaissance des visages. Ce modèle découle d’un certain nombre d’observations comportementales et cliniques. Par exemple, il a été montré que l’accès au nom d’un individu prend plus de temps que la reconnaissance, et est parfois extrêmement difficile bien que d’autres informations soient connues telles que le genre, l’âge (« visually derived semantic information ») ou autres données biographiques (Figure 19) (Young, Flude et al., 1987). Le genre de la personne est d’ailleurs perçu en en même temps que le visage (Bacon-Macé, 2006). Ceci implique trois choses i) l’accès aux informations sémantiques est indépendant de l’accès au nom, ii) il précède forcément l’accès au nom révélant un traitement sériel de ces informations, iii) la perception du genre est indépendante de la familiarité ; le genre serait traité en parallèle de la familiarité, et son extraction pourrait être très précoce, au moment de l’encodage structurel, voire avant (Bruce et al., 1993; Bruce et al., 1987; Bruce & Young, 1986; Mouchetant-Rostaing et al., 2000 ). Toutefois, une autre étude montre une interaction entre familiarité et traitement du genre, ce dernier étant facilité sur les visages familiers (Dubois et al., 1999). Ceci laisse penser que le traitement du genre n’est pas totalement indépendant de celui de la familiarité et qu’il pourrait y avoir une influence des modules de reconnaissance du visage, ou des modules de l’identité, sur l’extraction des informations sémantiques dérivées du traitement visuel (« visually derived semantic information »). Parallèlement à ce modèle de reconnaissance des visages, les auteurs proposent après revue de la littérature sur la perception des objets, un modèle similaire pour la reconnaissance des objets. Cependant, parce que les niveaux de reconnaissance ne sont pas les mêmes, le module de reconnaissance des objets serait impliqué dans des traitements différents du module de reconnaissance du visage ; un visage est catégorisé au niveau individuel alors que les objets sont catégorisés à un niveau de base, hiérarchiquement supérieur au niveau individuel (Rosch et al., 1976). 64 Ce modèle ne permet pas de répondre à la question de la spécificité des visages, et les auteurs se sont abstenus d’en faire mention. Cependant, dans le même temps de nombreuses études ont cherché à identifier le pourquoi de la spécificité des visages. 2.3.2. Une histoire d’expertise… La perception des visages, contrairement aux stimuli non visage, parait reposer essentiellement sur des traitements de types relationnels. Le débat aujourd’hui se situe au niveau du pourquoi de cette différence entre les traitements recrutés par les visages et les non visages. Certains chercheurs pensent que le traitement configural (au sens général du terme) est spécifique des visages, d’autres considèrent qu’il peut être utilisé pour d’autres catégories d’objet, partageant une même configuration de premier ordre, suite au développement d’une expertise. La première hypothèse propose que la spécificité du visage vient d’un système inné de reconnaissance, mis en place du fait du rôle des visages dans les interactions sociales. Ainsi, un système serait spécifiquement dédié au traitement des visages, et assurerait un traitement configural du visage. Cette hypothèse trouve des soutiens dans les études chez les enfants qui montrent une préférence pour les visages dès les premiers jours suivant la naissance (Johnson et al., 1991). Néanmoins, comme nous l’avons vu au cours de la partie précédente, la préférence des nouveaux-nés pour les visages pourrait être due à des processus de plus bas niveaux (Turati et al., 2002). La preuve de l’existence de régions cérébrales répondant de manière spécifique aux visages, ajoutée au fait que ces régions sont moins distribuées que celles spécifiques des objets (Ishai et al., 1999), prêche également en faveur de l’existence d’un système spécifiquement consacré à la perception des visages. La deuxième hypothèse propose que la spécificité des visages n’est pas liée intrinsèquement aux visages mais à l’expertise que nous avons de cette catégorie (Diamond & Carey, 1986). Sous l’effet de l’expertise dans une catégorie particulière, le traitement de l’objet qui, au départ, est plutôt analytique, deviendrait de plus en plus dépendant des informations relationnelles afin d’optimiser la reconnaissance. Cette théorie est appuyée par les études qui explorent les effets d’inversion, ou de stimuli chimériques, chez des sujets experts (Gauthier et al., 2003; Gauthier & Tarr, 1997; Gauthier et al., 1999). Par ailleurs, l’expertise semble recruter les mêmes traitements que ceux mis en jeu par les visages, comme le montre l’existence d’une compétition fonctionnelle entre les stimuli pour lesquels les sujets sont experts et les visages (Gauthier et al., 2003). Cette hypothèse est soutenue par la 65 démonstration de l’activation des zones cérébrales dites spécifiques des visages, lors de la reconnaissance de stimuli non visage seulement chez les experts. 2.3.3. Une histoire de traitement… Que la spécificité des visages puisse être « innée » ou « acquise », spécifique ou généralisable à d’autres catégories, elle repose toujours sur le recrutement de processus particuliers par les visages. Dans la littérature, il est régulièrement admis que la reconnaissance du visage repose majoritairement sur l’extraction d’informations relationnelles entre les traits du visage, elle nécessite également la présence de certains traits caractéristiques tels que les yeux ou les sourcils (Sadr et al., 2003; Schyns et al., 2002). L’évidence d’un traitement relationnel impliqué dans la reconnaissance des visages vient des nombreuses études révélant un avantage de la configuration, par rapport aux éléments isolés, pour la reconnaissance du visage ; par ailleurs, les études en électrophysiologie, montrant que l’extraction de la configuration précède le traitement des traits, sont également en accord avec l’hypothèse d’un traitement configural du visage (McCarthy et al., 1999). Les effets d’inversion, de négation et de visage composite confirment le rôle des informations configurales dans la perception des visages normaux à l’endroit. Pour décrire le traitement configural des visages, les termes configural et holistique sont aléatoirement employés sans qu’aucun consensus n’ait été défini. Ils font en fait allusion à l’un et/ou à l’autre des 3 types de traitements relationnels généralement observés (Figure 20) : le traitement des relations de premier ordre, le traitement holistique et le traitement des relations de second ordre (Maurer et al., 2002). 66 Figure 20. Les traitements du visage. A partir d'un visage, on observe soit un traitement holistique (Farah et al. (1998)), soit l'extraction de la configuration de premier ordre qui permet la détection du visage (Diamond & Carey, 1986; Maurer et al. (2002)). En vert: selon Farah et al. (1998), le visage est encodé, mémorisé et reconnu sous la forme d'un gestalt. En bleu: Diamond & Carey proposent que la configuration de second ordre, qui succède à l'extraction de la configuration de premier ordre, révèle les informations propres à l'individu et permet de distinguer les différents items d'une même catégorie partageant tous la même configuration de premier ordre. En violet: selon Maurer et al. (2002), la configuration de premier ordre permet la détection du visage, puis les éléments sont réunis au sein d'un gestalt, d'où les informations sur les relations entre les traits (configuration de second ordre) seront extraites. L'inversion (en rouge) du visage perturbe tous les types de traitement, la négation (en rose) ne perturbe pas la détection du visage mais peut avoir un effet sur le traitement holistique, ou sur l'extraction de la configuration de second ordre. En noir, à droite: les objets sont traités de façon analytique, c'est à dire éléments par éléments. Il s'agit bien sûr d'une version simplifiée du traitement des objets; il est fort probable que des traitements globaux soient également mis en jeu par les objets. Les données recueillies dans la littérature semblent montrer que la perception des objets diffère de celle des visages; cette différence repose probablement sur le recours aux informations relationnelles. a. Configuration de premier ordre Le premier de ces traitements désigne l’extraction de la configuration de premier ordre qui englobe la position des éléments du visage les uns par rapport aux autres : les yeux sont au 67 dessus du nez lui-même situé au dessus de la bouche (Figure 20). La configuration de premier ordre est la configuration générique du visage. Partagée par tous les items de la catégorie, elle ne permet pas la discrimination entre deux visages, mais elle pourrait sous-tendre la détection du visage (Diamond & Carey, 1986; Haxby et al., 1999; Maurer et al., 2002). La configuration de premier ordre est celle qui conduit de façon automatique à percevoir un visage dans n’importe quel stimulus dont les éléments présentent un arrangement spatial de type visage (Figure 21a). L’inversion d’un tel stimulus annihile la perception du visage (Moscovitch et al., 1997) démontrant ainsi que que l’inversion perturbe le traitement configural de premier ordre. Les marqueurs neuronaux du traitement des visages sont sensibles à l’inversion du visage : diminution de l’activité dans la FFA (Gauthier et al., 1999; Yovel & Kanwisher, 2005), augmentation dans le gyrus occipital inférieur (Haxby et al., 1999) et, augmentation et/ou retard de la N170 (Bentin et al., 1996; Rossion, Gauthier et al., 2000; Taylor, Edmonds et al., 2001). L’extraction de la configuration de premier ordre pourrait donc avoir lieu au niveau du gyrus occipital inférieur et peut-être de la FFA à la latence de la N170 (Bentin et al., 1996; Eimer, 2000a, b, c; Haxby et al., 1999; Kanwisher et al., 1997; Rossion, Gauthier et al., 2000; Rotshtein et al., 2005). La détection du visage pourrait nénamoins débuter plus tôt (à 100 ms – P1), puisque certaines études montrent une sensibilité de la P1 à l’inversion du visage mais pas à la négation, qui préserve la configuration de premier ordre (Itier & Taylor, 2002, 2004a; Linkenkaer-Hansen et al., 1998), et ce même chez les jeunes enfants (Taylor, Edmonds et al., 2001),. Par ailleurs, certaines études montrent une modulation de la N170 par la familiarité du visage dans certaines conditions expérimentales (Campanella et al., 2000; Jacques & Rossion, 2006a; Jemel, Pisani et al., 2003). La N170 pourrait donc également refléter la mise en jeu de traitements plus spécifiques tels que les traitements holistique et configural de second ordre. 68 Figure 21. Les différents aspects du traitement configural des visages. (a) Sensibilité aux relations de premier ordre. Peinture d'Archimbalo. Le visage est perçu à l'endroit mais pas à l'envers. (b) Illustration du traitement holistique. Visage chimérique Al Gore/Bill Clinton. L'espace interne du visage d'Al Gore est remplacé par celui de Bill Clinton. Les sujets ne percçoivent pas que les espaces internes sont identiques sur les visages à l'endroit.(c) Séparation des traitements analytiques et des relations de second ordre. Dans la première rangée, les visages diffèrent par les relations spatiales entre les éléments; l'inversion diminue les performances des sujets dans la discrimination entre deux visages. Dans la deuxième rangée, les différences touchent les traits du visage; elles sont perçues même lorsque le visage est inversé. Issu de Maurer et al. 2002. b. Traitement holistique Le traitement holistique correspond au traitement du visage comme un tout, conduisant à la génération d’un gestalt (Figure 20) (Farah, 1996; Farah, Tanaka et al., 1995; Farah et al., 1998; Maurer et al., 2002). Le traitement holistique permet la création d’une représentation 2D contenant toutes les informations utiles à la reconnaissance, allant des traits faciaux aux informations relationnelles, en passant par les informations perceptuelles telles que le contraste, l’orientation, la luminance etc. Ce gestalt serait construit après de nombreuses présentations d’un visage et serait donc dépendant de l’orientation et de la polarité de contraste (George et al., 1999; Sinha & Poggio, 1996) ; ainsi, l’inversion et la négation du visage pourrait perturber la reconnaissance du visage à partir du traitement holistique (George et al., 1999; Hole et al., 1999; Lewis & Johnston, 1997). Cependant, certaines études affirment que l’utilisation de visage en négatif ne perturbe pas le traitement holistique, la configuration générique du visage étant préservée ; mais, comme nous l’avons vu, ceci fait plutôt référence à la configuration de premier ordre (Hole et al., 1999; Kemp et al., 1990). L’existence d’un traitement holistique des visages à l’endroit est montrée par l’utilisation de visages chimériques dont, soit les moitiés inférieure et supérieure, soit l’espace interne et le contour appartiennent à deux individus distincts ; les visages composites sont perçus comme totalement différents à l’endroit (Figure 21b) (Hole, 1994; Hole et al., 1999; Schiltz & Rossion, 2006; Young, Hellawell et al., 1987). L’effet composite du visage disparaît après l’inversion du visage ou le non alignement des deux moitiés (Schiltz & 69 Rossion, 2006), confirmant que l’inversion perturbe le traitement holistique. L’hypothèse d’un traitement holistique est appuyée par les études montrant la faible capacité des sujets à discriminer les éléments internes du visage (Farah et al., 1998; Tanaka & Sengco, 1997; Tanaka, 1993). Ces études démontrent que la construction d’un gestalt empêche la dissociation des différents éléments, et donc perturbe leur reconnaissance. En utilisant des visages chimériques, il a été montré une sensibilité de la FFA et du gyrus occipital inférieur au traitement holistique, bien qu’elle soit moindre dans le cas du gyrus occipital inférieur. Ainsi, il semble que le traitement holistique du visage fait également intervenir ces deux régions cérébrales. c. Configuration de second ordre Tous les visages partagent la même configuration de premier ordre ; la reconnaissance d’un visage unique dépend donc de variations subtiles dans les formes et/ou les espacements des traits (Figure 20) (Diamond & Carey, 1986; Maurer et al., 2002). Ces informations sont encodées dans la configuration de second ordre ; il s’agit par exemple, de la forme des yeux, de la distance interoculaire, distance entre la bouche et le nez, distance entre la structure interne et le contour etc. Pour tester la mise en jeu des relations de second ordre dans la reconnaissance, des visages identiques variant seulement sur la base de certaines informations relationnelles sont utilisés (Figure 21c) (Freire et al., 2000; Leder & Bruce, 2000; Leder et al., 2001; Tanaka & Farah, 1993). Ces études révèlent que l’inversion perturbe la discrimination entre deux visages différant par les relations spatiales entre les éléments, mais pas lorsque les modifications touchent les éléments du visage eux-mêmes (Barton et al., 2001; Freire et al., 2000; Le Grand et al., 2001; Leder & Bruce, 2000). La négation perturbe également le traitement de la configuration de second ordre. Les études en IRMf tendent à démontrer que l’extraction de la configuration de second ordre pourrait avoir lieu au niveau de la FFA (Dubois et al., 1999; Gobbini & Haxby, 2006; Henson et al., 2000; Rossion, Schiltz et al., 2003; Rossion et al., 2001; Rotshtein et al., 2005; Yovel & Kanwisher, 2005). L’association entre la représentation du visage et les informations sémantiques aurait lieu dans des régions plus antérieures du gyrus fusiforme (George et al., 1999). Ce sont donc les traitements holistiques et les traitements configuraux de second ordre qui révèlent les informations propres à l’individu et permettent ainsi l’identification. Ces traitements de types relationnels souvent attribués aux visages s’opposent aux traitements dits analytiques utilisés dans la reconnaissance d’objets. Le traitement analytique fait référence à un traitement élément par élément (« part-based processing », « piecemeal processing ») 70 (Figure 20 – en noir). Un élément est défini selon trois critères, il doit i) pouvoir être mesuré ou décrit, ii) provoquer une discontinuité dans le visage, iii) être local, c'est à dire ne contenant pas d’informations spatiales (Bartlett et al., 2003). Bien que la reconnaissance des objets parait dépendre d’informations plus locales, il est clair que certaines informations relationnelles entrent également en jeu, en particulier pour les objets de la vie quotidienne. Selon Maurer et al. (2002), les 3 traitements configuraux sont recrutés les uns après les autres dans le sens décrit ci-dessus, à savoir, détection de la configuration de premier ordre, qui est nécessaire à la mise en jeu du traitement holistique et à la construction du gestalt, puis détection des relations de second ordre (Figure 20 – en violet) (Maurer et al., 2002). L’inversion du visage semble perturber tous les types de traitement configural puisqu’on a vu qu’à chaque traitement correspond son « effet d’inversion ». Une hypothèse propose que les visages à l’envers, dans lesquels les informations configurales sont perturbées, soient également traités de manière analytique – trait par trait – et ce, afin de faciliter leur reconnaissance. Les études en IRMf soutiennent cette hypothèse, puisque les régions cérébrales plus spécifiquement impliquées dans la reconnaissance des objets sont activés par les visages à l’envers (Aguirre et al., 1999; Haxby et al., 1999; Yovel & Kanwisher, 2005). De la même façon en EEG, l’inversion du visage provoque une augmentation de la N170 seulement lorsque les informations portées par les traits du visage sont utiles à la reconnaissance (Sagiv & Bentin, 2001). La négation du visage ne paraît pas perturber l’extraction de la configuration de premier ordre, mais altère certainement l’extraction de la configuration de second ordre, son effet sur le traitement holistique du visage n’est pas évident. Quelles que soient les hypothèses proposées, il n’en demeure pas moins que les visages restent des stimuli singuliers. Que cette singularité soit liée à l’expertise ou qu’elle soit innée, elle reste cependant évidente. J’ai, dans ma thèse, exploré la perception des visages du point de vue des traitements mis en jeu, et cherché à mettre en évidence les corrélats neuronaux des différentes étapes du traitement des visages décrites par Maurer et al. (2002). 71 72 73 74 3. Travail expérimental : de la détection à l’identification des visages Quelles que soient les raisons qui conduisent à la spécificité des visages, ils n’en demeurent pas moins une catégorie à part. En effet, aux niveaux comportemental et neuronal, ils engagent des traitements spécifiques mettant en jeu des aires cérébrales distinctes. Dans les différentes expériences de ma thèse, je me suis intéressée à l’implication des différents types de traitements décrits par Maurer et al (2002) dans la perception des visages, et leur contribution aux patterns des potentiels évoqués usuellement décrits. Les corrélats des différents traitements mis en jeu par les visages ont été explorés au travers de plusieurs types de stimuli et tâches allant de la détection à l’identification. Précédemment, nous avons vu que deux types de manipulation affectaient particulièrement la perception des visages : la rotation de 180° ou l’inversion de contraste. Dans la première étude, nous avons donc comparé les effets de la rotation et de l’inversion de contraste sur la N170 évoquée par 6 catégories de stimuli dans une tâche de jugement de l’orientation (Itier, Latinus et al., 2006). Nous avons également noté que l’utilisation de certains types de visage permettait de séparer les processus engagés par les visages normaux : notamment, les Mooney Faces dans lesquels les traits internes ne sont pas dissociables permettant ainsi d’identifier la contribution du traitement holistique au pattern de la N170. Ainsi, dans une seconde étude, j’ai examiné les corrélats neuronaux de la détection des Mooney Face,s avant et après un apprentissage ayant permis de l’améliorer (Latinus & Taylor, 2005). A la suite de cette étude, j’ai voulu investiguer la modulation des potentiels évoqués par les différents types de traitements relationnels engagés par les visages, via l’utilisation de visages schématiques, de photographies et de Mooney Faces, à l’endroit et à l’envers (Latinus & Taylor, 2006). Les deux dernières études ont exploré la modulation des potentiels évoqués par différents niveaux de catégorisation des visages. Selon le modèle de Bruce & Young (1986), la détection du genre aurait lieu en même temps que l’encodage du visage. J’ai donc étudié les corrélats neuronaux de la catégorisation du genre afin de voir si les potentiels évoqués précoces étaient modulés par le genre (Latinus & Taylor, submitted). Puis, comme nous avons vu dans la partie introductive une modulation de l’activité de la FFA par le type de familiarité, nous avons étudié l’effet du niveau de familiarité sur les processus recrutés par les visages. Ainsi, nous avons analysé les potentiels évoqués par des visages connus (personnes célèbres), appris (familiers) ou non familiers (Bayle et al., Soumis). 75 76 3.1. D’où vient la spécificité du visage ? Objectifs & Méthodes Dans cette étude, nous avons exploré l’impact de la rotation et de l’inversion de contraste sur différentes catégories d’objets en potentiels évoqués. Seules les variations du pattern de la N170 sont rapportées. Les sujets réalisaient une tâche de discrimination de l’orientation sur 6 catégories d’objets en contraste positif et négatif, à l’envers et à l’endroit. Outre des visages humains, les stimuli consistaient en des visages de singe afin de tester la spécificité des réponses de la N170 pour le visage humain, des yeux pour tester l’hypothèse selon laquelle la N170 est un détecteur d’yeux. En addition, 3 catégories d’objets (maisons, chaises, voitures) servaient de stimuli contrôles. Résultats & Conclusions L’inversion entraîne une diminution des performances et une augmentation des temps de réaction seulement pour les visages humains. Les images en négatif augmentent les temps de réaction pour tous les stimuli sauf les visages humains. Pour les visages à l’endroit en contraste positif, la latence de la N170 est la plus précoce pour les visages humains ; son amplitude est la plus grande pour les yeux, les visages humains arrivant deuxième, suivis par les visages de singe. L’inversion affecte la latence de la N170 pour toutes les catégories, l’augmentation la plus importante étant observée pour les visages humains. L’augmentation de l’amplitude n’est visible que pour les visages humains, elle rejoint la N170 évoquée par les yeux. Le même pattern est observé pour les visages à l’endroit en contraste négatif, N170 retardée pour tous les stimuli mais également augmentation de la N170, seulement pour les visages humains. Le cumul de la rotation du visage et de la négation entraîne un effet additif sur la N170 ; elle est alors la plus tardive. Ces résultats révèlent que 1) l’augmentation d’amplitude de la N170 pour les visages inversés et en négatifs semble être spécifique des visages, 2) les effets d’inversion et de négation observés sur la N170 sont amenés par les yeux, puisque la N170 après inversion ou négation est similaire à celle évoquée par les yeux, 3) la N170 discrimine entre visage humain et visage non humain, qui sont traités comme des objets, 4) un effet additif de l’inversion et de la négation est démontré sur la latence de la N170, ce qui suggère que ces deux manipulations affectent différents étapes/types de traitement. 77 78 Rapid Communication www.elsevier.com/locate/ynimg NeuroImage 29 (2006) 667 – 676 Face, eye and object early processing: What is the face specificity? Roxane J. Itier,a,* Marianne Latinus, c and Margot J. Taylor b,c a The Rotman Research Institute, Baycrest Centre for Geriatric Care, 3560 Bathurst Street, Toronto, Ontario, Canada M6A 2E1 Diagnostic Imaging, The Hospital for Sick Children, Toronto, Canada c CerCo-CNRS, Université Paul Sabatier, Toulouse, France b Received 3 June 2005; revised 22 July 2005; accepted 27 July 2005 Available online 19 September 2005 We investigated the human face specificity by comparing the effects of inversion and contrast reversal, two manipulations known to disrupt configural face processing, on human and ape faces, isolated eyes and objects, using event-related potentials. The face sensitive marker, N170, was shortest to human faces and delayed by inversion and contrast reversal for all categories and not only for human faces. Most importantly, N170 to inverted or contrast-reversed faces was not different from N170 to eyes that did not differ across manipulations. This suggests the disruption of facial configuration by these manipulations isolates the eye region from the face context, to which eye neurons respond. Our data suggest that (i) the inversion and contrast reversal effects on N170 latency are not specific to human faces and (ii) the similar increase of N170 amplitude by inversion and contrast reversal is unique to human faces and is driven by the eye region. Thus, while inversion and contrast reversal effects on N170 latency are not category-specific, their effects on amplitude are face-specific and reflect mainly the contribution of the eye region. D 2005 Elsevier Inc. All rights reserved. Introduction The processing specificity of faces compared to other objects has been a major debate in visual cognitive neurosciences over the past years. One aspect of this specificity is the configural processing of faces, the unique relationships among facial features that define individual identity, not seen in objects that are processed analytically (Bartlett and Searcy, 1993; Rhodes et al., 1993). The impairment in recognition of upside-down faces is disproportionate compared to that of inverted objects (Yin, 1969), and converging behavioral data suggest that this ‘‘face inversion effect’’ is due to the disruption of configural processing during face encoding and is unique to the face category (Rossion and Gauthier, 2002). Scalp electrophysiological studies of face processing, * Corresponding author. Fax: +1 416 785 2862. E-mail address: [email protected] (R.J. Itier). Available online on ScienceDirect (www.sciencedirect.com). 1053-8119/$ - see front matter D 2005 Elsevier Inc. All rights reserved. doi:10.1016/j.neuroimage.2005.07.041 providing excellent temporal resolution of neural events, have focused mainly on a negative event-related potential (ERP) component occurring between 140 and 200 ms after stimulus onset at occipito-temporal electrodes. This N170 (Bentin et al., 1996) component is reliably larger to faces than to any object category tested (Bentin et al., 1996; Carmel and Bentin, 2002; Eimer, 2000b; Itier and Taylor, 2004d) and has become a marker for early face processing. Although its exact neural generators are still debated (Bentin et al., 1996; Itier and Taylor, 2004e; Rossion et al., 2003a; Watanabe et al., 2003), this component is thought to reflect structural encoding (Eimer, 2000b; Rossion et al., 1999), i.e. the extraction of a perceptual representation of the face, in occipitotemporal areas. It is delayed and enhanced by face inversion (Bentin et al., 1996; de Haan et al., 2002; Eimer, 2000a; Itier and Taylor, 2002, 2004b,d; Rossion et al., 1999, 2000; Sagiv and Bentin, 2001; Taylor et al., 2001c), an effect not reported with objects (Bentin et al., 1996; Rebai et al., 2001; Rossion et al., 2000). This neurophysiological face inversion effect, particularly on N170 latency, is considered by some researchers as the earliest consistent electrophysiological difference between face and object processing (Rossion and Gauthier, 2002; Rossion et al., 1999) and could reflect the early processing specificity for faces. In this paper, we show that inversion actually delays the N170 for all categories, and not only human faces. Another manipulation that impairs face recognition is contrast reversal or photo-negative (Galper, 1970; Kemp et al., 1990) that also disrupts configural processing (Kemp et al., 1990; Lewis and Johnston, 1997) but, unlike inversion, preserves the general face organization (eyes above nose above mouth). We have shown that contrast reversal alters N170 in a similar way as does inversion (Itier and Taylor, 2002, 2004a,b,c), suggesting configural disruption by both manipulations at the structural encoding stage of face processing. However, this effect of photo-negative on the N170 to objects has not been tested, preventing any conclusion as to whether it is particular to the face category or general to visual stimuli. In this electrophysiological experiment, we further characterized what makes the human face specific by comparing inversion and contrast reversal effects on early visual processing between 668 R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676 object and face categories. We used a simple orientation detection task used previously (Rossion et al., 2000), in which 19 subjects discriminated upright from inverted stimuli (regardless of their contrast). By focusing attention on each stimulus, this task minimizes attentional bias to human faces (Vuilleumier, 2000) or level of categorization effects (Tanaka and Curran, 2001) that could impact on face – object differences. Its simplicity also minimizes category differences that could result from short-term memory difficulties. Finally, using the same task as previously used in the literature, and some of the same object categories, precluded task-related effects to be a reason for possible different results. We compared the effects of orientation (upright or inverted) and contrast (positive or negative) on the face marker N170 component recorded to objects (cars, chairs, houses) and faces. Ape faces were included to test the species specificity of N170. It has been shown that, although N170 to ape faces can be as large as that to human faces (Carmel and Bentin, 2002; de Haan et al., 2002), inverting ape faces does not affect N170 (de Haan et al., 2002), suggesting that these faces are processed like objects and N170 is sensitive to the human aspect of face stimuli (de Haan et al., 2002). We wished to extend this finding by comparing the effects of contrast reversal on N170 to both species. If N170 reflected processes of a broad-based face category and not processes particular to the human face, then inversion and contrast reversal should have the same effects for both ape and human faces. Finally, we explored the relations between face and eye processing by including isolated eyes as it has been suggested that N170, which is delayed and usually larger to isolated eye stimuli than to full faces (Bentin et al., 1996; Jemel et al., 1999; Taylor et al., 2001a,c), could reflect the activity of an eye detector (Bentin et al., 1996; Eimer, 1998). Our results show that N170 for upright faces does not reflect the activity of an eye detector, as suggested by some previous studies (Eimer, 1998), but that inversion and contrast reversal effects on that component are driven, to a large extent, by the eye region. Methods Subjects Nineteen healthy adults (9 females, mean age 26.6 years, 3 lefthanded) participated in the experiment which was approved by the French Comité Opérationnel pour l’Ethique dans les Sciences de la vie du CNRS. All subjects had normal or corrected-to-normal vision and signed informed written consent. 1300 ms) during which a centered white fixation cross appeared. Stimuli were randomly intermixed, and the block order was counterbalanced across subjects. In this orientation judgment task, subjects had to press the left control key for all upright stimuli and the right control key for all inverted stimuli, regardless of category or contrast, as rapidly and accurately as possible. Buttons were reversed for half of the subjects. Accuracy and reaction times were recorded. Electrophysiological recordings and measures ERPs were recorded (NeuroScan 4.2) via 31 electrodes mounted on a cap (Easycap) according to the 10/10 system. Three additional ocular electrodes monitored vertical and horizontal eye movements from the outer canthi and the left supraorbital ridge. Electrode impedances were kept under 5 KV. The sampling acquisition rate was 500 Hz. EEG was amplified using a SynAmps system. Cz was the reference lead during acquisition; an average reference was calculated off-line. EEG was epoched in 1-s sweeps with a 100 ms pre-stimulus baseline. Trials contaminated with eye movements and other artifacts (T100 AV) were rejected. Accepted trials were averaged according to categories and format and digitally filtered (0.1 – 30 Hz). The N170 ERP component was measured at four posterior sites on each hemisphere (TP9/TP10, P7/P8, PO9/PO10, O1/O2) within a T30-ms window around the maximum of the grand-average means. For each subject, the latency of each component was taken at the electrode where the amplitude was maximal over each hemisphere, and the amplitude was measured at the other electrodes over that hemisphere at that latency (Picton et al., 2000). As most studies measured the N170 only at P7/P8 (or T5/T6) sites and this measurement difference could be the cause of discrepant results, we also analyzed the data from only these two electrodes. Data analyses Repeated measures analyses of variance (ANOVA) were conducted using Greenhouse – Geisser adjusted degrees of freedom; post-hoc t tests used Bonferroni corrections for multiple comparisons. Within-subject factors included contrast (2), orientation (2) and category (6) for hits and RTs. Additional factors (hemisphere (2) and electrode (4)) were used for peak latencies and amplitudes. Analyses were also performed for each format (Table 1) and each category separately, using all four electrodes pairs and P7/8 only (Table 2). Stimuli and experimental design Results Fifty grayscale pictures of six object categories including human faces (Fig. 2) were used. Ape faces, chairs, cars and eyes stimuli are taken from Carmel and Bentin (2002), but ape faces were restricted to great apes for which clear human-like facial features were visible. The Victorian houses were from a Corel Draw CD-ROM. All pictures (5 5- visual angle) were centered on a black screen and presented in upright, inverted, negative (contrast-reversed) and inverted – negative formats (total = 50 6 4 = 1200 trials). Inverted stimuli were obtained by rotating upright pictures by 180- and photo-negatives by inverting contrasts (Photoshop 5.0). Ten blocks of 120 stimuli (5 per category per format) were presented for 250 ms with a randomized ISI (1000 – Behavioral performances Performances on this orientation discrimination task were very good (¨95% on average across categories and formats). As seen in Fig. 1, inversion decreased accuracy and increased reaction times only for human faces [orientation category, F(2.8,50.9) = 4.71, P < 0.006 and F(3,54.7) = 4.85, P < 0.004 respectively]. Contrast reversal, however, decreased accuracy for houses, chairs and eyes [ F(4.1,73.2) = 4.67, P < 0.002] and increased RTs for all categories except human faces and chairs [ F(3,53.6) = 16.8, P < 0.0001]. Thus, the human face category was the only one affected by inversion and was not affected by contrast reversal. Human R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676 669 Table 1 Effects of category on the N170 component Categories are in ascending order of latency and amplitude. Significant pair-wise comparisons are reported at the various possible P values (¨means the difference between two adjacent categories is not significantly different). * 0.01 < P < 0.05. ** 0.005 < P < 0.01. *** 0.001 < P < 0.005. **** 0.0001 < P < 0.001. ***** P < 0.0001. faces elicited overall faster reaction times than the other categories [ F(2.6,46.6) = 46.13, P < 0.0001], especially in upright positive [ F(2.8,51) = 8.62, P < 0.0001] and negative [ F(2.7,48.8) = 52.15, P < 0.0001] formats. This suggests a faster processing of human faces compared to other objects when presented in the usual canonical orientation. Table 2 Summary of the effects of inversion and contrast reversal on the N170 component for each category analyzed separately Effect of orientation (inversion) Latency (at P7/8 only) Amplitude (at P7/8 only) Effect of contrast reversal (photo-negative) Latency (at P7/8 only) Amplitude (at P7/8 only) Cars Houses Human faces Ape faces Chairs Eyes F = 16.1**** inv > up ( F = 24.4*****) F = 21.12***** inv > up ( F = 33.4*****) F = 102.89***** inv > up ( F = 102.8*****) F = 19.55***** inv > up ( F = 7.1*) F = 13.22*** inv > up ( F = 7.8*) F = 43.43***** inv > up ( F = 29.4*****) _1 F = 7.06* inv > up ( F = 15.23***) F = 8.08* inv < up (–) _ ( F = 10.32**) (–) *** F = 10.89 neg > pos ( F = 8.6**) _ (–) F = 6.28* neg > pos (–) *** F = 11.29 neg < pos ( F = 13.76*) ***** F = 138.86 neg > pos ( F = 143.6*****) **** F = 16.21 neg > pos ( F = 6.94*) _ (–) ***** F = 50.34 neg > pos ( F = 19.2*****) ***** F = 43.02 neg < pos ( F = 83.84*****) _ (–) F = 55.83**** neg > pos ( F = 47.45*****) F = 6.93* inv < up ( F = 7.56*) F = 22.8***** neg > pos ( F = 26.5*****) _ (–) inv = inverted; up = upright; neg = negative; pos = positive. 1Larger N1 amplitude for inverted than upright houses at parietal sites only (orientation electrode, F(2.1, 38.4) = 8.26, P < 0.001) in agreement with the orientation effect at P7/8 sites. * 0.01 < P < 0.05. ** 0.005 < P < 0.01. *** 0.001 < P < 0.005. **** 0.0001 < P < 0.001. ***** P < 0.0001. 670 R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676 Fig. 1. Percentage hits and mean reaction times displayed for all categories in each format. Neurophysiological measures—the N170 component Effects of category Compared to all categories, human faces elicited the shortest N170s (Figs. 2, 3A) in positive contrasts (upright and inverted) and in upright negative formats (Table 1). Ape faces, in contrast, elicited the longest N170 latencies, especially in negative formats. Along with the faster reaction time measures, this earlier N170 shows that human faces are processed faster than objects. Across formats, the largest N170 amplitudes were seen for human faces and eyes (Figs. 2 and 3B). For upright stimuli (positive contrast), the largest amplitudes were found for eyes (Table 1, Fig. 3B) followed by human and ape faces that did not differ but were significantly larger than the other categories. Upright houses, cars and chairs all elicited smaller N170s. In inverted – positive and upright negative formats, N170 amplitudes to human faces and eyes no longer differed (Fig. 4) and were larger than all other categories followed by ape faces, also larger than all the rest. The same pattern was also found in the inverted – negative format, except that N170 was slightly larger to human faces than to eyes. Thus, we reproduced a larger and delayed N170 for eye stimuli compared to whole faces seen upright (Bentin et al., 1996; Jemel et al., 1999; Taylor et al., 2001c). However, the N170 amplitude for inverted and negative human faces was no longer different from that to eyes (Fig. 4). Although N170 latency was still faster for faces than for eyes in these inverted and negative formats, this result suggests that what drives the face N170 increase in amplitude with inversion and contrast reversal is the eye region. This conclusion was confirmed by the absence of a category effect when we ran a separate ANOVA on the N170 amplitude including only human faces and eyes [ F(1,18) = 0.25, P = 0.625], the differences being found in category by orientation and category by contrast interactions only. The category effect was not significant in a post-hoc ANOVA including only inverted faces and eyes [ F(1,18) = 3.77, P < 0.07] and was borderline significant for negative faces and eyes tested separately [ F(1,18) = 4.59, P = 0.046]. When we only included electrodes P7/8 in the analyses, where N170 is maximal, the category effect was again not significant for either inverted face and eye ( P = 0.239) or negative face and eye ( P = 0.773) analyses. Effects of inversion and contrast reversal Inversion increased N170 latencies [ F(1,18) = 104.2, P < 0.0001] for all categories (Table 2, Fig. 3A), with the largest impact on human faces [ F(3.5, 62.6) = 6.23, P < 0.001]. As this result is in contrast to previous studies, analyses were redone using only P7/P8 sites. Again, an inversion effect was found for each category (Table 2), albeit of smaller size for ape faces and chairs. At these lateral parietal electrodes, the difference between positive upright and positive inverted items was ¨10 ms for human faces and houses, ¨8 ms for cars and ¨5 ms for the other categories. For amplitudes, inversion had an effect only for human faces, ape faces and eyes [ F(3.5,62.5) = 5.27, P < 0.002]. When only P7/8 sites were used, a small inversion effect was found for houses. Eyes also presented an inversion effect that was due to contrast-reversed categories: when only positive upright eyes were compared to positive inverted eyes, no inversion effect was found ( P = 0.61) (Fig. 5). While N170 was increased for inverted human faces, it was slightly decreased for inverted eyes and ape faces (Fig. 3B). For eyes, this amplitude decrease occurred only at occipital sites for positive contrast pictures [contrast inversion electrode interaction, F(1.8,33.2) = 14.4, P < 0.0001]. For apes, the inversion effect was seen at parietooccipital and temporo-parietal sites only [ F(1.8,31.8) = 3.88, P < 0.05]. Contrast reversal also increased latencies for all categories [ F(1,18) = 96.6, P < 0.0001] except chairs, with a larger impact on human and ape faces [ F(3.2,57.4) = 9.57, P < 0.0001]. When only P7/8 electrodes were used, the effect disappeared for houses but remained for all the other categories (Table 2). Contrast reversal increased amplitudes for human faces and chairs, while it decreased N170 for houses and ape faces [ F(2.9,51.5) = 32.54, P < 0.0001]. The same effects were found at P7/8 sites. The fact that inversion and contrast reversal had different effects on human and ape faces demonstrates that the N170 is sensitive to the species of the face. Except for faces, N170 latencies were shorter for upright positive pictures but not significantly different among the other three formats [ F(1,18) = 68.4, P < 0.0001] (Fig. 3A). For ape faces, however, N170s were significantly longer to negative ( P < 0.007) and inverted – negative ( P < 0.001) than to inverted – positive pictures, reflecting a greater disruption of contrast reversal than inversion for apes. For human faces, N170 latencies to inverted and to negative images did not differ significantly, but R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676 Fig. 2. For each of the upright, inverted, negative and inverted – negative formats, the N1/N170 is displayed at P8 and PO10 electrodes for all categories. Topographies of each category were taken at the latency of maximum N170 amplitude. Human faces, ape faces and eyes showed the same topographies that were not seen for the objects. The N170s to human faces and eyes are different in upright format but become very similar in the other formats. Note the large reduction in amplitude for negative ape faces. 671 672 R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676 Fig. 3. The N170 component (A) latency and (B) amplitude, displayed for all categories and formats, measured across TP9/10, P7/8, PO9/10 and O1/2 electrodes. The amplitude represents the mean across all electrodes measured. Human faces elicited the fastest N170 in upright and inverted formats. The additive effect of inversion and contrast reversal on latency is seen only for human faces. The N170 amplitude to transformed human faces is very similar to that for isolated eyes, while no such effect is seen for ape faces. Note the differential impact of inversion and contrast reversal on N170 amplitude for human and ape faces, suggesting species sensitivity early in the visual processing stream. both were shorter than to inverted – negative faces ( P < 0.0001). This reflected an additive effect of orientation and contrast that was unique to the human face category. Discussion In this paper, we addressed the issue of early face specificity by comparing the effects of inversion and contrast reversal on the early-face-sensitive ERP component N170 recorded to human and ape faces, isolated eyes and various object categories. Firstly, we found that human faces were processed faster than all the other visual categories, including other face types like ape faces (Carmel and Bentin, 2002). This was evident in the systematically earlier N170 latency in all pair-wise comparisons and shorter reaction times. This faster processing for human faces was even found in the inverted format for N170 measures, despite inversion causing the greatest N170 delay for faces. Although reported previously (Carmel and Bentin, 2002; Itier and Taylor, 2004d), this faster processing has been controversial (Rossion and Gauthier, 2002; Rossion et al., 2000). We believe it is an important characteristic of human face processing. Secondly, we found that the N170, reflecting structural encoding of faces, was delayed by inversion for all categories tested, and not only for human faces. This result contrasts with previous studies finding no inversion effects for the objects tested (e.g. cars, mugs, shoes, houses or chairs; Bentin et al., 1996; Eimer, 2000a; Rebai et al., 2001; Rossion et al., 2000; Stekelenburg and de Gelder, 2004). Only two recent studies reported a delay of N170 with inversion of cars (Rossion et al., 2003b) and animal faces Fig. 4. The N170 at P8 electrode for face and eye stimuli seen in all formats. While N170 to upright human faces is faster and smaller than to upright eyes, the signal is no longer significantly different between the two categories when faces are inverted or in photo-negative, suggesting that what drives the increase in the face N170 to inversion and contrast reversal is the eye region as a pair of eyes is still processed as a pair of eyes regardless of inversion or contrast. R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676 673 Fig. 5. For each category, the N170 is displayed at electrode P8 in the four formats. Note the unique pattern of increased latency and amplitude of N170 for human faces with inversion, contrast reversal and their conjunction. The fact that the same manipulations produced different results on N170 to faces and objects demonstrates, along with the topographies seen in Fig. 2, the involvement of different neuronal generators for these categories. This is true for ape faces as well, as shown by a very different effect of contrast reversal on N170 for that category compared to human face. (Rousselet et al., 2004), but they tested only one category at a time. Here, inversion delayed N170 for all six categories, including ape faces and isolated eyes. Although the magnitude of this effect was largest for human faces, this result demonstrates that the latency delay by inversion is not specific to the human face category as previously thought (Rossion and Gauthier, 2002; Rossion et al., 2000) but rather reflects a disruption of the processing for noncanonical views of objects. This orientation effect cannot be due to task-related attention as Rossion et al. (2000) did not find any such delays for five categories using exactly the same task. The discrepancy cannot either be due to the measurement difference between studies (restricted to T5/6 or P7/8 sites in most cases while analyzed across eight occipito-temporal sites here) as a clear inversion effect was found for all categories when only P7 and P8 electrodes were used in the analyses. The absence of inversion effects for object categories in previous studies remains unclear, but the finding is an important argument against the view that the inversion effect on N170 latency is the only one that systematically differentiates between faces and other objects (Rossion and Gauthier, 2002; Rossion et al., 2000). Similarly, a delay in the N170 response with contrast reversal was observed for most categories and not just human faces. These manipulations thus seem to delay early processing of any visual category, which suggests the visual system is trained by experience to respond optimally to positive contrast and to canonical upright orientation. However, the inversion effect was far larger for human faces than any other category, and inversion and contrast reversal had additive effects only for human faces, shown by a larger delay of N170 for inverted – negative faces compared to inverted or negative faces alone (Fig. 3A). This parallels the additive effects found behaviorally in some studies (Bruce and Langton, 1994; Kemp et al., 1990; Lewis and Johnston, 1997) and suggests that these manipulations affect different processes operating in normal face perception. Exactly what is disrupted by inversion and contrast reversal is still debated. Inversion disrupts the general prototypical spatial layout of the face (i.e. eyes above nose above mouth) that is preserved in photo-negatives. Both manipulations seem to change the specific featural relationships that are specific to an individual face. Contrast reversal does so in a more subtle way compared to inversion as the spatial relationships among features are preserved but appear different because of the light and shading variations and the pigmentation/texture cues that are dramatically changed (Kemp et al., 1990, 1996; Lewis and Johnston, 1997). The fact that the N170 latency is even more delayed when the face is both upsidedown and in photo-negative suggests that both the prototypical layout of the face and the pigmentation/texture cues are processed at the structural encoding stage for human faces. Inversion and contrast reversal both increased N170 amplitude for human faces as shown previously (Bentin et al., 1996; de Haan et al., 2002; Eimer, 2000a; Itier and Taylor, 2002, 2004a,b,c,d; Rossion et al., 1999, 2000; Sagiv and Bentin, 2001; Taylor et al., 2001c), a pattern that was not found for the other categories. Chairs presented an increase of amplitude with contrast reversal but no effect of inversion. No effect of inversion was seen for the other objects, except for houses when only P7/8 sites were used, confirming a previous report (Eimer, 2000a). Ape faces and eyes presented a very small inversion effect but in the opposite direction, i.e. a reduced N170, that was larger over occipital and parieto-occipital sites, while the face inversion effect was maximal at lateral parietal electrodes. Eyes presented an inversion effect at P7/8 sites, but this was due to negative contrast pictures as the effect disappeared when only positive upright and inverted eyes 674 R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676 were compared. Fig. 4 clearly shows no inversion effects at parietal sites for apes, in agreement with a previous report (de Haan et al., 2002), nor for eyes. Ape faces also presented a clear reduction of amplitude with contrast reversal, i.e. the opposite of human faces. Thus, ape faces presented very different effects of inversion and contrast reversal compared to human faces, suggesting the N170 does not merely reflect processes associated with any type of face but processes particular to the human face. Although systematically found in ERP studies, the increase in N170 amplitude with inversion and contrast reversal for human faces is at odds with other findings in the literature. Single cell recordings in monkeys have shown that, compared to upright faces, the response of face-selective cells to inverted faces is delayed (Perrett et al., 1988) and slightly decreased (Hasselmo et al., 1989; Perrett et al., 1988), like that to contrast-reversed faces (Ito et al., 1994; Perrett et al., 1984). Similarly, intracranial studies in humans have shown that the face-specific N200 component recorded directly from the cortical surface is delayed by inversion and of smaller amplitude for inverted than upright faces, especially in the right hemisphere (McCarthy et al., 1999). fMRI studies in humans have found an area of the fusiform gyrus implicated in face perception that responds more to faces than to objects (Kanwisher et al., 1997; McCarthy et al., 1997; Puce et al., 1995). That area has been reported to respond similarly for upright and inverted faces (Aguirre et al., 1999; Haxby et al., 1999), or less for inverted faces (Kanwisher et al., 1998; Yovel and Kanwisher, 2004), as seen with contrast-reversed faces (George et al., 1999). From this literature, we would expect a decrease of the human face N170 amplitude with inversion and contrast reversal rather than an increase. How can this increase be accounted for? One fMRI study reported an increase in activation for inverted faces in cortical areas adjacent to the fusiform gyrus and known to be activated by objects (Haxby et al., 1999). This was the basis for the hypothesis that objectselective neurons would be recruited in addition to face-selective neurons to produce the larger N170 amplitude for inverted human faces (Rossion et al., 2000). The recruitment of object-selective neurons would be due to the disruption of the face configuration by inversion and contrast reversal. In contrast, our data suggest that the larger N170 seen for human faces is due to a recruitment of neurons responding to the eye region of the face. Indeed, the N170 recorded for isolated eyes did not vary with the manipulations, suggesting that photo-negative or inverted eyes are processed like normal upright eyes. The N170 to human faces, however, which was very different from that to eyes in the upright positive format, increased in amplitude with inversion and contrast reversal and was no longer significantly different from N170 to eyes (Figs. 3 and 4). Given the distribution of the N170 recorded to objects, the contribution of neurons from object-selective areas should change the shape and distribution of the N170 which is not the case here. In contrast, inverted faces seem to activate the same areas as upright faces, as suggested by source modeling of the N170 (Itier and Taylor, 2004e; Watanabe et al., 2003), with no evidence of additional object cortical recruitment. Our hypothesis that the eye region drives this increase in N170 with inversion and contrast reversal fits well with the monkey literature and human intracranial recordings. In the monkey cortex, some cells are selective to eyes and some to whole faces, with the response of eye-selective neurons being modulated by the face context (Perrett et al., 1988). In humans, the intracranial N200 was larger to faces than to isolated eyes at ventral sites (fusiform gyrus) but larger to eyes than to faces at lateral sites (middle temporal gyrus; McCarthy et al., 1999), suggesting eye-selective N200s over lateral temporal cortices. Neuromagnetic recordings have also shown separable localization for faces and eyes in the fusiform regions (Taylor et al., 2001b). Thus, several sources such as the fusiform and the inferior occipital gyri likely interact to generate the N170; their different contributions depending on the task could explain the various N170 modulations with experimental conditions. The N200 findings concord with recent source localizations of N170 to the superior temporal sulcus region (superior temporal and middle temporal gyri; Itier and Taylor, 2004e; Watanabe et al., 2003). This is further corroborated by neuropsychological cases of prosopagnosic patients showing clear N170s despite fusiform gyrus damage (Rossion et al., 2003a). It thus seems that, in the human lateral temporal cortex, faceselective and eye-selective neurons coexist, and their activity is a major contribution in generating the scalp N170. In the normal upright face, features are perceived in relation to each other to create a global face percept to which face-selective neurons respond. Eye-selective neurons would not be responding to the eyes of the upright face, possibly by an inhibition mechanism from face cells such as the one proposed by Allison et al. (2002). This hypothesis is supported by the finding that the N170 is of equivalent size for intact upright faces and upright faces without eyes (Eimer, 1998). Although in inverted and contrast-reversed faces, configuration is altered, albeit differently, the eyes are still clearly seen. At the neuronal level, disrupting the facial configuration would impair the inhibition mechanism from face cells, allowing eye-selective neurons to respond to the eye region, hence enhancing the N170 amplitude and latency. It is thus possible that the N170 for inverted and negative faces reflects eye-selective neurons rather than face-selective neurons or both cell types. The shorter latency of N170 to inverted and negative faces than to eyes could still be explained by the earlier firing of face-selective neurons, despite the latency delay of face neurons induced by inversion. Alternatively, it is possible that the presence of eyes within the face context actually speeds up face processing, shortening N170 latency even when the face is upside-down or in photo-negative. This could explain why, for intact upright faces, N170 is shorter than for faces without eyes, although the amplitude does not vary (Eimer, 1998). This hypothesis of the eye region driving the N170 increase in amplitude for inverted and negative human face photographs is also in agreement with the absence of such inversion effects for Mooney (Latinus and Taylor, 2005) and schematic (Henderson et al., 2003; Sagiv and Bentin, 2001) faces. In these faces, no clear eye features can be seen and the N170 actually decreases (Henderson et al., 2003; Latinus and Taylor, 2005; Sagiv and Bentin, 2001) due to the decrease in response magnitude of face-sensitive neurons with inversion (Hasselmo et al., 1989; McCarthy et al., 1999; Perrett et al., 1988). The fact that eyes can be seen in ape faces yet inverted (and negative) ape faces did not yield increased N170 amplitudes suggests that the selectivity of neurons to eyes is specific to the human species. This species selectivity agrees with an adaptive role of eye morphology for gaze processing through evolution, given that humans are the only primate species with white sclera and have the largest index of exposed sclera size (Kobayashi and Kohshima, 1997). This allows the use of eye direction as a cue of active communication, a fundamental aspect of human social cognition. In conclusion, our data show that the specificity of the human face is reflected in its unique pattern of N170 latency and amplitude changes to both inversion and contrast reversal that R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676 was not seen with the other categories. The amplitude increase of the N170 seen only for inverted and contrast-reversed human faces likely reflects the activation of neurons responding to the eye region of the face. The face inversion and contrast reversal effects on the face N170 thus seem mainly driven by the eye region. Acknowledgments We thank Dr. Shlomo Bentin for stimulus sets. This work was supported by a grant from the French Fondation pour la Recherche Médicale to R.J.I. now funded by a CIHR postdoctoral fellowship. References Aguirre, G.K., Singh, R., D’Esposito, M., 1999. Stimulus inversion and the responses of face and object-sensitive cortical areas. NeuroReport 10, 189 – 194. Allison, T., Puce, A., McCarthy, G., 2002. Category-sensitive excitatory and inhibitory processes in human extrastriate cortex. J. Neurophysiol. 88, 2864 – 2868. Bartlett, J.C., Searcy, J., 1993. Inversion and configuration of faces. Cogn. Psychol. 25, 281 – 316. Bentin, S., Allison, T., Puce, A., Perez, E., McCarthy, G., 1996. Electrophysiological studies of face perception in humans. J. Cogn. Neurosci. 8, 551 – 565. Bruce, V., Langton, S., 1994. The use of pigmentation and shading information in recognising the sex and identities of faces. Perception 23, 803 – 822. Carmel, D., Bentin, S., 2002. Domain specificity versus expertise: factors influencing distinct processing of faces. Cognition 83, 1 – 29. de Haan, M., Pascalis, O., Johnson, M.H., 2002. Specialization of neural mechanisms underlying face recognition in human infants. J. Cogn. Neurosci. 14, 1 – 11. Eimer, M., 1998. Does the face-specific N170 component reflect the activity of a specialized eye processor? NeuroReport 9, 2945 – 2948. Eimer, M., 2000a. Effects of face inversion on the structural encoding and recognition of faces. Evidence from event-related brain potentials. Cogn. Brain Res. 10, 145 – 158. Eimer, M., 2000b. The face-specific N170 component reflects late stages in the structural encoding of faces. NeuroReport 11, 2319 – 2324. Galper, R.E., 1970. Recognition of faces in photographic negative. Psychon. Sci. 19, 207 – 208. George, N., Dolan, R.J., Fink, G.R., Baylis, G., Russell, C., Driver, J., 1999. Contrast polarity and face recognition in the human fusiform gyrus. Nat. Neurosci. 2, 574 – 580. Hasselmo, M.E., Rolls, E.T., Baylis, G.C., 1989. The role of expression and identity in the face-selective responses of neurons in the temporal visual cortex of the monkey. Behav. Brain Res. 32, 203 – 218. Haxby, J.V., Ungerleider, L.G., Clark, V.P., Schouten, J.L., Hoffman, E.A., Martin, A., 1999. The effect of face inversion on activity in human neural systems for face and object perception. Neuron 22, 189 – 199. Henderson, R.M., McCulloch, D.L., Herbert, A.M., 2003. Event-related potentials (ERPs) to schematic faces in adults and children. Int. J. Psychophysiol. 51, 59 – 67. Itier, R.J., Taylor, M.J., 2002. Inversion and contrast polarity reversal affect both encoding and recognition processes of unfamiliar faces: a repetition study using ERPs. NeuroImage 15, 353 – 372. Itier, R.J., Taylor, M.J., 2004a. Effects of repetition and configural changes on the development of face recognition processes. Dev. Sci. 7, 469 – 487. Itier, R.J., Taylor, M.J., 2004b. Effects of repetition learning on upright, inverted and contrast-reversed face processing using ERPs. NeuroImage 21, 1518 – 1532. Itier, R.J., Taylor, M.J., 2004c. Face recognition memory and configural 675 processing: a developmental ERP study using upright, inverted, and contrast-reversed faces. J. Cogn. Neurosci. 16, 487 – 502. Itier, R.J., Taylor, M.J., 2004d. N170 or N1? Spatiotemporal differences between object and face processing using ERPs. Cereb. Cortex 14, 132 – 142. Itier, R.J., Taylor, M.J., 2004e. Source analysis of the N170 to faces and objects. NeuroReport 15, 1261 – 1265. Ito, M., Fujita, I., Tamura, H., Tanaka, K., 1994. Processing of contrast polarity of visual images in inferotemporal cortex of the macaque monkey. Cereb. Cortex 4, 499 – 508. Jemel, B., George, N., Chaby, L., Fiori, N., Renault, B., 1999. Differential processing of part-to-whole and part-to-part face priming: an ERP study. NeuroReport 10, 1069 – 1075. Kanwisher, N., McDermott, J., Chun, M.M., 1997. The fusiform face area: a module in human extrastriate cortex specialized for face perception. J. Neurosci. 17, 4302 – 4311. Kanwisher, N., Tong, F., Nakayama, K., 1998. The effect of face inversion on the human fusiform face area. Cognition 68, 1 – 11. Kemp, R., McManus, C., Pigott, T., 1990. Sensitivity to the displacement of facial features in negative and inverted images. Perception 19, 531 – 543. Kemp, R., Pike, G., White, P., Musselman, A., 1996. Perception and recognition of normal and negative faces: the role of shape from shading and pigmentation cues. Perception 25, 37 – 52. Kobayashi, H., Kohshima, S., 1997. Unique morphology of the human eye. Nature 387, 767 – 768. Latinus, M., Taylor, M.J., 2005. Holistic processing of faces: learning effects with Mooney faces. J. Cogn. Neurosci. 17 (8), 1316 – 1327. Lewis, M.B., Johnston, R.A., 1997. The Thatcher illusion as a test of configural disruption. Perception 26, 225 – 227. McCarthy, G., Puce, A., Gore, J.C., Allison, T., 1997. Face-specific processing in the human fusiform gyrus. J. Cogn. Neurosci. 9, 605 – 610. McCarthy, G., Puce, A., Belger, A., Allison, T., 1999. Electrophysiological studies of human face perception: II. Response properties of face-specific potentials generated in occipitotemporal cortex. Cereb. Cortex 9, 431 – 444. Perrett, D.I., Smith, P.A.J., Potter, D.D., Mistlin, A.J., Head, A.S., Milner, A.D., Jeeves, M.A., 1984. Neurones responsive to faces in the temporal cortex: studies of functional organization, sensitivity to identity and relation to perception. Hum. Neurobiol. 3, 197 – 208. Perrett, D.I., Mistlin, A.J., Chitty, A.J., Smith, P.A.J., Potter, D.D., Broeniman, R., Harries, M., 1988. Specialized face processing and hemispheric asymmetry in man and monkey: evidence from single unit and reaction time studies. Behav. Brain Res. 29, 245 – 258. Picton, T.W., Bentin, S., Berg, P., Donchin, E., Hillyard, S.A., Johnson Jr., R., Miller, G.A., Ritter, W., Ruchkin, D.S., Rugg, M.D., Taylor, M.J., 2000. Guidelines for using human event-related potentials to study cognition: recording standards and publication criteria. Psychophysiology 37, 127 – 152. Puce, A., Allison, T., Gore, J.C., McCarthy, G., 1995. Face-sensitive regions in human extrastriate cortex studied by functional MRI. J. Neurophysiol. 74, 1192 – 1199. Rebai, M., Poiroux, S., Bernard, C., Lalonde, R., 2001. Event-related potentials for category-specific information during passive viewing of faces and objects. Int. J. Neurosci. 106, 209 – 226. Rhodes, G., Brake, S., Atkinson, A.P., 1993. What’s lost in inverted faces? Cognition 47, 25 – 57. Rossion, B., Gauthier, I., 2002. How does the brain process upright and inverted faces? Behav. Cogn. Neurosci. Rev. 1, 62 – 74. Rossion, B., Delvenne, J.F., Debatisse, D., Goffaux, V., Bruyer, R., Crommelinck, M., Guerit, J.M., 1999. Spatio-temporal localization of the face inversion effect: an event-related potentials study. Biol. Psychol. 50, 173 – 189. Rossion, B., Gauthier, I., Tarr, M.J., Despland, P., Bruyer, R., Linotte, S., Crommelinck, M., 2000. The N170 occipito-temporal component is delayed and enhanced to inverted faces but not to inverted objects: an electrophysiological account of face-specific processes in the human brain. NeuroReport 11, 69 – 74. 676 R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676 Rossion, B., Caldara, R., Seghier, M., Schuller, A.M., Lazeyras, F., Mayer, E., 2003a. A network of occipito-temporal face-sensitive areas besides the right middle fusiform gyrus is necessary for normal face processing. Brain 126, 2381 – 2395. Rossion, B., Joyce, C.A., Cottrell, G.W., Tarr, M.J., 2003b. Early lateralization and orientation tuning for face, word, and object processing in the visual cortex. NeuroImage 20, 1609 – 1624. Rousselet, G.A., Mace, M.J., Fabre-Thorpe, M., 2004. Animal and human faces in natural scenes: how specific to human faces is the N170 ERP component? J. Vis. 4, 13 – 21. Sagiv, N., Bentin, S., 2001. Structural encoding of human and schematic faces: holistic and part-based processes. J. Cogn. Neurosci. 13, 937 – 951. Stekelenburg, J.J., de Gelder, B., 2004. The neural correlates of perceiving human bodies: an ERP study on the body-inversion effect. NeuroReport 15, 777 – 780. Tanaka, J.W., Curran, T., 2001. A neural basis for expert object recognition. Psychol. Sci. 12, 43 – 47. Taylor, M.J., Edmonds, G.E., McCarthy, G., Allison, T., 2001a. Eyes first! Eye processing develops before face processing in children. NeuroReport 12, 1671 – 1676. Taylor, M.J., George, N., Ducorps, A., 2001b. Magnetoencephalographic evidence of early processing of direction of gaze in humans. Neurosci. Lett. 316, 173 – 177. Taylor, M.J., Itier, R.J., Allison, T., Edmonds, G.E., 2001c. Direction of gaze effects on early face processing: eyes-only versus full faces. Brain Res. Cogn. Brain Res. 10, 333 – 340. Vuilleumier, P., 2000. Faces call for attention: evidence from patients with visual extinction. Neuropsychologia 38, 693 – 700. Watanabe, S., Kakigi, R., Puce, A., 2003. The spatiotemporal dynamics of the face inversion effect: a magneto- and electro-encephalographic study. Neuroscience 116, 879 – 895. Yin, R.K., 1969. Looking at upside-down faces. J. Exp. Psychol. Gen. 81, 141 – 145. Yovel, G., Kanwisher, N., 2004. Face perception: domain specific, not process specific. Neuron 44, 889 – 898. 3.2. Traitement holistique des visages : les Mooney Faces Objectifs & Méthodes Dans cette étude, l’utilisation de Mooney faces – stimuli en noir et blanc ne mettant en évidence que les ombres du visage – m’a permis d’étudier le corrélat du traitement holistique du visage. Parce que les traits du visage ne sont pas distincts dans un Mooney Faces, les traitements configuraux de 1er et 2nd ordre, ainsi que les traitements analytiques, sont difficilement mis en œuvre ; la perception d’un visage dépend donc forcément de la mise en jeu du traitement holistique. La détection d’un visage dans les Mooney Faces est difficile, et elle est fortement compromise par l’inversion. Deux groupes de 13 sujets ont participé à l’expérience, un des groupes (groupe expérimental) a effectué un apprentissage consistant à la présentation de 20 Mooney Faces nouveaux jusqu’à ce que le visage soit perçu dans ces stimuli aussi bien à l’envers qu’à l’endroit, le deuxième groupe servait de contrôle. Des stimuli non visages, issus d’une transformation des Mooney Faces, étaient inclus dans l’expérience. La tâche était une tâche de détection des visages. Résultats et Conclusions Les Mooney Faces évoquent une N170, à environ 180 ms. Elle est plus petite pour les non visages, et intermédiaire pour les visages à l’envers ; la perception du visage dans un Mooney Faces à l’envers conduit à une N170 légèrement plus ample. Ces résultats révèlent que 1) les Mooney Faces évoquent une N170, 2) l’amplitude de la N170 est modulée par la perception du sujet, 3) la N170 n’infère pas un traitement des caractéristiques de bas niveau puisque elle est plus ample pour les visages, alors que les informations bas niveau sont les mêmes dans toutes les conditions. La détection du visage est améliorée par l’apprentissage. Après la tâche intermédiaire, pour les deux groupes, la N170 était plus ample, indépendamment des conditions, elle était retardée pour les visages à l’envers. Ainsi, une présentation répétée de stimuli peut provoquer à elle seule le retard de latence observé après inversion. Le pattern d’amplitude de la P2 est inverse à celui observé sur la N170, les non visages et les Mooney Faces à l’envers non perçus évoquent une P2 plus ample que celle évoquée par les Mooney Faces perçus. L’apprentissage diminue l’amplitude de la P2. Ces résultats suggèrent que la P2 puisse être impliquée dans un traitement approfondi de stimuli ambigus. 89 90 Holistic Processing of Faces: Learning Effects with Mooney Faces Marianne Latinus and Margot J. Taylor* Abstract & The specialness of faces is seen in the face inversion effect, which disrupts the configural, but not the analytic, processing of faces. Mooney faces, which are processed holistically, allowed us to determine the contribution of holistic processing to the face inversion effect. As inverted Mooney faces are difficult to recognize as faces, we also included an intermediary training period for Mooney face recognition for half of the subjects. Early face-sensitive ERPs (N170 and P1) and P2 were measured. Behavioral data showed an increase in correct responses to inverted and upright Mooney faces after the learning phase for the experimental group. No effects were seen on P1. N170 latency did not vary with stimulus type before the interme- INTRODUCTION Studies in several domains of the neurosciences have investigated the question of the specialness of face recognition, examining face versus nonface stimuli. Differences between face and object processing have been explained by various theoretical models. One model argues that differences occur at the level of recognition; that face and object detection depend on the level of expertise. A second model has suggested that differences between face and object processing could be explained by the existence of separable systems, each preferentially involved in processing one or the other category. These differences between face and nonface stimuli could also be due to the processing itself differing; the primary processing of faces may be configural and holistic and for objects analytical, which could also have the corollary of implicating separable structures. According to the expertise model, faces and objects are processed by the same system but differences arise at the level of recognition. This theory proposes that face processing is different from object processing because faces are generally recognized at the subordinate (e.g., macaque) or identity (e.g., Suzy) level, whereas objects are recognized at the superordinate (e.g., aniUniversité Paul Sabatier, Toulouse, France *Now at The Hospital for Sick Children, Toronto, Canada D 2005 Massachusetts Institute of Technology diary phase, however, N170 amplitude was consistently larger for upright than inverted Mooney faces. After the intermediary exercise, N170 was delayed for inverted compared to upright Mooney faces. In contrast, for both groups of subjects P2 amplitude was larger for nonface stimuli, and P2 amplitude decreased after the intermediate task only for the subjects trained to recognize Mooney faces. As the usual inversion effect seen with photographic faces (delayed and larger N170) was not seen with Mooney faces, these data suggest that this effect on N170 is due to the recruitment of analytic processing. P2 reflected learning and a deeper processing of the stimuli that were not identifiable as faces. & mal) or basic (e.g., monkey) level. This was proposed by Diamond and Carey (1986) as they found an inversion effect for dogs only with dog experts. Expertise theory for faces is based on the importance of faces in our environment, and face expertise would be characteristic of humans. Gauthier, Skudlarski, Gore, and Anderson (2000) and Gauthier, Tarr, Anderson, Skudlarski, and Gore (1999) showed that objects recognized at the subordinate level can lead to similar responses as seen to faces. For example, in an fMRI study, bird experts recognizing birds at the subordinate level showed a similar activation in the fusiform gyrus as seen in face recognition tasks (Gauthier, Skudlarski, et al., 2000). Moreover, Gauthier, Tarr, et al. (1999) showed that only after acquiring expertise with novel objects was the fusiform gyrus activated. Several lines of neuroscience research have suggested, however, that visual stimulus processing is modular depending on the category to which stimuli belong. Single-cell studies have provided evidence for this model by showing the existence of face specific cells in the inferotemporal cortex (IT) and superior temporal sulcus (Logothetis & Scheinberg, 1996; Perrett, Hietanen, Oram, & Benson, 1992). Intracranial event-related potential (ERP) studies in humans have shown activity specific to faces (the N200) in IT (Allison, Puce, Spencer, & McCarthy, 1999; Allison, McCarthy, Nobre, Puce, & Belger, 1994) with discrete localizations of N200 to Journal of Cognitive Neuroscience 17:8, pp. 1316–1327 faces adjacent to areas that appeared sensitive only to other categories (e.g., numbers or letter strings). Scalp ERPs also have demonstrated a face-sensitive activity over temporo-occipital sites, the N170 component (Bentin, Allison, Puce, Perez, & McCarthy, 1996; Bötzel, Schulze, & Stodieck, 1995). N170 is consistently larger to faces than to a range of nonface stimuli (Itier & Taylor, 2004; Itier, Latinus, & Taylor, 2003; Bentin, Alison, et al., 1996) and discriminates among face stimuli (Sagiv & Bentin, 2001; Taylor, Edmonds, McCarthy, & Allison, 2001; Bentin, Alison, et al., 1996; George, Evans, Fiori, Davidoff, & Renault, 1996). Functional imaging has also allowed visualization of brain regions that are involved specifically in face detection (e.g., Haxby, Ungerleider, Horwitz, et al., 1996; Sergent, Ohta, & MacDonald, 1992). Puce, Allison, Asgari, Gore, and McCarthy (1996) were the first to show with fMRI that faces preferentially activated regions of the fusiform gyrus, whereas adjacent areas in the inferior and occipito-temporal cortices were activated by nonface stimuli. Subsequent to this initial study, fMRI has been used extensively to examine differences in the localization of activation to face and nonface stimuli (Haxby, Ungerleider, Clark, et al., 1999; Kanwisher, Stanley, & Harris, 1999). Finally, in the neuropsychological literature, there are a number of case studies with impairment in object (agnosia) (Moscovitch, Winocur, & Behrmann, 1997) or face (prosopagnosia) recognition (Michel, Poncet, & Signoret, 1989), which provide strong evidence of different neural networks involved in face and object processing. In particular, Moscovitch et al. (1997) studied a patient (CK) with visual agnosia associated with normal face recognition. They showed that CK had difficulties only in recognizing faces with configural disruptions, such as inverted faces. They suggested that two recognition systems were involved in visual stimulus detection. One system was involved in holistic processing, used by face detection. The other was involved in analytic processing (part-based processing), used in the recognition of objects and inverted faces. Behavioral data have shown significant differences in processing upright and inverted faces; face recognition is poorer and reaction times are increased when faces are inverted, called the face inversion effect (Farah, Tanaka, & Drain, 1995; Rhodes, Brake, & Atkinson, 1993). Because inversion effects are much larger for faces than for objects (Yin, 1969), processing differences between upright and inverted faces have been investigated in efforts to understand the specialness of faces. Face inversion effects are seen in neuroimaging studies, as the fusiform gyrus is less activated by inverted than upright faces (Kanwisher, Tong, & Nakayama, 1998) and face inversion increases the activation in object-selective regions (Haxby, Ungerleider, Horwitz, et al., 1999). Scalp ERP studies also provide neurophysiological evidence of the face inversion effect: N170 is larger and later for inverted faces (Bentin, Alison, et al., 1996; Rossion, Gauthier, et al., 2000; Taylor et al., 2001). Evidence of the inversion effect on N170 suggests that N170 reflects combined sources, which result in differential activation with inversion of two systems implicated in face processing, holistic plus analytic (Sagiv & Bentin, 2001) consistent with the neuropsychological literature (Moscovitch et al., 1997). Although many neurophysiological face processing studies have focused on N170, other ERP components (P1 and P2) have been analyzed in some studies to have a finer definition of the early processing of the visual stimuli. Rossion, Delvenne, et al. (1999) argued that P1 reflects low-level feature processing, as they did not observe any inversion effect on P1. However, LinkenkaerHansen et al. (1998) found differences between upright and inverted faces on P1 with stimuli that shared the same low-level features. Moreover, they showed no face inversion effect on P1 if the faces were degraded. Hence, they suggested that mechanisms underlying P1 were not sensitive enough to detect degraded faces. Face inversion effects on P1 have also been demonstrated from young children to adults (Taylor et al., 2001) and in adults with differing configural changes (Itier & Taylor, 2002; Halit, de Haan, & Johnson, 2000). Several researchers have suggested that the predominant processing of upright faces is holistic (Moscovitch et al., 1997; Tanaka & Farah, 1993) with analytic or feature-based processing being involved with unusual face stimuli or objects. Configural processing (the relations among facial features within a face), however, is generally viewed as central to face processing. Maurer, Le Grand, and Mondloch (2002) suggested an initial configural processing stage that encodes the eyes above the nose, which is above the mouth; a second, holistic stage sees the face as a gestalt or whole; and a third, configural stage is the more classic configural processing of second-order relations (Rhodes, Brake, Taylor, & Tan, 1989; Diamond & Carey, 1986). The separation between the first two of these proposed stages is fine, as it is the perception of the facial features in the appropriate arrangement that gives the gestalt of a face. Faces are perceived more rapidly than objects (Purcell & Stewart, 1988), which relies on this early configural/holistic processing, whereas the second-order configural processing, which allows recognition of a specific face, occurs subsequently. Configural processing is particularly disrupted with inversion, whereas featural and holistic processing are not or less disrupted (e.g., Freire et al., 2000; Leder & Bruce, 2000). This difficulty of processing inverted faces is indexed behaviorally by poorer recognition and neurophysiologically by later and larger N170s. Consistent with this are the results of Sagiv and Bentin (2001) who found that inversion of schematic faces (smiley faces) that contain no identity information did not produce the usual N170 amplitude increase. Mooney faces are black-and-white photographs of faces taken in a dark-contrasted environment leading Latinus and Taylor 1317 to incomplete representations of faces. They were first used to study closure ability and its development (Mooney, 1957), and have been used to assess holistic processing of faces (Moscovitch et al., 1997). Using Mooney faces where the first level of processing is holistic (as there are no separable features to be identified, as eyes over nose, above mouth) would allow us to better determine the contribution of holistic processing to facial recognition. Because of their incompleteness, analytical processing is not effective with Mooney faces; they require holistic processing to be categorized whether presented upright or inverted. Once recognized as faces, however, they could then be processed analytically, as the subject confirms the presence of a face. Kanwisher, Tong, et al. (1998) showed that accuracy for the detection of Mooney faces was inferior to the accuracy for the detection of regular faces, and that detection was particularly disrupted for inverted Mooney faces. They also found that inverted Mooney faces did not activate the same area on the fusiform gyrus as photographic faces, although it was activated by upright Mooney faces. Rotations of Mooney faces away from the vertical produced reduction both in perception of the faces and the amplitude of the face-sensitive vertex-positive peak measured frontocentrally (Jeffreys, 1993, 1996). The inversion effect of Mooney faces has not been studied with posteriotemporal ERPs, which would help separate holistic and analytic contributions to the early ERPs (P1, N170, P2), and provide temporal measures of these processes. This was one of the purposes of the present study; we wished to determine whether there were differences in the processing of upright and inverted Mooney faces; that is, if the Mooney face inversion effect is similar to the one found for photographic faces—delayed latencies and increased amplitudes of early face-sensitive components. Moreover, as Mooney faces are much more difficult to see as faces when presented upside-down, we also trained our subjects in Mooney face recognition to see if training would have an impact on accuracy, and to see if increasing accuracy was correlated with neurophysiological changes. In order to separate repetition and learning effects, we performed a random division of subjects into two groups (experimental group and control group). The experimental group underwent an interactive training period on Mooney face recognition and the control group completed an unrelated visual categorization task. As repetition or learning could lead to the development of an expertise or improved face detection for these stimuli, we compared the ERPs before and after the learning/control task between upright and inverted Mooney faces to reveal neurophysiological correlates of learning. Thus, the aims of the present study were to determine the contribution of holistic processing to face recognition and how this is reflected in face-sensitive ERPs. 1318 Journal of Cognitive Neuroscience Moreover, including a learning phase would provide information on the neurophysiological correlates of perceptual learning on early ERPs sensitive to faces. RESULTS Behavioral Data Subjects performed a face/nonface detection task using Mooney faces presented upright and inverted, or scrambled Mooney faces (i.e., nonfaces; Figure 1). Subjects were grouped according to the intermediary exercise, and data were recorded before and after the learning/ control task. Mean accuracy and reaction times as a function of stimulus type, group, and before/after the learning/control task were analyzed. Data were collapsed across groups before the learning/control task as statistical analyses showed no differences between the groups at this stage. Accuracy differed with stimulus type [F(1,22) = 27.652, p < .001]; upright Mooney faces and nonfaces were better identified than inverted Mooney faces. Training had an effect on accuracy as hits increased only for the experimental group, for both upright faces and inverted faces (Figure 2A). Reaction times (RTs) varied with stimulus type as upright faces were recognized faster than inverted faces (Figure 2B). RTs decreased after the learning/control task only for control group. Figure 1. Examples of stimuli used. (A) Upright Mooney face; (B) Inverted Mooney face; (C, D) Nonfaces. Volume 17, Number 8 Figure 2. Mean accuracy and RTs as a function of stimulus type. (A) Accuracy; (B) RTs. Collapsed data for the two groups before the intermediary exercise (black bar). Data for the experimental group after the learning phase (gray bar). Data for the control group after the unrelated visual task (white bar). The hit rate for Mooney faces, upright and inverted, improved only for the group with learning. *p = .001 Electrophysiological Data We measured the latencies and amplitudes of three visual ERP components over the parieto-occipito-temporal cortices (P1, N170, and P2; Figure 3). P1 There was no effect of stimulus type on P1 latency or amplitude either before or after the learning/control task, for either group of subjects. P1 was not affected by the inversion of Mooney faces. N170 Before the learning/control task, N170 latency showed no effect of stimulus type. The learning/control task had no overall effect on N170 latency for either the experimental or the control group, regardless of stimulus. Figure 3. Scalp distribution of the grand-averaged brain activity at the mean latency of each component for upright Mooney faces and nonfaces, using data of the experimental group before the learning phase. Latinus and Taylor 1319 However, as our interest was in the inversion effect, latency analyses comparing only upright and inverted Mooney faces were completed, which showed that N170 was delayed for inverted compared with upright Mooney faces only after the learning/control task [F(1,22) = 6.97, p = .015]. N170 amplitude differed among the stimulus types before the learning/control task; N170 was largest for upright Mooney faces, smallest for nonface stimuli, whereas inverted faces, perceived or not perceived as faces, were intermediate [F(3,66) = 18.674, p < .001] (Figure 4). There was a hemisphere effect on N170 amplitude [F(1,22) = 7.37, p = .01] due to upright Mooney faces evoking a larger N170 over the right hemisphere [Type Hemisphere: F(3,66) = 4.09, p = .01]. Comparisons between before and after the learning/ control task showed the same pattern of effects of stimulus type on N170 amplitude [F(2,44) = 61.13, p < .001] as well as a lateralization of N170 only for upright Mooney faces [Type Hemisphere: F(2,44) = 9.04, p = .001]. After the learning/control task, N170 amplitude increased for both groups of subjects [F(1,22) = 105.76, p < .001] (Figure 5). the experimental group [Training Group: F(1.22) = 7.24, p = .013] (Figure 7). As N170 effects could drive P2 effects, peak-to-peak analyses were conducted (P2 amplitude and latency minus N170 values); these analyses showed that the effects seen on P2 were independent of those seen on N170 as for both the amplitude and latency, the effects remained for P2 when only the N170–P2 differences were analyzed. DISCUSSION Our results showed a significant effect of training on accuracy in the experimental group; accuracy was improved only after the learning task. N170 amplitude was consistently larger for upright than for inverted Mooney faces, whereas N170 latency was delayed for inverted Mooney faces only after the learning/control task. P1 was unaffected by either stimulus characteristics or learning. Only P2 reflected learning; P2 amplitude decreased markedly for the experimental group after the learning task period. Whether before or after the learning/control task, P2 amplitude was largest for nonsense stimuli (i.e., nonfaces and inverted faces not perceived as faces) (Table 1). P2 No effects were seen on P2 latency. P2 amplitude varied according to stimulus type before the learning/control task [F(3,66) = 27.03, p < .001] (Figure 6) and in the before/after comparison [F(2,44) = 68.12, p < .001]. P2 was larger for nonfaces and inverted Mooney faces perceived as nonfaces than for upright and inverted Mooney faces correctly perceived. Comparison between before and after the learning/ control task showed a difference between groups; P2 amplitude decreased after the intermediate task only for Behavioral Data We found that Mooney faces are less well perceived when inverted, consistent with other studies (Kanwisher, Tong, et al., 1998; George, Jemel, Fiori, & Renault, 1997; Jeffreys, 1993). Learning had an effect on accuracy, as increases in correct responses to upright and inverted Mooney faces were only seen after learning for the experimental group. However, differences between upright and inverted Mooney faces still remained after the learning period, comparable to the face inversion effect Figure 4. N170 elicited by upright (red) and inverted (blue) Mooney faces perceived as faces, inverted Mooney faces not perceived as faces (turquoise), and nonfaces (green). Notice that N170 is largest for upright Mooney faces and smaller for nonfaces. 1320 Journal of Cognitive Neuroscience Volume 17, Number 8 Figure 5. N170 elicited by upright (solid) and inverted (dotted) Mooney faces before the learning phase (black) and after the learning phase (gray) for the experimental group. Notice the smaller amplitude but delayed latency for inverted Mooney faces after the learning phase (in the square). generally observed with photographic faces, due to the greater difficulty in recognizing inverted faces. Subjects responded more rapidly for upright than for inverted Mooney faces, in accordance with results obtained with photographic faces (e.g., Itier & Taylor, 2002; Rhodes et al., 1993; Valentine, 1988). Somewhat surprisingly, learning had no effect on RTs in the experimental group, perhaps due to the difficulty of the task. RTs decreased, however, for the control group, explained by the control task requiring rapid responses to targets. The control group likely developed a pattern of responding quickly, whereas the experimental group learned to recognize Mooney faces without any emphasis on speeded responses. Electrophysiological Data P1 Our results showed no effects on P1 for face inversion or for face versus nonface stimuli as shown by some (Rossion, Delvenne, et al., 1999), although other studies have demonstrated that face inversion affects P1 amplitude and latency (Itier & Taylor, 2002, 2004; Taylor et al., 2001; Linkenkaer-Hansen et al., 1998). An explanation for the lack of P1 effects could be that Mooney faces may be considered degraded faces, as they are incomplete representations of faces. The first stage of configural processing proposed by Maurer et al. (2002) could not occur and the perception of a face would proceed from the second holistic stage of processing. Early neural mechanisms underlying P1, fine-tuned for face detection, may not be sufficient to process these faces adequately, as shown by Linkenkaer-Hansen et al. (1998), who found no effects of inversion on P1 with pointillized degraded faces. The inversion effect on P1 has been suggested to reflect early configural encoding of faces. Halit et al. (2000) demonstrated that configural disruptions other than inversion also led to variation in amplitude and latency of P1 in passive viewing face tasks. According to the above studies, an inversion effect would not be expected here on the P1, as the first stage of processing for Mooney faces is holistic rather than configural. Some authors suggested that P1 may also reflect attentional modulations (Taylor, 2002; Halit et al., 2000). The above studies that used a passive viewing task (Taylor et al., 2001; Linkenkaer-Hansen et al., 1998) found P1 sensitive to inversion. Rossion, Delvenne, et al. (1999) used a priming recognition paradigm, during which subjects had to pay attention to faces and to second-order relations. Attention was directed to faces and required holistic processing and they showed no effect of inversion on P1. In a similar vein, Batty and Taylor (2003) found P1 effects in an implicit face processing task, but not in an explicit version using the same stimuli (Batty, Delaux, & Taylor, 2003). It appears that some P1 inversion effects are task-dependent. The present task required only detection, not recognition of faces, which may contribute to the lack of inversion effects on P1. N170 N170 latency did not vary with face type before the learning/control tasks, however, N170 was larger for upright faces than for inverted faces and nonfaces. Latinus and Taylor 1321 Figure 6. P2 amplitude for all stimulus types before the intermediary exercise. (A) Collapsed data of the two groups of subjects (*p .002). (B) Grand-averaged ERP waveforms for all stimulus types for the experimental group at the left parietal electrodes. Upright (red) and inverted (blue) Mooney faces perceived as faces, inverted Mooney faces not perceived as faces (turquoise), and nonfaces (green). Hence, although inverting Mooney faces had an effect on N170, this effect differed from the one usually described for photographic faces: longer-latency and larger-amplitude N170s for inverted photographic faces (Taylor et al., 2001; Rossion, Gauthier, et al., 2000; Bentin, Alison, et al., 1996). Mooney faces are two-tone faces difficult to process either upright or inverted because of the incomplete internal features, thus they engage primarily holistic processing. Photographic faces, on the other hand, engage primarily second-order configural processing as they convey physiognomic information carried by the relation among internal features of the face, which provide identity information. Thus, inversion effect differences between Mooney and photographic faces are likely due to the recruitment of different levels of face processing. Consistent with this hypothesis are the results of Sagiv and Bentin (2001) that showed a delayed but smaller N170 inversion effect for schematic faces. They suggested that this finding was attributable to the involvement of different processes for inverted schematic compared to photographic faces. As 1322 Journal of Cognitive Neuroscience schematic faces did not carry physiognomic information, inverting them did not involve analytic processing, which is recruited for identification of inverted photographic faces. These results provide evidence for a sensitivity of N170 to the several types of processing invoked by faces. Photographic faces engage configural processing when presented upright, plus analytic processing when presented inverted. Upright Mooney faces engage holistic processing, as analytic processing is not effective and most probably not engaged, so there is no N170 amplitude increase when they are presented inverted. The N170 decrease in amplitude with inversion of Mooney faces could be due to the difficulty in engaging even holistic processing when these stimuli are inverted. The nonface stimuli evoked a smaller negative potential than faces at the N170 latency. Usually, scrambled faces evoke little or no negativity (Taylor et al., 2001; Bentin, Alison, et al., 1996). The negative potential observed for nonface stimuli could be explained by contextual priming. Subjects were searching for faces Volume 17, Number 8 Figure 7. P2 amplitude for the two groups of subjects, across stimuli, before (solid) and after (dashed) the intermediary exercise. *p < .05. and the nonfaces could elicit an N170 as they were examined as possible faces in this face detection context. This is in accordance with Bentin, Sagiv, et al. (2002), who have shown an N170 for schematic nonfaces (schematic eyes) once the context of faces had been established. Inverted faces not perceived as faces evoked a similar N170 as seen with inverted faces perceived as faces. This suggests that N170 in this context of a difficult face detection task reflects top-down modulation of perceptual processing for faces, even if a face is not always perceived. However, after the learning/control task, there was an inversion effect on N170 latency as inverted Mooney faces evoked a longer-latency N170, although amplitudes were still larger for upright than for inverted Mooney faces. This latency effect could be due to repetition of the stimuli as it was observed for both groups of subjects. Repetition could involve a modification of Mooney face perception, such that subjects would try to process inverted Mooney faces analytically; the fact that no amplitude effects were seen suggests that this was not successful. Alternatively, the latency effect with inversion could be explained by the development of an expertise in Mooney face recognition. According to Gauthier, Skudlarski, et al. (2000) and Gauthier, Tarr, et al. (1999) expertise accounts for the inversion effect, although expertise would have had to result from the repetition of stimuli for only 40 min. In the study by Gauthier, Skudlarski, et al., the training that led to expertise lasted 7 hours a day for 4 days. The present experiment was likely too short to develop expertise, except that the participants were already face experts and they only had to learn to engage face processing during the learning phase for Mooney faces. Consequently, the repetition necessary for a change in the level of expertise would be shorter for these stimuli. Our results also showed an increase in N170 amplitude after the intermediary exercise for upright and inverted Mooney faces. This is consistent with Tanaka and Curran (2001), who found larger-amplitude N170s to stimuli within subjects’ domains of expertise. We would also suggest that with expertise, subjects build a recognition pattern for stimuli within the domain of expertise. The inversion of such stimuli, however, even Table 1. Mean Latencies and Amplitudes for the Three Components by Condition Before the Learning Phase Inverted Mooney Faces Upright Mooney Faces Correctly Perceived Not Perceived After the Learning/Test Phase Nonfaces Upright Mooney Faces Inverted Mooney Faces Nonfaces P1 Latency (msec) 107.60 108.37 108.38 107.03 108.22 107.72 107.34 Amplitude (AV) 4.92 5.12 4.97 5.15 5.14 5.28 5.37 Latency (msec) 176.82 177.47 176.81 177.74 177.44 179.79 179.27 Amplitude (AV) 4.92 4.15 3.54 3.20 6.82 5.93 5.04 Latency (msec) 221.79 221.80 221.95 223.36 218.69 219.64 220.89 Amplitude (AV) 3.15 3.33 4.41 4.82 1.86 2.01 3.39 N170 P2 Note the amplitude increase for N170 after the learning phase but the decrease for P2 (in bold face). Latinus and Taylor 1323 if only recently acquired, could disturb the usual perception and interfere with the automatic activation of the recognition processes related to the expertise. George, Jemel, et al. (1997) also showed an increase of N170 amplitude with Mooney face repetition, and suggested that this increase ref lected a facilitation of perception. In contrast, repetition effects with photographic faces show an N170 amplitude decrease (Itier & Taylor, 2002), further demonstrating that Mooney faces and photographic faces are not processed the same way, although both types of faces show greater right-sided amplitudes, unlike nonface stimuli. There was no differential effect of the intermediate task on the N170 amplitudes for the two groups of subjects. Learning did not seem to have a neurophysiological correlate at these early stages of processing, despite its large effect on behavior. Nonetheless, we would speculate that although the present learning was not sufficient to induce changes in P1 or N170, a longer learning might produce such effects. The combination of the above results suggests that upright photographic faces are processed holistically and configurally and, when presented inverted, they further recruit analytic processing, associated with processing nonface objects (Haxby, Ungerleider, Clark, et al., 1999). Analytical processes implicated in face processing may well be distinct from the routine object-related analytical processes, as they appear to be recruited for feature-based face analyses in the circumstances of attempting recognition under unusual conditions such as inversion. We would suggest that becoming an expert leads to the construction of patterns of recognition, such that stimuli previously processed analytically or by features would come to be processed automatically (i.e., holistically). Inversion produces recognition disruption due to discordance between typical and inverted stimuli, thus analytic processing would be invoked (when it is permitted by characteristics of the stimulus) for identity-level access. With Mooney faces this was not feasible, as they require primarily holistic processing, leading to the lack of amplitude effects when they are presented inverted. P2 Although less frequently measured than P1 and N170, P2 showed very interesting and task-specific effects in the current study. P2 amplitude varied with stimulus type before and after the learning/control task, being larger for nonfaces and inverted Mooney faces not perceived as faces, than for upright and inverted Mooney faces correctly identified. This suggests that neuronal mechanisms underlying P2 might be involved in deeper or more extensive processing of stimuli not yet identified. Although P2 was not analyzed in the article of Sagiv and Bentin (2001), the P2 seen in Figure 1 was larger for scrambled faces than for faces or flowers, consistent 1324 Journal of Cognitive Neuroscience with our results. After the learning period, we found P2 amplitude decreased only for the experimental group. This amplitude decrease linked to accuracy suggests that P2 may reflect a neurophysiological correlate of learning. Consistent with this reasoning, learning would lead to a certainty of perception, such that deep processing indexed by P2 was not as necessary. Conclusions Our results show that the learning effects seen behaviorally were not correlated with changes in neuronal activity reflected in the early face-sensitive ERP components (N170 and P1). The intermediary exercise had an effect on the latency and amplitude of N170 but this was not only due to learning. However, training decreased P2 amplitude; this would suggest that the learning period led to increased certainty of perception, which in turn led to decreased need for the in-depth stage of processing reflected by P2. Our data argue that the latency and amplitude effects seen on N170 with photographic face inversion are due primarily to the activation of feature-based analytic processing. The present lack of comparable inversion effects on Mooney faces is due to their recruiting primarily holistic processing. METHODS Subjects Twenty-six adults (13 women) participated in the study (mean age: 23.9 years); all but one were right handed; the left-handed subject showed a very similar pattern of ERPs, so data were collapsed. All subjects reported normal or corrected-to-normal vision and reported taking no medication and had no history of neurological, ophthalmologic, or systemic disease. They gave informed written consent. The experiment was approved by the French Comité Opérationnel pour l’Ethique dans les Sciences de la Vie du CNRS. The subjects were placed into one of two groups in a pseudorandom fashion (n = 13 in each). The first, experimental group (7 women), had a learning period for Mooney faces recognition; the second, control group (6 women), performed an unrelated visual task. Stimuli There were 320 stimuli, 80 in each of four categories: upright and inverted Mooney faces, and upright and inverted nonfaces (see Figure 1). Forty of the Mooney faces were those used by Craig Mooney (1957) in his classic study. The 40 new Mooney faces were created at our laboratory using Web Cam Go software to take photographs in a dark room with a high luminosity directed to the face of the person; it created shadows on the face. The brightness of the photograph was then Volume 17, Number 8 modified using Image J freeware; pixels were divided into pixels either with high or low brightness which led to black-and-white, high-contrast pictures. Inverted Mooney faces were a vertical symmetry of upright Mooney faces. Nonfaces were a scrambled form of the pixels of upright Mooney faces: Black-and-white patches of the images were moved to create nonsense stimuli; inverted nonfaces stimuli were a vertical symmetry of the upright nonfaces. Experimental Procedure Subjects were seated in a comfortable chair in a dark room. Stimuli were presented centrally on a screen 60 cm in front of the subjects. The stimuli subtended 108 118; they were presented in a random order using Presentation 6.0 for 300 msec with an ISI between 1200 and 1600 msec. Subjects pressed a keyboard key for faces with one hand and another key for nonfaces with the other hand. The hand used to respond to faces was counterbalanced across subjects. Four blocks of 80 stimuli (20 of each category) in random order were presented, followed by the learning/control task, and finally by a repetition of the four blocks. Presentation order of blocks was randomized across subjects and across before/after the learning/control task. Short breaks were given to subjects between blocks. The learning phase consisted of the presentation of 20 Mooney faces shown upright and inverted, which were different from those faces used in the experiment. Subjects had time to examine the stimuli and to try to see the faces. The experimenter knew the stimuli well, could see all the Mooney faces, and thus could distinguish separable features, helped the subjects perceive the faces by ‘‘showing’’ them the features of the faces when necessary. The control task was a categorization task; subjects were presented with a series of 300 stimuli, 150 of which included animals, to which they were to respond as quickly and accurately as possible. were then averaged digitally as a function of stimulus category and correct or incorrect responses, and filtered at 0.1–30 Hz. Peak analyses were completed on data recorded from each subject. Only averages of more than 15 artifact-free epochs were kept for analysis, such that only upright Mooney faces identified as faces, inverted Mooney faces identified as faces or not (only before the learning/ control task), and nonfaces correctly classified as nonface stimuli were analyzed. Peak latency and amplitude were measured for three early components: P1 (maximal around 110 msec, 90–140 msec), N170 (maximal around 175 msec, 140–210 msec), and P2 (maximal around 220 msec, 180–260 msec). Components were measured at the electrodes where they were maximal over each hemisphere in the grand averages, and at the electrodes within the distribution of the component (see Figure 3 for the distribution of the activity for the three components). P1 was measured at parieto-occipital sites (P7, P8, P5, P6, P3, P4, P1, P2, PO7, PO8, PO3, PO4, O1, and O2), N170 at temporo-parieto-occipital sites (P9, P10, P7, P8, PO9, PO7, PO10, PO8, O9, O10, O1, and O2), and P2 at parieto-occipital sites (P5, P6, P3, P4, P1, P2, PO7, PO8, PO3, PO4, O1, and O2). For each subject and category, the peak was measured within ±30 msec of the peak latency of the grand average. Latencies over each hemisphere were taken where peak amplitude was maximal (Picton et al., 2000). Repeated-measures ANOVAs using SPSS were performed on individual data, p values reported here are those obtained after Greenhouse–Geisser correction. Intersubject factor was group. Intrasubject factors, before the learning/control task, were stimulus type (4 levels), hemisphere (2 levels), and for amplitude, electrodes (7 levels for P1 and 6 levels for N170 and P2). Before/ after the learning/control task comparisons were done only for correctly perceived stimuli [stimulus type (3 levels)]; intrasubject factors then also included training (2 levels). Data Recordings and Analysis Behavioral performances, hits, and RTs were recorded using Presentation 6.0. Electrophysiological data were recorded using 64 electrodes in a cap (Easy Cap), including three ocular sites to record eye movements. The electrodes were placed according to the 10/10 system. FCz was the reference during acquisition; an average reference was calculated off-line. Impedances were kept under 5 k . EEG was recorded using Neuroscan 4.2, the signal was amplified using Synamps system (gain: 500). Data were recorded with a frequency of 1000 Hz through a band-pass of 0.1– 100 Hz. Continuous EEG was epoched into 800-msec sweeps (including a 100-msec prestimulus baseline), baseline corrected and trials with ocular artifact between 100 and 400 msec >100 AV were rejected. Epochs Reprint requests should be sent to Marianne Latinus, Centre de Recherche Cerveau & Cognition—UMR 5549, Faculté de Médecine Rangueil, 133, route de Narbonne, 31062 Toulouse Cedex 4, France, or via e-mail: [email protected]. REFERENCES Allison, T., McCarthy, G., Nobre, A., Puce, A., & Belger, A. (1994). Human extrastriate visual cortex and the perception of faces, words, numbers, and colors. Cerebral Cortex, 5, 544–554. Allison, T., Puce, A., Spencer, D. D., & McCarthy, G. (1999). Electrophysiological studies of human face perception: I. Potentials generated in occipitotemporal cortex by face and non-face stimuli. Cerebral Cortex, 9, 415–430. Batty, M., Delaux, S., & Taylor, M. J. (2003, March). Early neurophysiological effects in the explicit and implicit Latinus and Taylor 1325 processing of facial emotions. Paper presented at The Social Brain, Göteberg, Sweden. Batty, M., & Taylor, M. J. (2003). Early processing of the six basic facial emotional expressions. Cognitive Brain Research, 17, 613–620. Bentin, S., Allison, T., Puce, A., Perez, E., & McCarthy, G. (1996). Electrophysiological studies of face perception in humans. Journal of Cognitive Neuroscience, 8, 551–565. Bentin, S., Sagiv, N., Mecklinger, A., Friederici, A., & von Cramon, Y. D. (2002). Priming visual face-processing mechanisms: Electrophysiological evidence. Psychological Science, 13, 190–193. Bötzel, K., Schulze, S., & Stodieck, S. R. (1995). Scalp topography and analysis of intracranial sources of face-evoked potentials. Experimental Brain Research, 104, 135–143. Diamond, R., & Carey, S. (1986). Why faces are and are not special: An effect of expertise. Journal of Experimental Psychology: General, 115, 107–117. Farah, M. J., Tanaka, J. W., & Drain, H. M. (1995). What causes the face inversion effect? Journal of Experimental Psychology: Human Perception and Performance, 21, 628–634. Freire, A., Lee, K., & Symons, L. A. (2000). The face-inversion effect as a deficit in the encoding of configural information: Direct evidence. Perception, 29, 159–170. Gauthier, I., Skudlarski, P., Gore, J., & Anderson, A. (2000). Expertise for cars and birds recruits brain areas involved in face recognition. Nature Neuroscience, 3, 191–197. Gauthier, I., Tarr, M. J., Anderson, A. W., Skudlarski, P., & Gore, J. C. (1999). Activation of the middle fusiform ‘‘face area’’ increases with expertise in recognizing novel objects. Nature Neuroscience, 2, 568–573. George, N., Evans, J., Fiori, N., Davidoff, J., & Renault, B. (1996). Brain events related to normal and moderately scrambled faces. Cognitive Brain Research, 4, 65–76. George, N., Jemel, B., Fiori, N., & Renault, B. (1997). Face and shape repetitions effects in humans: A spatio-temporal ERP study. NeuroReport, 8, 1417–1423. Halit, H., de Haan, M., & Johnson, M. H. (2000). Modulation of event-related potentials by prototypical and atypical faces. NeuroReport, 11, 1871–1875. Haxby, J. V., Ungerleider, L. G., Clark, V. P., Schouten, J. L., Hoffman, E. A., & Martin, A. (1999). The effect of face inversion on activity in human neural systems for face and object perception. Neuron, 22, 189–199. Haxby, J. V., Ungerleider, L. G., Horwitz, B., Maisog, J. M., Rapoport, S. I., & Grady, C. L. (1996). Face encoding and recognition in the human brain. Proceedings of the National Academy of Sciences, U.S.A., 93, 922–927. Itier, R. J., & Taylor, M. J. (2002). Inversion and contrast polarity reversal affect both encoding and recognition processes of unfamiliar faces: A repetition study using ERPs. Neuroimage, 15, 353–372. Itier, R. J., & Taylor, M. J. (2004). N170 or N1? Spatiotemporal differences between object and face processing using ERPs. Cerebral Cortex, 14, 132–142. Itier, R. J., Latinus, M., & Taylor, M. J. (2003). Effects of inversion, contrast-reversal and their conjunction on face, eye and object processing: An ERP study. Journal of Cognitive Neuroscience Supplement, D292, 154. Jeffreys, D. A. (1993). The influence of stimulus orientation on the vertex positive scalp potential evoked by faces. Experimental Brain Research, 96, 163–172. Jeffreys, D. A. (1996). Evoked potential studies of face and object processing. Visual Cognition, 3, 1–38. Kanwisher, N., Stanley, D., & Harris, A. (1999). The fusiform 1326 Journal of Cognitive Neuroscience face area is selective for faces not animals. NeuroReport, 10, 183–187. Kanwisher, N., Tong, F., & Nakayama, K. (1998). The effect of face inversion on the human fusiform face area. Cognition, 68, B1–B11. Leder, H., & Bruce, V. (2000). When inverted faces are recognized: The role of configural information in face recognition. Quarterly Journal of Experimental Psychology: A, 53, 513–536. Linkenkaer-Hansen, K., Palva, J. M., Sams, M., Hietanen, J. K., Aronen, H. J., & Ilmoniemi, R. J. (1998). Face-selective processing in human extrastriate cortex around 120 msec after stimulus onset revealed by magneto- and electroencephalography. Neuroscience Letters, 253, 147–150. Logothetis, N. K., & Sheinberg, D. L. (1996). Visual object recognition. Annual Review of Neuroscience, 19, 577–621. Maurer, D., Grand, R. L., & Mondloch, C. J. (2002). The many faces of configural processing. Trends in Cognitive Sciences, 6, 255–260. Michel, F., Poncet, M., & Signoret, J. L. (1989). [Are the lesions responsible for prosopagnosia always bilateral?]. Revue de Neurologie, 145, 764–770. Mooney, C. M. (1957). Age in the development of closure ability in children. Canadian Journal of Psychology, 11, 219–226. Moscovitch, M., Winocur, G., & Behrmann, M. (1997). What is special about face recognition? Nineteen experiments on a person with visual agnosia and dyslexia but normal face recognition. Journal of Cognitive Neuroscience, 9, 555–604. Perrett, D. I., Hietanen, J. K., Oram, M. W., & Benson, P. J. (1992). Organization and functions of cells responsive to faces in the temporal cortex. Philosophical Transactions of the Royal Society of London, B335, 23–30. Picton, T. W., Bentin, S., Berg, P., Donchin, E., Hillyard, S. A., Johnson, J. R., Miller, G. A., Ritter, W., Ruchkin, D. S., Rugg, M. D., & Taylor, M. J. (2000). Guidelines for using human event-related potentials to study cognition: Recordings standards and publication criteria. Psychophysiology, 37, 127–152. Puce, A., Allison, T., Asgari, M., Gore, J. C., & McCarthy, G. (1996). Differential sensitivity of human visual cortex to faces, letter-strings, and textures: A functional magnetic resonance imaging study. Journal of Neuroscience, 16, 5205–5215. Purcell, D. G., & Stewart, A. L. (1988). The face-detection effect: Configuration enhances detection. Perception & Psychophysics, 43, 355–366. Rhodes, G., Brake, S., & Atkinson, A. P. (1993). What’s lost in inverted faces? Cognition, 47, 25–57. Rhodes, G., Brake, S., Taylor, K., & Tan, S. (1989). Expertise and configural coding in face recognition. British Journal of Psychology, 80, 313–331. Rossion, B., Delvenne, J. F., Debatisse, D., Goffaux, V., Bruyer, R., Crommelinck, M., & Guerit, J. M. (1999). Spatio-temporal localization of the face inversion effect: An event-related potentials study. Biological Psychology, 50, 173–189. Rossion, B., Gauthier, I., Tarr, M. J., Despland, P., Bruyer, R., Linotte, S., & Crommelinck, M. (2000). The N170 occipito-temporal component is delayed and enhanced to inverted faces but not to inverted objects: An electrophysiological account of face-specific processes in the human brain. NeuroReport, 11, 69–74. Sagiv, N., & Bentin, S. (2001). Structural encoding of human Volume 17, Number 8 and schematic faces: Holistic and part-based processes. Journal of Cognitive Neuroscience, 13, 937–951. Sergent, J., Ohta, S., & MacDonald, B. (1992). Functional neuroanatomy of face and object processing. Brain, 115, 15–36. Tanaka, J. W., & Curran, T. (2001). A neural basis for expert object recognition. Psychological Science, 12, 43–47. Tanaka, J. W., & Farah, M. J. (1993). Parts and wholes in face recognition. Quarterly Journal of Experimental Psychology, 46, 225–245. Taylor, M. J. (2002). Non-spatial attentional effects on P1. Clinical Neurophysiology, 113, 1903–1908. Taylor, M. J., Edmonds, G. E., McCarthy, G., & Allison, T. (2001). Eyes first! Eye processing develops before face processing in children. NeuroReport, 12, 1671–1676. Valentine, T. (1988). Upside-down faces: A review of the effect of inversion upon face recognition. British Journal of Psychology, 79, 471–491. Yin, R. K. (1969). Looking at upside-down faces. Journal of Experimental Psychology, 81, 141–145. Latinus and Taylor 1327 3.3. Les trois étapes du traitement des visages et leur corrélat neurophysiologiques Objectifs & Méthodes Dans l’étude précédente, nous avons vu que l’effet d’inversion pour les Mooney Faces était différent de celui classiquement décrit dans la littérature. L’interprétation des résultats de l’étude était difficile du fait de l’utilisation de Mooney Faces uniquement. Dans l’article suivant, nous rapportons les effets d’inversion sur 3 types de visages impliquant différents traitements. Des photographies en niveau de gris ont été utilisées ; leur perception met en jeu tous les traitement décrits par Maurer et al. (2002). Des visages schématiques (visages très simplifiés), ne contenant pas d’informations sur l’identité, ont été inclus pour tester l’influence du traitement des relations de second ordre sur la N170. Les Mooney Faces permettent d’isoler la contribution du traitement holistique à la N170. Ainsi, en utilisant ces 3 types de visages à l’envers et à l’endroit, il nous est possible de mettre en évidence les contributions respectives de chaque étape du traitement des visages à l’allure de la N170. Résultats & Conclusions A l’endroit, les photographies et les visages schématiques évoquent une N170 similaire ; par contre, la N170 est retardée et plus petite pour les Mooney Faces. Le retard de la N170 pour les Mooney Faces est corrélé à la difficulté de la tâche (indexée par le d’) pour les Mooney Faces ; il disparaît après correction de la latence par la difficulté. La N170 est retardée pour les visages schématiques et les photographies à l’envers, mais pas pour les Mooney Faces ; cet effet persiste après correction de la latence pour la difficulté de la tâche. L’augmentation de l’amplitude de la N170 après inversion est spécifique des photographies. Ces résultats révèlent que 1) la difficulté de la tâche est responsable du retard de latence entre les différents visages à l’endroit mais pas de celui lié à l’inversion, 2) le traitement de la configuration de second ordre, présente seulement dans les photographies, n’intervient pas au niveau de la N170 évoquée par les visages à l’endroit, 3) l’augmentation de l’amplitude pour les visages inversés traduit l’addition du traitement analytique afin de faciliter l’identification. L’augmentation de la latence de la N170 pour les visages inversés reflète soit l’inversion de la vue canonique des visages photographiques et schématiques, soit le recrutement du traitement analytique, dont l’importance serait fonction de l’utilité ; dans les visages schématiques il ne serait utilisé que pour faciliter la détection, induisant alors seulement un retard de latence. 103 104 BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –1 87 a v a i l a b l e a t w w w. s c i e n c e d i r e c t . c o m w w w. e l s e v i e r. c o m / l o c a t e / b r a i n r e s Research Report Face processing stages: Impact of difficulty and the separation of effects Marianne Latinusa,⁎, Margot J. Taylor b a Centre de recherche Cerveau et Cognition, CNRS-Université Paul Sabatier, UMR5549, Faculté de Médecine de Rangueil, 31062 Toulouse Cedex 9, France b Diagnostic Imaging and Research Institute, Hospital for Sick Children, 555 University Avenue, Toronto, ON, Canada M5G1X8 A R T I C LE I N FO AB S T R A C T Article history: Cognitive models of face perception suggest parallel levels of processing yet there is little Accepted 9 September 2006 evidence of these levels in studies of brain function. Series of faces that engage different Available online 18 October 2006 processes ((photographs, schematic and Mooney faces (incomplete two-tone faces)) were presented upright, inverted and scrambled; subjects performed a face/non-face Keywords: discrimination while event-related potentials (ERPs) were recorded. Different patterns in Mooney face N170 latency and amplitude provided evidence of multiple steps in face processing, which Schematic face can be seen at the ERP level. We showed that first-order configural and holistic processing Photographic face were evident at the N170. N170 latency indexed task difficulty for the upright faces, yet the ERPs face inversion effect was independent of difficulty. N170 amplitude inversion effect was N170 unique to photographic faces. Separable ERP effects were found for the processing engaged Source analyses by the three face types, although the P1 and N170 sources did not differ. Thus, it appears that common brain sources underlie the early processing stages for faces (reflected in the P1 and N170), whereas the P2 showed activation of primary visual areas for the non-photographic faces and reactivation of the same regions as the N170 for the photographic faces. © 2006 Elsevier B.V. All rights reserved. 1. Introduction As proposed in the model of Bruce and Young, faces engage multiple levels of processing, related to the type of information extracted from faces (Bruce and Young, 1986). Empirically testing these levels or stages of processing has utilized various types of face modifications in recognition protocols (e.g., scrambled, morphed, composite or inverted faces). The most widely used is face inversion, as presenting faces upside down affects the configural processing leading to decreases in recognition accuracy, increases in reaction times and subjective reports of greater difficulty. This is referred to as the face inversion effect (Yin, 1969). Maurer et al. (2002) proposed that faces involve three separable levels of processing: first, faces are processed as first-order relational configuration (eyes above nose, above mouth), which leads to the holistic perception of faces (i.e., a face versus a non-face), which is the second level of processing. The third level is the second-order relational configuration (spatial relations among facial features) that gives faces their individual distinctiveness and allows identity recognition (Maurer et al., 2002). To determine if these levels have distinct neural patterns, faces that differentially invoke these levels of processing need to be compared (Fig. 1). Photographs of faces evoke event-related potentials (ERPs), P1 and N170, sensitive to face inversion: these ERP peaks are ⁎ Corresponding author. Fax: +33562172809. E-mail address: [email protected] (M. Latinus). 0006-8993/$ – see front matter © 2006 Elsevier B.V. All rights reserved. doi:10.1016/j.brainres.2006.09.031 180 BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –18 7 levels of processing, as they contain no identity information (Sagiv and Bentin, 2001), while photographic faces invoke all three levels of processing. Differences among stimulus categories can be amplified by increasing task difficulty; this is effected for faces by presenting them upside down. In order to elucidate neural activity underlying face processing, the three face types were presented with upright, inverted and scrambled (non-face/control) formats, while ERPs were recorded. Subjects performed a face detection task; ERP peak latencies and amplitudes were analyzed. Data were further analyzed with Cartool analysis software, which solves for the brain sources of ERP patterns (Michel et al., 2001). As the three face types should engage different stages of face processing, particularly when inverted, we could determine if these levels of processing activated different brain regions by comparing across face types. 2. Fig. 1 – Examples of the upright, inverted and scrambled faces used in the experiment. Top: Mooney faces, middle: photographs, and bottom: schematic faces. delayed and larger for inverted faces (Bentin et al., 1996; Itier and Taylor, 2002, 2004; Rossion et al., 2000; Taylor et al., 2001). Inverted schematic (smiley) faces, however, evoke a delayed but not enhanced N170 (Henderson et al., 2003; Sagiv and Bentin, 2001), while for inverted Mooney faces (incomplete two-tone representation of faces (Mooney, 1957)) P1 and N170 are neither delayed nor enhanced (Latinus and Taylor, 2005). The ERP inversion effect for photographic faces has been argued to be due to difficulty (George et al., 1996; Rossion et al., 1999), yet difficulty is greater for Mooney than photographic faces (George et al., 1997, 2005; Kanwisher et al., 1998; Latinus and Taylor, 2005), faces which do not show this ERP inversion effect. How does inversion affect neural processing such that this varies as a function of the type of face? These differences in the neural signature, dependent on the type of face, provide an opportunity to elucidate the underlying neural processing for faces. The three types of faces used in the present study involve different levels of processing proposed in the above theoretical model (Maurer et al., 2002). Mooney faces rely primarily on holistic processing (Latinus and Taylor, 2005; Moscovitch et al., 1997). As features are often not distinguishable in Mooney faces, the first order configural stage cannot be completed; moreover without clear features, the third stage also would not be completed (George et al., 2005). Mooney faces of wellknown people can be recognized individually, particularly if primed (Jemel et al., 2003) suggesting that holistic processing may be sufficient for recognition of very well known faces. In contrast, schematic faces engage only the first and second Results Photographic and schematic faces, whether upright, inverted or scrambled, were better detected as faces than Mooney faces (F2,26 = 96.11, p < 0.001); accuracy for inverted faces was lower than for upright faces or scrambled faces (F 2,26 = 11.55, p = 0.001) driven by inverted Mooney faces (type × subtype: F4,52 = 18.72, p < 0.001) (see Table 1). Reaction times (RTs) were the fastest to photographic faces and the slowest to Mooney faces (F2,26 = 108.44, p < 0.001). A general effect of subtype was observed (F2,26 = 37.72, p < 0.001) as non-faces (i.e. scrambled faces) were the slowest categorized regardless of face type; and as reaction times to inverted faces were slower than to upright faces across face types (see Table 1), with the largest difference seen for Mooney faces (type × subtype: F4,52 = 4.87, p = 0.006). As accuracy reached ceiling, d′, that saturates less than accuracy, was calculated for upright faces and inverted faces as a better index of task difficulty. No differences were seen between d′ for photographic (d′ = 3.88) and schematic faces (d′ = 3.61), but d′ for Mooney faces (d′ = 2.15) was significantly Table 1 – Mean accuracy (correctly identifying the stimulus as a face or not) and RTs to each face type Photographic Upright Inverted Scrambled Mooney Upright Inverted Scrambled Schematic Upright Inverted Scrambled % Hits (±SEM) RTs ms (±SEM) 98.52 (±0.51) 98.88 (± 0.37) 95.56 (± 0.92) 522.07 (± 18.03) 534.73 (± 17.86) 596.26 (± 13.58) 87.59 (± 1.47) 67.53 (± 3.54) 81.33 (± 2.14) 600.45 (± 17.35) 664.64 (± 21.58) 708.04 (± 15.10) 98.33 (± 1.52) 96.54 (± 1.05) 92.65 (± 0.50) 543.20 (± 19.23) 565.20 (± 21.06) 626.38 (± 14.14) Note that inversion disrupted face detection as measured by RTs for all three face types, and accuracy particularly for Mooney faces. RTs to scrambled faces (i.e., saying that the stimulus was not a face) were the longest. BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –1 87 lower (F2,28 = 92.062, p < 0.001) reflecting greater difficulty in the detection of Mooney faces. d′ was smaller to inverted than upright faces (F1,14 = 19.349, p = 0.001), driven by the Mooney faces (type × orientation: F2,28 = 23.173, p < 0.001), which were particularly difficult to perceive as faces when inverted (Table 1). The ERP components were measured for the nine different face types over posterior-temporal scalp, where they were the largest. Significant effects of face type or orientation were not seen on the P1, except for schematic faces evoking the smallest P1 (F2,26 = 10.14, p = 0.001) (Table 2). N170 latency was delayed for Mooney faces compared to photographic and schematic faces (F2,26 = 30.48, p < 0.001). N170 latency did not differ between upright photographic and schematic faces, but was delayed when these faces were inverted or scrambled (F2,26 = 12.83, p = 0.001), whereas N170 to Mooney faces was not 181 delayed whether Mooney faces were upright, inverted or scrambled (type × subtype: F4,52 = 7.50, p = 0.001) (Fig. 2a). As the N170 delay observed for inverted faces has been explained to be due to increased difficulty (George et al., 1996; Rossion et al., 1999), we determined whether this could account for the delayed N170 to Mooney faces by correlating d′ and N170. The correlation between d′ (index of task difficulty) and N170 latency across face types (upright and inverted) showed a linear relation (Fig. 2b)—greater difficulty (lower d′) was correlated with longer N170 latencies (R2 = 0.37, p < 0.0001). We then calculated new N170 latencies for the three face types adding in, as an estimate of task difficulty, the slope of the regression curves from these correlations. N170 latency no longer varied with face type (F2,28 = 0.280, n.s.), but remained delayed for inverted photographic and schematic faces (orientation, F1,14 = 40.67, p < 0.001; type × orientation: F2,28 = 12.85, p < 0.001) (Fig. 2c). Difficulty accounted for N170 differences among face types, but not the inversion effect. The remaining inversion delay could reflect a ceiling effect. d′ saturation depends on the number of trials (45 in the present case) leading to a maximum d′ in our experiment of 4.57. Only 7 points were at this level (Fig. 2b). To avoid the ceiling effect in d′, analyses were also done without those 7 points. N170 latencies calculated, taking into account the slope of this regression curve, were again delayed for inverted photographic and schematic faces but not for Mooney faces. We also ran regressions on each face type separately and found that only with schematic faces was there a significant correlation (R2 = 0.3044, p < 0.001) between d′ and N170 latency. Thus, it is particularly across face types that difficulty impacts N170 latency (Table 2). N170 was larger to photographic and schematic than Mooney faces (F2,26 = 5.32, p = 0.014). A general effect of subtype (F2,26 = 53.0, p < 0.001) was seen on N170 amplitude due to scrambled faces evoking the smallest N170 (Table 2). A face type by subtype interaction (F4,52 = 13.98, p < 0.001) and posthoc tests revealed that (i) inversion of photographs led to an enhanced N170 (p ≤ 0.004), while there was no difference with Fig. 2 – N170 latency correlations with d V. (a) Mean N170 latency (± SEM) for each face type and for upright ( ) and inverted ( ) versions. Note that N170 latency is delayed for Mooney faces compared to schematic and photographic faces (**p < 0.001), but the delayed N170 latency observed for inverted faces (*p < 0.01) is only seen for schematic and photographic faces. (b) Negative correlation between N170 latency (y axis) and d V (x-axis) (R2 = 0.37, p < 0.0001). Each subject's data point is shown for each face type: photographic faces (upright : ; inverted : □), schematic faces (upright : ♦; inverted ⋄) and Mooney faces (upright :▵; inverted :▴). The average for each face type and format are shown with the same symbols but in gray. (c) N170 latency (± SEM) after including the slope of the regression curves (i.e. − 6.1313); legend is the same as for panel a. Note that N170 latency is no longer delayed for Mooney faces compared to photographic and schematic faces, unlike N170 for their inverted formats which remain delayed. NB: taking account of the task difficulty (i.e. including the slope of the regression curves) increased N170 latency as it is an inverse correlation. ▪ 182 BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –18 7 Table 2 – Mean latencies and amplitudes for the three ERP components by condition P1 N170 P2 Latency (ms) ± SEM Amplitude (μV) ± SEM Latency (ms) ± SEM Amplitude (μV) ± SEM Latency (ms) ± SEM Amplitude (μV) ± SEM Photographic Upright Inverted Scrambled 108.02 ± 2.58 108.27 ± 2.40 107.72 ± 3.12 5.85 ± 0.74 6.29 ± 0.83 5.50 ± 0.90 161.03 ± 1.67 167.48 ± 1.30 173.72 ± 2.97 − 7.21 ± 0.94 − 8.83 ± 1.08 − 2.54 ± 0.73 227.56 ± 4.23 231.56 ± 3.55 226.45 ± 2.72 4.60 ± 1.38 4.24 ± 1.25 4.70 ± 1.12 Mooney Upright Inverted Scrambled 110.03 ± 3.54 108.31 ± 3.86 109.10 ± 3.79 5.50 ± 0.63 6.03 ± 0.88 5.70 ± 0.71 177.66 ± 2.76 180.40 ± 3.23 179.49 ± 4.09 − 6.09 ± 0.90 − 5.52 ± 0.76 − 4.34 ± 0.79 234.89 ± 1.99 236.25 ± 4.34 234.02 ± 2.57 2.84 ± 1.07 3.00 ± 1.35 3.81 ± 1.07 Schematic Upright Inverted Scrambled 105.71 ± 3.38 104.99 ± 3.46 107.87 ± 2.59 3.56 ± 0.58 4.53 ± 0.70 4.37 ± 0.61 163.92 ± 1.62 171.57 ± 2.07 168.54 ± 2.14 − 7.07 ± 0.83 − 6.74 ± 0.79 − 6.76 ± 0.82 226.50 ± 2.91 229.30 ± 3.04 227.39 ± 2.95 3.67 ± 1.11 3.19 ± 1.11 5.07 ± 1.15 inversion for the other two face types (p > 0.25) and (ii) scrambled faces had smaller N170s for photographic (p < 0.001) and Mooney (p ≤ 0.007) faces, but not schematic faces (p > 0.89) (Fig. 3). In summary, N170 was larger for face stimuli than non-face stimuli except for schematic faces and the N170 amplitude inversion effect was unique to photographic faces. P2, which is proposed to reflect deeper processing engaged to help categorize ambiguous stimuli (Latinus and Taylor, 2005), was delayed for inverted faces compared to upright faces and non face stimuli (F2,26 = 4.36, p = 0.024). P2 was also delayed for Mooney faces compared to both other face types (F2,26 = 5.96, p = 0.013). These effects were driven by the N170 latency delay, as peak to peak analyses (N170 to P2 latency) were not significant. A general effect of face type was seen on P2 amplitude (F2,26 = 8.96, p = 0.002) due to P2 being larger for photographic than for Mooney faces; P2 amplitude for schematic faces was between that to photographic and Mooney faces. P2 was sensitive to subtype as it was larger to scrambled stimuli compared to faces (F2,26 = 8.15, p = 0.007). Segmentation and source analyses were completed on grand averaged ERPs for each face type by orientation (i.e. 6 conditions). Segmentation analyses determine time points when ERP topography changes (Michel et al., 1999); source analyses were performed on the relevant segments (Michel et al., 2004) corresponding to the three peaks of interest. Segmentation analyses revealed that 4 maps were sufficient to explain differences among the six conditions. The topographic maps for P1 and N170 (map 1 and 4 respectively), remained constant across the six conditions (Fig. 4a). Inverse solutions were applied to these maps and brain sources are illustrated (Fig. 4b). P1 showed bilateral medial distribution in occipital and temporal regions; N170 showed activation of both occipital and lateral temporal sources, with right hemisphere dominance for the ventral source. Brain topography underlying P2 was the same to upright and inverted photographic faces (map 2), but the P2 for both Mooney faces and schematic faces yielded a different map (map 3) (Fig. 4a), that showed primarily left posterior activation in contrast to the bilateral activation to photographic faces along the ventral pathway. Thus, these analyses suggest that P2 to schematic and Mooney faces arose from different brain areas than the P2 to photographic faces. The latter appeared to be a reactivation of the ventral pathway active for the P1 and N170, implying involvement of fewer brain regions in early processing of photographic faces. 3. Discussion The manipulations of inversion and scrambling faces produced the classic effects of longer RTs and decreased accuracy consistent with increased difficulty, across the three face types. The effect of inversion was particularly marked for Mooney faces, as reported in studies with these two-tone stimuli (George et al., 2005; Jeffreys, 1993; Latinus and Taylor, 2005). The present study also found a distinct pattern of amplitude and latency effects on N170 for the three types of faces. N170 was larger for face stimuli compared to non-face (photographic and Mooney) stimuli concordant with a host of studies showing that N170 reflects face processing. This was not seen for schematic faces, which can be accounted for by a context effect. It has been shown by Bentin and Golland (2002) that scrambled schematic faces evoke a large N170 during a face detection paradigm, but only when they have been primed by non-scrambled versions (Bentin and Golland, 2002). Interestingly, the largest N170 amplitude differences between face and non-face stimuli appear in paradigms where attention is not directed towards the faces. When the subject's task is face recognition or detection, the N170 to all stimuli is larger whether they are faces or not (e.g. George et al., 2005) as is the case in the present study. N170 latency was the same for upright photographic and schematic faces, but delayed for Mooney faces. Face inversion increased N170 latency only for photographic and schematic faces. N170 amplitude was smaller for Mooney faces compared to both other face types; the N170 enhancement to inversion was seen only for photographic faces. The model of Maurer et al. (2002) proposes three separable levels for face processing (Maurer et al., 2002). By directly comparing across different face types with configural modifications, the present data argue that BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –1 87 Fig. 3 – Grand average ERPs for each face type and formats. ( ) upright, ( ) inverted, ( ) and scrambled versions. (a) N170 for photographic faces, (b) N170 for Mooney faces and (c) N170 for schematic faces. N170 is sensitive to these levels of face processing, plus a further analytical process when faces are inverted. Photographic and schematic upright faces initially engage first-order relations processing, followed by holistic processing. In contrast, the first processing that would be reliably invoked by Mooney faces is holistic (Latinus and Taylor, 2005); Mooney faces often do not have identifiable features (two eyes, over nose, over mouth) and are seen as a whole or gestalt image. The delayed N170 observed for Mooney faces, compared to both other face types, was accounted for by increased task difficulty, as when N170 latency was corrected for difficulty – indexed by d′ – no differences were seen among 183 Mooney, schematic and photographic faces. Thus, the first effect seen on N170 is the almost simultaneous recruitment of first-order relations and holistic processing; recruitment of the latter is modulated by difficulty. Mooney faces evoke a smaller N170 as they recruit only holistic processing whereas, holistic and first-order relations appeared additive for schematic and photographic faces leading to a larger N170 (see model, Fig. 5a). The face inversion effect on N170 differed across face types as when inverted, schematic and photographic faces produced delayed N170s, an effect not seen for Mooney faces. This inversion effect on N170 latency remained even after correction for task difficulty. Hence, the N170 delay for inverted faces does not appear to be due to difficulty as has been suggested in the literature (George et al., 1996; Rossion et al., 1999). Instead we suggest that the latency shift with inversion is due to a further process being recruited or engaged by photographic and schematic faces when these faces were upside down (Sagiv and Bentin, 2001). We submit that analytic processing, i.e. extraction of detailed information, which is invoked for feature by feature analysis of stimuli within the context of facial configuration, is the further process recruited by photographic and schematic faces. Analytical processing is used for objects (Haxby et al., 1999), which also show a delayed N170 compared to faces (Itier and Taylor, 2004; Itier et al., 2006). Thus, the involvement of additional analytic processing for inverted photographic and schematic faces, which entails slower, serial analysis of faces, would produce the delayed N170s (Fig. 5b). In contrast, Mooney faces would not typically engage analytic processing as features are not readily distinguishable in this face type. Whether upright or inverted Mooney faces engage holistic processing; this could explain the latency being the same for these faces despite orientation. Photographic and schematic faces evoked a similar N170 when upright; however, the face inversion effect differed between these two face types, as only photographic faces showed an amplitude enhancement when inverted. The same N170 for upright photographic and schematic faces could suggest that second-order relations are not processed at the N170 stage, as this processing is argued to be recruited only for photographs (Sagiv and Bentin, 2001). This would be consistent with studies showing that N170 is not sensitive to familiarity (Eimer, 2000a,b; Rossion et al., 1999) which requires second-order configuration processing. Differences in N170 amplitude when schematic and photographic faces were inverted could be due to the way they use analytic processing. Inverted photographic faces would engage additional analytical processing to aid in face identification, producing the larger N170. In contrast, inverted schematic faces would recruit analytic processing to improve face detection not face identification, leading to a delayed but not enhanced N170 (Sagiv and Bentin, 2001). This is also supported by behavioural results as inversion reduced accuracy somewhat and increased RTs for photographic and schematic faces, whereas for Mooney faces dramatic effects were seen on accuracy and RTs, as only holistic processing is not sufficient for face detection of these inverted faces. An alternative explanation for the face inversion effect on the N170 is that second-order configural processing is evoked 184 BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –18 7 Fig. 4 – Segmentation and source analyses on grand averages for upright and inverted version of each face type. (a) Segmentation analysis: GFP function over time (0–300 ms). Note that the 4 maps that are sufficient to explain all of the data in this time window, correspond to time intervals around each peak measured. (b) Source analysis on the different segments underlying P1 (z = − 4 mm), N170 (z = − 2 mm) and P2 (for Mooney and schematic faces: z = − 10 mm and for photographic faces (z = − 4 mm), showing the brain areas activated for these processing stages; only P2 shows a face-type effect. for upright faces automatically, whether photographic, schematic or Mooney. When inversion disrupts this processing, no further configural processing continues for the schematic faces, as they do not contain identity information (Sagiv and Bentin, 2001), nor for the Mooney faces, as recognizing identity in inverted Mooney faces was not possible in the present task. With this model, N170 would index the spatial/relational configural processing of faces (Bentin et al., 1996; Eimer, 1998; Itier and Taylor, 2004). For inverted photographic faces only, analytical processing would be superimposed on the three standard stages of face processing, the addition of which would yield the larger, later N170 peak. Source analyses showed that regardless of the face type or orientation, the same brain areas seemed activated for N170. In other words, although one can differentiate the stages of face processing with N170 latency and amplitude patterns, these stages nevertheless appear to engage the same neural generators. In contrast, neural mechanisms underlying P2, proposed to reflect deeper processing of stimuli, showed face type differences in localisation. P2 was larger to scrambled faces than upright and inverted faces, in accordance with previous results with Mooney faces (Latinus and Taylor, 2005). The P2 showed a bilateral reactivation of the ventral visual pathway for photographic faces but activation in the left occipito-temporal brain regions for Mooney and schematic faces. These data suggest that P2 reflects a left-lateralised, thus perhaps more analytical re-processing of the primary visual features for these simplified or impoverished face stimuli, whereas continued configural processing was seen for photographic faces, likely to facilitate identification (Caharel et al., 2002). It may be this activation associated with P2, which differs for the atypical faces, that has led to the suggestion in the fMRI literature of differing sources for configurally different faces (Haxby et al., 1999). As fMRI is BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –1 87 185 Fig. 5 – A model for face processing: in light grey, photographic faces; dark grey: schematic (smiley) faces and in black, Mooney faces. (a) Model for upright faces. According to Bruce and Young (1986) face processing starts by general low-level features analysis that may correspond to P1 in ERPs, followed by face structural analysis leading to face detection (Bruce and Young, 1986). Second-order processing builds on the first two stages and enables face recognition. We suggest that face detection is based on first-order relational configuration, leading to holistic processing. As photographic and schematic faces have distinguishable features they engage first-order configuration then holistic processes, face detection following holistic processing. This may explain that N170 amplitude was similar for these two face types. In some conditions, holistic processing could be the first step of face processing, as in the case of Mooney faces, as features are difficult to distinguish. Mooney faces enter the model at the level of holistic processing leading to a slightly delayed and smaller N170. Photographic faces automatically recruit second-order configural processing for face identification. Recruitment of second-order processing and face recognition units may be task dependent for unusual face stimuli. Second-order information is available in schematic faces but not processed as they do not contain physiognomic information and there was no task requirement for recognition. In the same vein, identity can be processed in Mooney faces in some circumstances (Jemel et al., 2003) but this was not the case for the present task (dashed arrows). (b) Model for inverted faces. As for upright faces, inverted face analysis starts with low-level features processing and proceeds through the three stages. For photographic and schematic faces, inversion disrupts face configuration, leading to a delayed N170 due to recruitment of analytic processing, as available. Analytic processing is less implicated for schematic faces: delayed but not enhanced N170 (as shown by a thin arrow). Photographic faces recruit analytic processing for face recognition leading to the enhanced N170, as observed. Inverted Mooney faces engage only holistic processing but this is often inadequate to recognize the stimulus, as a face as seen by the frequent failure. averaged across time, then for the photographic faces the activation at the N170 and reactivation of the same areas at the P2 latency would be seen as a single area of activation on fMRI. With the schematic and Mooney faces, wider brain regions would appear active on fMRI. 4. amplitude and latency patterns of the N170 as a function of the type of face and its orientation. This temporal–spatial separation would be obscured by fMRI. We also show that different face-related processes engage the same brain sources for the P1 and N170 activation, but varied with face type for the later P2. Finally, we suggest that difficulty does not account for the neurophysiological face inversion effect. Conclusions The present study demonstrates that the ERP component sensitive to faces (N170) reflects different levels of processing, effectively representing the sum of up to four processing stages, with their temporal incongruities yielding the distinct 5. Experimental procedures Fifteen young adults (6 men, mean age = 25.8 years) participated in the study. All had normal or corrected-to-normal vision; 186 BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –18 7 three were left-handed. They reported taking no medication and had no history of neurological, ophthalmological or systemic disease. They gave informed written consent. The experiment was approved by the French Comité Opérationnel pour l'Ethique dans les Sciences de la Vie du CNRS. Stimuli used in the experiment were grayscale photographic faces, schematic faces and Mooney faces as well as scrambled, non-face stimuli made from the three types of faces. Non-faces were scrambled versions of the upright faces: for Mooney faces, black-and-white patches of the images were moved to create nonsense stimuli; for schematic faces, patches that contained parts of the features were moved and the outlined broken; for photographic faces, square patches were randomly moved in the pictures using a Photoshop option. These different face types were presented in upright, inverted or scrambled format. There were 45 different pictures of these nine categories and, to prevent a repetition effect, no pictures were presented both upright and inverted (see Fig. 1, upright, inverted and scrambled faces). Subjects sat in a darkened room in a comfortable chair. Stimuli were presented centrally on a grey screen 60 cm in front of the subjects. The stimuli subtended 10 × 11° of visual angle: they were presented for 300 ms in random order using Presentation 6.0, with an ISI between 1200 and 1600 ms. Subjects fixated a small white cross that appeared centrally on the screen between the pictures. They performed a face versus non-face detection task; they pressed a keyboard key for faces with one hand and another key for non-face stimuli with the other hand. The hand used for faces was counterbalanced across subjects. Five blocks of 81 randomly ordered stimuli (9 of each category) were presented in random order. Short breaks were given to subjects between blocks. Accuracy and reaction times were recorded using Presentation 6.0. Electrophysiological data were recorded using 32 electrodes inserted in a cap (Easy Cap) plus three ocular electrodes to record eyes movements. The electrodes were placed according to the 10/10 system. FCz was the reference during acquisition, and an average reference montage was calculated off-line. The ground was located at Fpz. Impedances were kept under 5kΩ. EEG was recorded using Neuroscan 4.2, the signal was amplified using Synamps system with a 500 gain. Data were recorded with a frequency of 1000 Hz through a band pass of 0.1–100 Hz with a notch at 50 Hz. Continuous data files were epoched into 800 ms (100 ms prestimulus, 700 ms post) epochs. After baseline correction, trials with artifacts between − 100 and 500 ms, ± 100 μV were rejected. Epochs were then averaged as a function of stimulus subtype and response, i.e. only the trials with correct behavioural responses were included, and filtered at 0.1–30 Hz. We measured latencies (from stimuli onset) and amplitude (from baseline) of three ERP components (P1, N170 and P2) over parieto-occipito-temporal sites where they were maximal. Peak analyses were performed on individual data for each condition, within a 30 ms time-window centered at the peak in the appropriate grand average. P1 was measured at electrodes P7/P8 and O1/O2 in a 80–130 ms time-window, N170 was measured at electrodes PO9/PO10 and P7/P8, in a 140–200 ms time-window and P2 was measured between 200 and 260 ms at P7/P8, O1/O2 and P3/P4 electrodes. The peak latencies and amplitudes were submitted to repeated measures analysis of variance, within subjects factors were face format (3 levels (upright, inverted, scrambled) and face type (3 levels, photographic, Mooney, schematic), as well as hemisphere and electrode (2 levels for P1 and N170, 3 levels for P2) for peak amplitudes (Picton et al., 2000). To investigate brain sources involved in the different stages of face processing we performed a segmentation analysis of the scalp activity into microstates preliminary to source analysis using Cartool software (Denis Brunet, Functional Brain Mapping Laboratory, Geneva, Switzerland). Functional microstates reflect stable configurations or maps of scalp electromagnetic activity over time intervals; variations in signal stability are seen as changes in map configuration. Segmentation is a spatio-temporal cluster-analysis that determines the predominant configuration over time. The cluster analysis defines the optimal numbers of maps that describe the data (Michel et al., 2001). Segmentation maps are represented in the global field power (GFP, equivalent to the instantaneous standard deviation of the scalp potential measurement) over the time period of interest, here between 0 and 300 ms (Fig. 4a). Source analyses were completed on the appropriate segments using a distributed inverse solution (LAURA) (Michel et al., 2001). Acknowledgments The first author was supported by La Fondation pour la recherche médicale. We would like to thank Shlomo Bentin for sharing his schematic face stimuli. REFERENCES Bentin, S., Golland, Y., 2002. Meaningful processing of meaningless stimuli: the influence of perceptual experience on early visual processing of faces. Cognition 86, B1–B14. Bentin, S., Allison, T., Puce, A., Perez, E., Mccarthy, G., 1996. Electrophysiological studies of face perception in humans. J. Cogn. Neurosci. 8, 551–565. Bruce, V., Young, A., 1986. Understanding face recognition. Br. J. Psychol. 77 (Pt. 3), 305–327. Caharel, S., Poiroux, S., Bernard, C., Thibaut, F., Lalonde, R., Rebai, M., 2002. ERPs associated with familiarity and degree of familiarity during face recognition. Int. J. Neurosci. 112, 1499–1512. Eimer, M., 1998. Does the face-specific N170 component reflect the activity of a specialized eye processor? NeuroReport 9, 2945–2948. Eimer, M., 2000a. The face-specific N170 component reflects late stages in the structural encoding of faces. NeuroReport 11, 2319–2324. Eimer, M., 2000b. Event-related brain potentials distinguish processing stages involved in face perception and recognition. Clin. Neurophysiol. 111, 694–705. George, N., Evans, J., Fiori, N., Davidoff, J., Renault, B., 1996. Brain events related to normal and moderately scrambled faces. Cogn. Brain Res. 4, 65–76. George, N., Jemel, B., Fiori, N., Renault, B., 1997. Face and shape repetitions effects in humans: a spatio-temporal ERP study. NeuroReport 8, 1417–1423. George, N., Jemel, B., Fiori, N., Chaby, L., Renault, B., 2005. Electrophysiological correlates of facial decision: insights from BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –1 87 upright and upside-down Mooney-face perception. Brain Res. Cogn. Brain Res. 24, 663–673. Haxby, J.V., Ungerleider, L.G., Clark, V.P., Schouten, J.L., Hoffman, E.A., Martin, A., 1999. The effect of face inversion on activity in human neural systems for face and object perception. Neuron 22, 189–199. Henderson, R.M., McCulloch, D.L., Herbert, A.M., 2003. Event-related potentials (ERPs) to schematic faces in adults and children. Int. J. Psychophysiol. 51, 59–67. Itier, R.J., Taylor, M.J., 2002. Inversion and contrast polarity reversal affect both encoding and recognition processes of unfamiliar faces: a repetition study using ERPs. NeuroImage 15, 353–372. Itier, R.J., Taylor, M.J., 2004. N170 or N1? Spatiotemporal differences between object and face processing using ERPs. Cereb. Cortex 14, 132–142. Itier, R.J., Latinus, M., Taylor, M.J., 2006. Face, eye and object early processing: what is the face specificity? NeuroImage 29, 667–676. Jeffreys, D.A., 1993. The influence of stimulus orientation on the vertex positive scalp potential evoked by faces. Exp. Brain Res. 96, 163–172. Jemel, B., Pisani, M., Calabria, M., Crommelinck, M., Bruyer, R., 2003. Is the N170 for faces cognitively penetrable? Evidence from repetition priming of Mooney faces of familiar and unfamiliar persons. Brain Res. Cogn. Brain Res. 17, 431–446. Kanwisher, N., Tong, F., Nakayama, K., 1998. The effect of face inversion on the human fusiform face area. Cognition 68, B1–B11. Latinus, M., Taylor, M.J., 2005. Holistic processing of faces; learning effects with Mooney faces. J. Cogn. Neurosci. 17, 1316–1327. Maurer, D., Grand, R.L., Mondloch, C.J., 2002. The many faces of configural processing. Trends Cogn. Sci. 6, 255–260. Michel, C.M., Seeck, M., Landis, T., 1999. Spatiotemporal dynamics of human cognition. News Physiol. Sci. 14, 206–214. Michel, C.M., Thut, G., Morand, S., Khateb, A., Pegna, A.J., 187 Grave de Peralta, R., Gonzalez, S., Seeck, M., Landis, T., 2001. Electric source imaging of human brain functions. Brain Res. Brain Res. Rev. 36, 108–118. Michel, C.M., Murray, M.M., Lantz, G., Gonzalez, S., Spinelli, L., Grave de Peralta, R., 2004. EEG source imaging. Clin. Neurophysiol. 115, 2195–2222. Mooney, C.M., 1957. Age in the development of closure ability in children. Can. J. Psychol. 11, 219–226. Moscovitch, M., Winocur, G., Behrmann, M., 1997. What is special about face recognition? Nineteen experiments on a person with visual agnosia and dyslexia but normal face recognition. J. Cogn. Neurosci. 9, 555–604. Picton, T.W., Bentin, S., Berg, P., Donchin, E., Hillyard, S.A., Johnson Jr., R., Miller, G.A., Ritter, W., Ruchkin, D.S., Rugg, M.D., Taylor, M.J., 2000. Guidelines for using human event-related potentials to study cognition: recording standards and publication criteria. Psychophysiology 37, 127–152. Rossion, B., Delvenne, J.F., Debatisse, D., Goffaux, V., Bruyer, R., Crommelinck, M., Guerit, J.M., 1999. Spatio-temporal localization of the face inversion effect: an event-related potentials study. Biol. Psychol. 50, 173–189. Rossion, B., Gauthier, I., Tarr, M.J., Despland, P., Bruyer, R., Linotte, S., Crommelinck, M., 2000. The N170 occipito-temporal component is delayed and enhanced to inverted faces but not to inverted objects: an electrophysiological account of face-specific processes in the human brain. NeuroReport 11, 69–74. Sagiv, N., Bentin, S., 2001. Structural encoding of human and schematic faces: holistic and part-based processes. J. Cogn. Neurosci. 13, 937–951. Taylor, M.J., Edmonds, G.E., McCarthy, G., Allison, T., 2001. Eyes first! Eye processing develops before face processing in children. NeuroReport 12, 1671–1676. Yin, R.K., 1969. Looking at upside-down faces. J. Exp. Psychol. 81, 141–145. 114 3.4. Discrimination du genre Après avoir exploré les corrélats neuronaux des traitements du visage, nous nous sommes intéressées à un niveau inférieur de catégorisation des visages : la catégorisation du genre. Les données de cette expérience sont présentées dans un article inclus dans la deuxième partie de ma thèse (partie 2, A.3), article dans lequel se trouvent également deux expériences sur la catégorisation du genre de la voix. Objectifs & Méthodes Le modèle de Bruce & Young (1986) propose que la reconnaissance du genre soit parallèle à la reconnaissance de l’identité, et qu’elle ait lieu au moment de l’encodage structurel, tout en étant indépendante de celui-ci. Le genre du visage dépend essentiellement d’informations de bas niveau telles que la texture, la forme du visage. Nous avons utilisé des photographies de visages en niveaux de gris. Les sujets réalisaient une catégorisation du genre. L’activité électrique était enregistrée pendant l’expérience, et les pics ainsi que les topographies ont été analysés. Résultats & Conclusions Au niveau comportemental, les résultats montrent que cette tâche est réalisée facilement et rapidement. Ni la P1 ni la N170 ne sont affectées par le genre du visage. Les différences entre visages d’hommes et visages de femmes ne sont significatives que sur les électrodes fronto-temporales gauches et pariétales entre 137 et 170 ms. Les visages d’hommes évoquent une activité plus diffuse que les visages de femmes. L’absence de modulation de la P1 peut traduire 1) une sensibilité de la P1 à des éléments bas niveau tels que le contraste, la luminance, 2) un masquage du traitement des éléments de bas niveau par les processus descendants, l’attention étant explicitement dirigée vers le genre du visage (Batty et al., 2003; Holmes et al., 2003). Ces résultats confirment que la N170 reflète l’étape d’encodage structurel du visage, précédant son identification. Ils mettent également en évidence que le traitement du genre a lieu en parallèle de celui de l’identité, et prend place au même moment que la détection du visage. Ceci est en accord avec des études montrant, au niveau comportemental, une détection simultanée du visage et du genre (Bacon-Macé, 2006). 115 116 3.5. Identification du visage Objectifs et Méthodes Dans cette étude, nous avons exploré les corrélats neuronaux de la reconnaissance des visages, particulièrement sur la N170, dont la sensibilité à l’identité du visage est controversée. Deux types de familiarité ont été étudiés. Dans un premier bloc (Bloc Célèbre), les visages familiers étaient ceux de personnalités (visage de star, politicien etc.) – familiarité acquise écologiquement suite à des présentations variées et répétées du visage ; des visages inconnus appariés servaient de contrôle. Dans un deuxième bloc (Bloc Appris), les visages familiers étaient des visages appris artificiellement – des photographies de visage en vue de face étaient données aux sujets une semaine avant l’enregistrement des potentiels évoqués, les sujets avaient pour consigne de se souvenir des visages ; des visages non familiers appariés servaient de contrôle. Tous ces visages étaient présentés à l’envers et à l’endroit afin de distinguer le rôle des traitements configuraux dans la reconnaissance du visage. Résultats & Conclusions Au niveau comportemental, les visages célèbres sont reconnus les plus rapidement. L’effet d’inversion du visage, diminution des performances et augmentation des temps de réaction, est observé pour tous les visages, il touche plus fortement la reconnaissance des visages célèbres. Dans le Bloc Célèbre, les visages connus évoquent une N170 plus petite que les vissages inconnus. L’inversion augmente la latence et l’amplitude de la N170. Dans le Bloc Appris, l’amplitude de la N170 ne discrimine pas entre les visages familiers (appris) ou non familiers. L’effet d’inversion se traduit par une augmentation de l’amplitude de la N170, sans augmentation de latence. Ces résultats suggèrent que les visages de personnalités sont traités de manière holistique. En effet, la N170 est plus petite pour les visages célèbres et leur inversion diminue considérablement leur reconnaissance ; résultats similaires à ceux rapportés pour les Mooney Faces. L’inversion entraîne le recrutement du traitement analytique pour faciliter l’identification. Dans le bloc appris, l’absence de différence entre visages familiers et non familiers suggère que la N170 n’est pas sensible à la familiarité, mais aux traitements mis en jeu par les visages, qui sont probablement soumis à l’influence de processus descendants. Les visages appris artificiellement sont probablement traités de manière plus analytique, expliquant qu’il n’y ait pas d’augmentation de la N170 avec l’inversion du visage. 117 118 * Manuscript Early processing differences between learned and famous faces. Dimitri J. Baylea,b*, Marianne Latinus b, Thierry Deltheilb,c, Karl Bolherb, Margot J. Taylord aINSERM Unité 821, Lyon, France. bCerCo, UMR 5549, CNRS, Toulouse, France cLaboratoire de Neuropharmacologie EA 3544 Univ Paris-Sud 92296 Châtenay-Malabry, France dDiagnostic Imaging, Research Institute, Hospital for Sick Children, Toronto, Canada *Corresponding author: Dimitri Bayle INSERM Unité #821, Batiment 452 Centre hospitalier le Vinatier 95 Boulevard Pinel 69500 Bron, France email: [email protected] Tel : +33472138900 Fax : +33472138901 Bayle et al 2 ABSTRACT: Face recognition is a core ability for social interaction, yet reliable neurophysiological correlates of face familiarity have not been determined. Here we compared the effects of two types of familiarity: recently-learned and well known (famous) faces. Subjects learned 40 otherwise unfamiliar faces over the period of one week prior to ERP testing. These faces were presented intermixed with 40 new faces, in upright and inverted blocks of trials. A second series of faces with the same paradigm consisted of 40 famous faces and 40 unknown faces. ERPs were recorded during the tasks. As classically seen, inversion increased error rates and reaction times. An effect of familiarity was found in the behaviour and the early ERP components but only for famous faces. Famous faces were recognized faster than unknown faces, and also yielded smaller N170 amplitudes and shorter P2 latencies than their matched unknown faces. Thus, processing of famous faces differs from that of unknown as well as recently learned faces. We suggest that face processing is modified with long-term familiarity and results in a more holistic representation of faces. Keywords: face processing, familiarity, event-related potentials, P1, N170, P2 2 Bayle et al 3 INTRODUCTION: Many aspects of face processing have been studied over the last decades, with a particular surge in neuroimaging investigations. Reports have shown behavioural and neural differences between face and object perception, arguing for face specificity due to processes differing between these two categories (Bentin, Allison, Puce, Perez, & McCarthy, 1996; Haxby et al., 1999; Itier & Taylor, 2004a; Tanaka & Farah, 1993). In contrast to many other stimuli, faces invoke configural processing which can be divided into three stages. Face detection implies first-order relations (eyes above nose above mouth) that need to be processed initially, leading to the second stage, holistic processing of the face. Finally, face identification involves second-order relations processing, such as distance among features (Maurer, Grand, & Mondloch, 2002). The involvement of these three stages of face processing differs however, as a function of face type (photographic, schematic, or Mooney faces; (Latinus & Taylor, 2005; Sagiv & Bentin, 2001), configural disruption (inverted or negative faces compared to upright faces (Farah, Tanaka, & Drain, 1995; Kemp, McManus, & Pigott, 1990; Rhodes, Brake, & Atkinson, 1993; Yin, 1969) and context (Bruce, Dench, & Burton, 1993; Bruce & Valentine, 1985; Ellis, Young, Flude, & Hay, 1987; Goshen-Gottstein & Ganel, 2000). Event-related potentials (ERPs) are invaluable for the investigation of early stages of processing due to their excellent temporal resolution. Faces evoke a posterior triphasic ERP; the negative peak at 170ms (N170) is particularly face sensitive (Bentin et al., 1996; Botzel, Schulze, & Stodieck, 1995; George, Evans, Fiori, Davidoff, & Renault, 1996), being smaller or absent to non-face stimuli. Perturbation in face stimuli or the use of different face types that affect processing are reflected in the N170 (Bentin et al., 1996; Eimer, 2000b; Taylor, Itier, Allison, & Edmonds, 2001). For example, N170 to inverted faces has increased amplitude and latency, due to the disturbance of configural face information and the recruitment of 3 Bayle et al 4 analytic processing (Latinus, 2006; Leder, Candrian, Huber, & Bruce, 2001; Rhodes et al., 1993; Sagiv & Bentin, 2001). The first peak of the triphasic ERP, P1, is largest over occipito-temporal brain regions. P1 is sensitive to configural changes of faces (Halit, de Haan, & Johnson, 2000; Itier & Taylor, 2004b; Linkenkaer-Hansen et al., 1998), although other studies have found a P1 sensitivity only in low-level features (Rossion, Delvenne et al., 1999). It appears that P1 reflects an early automatic processing of faces, and that attention to the faces can perturb this effect (Holmes, Vuilleumier, & Eimer, 2003), producing the discrepant results in the literature. The third component, P2, has been less studied, but is suggested to reflect deeper processing of face stimuli, related to processing facial identity or to the difficulty of identification (Halit et al., 2000; Latinus & Taylor, 2005), and is also sensitive to configural manipulation (Boutsen, Humphreys, Praamstra, & Warbrick, 2006; Halit et al., 2000; Itier & Taylor, 2002). Although N170 and P1 are variously affected by to disruptions of stimuli such as inversion or contrast (Eimer, 2000a; Itier & Taylor, 2002), the sensitivity of these early ERPs to familiarity and recognition remains controversial, as studies provide inconsistent results, likely due to the variability in recognition paradigms. For investigations of familiarity processing, studies have relied on two quite different types of protocols. One group of protocols has addressed familiarity using learned faces, which requires the learning previously unknown faces. For example, Paller et al. (1999) presented 40 unknown faces of which 20 were to be memorized. They reported a more positive late ERP for remembered faces between 300 and 900 ms. This difference was localized frontally between 300 and 600 ms, and parieto-occipitally between 600 and 900 ms. The same authors reported a maximum enhancement of positivity for learned faces compared to new faces between 400 and 500 ms, in the left parietal region (Paller et al., 2003). Using learned faces, Rossion et al (1999) found an effect of familiarity on a central N2 component (230ms; the polarity inversed 4 Bayle et al 5 aspect of the P2), but this was not specific to faces, as it was also reported with visual pattern stimuli. The second group of studies on familiarity has used photographs of famous people. Eimer (2000a) and Bentin and Deouell (2000) found an effect on the N400 and P600 components, which were enhanced to familiar faces. They argued that the N170 is insensitive to familiarity because it reflects the structural encoding processes prior to face identification. However, other studies have shown that the N170 can be modified by familiarity. Caharel et al. (2002) compared ERPs to an unfamiliar face, famous face and one’s own face in a passive viewing experiment. For the two familiar faces (own face and famous face), an increase in the N170 amplitude and a decrease of P2 were observed. The decrease of P2 amplitude was greater for the subject’s own face than for a famous face. Thus, modifications induced by familiarity were dependent on the level of familiarity. In a repetition paradigm, Jemel et al. (2003), primed Mooney faces with photographs in four different conditions (same picture or not, famous face or unfamiliar face). The N170 amplitude to the Mooney faces was reduced only if it was a primed famous face. They concluded that the early perceptual stage of face processing represented by the N170 is affected by familiarity. However, Mooney faces are difficult to process except holistically. That these stimuli are sensitive to familiarity implies that holistic information is sufficient for identification of famous faces. As the above results differ as a function of the face stimuli used, the timing of face identification is not resolved. Familiarity is studied across two types of faces: either learned faces or famous faces, and typically authors use only one of the two types of faces to arrive at general conclusions on the effect of familiarity. Although both categories of faces have shown long latency effects, early effects are seen only with famous faces. The fact that the findings differ between learned and famous implies different processing. The ease of face recognition for famous faces is due to repeated presentations of a face, usually in various 5 Bayle et al 6 contexts with various view-points and with associated semantic information. Thus, it is important to differentiate this from newly learned faces that are acquired in an experiment, in shorter, non-ecologically valid setting and often without the usual semantic associations. An fMRI study compared the brain activation to learned faces and famous faces, and showed that the faces activate different brain regions probably due to greater involvement of memory processing for the famous faces (Leveroni et al., 2000). However, this study did not permit timing measures of the processing difference between famous and learned faces. We wanted to determine the neurophysiological correlates associated with these two recognition processes, using ERPs that are sensitive to face processing. As suggested in studies using Mooney faces (Jemel et al., 2003), we hypothesized that famous faces are well enough encoded in memory that holistic processing would be sufficient for identity recognition. If this is the case, N170 to famous faces would be smaller than to unfamiliar faces, as for Mooney faces compared to normal photographs (Latinus & Taylor, 2005). The inversion effect could either be the same as for Mooney faces (i.e. a smaller N170 – Latinus and Taylor, 2005) associated with a decreased in recognition of inverted famous faces or later and larger N170 as, contrarily to Mooney faces, featural and analytic processing could be involved with famous faces. In contrast, learned faces would be encoded with strategies that would likely engage all three configural processing described by Maurer et al. (2002) and analytical processing when inverted. We compare the ERPs associated with these two recognition processes, using learned and famous faces presented upright and inverted in a known/unknown paradigm. The use of inverted face stimuli increases difficulty, which should amplify processing differences between the two categories of faces to better differentiate the processes used for face identification. 6 Bayle et al 7 METHODS: Subjects Sixteen healthy young adults (8 females, mean age 23.4 years) participated in the study. All had normal or corrected to normal vision, and gave informed, written consent. The institutional (CNRS) ethics committee approved the procedure. One week prior to the ERP recording session, the subjects received a set of 40 faces that they were asked to study for 15 minutes each day; all reported being diligent in completing this daily studying. Stimuli and procedure Stimuli were greyscale photographic faces. There were two sets of stimuli: the first was a set of 80 pictures of unknown faces (40 of which were studied during the week before testing). The second set included 40 famous faces (singers, actors, politicians) and 40 unfamiliar faces. As the famous faces were often ¾ view, the unfamiliar faces in this set were matched for view. Thus, there were four groups of faces: faces learned by the subjects (the 40 given the week before), and their matched unknown faces, and the famous faces and their matched unknown faces (Fig. 1 – first row). Each category contained 40 items (20 males/20 females), yielding two blocks of trials of 80 faces in random order. The 2 blocks were also run with the faces inverted, in a different random order; whether the first pair of blocks was upright or inverted was balanced across subjects. As photographs were different in the blocks, we analyze the luminance between the unknown and their matched famous or learned faces. The average luminance of the faces between the famous and learned and their matched controls faces did not differ significantly, although there was more variability in the face position in famous block (Error! Reference source not found. – second row). 7 Bayle et al 8 Pictures were presented in the centre of a black screen 80 cm in front of the subject; pictures subtended a visual angle of 7.5 x 8.8°. The two tasks were to discriminate known from unknown faces for both learned and famous blocks, whether presented upright or inverted. Subjects responded 'yes' to known (recognised) and 'n o' to unknown faces by pressing a right or left Ctrl key on the computer keyboard; the attribution of the response key was randomised across subjects. Pictures were presented for 300ms in random order, with an ISI varied between 1200 and 1600 ms using Presentation software. Behavioural data (RTs and hits) were recorded with Presentation. ERP recording ERPs were recorded using a 35 electrode cap (EasyCap, 10/10 system) including three ocular electrodes (at the outer canthi and on the left supra orbital ridge). During recording, electrodes were referenced to Cz; an average reference was calculated off-line. Impedance was kept under 5kΩ. Acquisition was at a rate of 1000 Hz rate using NeuroScan 4.2; amplification was with SynAmps with a gain of 500. During the acquisition EEG was filtered between 0.1 and 100 Hz including a notch filter at 50 Hz. Continuous EEG was epoched: -100 to 700 ms, with stimulus onset at time 0. Epochs containing artefacts (±100 µV, between –100 and 400ms) or incorrect behavioural responses were rejected, and averages were digitally filtered (0.1-30 Hz). Peak analyses were completed on individual averages for each of the eight stimulus types. Latency was measured where the peak was maximal for each hemisphere; amplitudes were taken at that latency at the other electrodes, consistent with Picton et al. (2000). P1 and P2 were measured at P3/P4, O1/O2, and P7/P8. N170 was measured at P7/P8, PO9/PO10, and TP9/TP10 electrodes. 8 Bayle et al 9 Data were analysed using repeated measures ANOVAs with Greenhouse-Geisser corrections. Intra-subject factors were tested at 4 levels: orientation (2 levels), knowledge (2 levels), hemisphere (2 levels) and for analyses of amplitude, electrodes also (3 levels). RESULTS: Learned faces block Behaviour The recent learning of faces had no impact on behavioural data, as reaction times (RTs) (F(1,12) = 3.76; n.s.) and accuracy (F(1,12) = 0.73; n.s.) were the same for learned faces and unknown faces. There was a significant effect of orientation regardless of familiarity as RTs to inverted faces were on average 57 ms longer (F(1,12) = 24.45; p < 0.001) and accuracy reduced by 15% (F(1,12) = 31.55; p < 0.001). P1 Neither learning nor orientation affected P1 latency. P1 amplitude was sensitive to inversion at occipital electrodes (F(1,12) = 6.06; p < 0.05), as shown by an electrode x orientation interaction (F2.24 = 7.77; p = 0.005) (Fig. 2). Learning had no effect on P1 amplitude. N170 N170 latency was not affected by orientation or learning. N170 was larger over the right hemisphere (F(1,12) = 6.28; p < 0.05) driven by inverted faces evoking a larger N170 (F(1,12) = 33.07; p < 0.001) particularly in the right hemisphere (hemisphere x orientation: F(1,12) = 11.56; p = 0.005). An electrode x orientation interaction showed that the inversion effect on amplitude was largest at P7/P8 (F2.24 = 8.43; p < 0.005). 9 Bayle et al 10 P2 No effects on amplitude or latency were observed on the P2 in this task. Famous faces block Behaviour Knowing the face modulated behaviour, as famous faces were detected 56 ms faster than unknown faces (F(1,12) = 16.33; p < 0.005). Face inversion affected behaviour as above, i.e. increased RTs (F(1,12) = 8.45; p < 0.05) and decreased accuracy (F(1,12) = 68.01; p < 0.001). This effect was greater for famous faces, as their accuracy decreased more by inversion compared to unknown faces, shown by an orientation x face interaction (F(1,12) = 5.6; p < 0.05) (Fig. 3). P1 P1 latency was not affected by familiarity or orientation. P1 amplitude was lower for famous faces compared to their matched unknown faces (F(1,12) = 7.03; p < 0.05) (Table 1). N170 N170 was delayed (F(1,12) = 9.89; p < 0.01) and larger (F(1,12) = 37.97; p < 0.001) for inverted compared to upright faces regardless of familiarity. As found with learned faces, face processing was right-lateralised, leading to an enhanced N170 (F(1,12) = 4.76; p = 0.5) and a larger inversion effect (orientation x hemisphere: F(1,12) = 6.11; p < 0.05) over the right hemisphere. For upright faces, the N170 latency was shorter for the famous faces (F(1,12) = 9.23; p = 0.01) (Table 1). Another familiarity effect was found: the N170 amplitude was smaller to the famous faces than the unknown faces (F(1,12) = 10.49; p < 0.01) (Fig. 4). 10 Bayle et al 11 P2 Famous faces evoked an earlier P2 than unknown faces (F(1,12) = 11.96; p < 0.01). P2 latency was longer for inverted faces (F(1,12) = 7.36; p < 0.05), but this effect was driven by delayed N170 to inverted faces as the interpeak latency difference between N170 and P2 was not significant. Neither orientation nor familiarity affected P2 amplitude. Comparison learned /famous faces: Behaviour The effect of inversion, on RTs and accuracy was present in both blocks. The behavioural results showed an effect of familiarity only for the famous faces, not for the learned faces. Although there was an overall effect of recognition on RTs (F (1,12) = 14.01; p < 0.005), this effect was only significant for the famous faces, which were categorised as known more quickly than the learned faces or either set of unknown faces. P1 P1 latency was shorter in the learned faces than the famous faces block (F(1,12) = 9.04; p < 0.05). P1 latency increased with inversion but only for the learned faces set (Fig. 2). There was an effect of familiarity on the P1 amplitude (F(1,12) = 4.92; p < 0.05), which interacted with set of photographs as only famous faces yielded a smaller P1 compared to the unknown faces (Table 1). N170 The latency of N170 was shorter in the learned faces block (F(1,12) = 17.84; p = 0.001). The peak to peak latency analysis between P1 and N170 did not show any significant differences between the two blocks (F(1,12) = 0.04; p = 0.83) suggesting that the difference in 11 Bayle et al 12 latency observed at N170 was a result of the difference in P1. The amplitude of N170 was significantly larger for the learned faces condition (F(1,12) = 7.46; p < 0.05). For both sets of photographs the classic N170 effects were observed: face inversion increased the amplitude (F(1,12) = 53.62; p < 0.001) and N170 amplitude was greater over the right hemisphere (F(1,12) = 5.76; p < 0.05). There was also an interaction between these factors (F(1,12) = 18.13; p=0.001), due to greater amplitude increase over the right hemisphere following an inversion of the faces. The effects of familiarity were observed only for the famous faces. The learned faces produced the same N170 amplitude and latency as their matched unknown faces, while N170 to famous faces was smaller and appeared earlier than to their matched unknown faces (Fig. 4 and Table 1). P2 Inversion delayed the P2 (F(1,12) = 6.47; p < 0.05). There was an interaction between the block and familiarity (F(1,12) = 6.08; p < 0.05), as mentioned above, there was no effect of familiarity on the learned faces (F(1,12) = 0.02; p = 0.88); however, shorter latencies were seen for famous faces compared to their matched unknown faces (F(1,12) = 11.96; p < 0.01). In summary, familiarity had a significant effect on behaviour and the ERPs but only with famous faces. In contrast to the learned faces, famous faces were recognised more quickly than their matched unknown faces, and inversion disrupted recognition more for the famous faces than the learned faces. Famous faces evoked smaller P1 and N170, and an earlier P2 compared to their matched unknown faces, an effect not observed for learned faces. Behaviourally, inverting a face led to a significant reduction in recognition and longer RTs. The inversion effect on ERPs was a larger P1 in the learned faces block of trials, an enhanced 12 Bayle et al 13 N170 for both blocks whether the face was known or not. The usual N170 delay with inversion was seen only in the famous faces block. DISCUSSION: These data demonstrate significant processing differences between two categories of familiar faces, learned faces and famous faces, starting at 100ms. Both sets of faces were easily recognised and accuracy did not vary between the sets, but ERPs suggested significant differences in processing that can be linked to the encoding and depth of knowledge of the faces. The category of face affected behavioural responses; famous faces were recognised faster than their matched unknown faces, an effect not seen with the learned faces. Others have found that familiar faces are processed faster than unfamiliar faces (Herzmann, Schweinberger, Sommer, & Jentzsch, 2004; Rossion, Campanella et al., 1999). However, we saw this effect only for famous faces despite the learned faces also being familiar; clearly the level of familiarity is important. In a recognition task with famous faces, Konstantinou and Gardiner (2005) supported a dual process model with remembering being slower, more controlled while knowing (as seen with very familiar faces) being faster and more automatic. The time a face has been known and the multiple types of exposure of the person’s face over time (e.g., different angles, poses and situations) underlies the level of familiarity. With this model, the current data demonstrates the famous faces appear to be known while the learned faces were remembered. Inversion affected behavioural performance in both tasks: lower accuracy and longer RTs, consistent with the classical report of Yin (1969). This inversion effect was greater, however, for famous faces, suggesting greater disruption in the processing used for very well known faces. As for Mooney faces, inversion dramatically decreased accuracy of recognising famous 13 Bayle et al 14 face due to disruption of the processing (George et al., 1996), probably holistic processing (Latinus & Taylor, 2005). There was a familiarity effect on P1 in the famous block; it was smaller to famous than to unknown faces. Low-level features may have contributed to this effect, as these stimuli were more heterogeneous than in the learned faces block (Fig.1 bottom panels), which can explain the shorter P1 latency for learned faces. However, as P1 indexes largely holistic, automatic processing, this would argue that holistic face processing was more implicated for the famous faces. In contrast, in the learned face block inversion enhanced P1 but there was no difference between known and unknown faces. This is consistent with other face processing studies showing an inversion effect at P1 (Itier & Taylor, 2002, 2004a; Linkenkaer-Hansen et al., 1998; Taylor, Edmonds, McCarthy, & Allison, 2001), for unknown faces or in recognition tasks. However, others have failed to show face sensitivity on P1. For example, Rossion et al. (1999) found no inversion effect on P1 using drawings of faces, which although realistic, did not have all the physical characteristic of a photograph of a face. Latinus and Taylor (2006), using three different face types (Mooney, schematic and photographic faces) in a face detection paradigm did not observe a P1 face inversion effect. Thus, P1 sensitivity to face inversion seems dependant on experimental protocols, being most apparent in implicit processing tasks. The typical inversion effect on N170, a delayed and enhanced peak (Bentin et al., 1996; Itier & Taylor, 2002; Rossion, Delvenne et al., 1999; Rossion et al., 2000), was seen only in the famous faces task, regardless of face familiarity. The inversion effect on the N170 has been described to reflect the recruitment of analytical processing by inverted faces to aid in further identification processing (Latinus and Taylor 2006; Sagiv & Bentin, 2001). The addition of analytic processing would lead to a larger, later N170 when identification was 14 Bayle et al 15 integral to the task. Schematic or ‘smiley’ faces show a delayed but not enhanced N170 with inversion, explained by the lack of any identity being associated with these very simple representations of faces (Sagiv & Bentin, 2001). In contrast the learned faces showed only an amplitude increase with inversion. As these faces were studied to be remembered, subjects may have already been using analytic processing, regardless of orientation. The inversion effects seen were independent of whether the faces were known or not, suggesting that there was top-down modulation of this processing that was task-specific. This is supported by the N170 latency comparisons between known and unknown faces. This latency was the same for the learned faces and their matched unknown faces, while N170 was shorter for famous faces compared to their matched unknown faces. A shorter N170 latency can be the result of holistic rather than configural processing (Latinus and Taylor, 2006). Consistent with the literature, familiarity had no effect on the learned faces. N170 amplitude was modulated by familiarity only in the famous block, being smaller for the famous than unknown faces. The immediate repetition of the same face in a priming experiment leads to a reduction of N170 amplitude (Itier & Taylor, 2004b), explained by the short repetition lag and that cortical areas would activate less with the immediate repetition of the same stimulus. With famous faces the N170 was reduced even though they were not repeated. Thus, although priming and the familiarity of faces produce a similar effect, the processing is unlikely to be the same. The priming effect is considered to be largely perceptual, whereas for the famous faces, the subjects may never have seen the particular exemplars of the famous faces, yet recognition was rapid and the N170 amplitude decreased. A possible explanation of this smaller N170 to famous faces could be from top-down activation of memory for the various faces that are familiar. Top-down regulation of the N170 for familiar faces was proposed by Jemel et al. (2003) to explain the identity priming effect caused only for the familiar faces in a repetition paradigm using Mooney faces of 15 Bayle et al celebrities. 16 However, in the current study, the modulation on the early face sensitive components occurred without identity priming. Thus, a more likely alternate explanation for the lower amplitude N170 to famous faces could be decreased neural activation for face identification. A well-known face may require only holistic processing whereas unknown faces recruit all 3 levels of processing. Unknown or little known faces would be processed by first-order configural processing, then holistically and then the second-order configural information would be used to try to identify the faces (Maurer et al., 2002). Jemel et al. (2003) found that Mooney faces of familiar and unknown faces showed N170 differences, although Mooney faces do not contain the usual configural information. Thus, holistic processing of faces is sufficient for identification of a face that is well known. The corollary is that famous face recognition may require only the first two stages of face processing from the model of Maurer et al (2002), which would implicate one fewer stages and hence, the smaller amplitude N170. Also in concordance with this was the shorter N170 latency for the famous faces compared to their matched unknown faces; the famous faces appeared to require less processing. This interpretation is consistent with the P2 latency effect, which was sensitive to familiarity. P2 was earlier for famous faces compared to their matched unknown faces. Pernet et al. (2003) found that shorter P2 latencies were seen with very familiar items, suggesting that they required fewer resources for identification. The more a face is known, the fewer attentional resources are necessary for recognition. Hence, the face processing of well-known faces is facilitated and faster, explaining both the shorter P2 latency and the shorter reaction times to famous faces. The faces learned over the course of one week were well recognised and were clearly stored in memory, yet we did not find the effects of familiarity that were present for the famous faces. We suggest that this is due to different encoding. The learned faces were 16 Bayle et al 17 memorized explicitly by the subject, the training was active and the face was seen only in one position. It is probable that the subject used analytic strategies and focused on featural as well as configural information of the face while trying to retain it. Famous faces are learned in an unintentional or implicit way, exposure to them being more sporadic, extended over time and with the face seen under various conditions. This would allow time to form a global picture of this face, in other words a "holistic" picture that is recognised more quickly. We speculate that a few weeks after the experiment the subject may not be able to recognise the learned faces, whereas this would not be the case for the famous faces. We suggest that the mnemonic trace of the intentionally learned faces is less well encoded and is reactivated only with thorough analysis of the face, which corresponds to a recruitment of the three processing stages, including the second order configural characteristics as well as analytic processes, whether upright or inverted, consistent with the model of Latinus and Taylor (2006). These data highlight that different processing is invoked according to whether a face is unknown, is learned recently and remembered or is highly familiar and known. The processing of these three face categories differs from that of faces repeated in priming studies. It is thus critical to differentiate the use of the term ‘familiarity’ between the repetitions of face, newly learned and famous faces, as they elicit distinct neurophysiological phenomena. Famous faces are distinguished as early as 100 ms after stimuli onset and more efficiently than the other face stimuli. We suggest that they are retained in memory in a holistic form. Recognition is made possible by accessing this holistic information, and may explain why famous or very familiar faces can be easily and quickly found in a crowd. 17 Bayle et al 18 REFERENCES: Bentin, S., Allison, T., Puce, A., Perez, E., & McCarthy, G. (1996). Electrophysiological studies of face perception in humans. Journal of Cognitive Neuroscience, 8, 551-565. Bentin, S., & Deouell, L. (2000). Structural encoding and identification in face processing: ERP evidence for separate mechanisms. Cognitive Neuropsychology, 17, 35-54. Botzel, K., Schulze, S., & Stodieck, S. R. (1995). Scalp topography and analysis of intracranial sources of face-evoked potentials. Experimental Brain Research, 104(1), 135-143. Boutsen, L., Humphreys, G. W., Praamstra, P., & Warbrick, T. (2006). Comparing neural correlates of configural processing in faces and objects: An ERP study of the Thatcher illusion. Neuroimage. Bruce, V., Dench, N., & Burton, M. (1993). Effects of distinctiveness, repetition and semantic priming on the recognition of face familiarity. Canadian Journal of Experimental Psychology, 47(1), 38-60. Bruce, V., & Valentine, T. (1985). Identity priming in the recognition of familiar faces. British Journal of Psychology, 76 (Pt 3), 373-383. Caharel, S., Poiroux, S., Bernard, C., Thibaut, F., Lalonde, R., & Rebai, M. (2002). ERPs associated with familiarity and degree of familiarity during face recognition. International Journal of Neuroscience, 112(12), 1499-1512. Eimer, M. (2000a). Effects of face inversion on the structural encoding and recognition of faces. Evidence from event-related brain potentials. Cognitive Brain Research, 10(1-2), 145-158. Eimer, M. (2000b). The face-specific N170 component reflects late stages in the structural encoding of faces. Neuroreport, 11(10), 2319-2324. Ellis, A. W., Young, A. W., Flude, B. M., & Hay, D. C. (1987). Repetition priming of face recognition. Quarterly Journal of Experimental Psychology. A, 39(2), 193-210. Farah, M. J., Tanaka, J. W., & Drain, H. M. (1995). What causes the face inversion effect? Journal of Experimental Psychology: Human Perception & Performance, 21(3), 628-634. George, N., Evans, J., Fiori, N., Davidoff, J., & Renault, B. (1996). Brain events related to normal and moderately scrambled faces. Cognitive Brain Research, 4, 65-76. 18 Bayle et al 19 Goshen-Gottstein, Y., & Ganel, T. (2000). Repetition priming for familiar and unfamiliar faces in a sex-judgment task: evidence for a common route for the processing of sex and identity. Journal of Experimental Psychology: Learning, Memory, and Cognition, 26(5), 1198-1214. Halit, H., de Haan, M., & Johnson, M. H. (2000). Modulation of event-related potentials by prototypical and atypical faces. Neuroreport, 11(9), 1871-1875. Haxby, J. V., Ungerleider, L. G., Clark, V. P., Schouten, J. L., Hoffman, E. A., & Martin, A. (1999). The effect of face inversion on activity in human neural systems for face and object perception. Neuron, 22(1), 189-199. Herzmann, G., Schweinberger, S. R., Sommer, W., & Jentzsch, I. (2004). What's special about personally familiar faces? A multimodal approach. Psychophysiology, 41(5), 688-701. Holmes, A., Vuilleumier, P., & Eimer, M. (2003). The processing of emotional facial expression is gated by spatial attention: evidence from event-related brain potentials. Cognitive Brain Research, 16(2), 174-184. Itier, R. J., & Taylor, M. J. (2002). Inversion and contrast polarity reversal affect both encoding and recognition processes of unfamiliar faces: a repetition study using ERPs. Neuroimage, 15(2), 353-372. Itier, R. J., & Taylor, M. J. (2004a). N170 or N1? Spatiotemporal differences between object and face processing using ERPs. Cerebral Cortex, 14(2), 132-142. Itier, R. J., & Taylor, M. J. (2004b). Effects of repetition and configural changes on the development of face recognition processes. Developmental Science, 7(4), 469-487. Jemel, B., Pisani, M., Calabria, M., Crommelinck, M., & Bruyer, R. (2003). Is the N170 for faces cognitively penetrable? Evidence from repetition priming of Mooney faces of familiar and unfamiliar persons. Cognitive Brain Research, 17(2), 431-446. Kemp, R., McManus, C., & Pigott, T. (1990). Sensitivity to the displacement of facial features in negative and inverted images. Perception, 19(4), 531-543. Konstantinou, I., & Gardiner, J. M. (2005). Conscious control and memory awareness when recognising famous faces. Memory, 13(5), 449-457. 19 Bayle et al 20 Latinus, M. (2006). Face processing stage: impact of difficulty and the separation of effects. Cognitive Brain Research. Latinus, M., & Taylor, M. J. (2005). Holistic processing of faces; learning effects with Mooney faces. Journal of Cognitive Neuroscience, 17(8), 1316-1327. Leder, H., Candrian, G., Huber, O., & Bruce, V. (2001). Configural features in the context of upright and inverted faces. Perception, 30(1), 73-83. Leveroni, C. L., Seidenberg, M., Mayer, A. R., Mead, L. A., Binder, J. R., & Rao, S. M. (2000). Neural systems underlying the recognition of familiar and newly learned faces. Journal of Neuroscience, 20(2), 878-886. Linkenkaer-Hansen, K., Palva, J. M., Sams, M., Hietanen, J. K., Aronen, H. J., & Ilmoniemi, R. J. (1998). Face-selective processing in human extrastriate cortex around 120 ms after stimulus onset revealed by magneto- and electroencephalography. Neuroscience Letters, 253(3), 147150. Maurer, D., Grand, R. L., & Mondloch, C. J. (2002). The many faces of configural processing. Trends in Cognitive Sciences, 6(6), 255-260. Paller, K. A., Bozic, V. S., Ranganath, C., Grabowecky, M., & Yamada, S. (1999). Brain waves following remembered faces index conscious recollection. Cognitive Brain Research, 7(4), 519-531. Paller, K. A., Ranganath, C., Gonsalves, B., LaBar, K. S., Parrish, T. B., Gitelman, D. R., Mesulam, M. M., & Reber, P. J. (2003). Neural correlates of person recognition. Learning and Memory, 10(4), 253-260. Pernet, C., Basan, S., Doyon, B., Cardebat, D., Demonet, J. F., & Celsis, P. (2003). Neural timing of visual implicit categorization. Cognitive Brain Research, 17(2), 327-338. Picton, T. W., Bentin, S., Berg, E., Donchin, S. A., Hillyard, R., Johnson, J. R., Miller, G. A., Ritter, W., Ruchkin, D. S., Rugg, M. D., Taylor, M. J. (2000). Guidelines for using human eventrelated potentials to study cognition: Recording standards. Psychophysiology, 37, 127-152. Rhodes, G., Brake, S., & Atkinson, A. P. (1993). What's lost in inverted faces? Cognition, 47(1), 2557. 20 Bayle et al 21 Rossion, B., Campanella, S., Gomez, C. M., Delinte, A., Debatisse, D., Liard, L., Dubois, S., Bruyer, R., Crommelinck, M., & Guerit, J. M. (1999). Task modulation of brain activity related to familiar and unfamiliar face processing: an ERP study. Clinical Neurophysiology, 110(3), 449462. Rossion, B., Delvenne, J. F., Debatisse, D., Goffaux, V., Bruyer, R., Crommelinck, M., & Guerit, J. M. (1999). Spatio-temporal localization of the face inversion effect: an event-related potentials study. Biological Psychology, 50(3), 173-189. Rossion, B., Gauthier, I., Tarr, M. J., Despland, P., Bruyer, R., Linotte, S., & Crommelinck, M. (2000). The N170 occipito-temporal component is delayed and enhanced to inverted faces but not to inverted objects: an electrophysiological account of face-specific processes in the human brain. Neuroreport, 11(1), 69-74. Sagiv, N., & Bentin, S. (2001). Structural encoding of human and schematic faces: holistic and partbased processes. Journal of Cognitive Neuroscience, 13, 937-951. Tanaka, J. W., & Farah, M. J. (1993). Parts and wholes in face recognition. Quarterly Journal of Experimental Psychology. A, 46(2), 225-245. Taylor, M. J., Edmonds, G. E., McCarthy, G., & Allison, T. (2001). Eyes first! Eye processing develops before face processing in children. Neuroreport, 12(8), 1671-1676. Taylor, M. J., Itier, R. J., Allison, T., & Edmonds, G. E. (2001). Direction of gaze effects on early face processing: eyes-only versus full faces. Cognitive Brain Research, 10(3), 333-340. Yin, R. K. (1969). Looking at upside-down faces. Journal of Experimental Psychology, 81(1), 141145. 21 Bayle et al 22 FIGURE CAPTIONS: Fig 1. Examples of stimuli used in the two blocks, and the averages of all stimuli within each block. Fig 2. Grand average ERPs for upright and inverted faces at O2 for the two blocks. Note that inverted faces evoked enhanced P1 for the learned faces. Fig 3. RTs for upright and inverted faces for the different faces blocks. Solid: upright faces, striped: inverted faces. Fig 4. Grand average ERPs for upright faces for known and unknown faces for the two blocks at P8 electrode. 22 Tables Table 1 Latencies of the three components measured for upright faces of each category. Famous faces evoked an earlier N170 and P2 than unknown faces. P1 N170 P2 Learned faces 105 159 220 Unknown faces 108 160 216 110 163 111 167 Learned block Famous block Famous faces Unknown faces (**=p<0.01) ** 217 231 ** Figure1 Click here to download high resolution image Figure3 Click here to download high resolution image Figure4 Click here to download high resolution image Figure 2 Click here to download high resolution image 146 4. Discussion 4.1. En Résumé Au cours de l’introduction, nous avons vu que les visages sont des stimuli particuliers. Cette particularité est, entre autre, attribuée à la mise en jeu de traitements de type configural par les visages, contrairement aux objets qui sont, eux, analysés de manière analytique, c’est à dire traits par traits. La perception des visages tient compte de la position des traits du visage, des distances les séparant, c’est à dire de la configuration du visage ; la présence de certains traits faciaux est également importante pour la reconnaissance à un niveau individuel. Les expériences réalisées au cours de ma thèse m’ont permis d’explorer le rôle des différents traitements engagés par les visages et leurs impacts sur la latence et l’amplitude de la N170, marqueur de la détection d’un visage. La première étude révèle que la spécificité des visages s’exprime par une plus grande rapidité de traitement et une sensibilité différente à l’inversion ; l’amplitude de la N170 est augmentée suite à l’inversion seulement pour les visages. Cette étude confirme que la N170 n’est pas un détecteur d’yeux (Eimer, 1998) et suggère que la modulation de l’amplitude de la N170 par l’inversion et la négation pourrait être induite par le traitement des yeux. Le retard dans l’apparition de la N170 suite à l’inversion d’un stimulus est retrouvé pour toutes les conditions, confirmant qu’il refléte probablement une perturbation de l’orientation canonique des stimuli (Rossion, Joyce et al., 2003). La deuxième étude montre que le traitement holistique est perturbé par l’inversion ; cette perturbation se traduit par une diminution de la N170. Lorsque le visage ne peut être traité que de manière holistique, la N170 n’est pas augmentée par l’inversion. De plus, la familiarisation aves les Mooney Faces reproduit l’effet d’inversion sur la latence de la N170. Ce retard peut s’expliquer soit par une volonté de traiter le visage de façon analytique suite à l’acquisition d’une forme d’« expertise », soit par le développement d’une vue préférée du stimulus, servant de référence, qui serait perturbée par l’inversion. Cette deuxième possibilité est appuyée par le fait que le délai est observé dans les deux groupes de sujets. La troisième étude dévoile la contribution des différentes étapes du traitement des visages à la latence et à l’amplitude de la N170. Ainsi, la N170 est modulée par la configuration de premier ordre et le traitement holistique, mais n’est pas sensible à la configuration de second ordre, justifiant ainsi l’absence de modulation de la N170 par la 147 familiarité du visage (Eimer, 2000a, b; Jemel, Pisani et al., 2003; Zion-Golumbic & Bentin, 2006). La quatrième étude témoigne d’un traitement parallèle du genre et de la configuration du visage (Bruce et al., 1987). La perception du genre semble avoir lieu dans le même intervalle de temps que l’encodage structurel du visage mais en des sites différents, dans les régions fronto-temporales gauches. La dernière étude met en évidence une modulation de la N170 par la familiarité du visage mais seulement pour les visages de célébrités. Cette modulation semble refléter l’utilisation du traitement holistique pour la reconnaissance des visages célèbres, ayant pour conséquence une plus grande rapidité de traitement, un effet délétère de l’inversion sur la reconnaissance et une N170 plus petite. Ainsi, l’influence de la familiarité sur la N170 semble dépendre des traitements mis en jeu par les visages. 4.2. Le traitement du visage : de la détection à la reconnaissance Essayons maintenant de résumer les résultats acquis dans un modèle du déroulement de la perception des visages. L’encodage des visages normaux à l’endroit suit les trois étapes décrites par Maurer et al. (2002). La détection du visage passe par l’extraction de la configuration de premier ordre, bien que le traitement holistique seul puisse suffire. Dans les expériences réalisées au cours de ma thèse, il est difficile de distinguer l’extraction de la configuration de premier ordre du traitement holistique, si ce n’est grâce aux Mooney Faces. Parce que la N170 est moins ample pour les Mooney Faces que pour les visages schématiques et les photographies, je propose que le traitement de la configuration de premier ordre ait lieu un peu avant ou simultanément au traitement holistique, et que ces deux traitements contribuent à l’amplitude de la N170 (Figure 22). 148 Figure 22. Modèle de la reconnaissance des visages. J'ai utilisé ici une photographie de Brad Pitt mais ce modèle (en bleu) s'applique aussi bien aux visages familiers qu'à la perception des visages non familiers (en violet). L'inversion perturbe tous les traitements et recrute en plus le traitement analytique des visages (en rouge), essentiellement par les yeux, conduisant à une N170 plus ample et retardée. L’extraction de la configuration générique du visage débute à 100 ms Dans l’introduction, nous avons vu que la sensibilité de la P1 aux visages était controversée, du fait d’un manque de consistance des résultats. Les résultats de certaines études montrent une sensibilité de la P1 aux visages notamment parce qu’elle est retardée et plus ample pour les visages à l’envers (Itier & Taylor, 2002, 2004a; Linkenkaer-Hansen et al., 1998; Taylor, Edmonds et al., 2001). L’inversion de contraste provoque une diminution de l’amplitude de la P1 (Itier & Taylor, 2002, 2004a). Par ailleurs, dans l’étude sur la familiarité, la P1 évoquée par les visages de célébrités est plus petite que celle évoquée par les visages 149 inconnus. L’extraction de la configuration de premier ordre est perturbée par l’inversion mais, elle est préservée dans les visages en négatif. De plus, la similarité de l’effet d’inversion sur les performances comportementales des sujets entre la reconnaissance des visages célèbres et la détection des Mooney Faces suggère que le traitement mis en jeu par les uns et les autres puisse être le même, à savoir le traitement holistique. Ainsi, comme le montre la figure 22, le traitement des visages célèbres ne semble pas nécessairement mettre en jeu le traitement configural de premier ordre, conduisant ainsi à une P1 moins ample. Ces résultats indiquent que l’extraction de la configuration de premier ordre pourrait débuter à la latence de la P1. La perturbation du traitement configural de premier ordre suite à l’inversion entraînerait un retard de latence et une augmentation d’amplitude de la P1. La négation du visage n’aurait pas d’effet sur cette étape du traitement des visages ; la diminution observée pour les visages en négatif pourrait être due à des différences bas niveau, à savoir contraste et luminance, entre les images en contraste positif et négatif (Halit et al., 2000; Rossion, Delvenne et al., 1999). L’hypothèse selon laquelle le traitement configural commencerait dès la P1, ou la phase tardive de la P1, est appuyée par l’analyse des sources de la P1 montrant qu’elle traduit l’activation d’une zone du gyrus occipital dont l’activité est maintenue jusqu’à la phase précoce de la N170 (Di Russo et al., 2002). En IRMf, l’extraction de la configuration de premier ordre pourrait être responsable de l’activation du gyrus occipital inférieur, qui semble impliqué dans la détection du visage (Haxby et al., 2000; Rotshtein et al., 2005). Ainsi, l’activité du gyrus occipital inférieur serait augmentée par l’inversion du visage, mais la négation du visage n’aurait aucune influence ou provoquerait une diminution d’activité (George et al., 1999). L’absence de modulation de la latence et de l’amplitude de la P1 dans certaines études pourrait traduire l’influence de processus attentionnels descendants (Latinus & Taylor, 2005, 2006; Rossion, Campanella et al., 1999). En effet, il a été montré que l’amplitude de la P1 était modulée par la tâche à réaliser ; elle est augmentée lorsque l’attention est focalisée vers une certaine région du champ visuel, mais également quand l’attention est dirigée vers certains attributs du stimulus visuel (Anllo-Vento et al., 1998; Hillyard & Anllo-Vento, 1998; Rossion, Campanella et al., 1999; Taylor, 2002). Cette augmentation d’amplitude liée à l’attention pourrait masquer les effets liés à d’autres processus ayant lieu au même moment comme le traitement des informations bas niveau ou le traitement de la configuration de premier ordre (Batty et al., 2003; Holmes et al., 2003). 150 La construction du gestalt commence à la N170 La N170 est plus ample pour les visages que pour les objets ; sa sensibilité à l’inversion se traduit par une augmentation de la latence pour tous les stimuli, mais également par une augmentation de son amplitude observée uniquement suite à l’inversion des visages (Itier, Latinus et al., 2006; Itier & Taylor, 2002, 2004a; Linkenkaer-Hansen et al., 1998; Rossion, Gauthier et al., 2000; Rousselet et al., 2004a). Les visages en négatif évoquent une N170 similaire à celle enregistrée pour les visages inversés, suggérant que le traitement ayant lieu à cette latence puisse être perturbé à la fois par l’inversion et la négation. Ce traitement ne peut pas être le traitement configural de premier ordre, puisque celui-ci n’est pas altéré par la négation. Par ailleurs, nous avons vu que les Mooney Faces évoquaient une N170 plus petite et plus tardive que les visages normaux, et que l’inversion avait un effet uniquement sur l’amplitude, effet se traduisant par une diminution. De plus, bien que les visages normaux, mais pas les visages schématiques, engagent le traitement configural de second ordre (Latinus & Taylor, 2006; Sagiv & Bentin, 2001), la N170 évoquée par ces deux types de visages à l’endroit est similaire. Dans notre étude sur la reconnaissance des visages, la N170 évoquée par les visages familiers appris ne diffère pas de celle évoquée par les visages non familiers. Ces résultats suggèrent que la N170 sous-tend le traitement holistique du visage et reflète la construction du gestalt à partir de la configuration de premier ordre, quand cette dernière a pu être extraite. L’inversion et la négation semblent donc affecter le traitement holistique, indiquant que le gestalt réunit non seulement des informations configurales (de premier et de deuxième ordre) mais également des informations sur le contraste, les textures etc. Ainsi, il apparaît que ces deux manipulations vont avoir une influence indépendante sur la construction du gestalt, ce qui pourrait justifier l’observation d’effets additifs au niveau de la N170 (Itier, Latinus et al., 2006). Les visages célèbres, comme les Mooney Faces, évoquent une N170 plus petite que les visages d’inconnus, révélant que les visages célèbres, encodés via une multitude de présentations sous différents angles de vues, sont traités de manière holistique, et n’engagent pas nécessairement les traitements configuraux de premier et second ordre. Cet effet peut être particulièrement important dans notre étude (Bayle et al., Soumis) du fait de l’organisation en bloc de l’expérience ; les sujets savaient que le bloc ne contenait que des visages de personnes célèbres ou appris, ainsi le traitement holistique peut être suffisant pour détecter la familiarité. Le traitement holistique du visage va permettre la construction d’un gestalt qui va ensuite être comparé aux patterns stockés en mémoire, et la reconnaissance aura lieu (Figure 22). 151 L’appariement entre le visage perçu, ou plutôt le gestalt construit à partir de ce visage, et la représentation mnésique pourrait avoir lieu au niveau de la FFA, l’association sémantique, elle, prendrait place dans la partie antérieure du gyrus fusiforme. La reconnaissance du visage peut également avoir lieu à partir de certains traits caractéristiques tels que les yeux ou les sourcils ; une hypothèse pourrait être que, dans le domaine de la reconnaissance de visages familiers, les représentations mnésiques globales puissent être activées par les traits faciaux uniquement. En l’absence d’influences descendantes favorisant le traitement holistique, pour les visages non familiers ou nouvellement appris, la perception du visage passe par l’extraction des relations de premier ordre, qui permettent la construction du gestalt, qui sera ensuite comparé aux représentations stockées en mémoire ; ces différentes étapes conduisent à une N170 plus ample. Si le gestalt construit ne correspond pas à une représentation stockée en mémoire, il y aura, à une étape ultérieure, extraction des informations de second ordre pour permettre l’encodage. La familiarité du visage a un impact sur la N170, mais seulement sous certaines conditions expérimentales : celles favorisant le traitement holistique du visage. L’effet d’inversion sur le traitement holistique, entraînant une diminution dramatique des performances dans la détection des visages, pour les Mooney Faces, et la reconnaissance des visages, pour les visages célèbres, est un effet quantitatif ; il reflète un recrutement moindre des aires sélectives des visages. Ainsi, le traitement holistique est impliqué dans la construction du gestalt et met en jeu les aires sélectives des visages, dont la FFA (Schiltz & Rossion, 2006). L’inversion, qui perturbe le traitement holistique, se traduit par une diminution de l’activité dans la FFA pour les visages inversés (Kanwisher et al., 1998; Yovel & Kanwisher, 2004, 2005) ; cette diminution est corrélée à l’effet d’inversion comportemental (Yovel & Kanwisher, 2005). Cependant, il est rare d’observer un effet d’inversion aussi important que celui observé pour les Mooney Faces ou pour les visages célèbres ; l’inversion induit généralement une baisse de 10% dans les performances de détection ou de reconnaissance. Ainsi, il est possible qu’un changement de stratégie ait lieu pour l’encodage ou la reconnaissance de visages familiers, compensant la perturbation importante du traitement holistique provoquée par l’inversion. 152 Le traitement analytique comme aide à la détection et à l’identification Un mécanisme compensatoire est mis en jeu par les visages à l’envers afin de limiter l’impact de l’inversion sur la reconnaissance. Ce mécanisme compensatoire pourrait être le recrutement du traitement analytique, usuellement attribué à la perception des objets. Le recrutement du traitement analytique peut expliquer non seulement l’augmentation de l’amplitude de la N170, puisqu’il va s’ajouter aux autres traitements qui ont été abrogés, mais également le retard de latence observé suite à l’inversion. La N170 est plus ample pour les visages inversés que pour les visages à l’endroit ; cet effet n’est observé qu’avec les visages normaux portant des informations sur l’identité (Latinus & Taylor, 2006; Sagiv & Bentin, 2001). Ceci explique l’absence d’augmentation de l’amplitude de la N170 suite à l’inversion des visages schématiques et des Mooney Faces. Dans les Mooney Faces les éléments ne sont pas distincts, ce qui rend le traitement analytique impossible. Quant aux visages schématiques, ils ne portent pas d’informations sur l’identité, le traitement analytique est donc inutile pour ces visages. Le rôle du traitement analytique dans la perception des visages à l’envers est confirmé par les études en IRMf montrant une activation des zones répondant spécifiquement aux objets pour les visages à l’envers (Aguirre et al., 1999; Haxby et al., 1999). L’étude d’un patient agnosique tend également à montrer une différence fonctionnelle entre les traitements des visages à l’endroit et à l’envers. Ce patient a des troubles de la reconnaissance d’objets associés à une reconnaissance des visages normale, mais sa reconnaissance des visages à l’envers est altérée (Moscovitch et al., 1997). Les visages à l’envers ou en négatif recruteraient donc les systèmes de traitement dédiés aux objets afin de faciliter la reconnaissance et l’identification du visage. Dans le cas des visages célèbres, il semble que le traitement analytique soit également recruté par les visages inversés, la N170 étant augmentée ; cependant, l’addition du traitement analytique ne suffit pas à faciliter la reconnaissance. L’absence de facilitation pour la reconnaissance des visages célèbres pourrait sous-entendre un traitement automatique inconscient de l’identité pour les visages très familiers ; le traitement holistique serait fortement perturbé par l’inversion, et le recrutement du traitement analytique ne suffirait pas à compenser cette perturbation. Le retard de latence de la N170 pour les visages inversés peut refléter la mise en jeu du traitement analytique. En effet, le traitement analytique semble apparaître après le traitement configural de premier ordre et le traitement holistique, les N170 enregistrées pour des stimuli non visages étant en général retardées par rapport à celles évoquées par les visages. Mais, cette explication ne permettrait pas de justifier le retard de latence observé pour 153 les stimuli non visage, qui semble être lié à la perturbation de l’orientation canonique de l’objet. Traitement analytique : traitement des yeux ? Dans notre première étude, nous avons également montré que la N170 évoquée par les visages à l’envers et en négatif était similaire à celle évoquée par les yeux (Itier, Latinus et al., 2006). Ces données indiquent que le traitement analytique mis en jeu suite à l’inversion du visage repose principalement sur la perception des yeux, les yeux étant les éléments les plus distinctifs du visage. Si le traitement analytique passe par le traitement des yeux, cela peut également expliquer l’absence d’une augmentation d’amplitude pour les visages schématiques ou les Mooney Faces inversés, stimuli dans lesquels les yeux ne sont pas distincts. Ainsi, il apparaît que l’altération de la configuration du visage a des conséquences multiples au niveau cérébral, elle induit un retard dans l’extraction de la configuration de premier ordre, une diminution de l’activité des zones spécifiques des visages et une augmentation de l’activité dans les zones spécifiques des objets. L’effet d’inversion serait donc double : une modification quantitative du traitement des visages, vue dans la diminution des performances et de l’activité cérébrale spécifique des visages, et une modification qualitative signifiant un changement de stratégie suite à l’inversion du visage, compensant la perturbation causée par l’inversion et permettant la reconnaissance du visage à un niveau supérieur à celui de la chance. Le traitement analytique du visage passe essentiellement par le traitement des yeux. Catégorisation du genre Le modèle de Bruce & Young (1986) propose que le traitement du genre ait lieu en parallèle du traitement de l’identité ; en effet, il n’est pas nécessaire de connaître quelqu’un pour connaître son genre. Notre étude, en accord avec le modèle de Bruce & Young, montre également que le traitement du genre s’effectue en parallèle et simultanément à l’extraction de la configuration puisque la N170 n’est pas affectée par le genre du visage, mais qu’à la même latence on observe des effets dans les régions fronto-temporales (Bruce et al., 1987; Mouchetant-Rostaing et al., 2000). Pourtant, certaines études suggèrent que les informations sur le genre de l’individu soient également portées par la configuration. En effet, des visages 154 composites constitués pour moitié d’un visage de femme et pour moitié d’un visage d’homme rendent la catégorisation du genre de chaque moitié plus difficile ; de la même façon la perception du genre est plus difficile sur les visages inversés (Baudouin & Humphreys, 2006; Bruce et al., 1993; Bruce & Langton, 1994). Dans ces différentes études, les indices évidents du genre sont masqués ; or, une grande partie de la perception du genre repose sur les traits du visage, notamment les cheveux (Wright & Sladden, 2003), la forme des sourcils et le contour du visage (Roberts & Bruce, 1988; Yamaguchi et al., 1995). Dans le cas où des informations non configurales peuvent être utilisées, elles seront les premières traitées et sont suffisantes pour réaliser une tâche de catégorisation du genre ; dans le cas où ces informations élémentaires sont dissimulées alors le traitement du genre sera effectué sur des bases configurales (Goshen-Gottstein & Ganel, 2000). De plus, il est possible que les informations configurales utilisées dans les visages composites, dont l’extraction est perturbée par l’inversion, soient des informations configurales de second-ordre, justifiant ainsi l’absence d’effet au niveau de la N170. Par ailleurs, il a été montré en utilisant un continuum de visages allant d’un visage féminin à un visage masculin, que la perception du genre en l’absence d’indice de bas niveau était un phénomène catégoriel, mais la reconnaissance de visage non familier n’est pas catégorielle (Campanella et al., 2001). Ces résultats suggèrent que les visages non familiers ont une représentation mnésique sous forme de prototype du genre du visage. L’absence de modulation de la N170 par le genre du visage confirme donc l’implication de la N170 dans la détection de la configuration de premier ordre et non dans le traitement des relations de second ordre. Traitement de l’identité à partir de 220 ms ? La P2 est un pic positif apparaissant 200 ms après le début de la stimulation enregistrée sur les ondes occipito-pariétales. Il s’agit du dernier pic mesuré dans mes différentes études. La P2 est modulée par l’apprentissage : son amplitude diminue en effet après l’apprentissage de la reconnaissance des Mooney Faces, et ce, uniquement dans le groupe expérimental. De plus, l’amplitude de la P2 indique la perception des sujets ; elle est, en effet, plus ample pour les stimuli non visage et les visages non perçus que pour les Mooney Faces à l’endroit ou à l’envers perçus (Latinus & Taylor, 2005). Dans l’étude utilisant les 3 types de visages, la P2 était toujours plus ample pour les non visages que pour les visages, confirmant qu’elle sous-tend une activité impliquée dans le traitement de stimuli non identifiés (les non visages étaient des images sans signification). De plus, elle était plus ample 155 pour les visages photographiques que pour les visages schématiques et les Mooney Faces. Une analyse de source réalisée dans cette étude révèle que la P2 reflète l’activité de source essentiellement occipitale pour les Mooney Faces et les visages schématiques, alors qu’elle est liée à une réactivation de la voie ventrale pour les photographies (Latinus & Taylor, 2006). Cette réactivation de la voie ventrale pourrait également refléter la sensibilité à la familiarité de la N250, onde négative apparaissant 250 ms après le début de la stimulation enregistrée sur les électrodes temporales (Itier & Taylor, 2004a; Tanaka et al., 2006). Cependant, dans notre expérience avec les visages familiers, la familiarité du visage ne module que la latence de la P2 qui est plus précoce pour les visages très familiers (visages célèbres) (Bayle et al., Soumis). Ces différents résultats suggèrent que la P2 reflète une activité liée à la familiarité du stimulus, traitement approfondi des stimuli non identifiés (Caharel et al., 2002). Un stimulus détecté et non identifié, bien que pouvant l’être ( les photographies de visages), conduit à une P2 plus ample que les stimuli ne portant pas d’informations identitaires (visages schématiques et Mooney Faces). Par ailleurs, l’activation de la voie ventrale pour les seuls visages photographiés suggère que la P2 observée pour ces visages peut refléter le traitement de la configuration de second ordre, ou du moins un traitement lié à l’extraction de l’identité du visage, montrant ainsi une réactivation des aires impliquées dans la détection des visages pour leur reconnaissance. Ce résultat serait en accord avec l’hypothèse de Grill-Spector & Kanwisher (2004) et celle de Rossion (2003) qui suggèrent que le même réseau d’aires cérébrales s’activant à des latences différentes est mis en jeu pour la détection et la reconnaissance des visages. Le traitement lié à l’identité du visage pourrait se poursuivre plus longtemps puisque certaines études révèlent une modulation des ondes observées autour de 400 et 600 ms après la stimulation (Bentin & Deouell, 2000; Eimer, 2000b; Itier & Taylor, 2004a). Conclusion Ces différents résultats montrent que la spécificité du visage vient en partie de traitements relationnels. La différence entre visages et objets pourrait commencer autour de 100 ms, par l’extraction de la configuration de premier ordre. Cette étape est suivie de la construction d’un gestalt, via le traitement holistique, vers 170 ms. L’inversion perturbe aussi bien la première que la deuxième étape, la négation du visage ne perturbe que le traitement holistique. Il semble important de distinguer au moins deux types de familiarité : la familiarité 156 associée à un sentiment assez flou de « déjà vu », et la familiarité associée à une connaissance sémantique de l’individu. Cette dernière s’acquiert après moult présentations du visage, sous différents angles de vues, qui permettent la génération d’un gestalt contenant tous les éléments nécessaires à la reconnaissance et ce, afin de l’accélérer. La familiarité étudiée en général en laboratoire met en jeu des processus d’apprentissage du visage non écologiques ; la reconnaissance de ces visages pourrait reposer sur des informations de type relationnel, voire analytique, mais ne nécessite pas la construction d’un gestalt. L’encodage des visages non familiers, via l’extraction de la configuration de second ordre, aurait lieu plus tardivement autour de 250 ms après la présentation du stimulus, mais pourrait mettre en jeu les mêmes aires cérébrales que celles impliquées dans la détection des visages et dans les premières étapes de la reconnaissance des visages familiers (Grill-Spector et al., 2004; Kanwisher & Yovel, 2006; Rossion, Schiltz et al., 2003). Suite à ces études sur le traitement des visages, je me suis intéressée à une autre modalité sensorielle : l’audition. La voix est le stimulus le plus proche du visage dans cette modalité. Je me suis donc intéressée aux mécanismes cérébraux sous-tendant le traitement de la voix, afin de voir si son traitement était similaire à celui des visages. J’ai ensuite voulu comprendre comment ces traitements intéragissaient dans des situations bimodales. 157 158 Voix « Ensemble des sons produits pas les humains…» Interaction « Influence réciproque de plusieurs entités…» 159 160 Partie 2 : Voix et interactions bimodales La multimodalité est la règle plutôt que l’exception. Bien que l’essor des technologies nous permette aujourd’hui d’avoir accès à une seule information sensorielle, la voix par le téléphone, les visages via les photographies, il est plus courant de recevoir simultanément des informations en provenance de différentes modalités sensorielles. Les informations multisensorielles sont, entre autres choses, le support des interactions sociales qui ont lieu, notamment, via les informations véhiculées par le visage et la voix. Ces informations sont en général redondantes et facilitent la perception : qui n’a jamais entendu une voix sans reconnaître le locuteur avant de voir son visage, l’inverse existe probablement mais il est rarement observé. Cet exemple pourrait suggérer que le traitement du visage diffère du traitement de la voix et que leur participation respective à l’intégration bimodale ne soit pas symétrique ; c’est pourquoi avant d’étudier les intégrations multimodales, j’ai exploré le traitement des voix. L’intégration des informations apportées par le visage et la voix joue un rôle fondamental, notamment dans la compréhension du discours. Ainsi, dans un environnement bruyant, la perception du langage est facilitée par les informations apportées par le mouvement articulatoire des lèvres (lecture labiale) (MacLeod & Summerfield, 1987). Il est probable que les interactions entre plusieurs modalités sont sous le contrôle d’influences attentionnelles. Par exemple, dans le cadre de la compréhension du discours en condition normale, il est plus judicieux de porter son attention sur la voix que sur le visage : les informations apportées par la voix sont plus faciles à décoder ; par contre, dans un environnement bruyant il sera nécessaire d’augmenter l’attention dédiée aux visages afin de recueillir les informations sur le mouvement des lèvres. J’ai donc dans un deuxième temps exploré l’influence de l’attention sur les interactions entre deux modalités. 161 A. Les Voix et le Système auditif Les sons sont les stimuli s’adressant au système auditif ; tout comme les stimuli visuels, les sons sont multiples et variés. Ils peuvent avoir une origine humaine, animale, mécanique etc. La voix humaine a acquis une importance capitale au cours de l’évolution, parce qu’elle est le support du langage articulé. Son rôle dans la communication verbale a tendance à nous faire oublier qu’elle véhicule également des informations primordiales à la vie en société, comme l’âge, le genre, l’émotion, l’identité, lui conférant un rôle majeur dans la communication non verbale. Les sons sont la partie audible des vibrations acoustiques. Ils sont produits par des variations perceptibles de la pression de l’air, conséquences du déplacement de l’air à la suite de différents processus – déplacement d’un objet, vibration des cordes vocales etc. Ces variations sont propagées sous forme d’onde sonore jusqu’à l’oreille (Figure 23). Cette onde sonore représente l’alternance des phases de compression (augmentation de la pression) et de détente de l’air. Un son est caractérisé par sa fréquence et son intensité. La fréquence du son est déterminée par le nombre de cycles de compression/détente qui atteignent l’oreille en une seconde ; un cycle correspond à la distance entre deux plages successives, par exemple de compression de l’air (Figure 23). La fréquence définit la hauteur du son : plus le nombre de cycles par seconde est important, plus le son est aigu. L’oreille humaine perçoit des sons allant de 20 à 20 000 Hz (définissant la bande passante de l’oreille), en deçà ou au-delà on parle d’infrason ou d’ultrason, respectivement. L’intensité du son est déterminée par l’amplitude des vibrations sonores (Figure 23). Figure 23. Illustration d'un son. Au dessus : phase de compression et de détente de l'air. En dessous: onde sinusoïdale correspondante. Un son pur est caractérisé par une seule fréquence ; les sons purs ne sont que rarement rencontrés. Les sons musicaux sont des sons complexes périodiques définis par une fréquence caractéristique – la fréquence fondamentale (F0) – et des harmoniques – multiples de la 162 fréquence fondamentale. Certaines harmoniques sont renforcées dans les caisses de résonnance des instruments ou de l’appareil phonatoire : ce sont les formants. L’amplitude des formants définit le timbre d’un son (voix ou instrument de musique). Le bruit est un son complexe non périodique, ne possédant donc pas de fréquence caractéristique ; il est constitué d’ondes acoustiques de différentes fréquences. Le bruit blanc est un cas extrême de son complexe où toutes les fréquences sont représentées en proportion égale. Le langage est constitué de sons complexes périodiques et apériodiques. La perception de la voix, comme celle de tout autre stimulus auditif, commence par l’activation des récepteurs sensoriels de la cochlée, située dans l’oreille interne. Ces récepteurs sont des cellules ciliées qui assurent la transduction du message acoustique en message électrique ; un potentiel d’action généré dans les neurones du ganglion spiral est propagé jusqu’au cortex auditif primaire via une multitude de structures sous-corticales. Le dernier relais sous-cortical s’effectue dans le thalamus, l’information auditive est ensuite transmise au cortex auditif primaire, localisé dans le lobe temporal, puis aux aires auditives associatives. 1. Le système auditif 1.1. De la cochlée au cortex auditif primaire 1.1.1. Anatomie et fonctionnement de la cochlée Le système visuel est sensible aux ondes électromagnétiques ; le système auditif, quant à lui, est mis en œuvre par les variations de la pression environnante. Ces variations de pression atteignent les cellules ciliées de la cochlée après avoir été canalisées dans l’oreille interne via le pavillon, le conduit auditif externe, le tympan, et les osselets. Les osselets communiquent avec la cochlée, située dans l’oreille interne, via une membrane qui recouvre la fenêtre ovale. La cochlée est l’organe sensoriel de l’oreille ; elle contient les cellules ciliées (Figure 24)18. 18 Ces deux images sont issues du site internet « Promenade autour de la cochlée ». http://www.promenade_autour_de_la_cochlée 163 Figure 24. Anatomie de la cochlée: (a) Coupe transversale de la cochlée. (b) Coupe transversale d'un tour de spire de la cochlée. La cochlée a la forme d’un escargot, elle est divisée en trois compartiments. Les compartiments supérieur et inférieur sont la rampe vestibulaire (2) et la rampe tympanique (3) ; le fluide circulant dans les rampes vestibulaire et tympanique est la périlymphe. A l’apex de la cochlée, le canal cochléaire se referme et, les rampes vestibulaire et tympanique communiquent via un trou à travers la membrane – l’hélicotrème. Le compartiment du milieu est le canal cochléaire (1), empli d’endolymphe. Il est séparé de la rampe vestibulaire par la membrane de Meissner (4), et de la rampe tympanique par la membrane basilaire (5). L’organe de Corti, lieu de réception du signal auditif, se trouve dans le canal cochléaire; il repose sur la membrane basilaire. L’organe de Corti est constitué par les cellules ciliées. Les stéréocils des cellules ciliées baignent dans l’endolymphe et finissent dans la membrane tectoriale (6). Les cellules ciliées forment des synapses sur les dendrites des neurones auditifs dont le corps cellulaire se trouve dans le ganglion spiral (8), et dont les axones forment le nerf auditif (10). Les variations de pression entraînent une vibration de la chaine des osselets, qui, à son tour, provoque une vibration de la membrane recouvrant la fenêtre ovale. La vibration de cette membrane induit un mouvement ondulatoire de la périlymphe circulant dans la rampe vestibulaire (Figure 24a – flèche rouge), qui est ensuite transmis à la périlymphe de la rampe tympanique via l’hélicotrème (Figure 24a – flèche bleue). Le déplacement de la périlymphe est communiqué à l’endolymphe, du fait de la flexibilité de la membrane de Meissner. La membrane basilaire ploie sous l’effet du mouvement de l’endolymphe. Une onde est ainsi propagée jusqu’à l’apex. La distance parcourue par l’onde le long de la membrane basilaire dépend de la fréquence du son : plus le son est grave, moins la membrane vibre, plus loin l’onde se propage. La fréquence du son est encodée dès la cochlée ; les sons basses fréquences activent les cellules ciliées situées à l’apex de la cochlée, les sons hautes fréquences activent les cellules situées à la base de la cochlée : c’est la tonotopie passive. Le mouvement de la membrane basilaire entraîne aussi un déplacement des structures soutenant les cellules ciliées soit vers, soit en s’éloignant de la membrane tectoriale. Le mouvement des structures supportant les cellules ciliées provoque une inclinaison des stéréocils dans un sens ou dans l’autre. Ce mouvement des stéréocils déclenche l’ouverture de canaux ioniques laissant ainsi passer des ions à travers la membrane. Ces mouvements 164 ioniques sont à l’origine de la naissance du potentiel récepteur dans les cellules ciliées. Le potentiel récepteur est ensuite transmis aux cellules du ganglion spiral, lieu de génération du potentiel d’action. Chaque neurone du ganglion spiral reçoit l’afférence d’une seule cellule ciliée ; au contraire chaque cellule ciliée est en contact avec une dizaine de neurones du ganglion spiral. Ainsi, contrairement à ce qui est observé dans le système visuel où les informations recueillies par plusieurs photorécepteurs convergent vers une seule cellule ganglionnaire, dans le système auditif une cellule ciliée est connectée à plusieurs neurones du ganglion spiral : il s’agit d’une innervation dite divergente. Les neurones du ganglion spiral reçoivent des informations sur la fréquence du son révélée par la localisation de la cellule ciliée, et sur l’intensité du son. Les différentes fréquences d’un son activent différentes zones de la cochlée, et donc différents neurones du nerf cochléaire ; cette tonotopie est conservée jusqu’à l’aire auditive primaire. Il semble que la tonotopie soit restreinte à la représentation des hautes fréquences. Le codage des informations basses fréquences se fait essentiellement par corrélation de phase : le neurone décharge toujours au même moment de l’onde sonore, la fréquence du son est équivalente à la fréquence de décharge du neurone. L’intensité de la stimulation est codée par le nombre de cellules ciliées activées, donc par le nombre de neurones du nerf cochléaire qui transmettent l’information. A une fréquence donnée, l’augmentation de l’intensité de la stimulation provoque une amplification du mouvement de la membrane basilaire activant ainsi un plus grand nombre de cellules ciliées. Après avoir subi un premier traitement, les informations auditives sont envoyées vers le cortex auditif ; avant de le rejoindre, elles effectuent des relais au niveau de plusieurs structures du tronc cérébral. 1.1.2. De la cochlée au cortex auditif primaire Le message auditif est relayé par plusieurs structures sous-corticales avant d’atteindre le cortex auditif primaire. Le premier relais s’effectue dans le tronc cérébral au niveau du noyau cochléaire ipsilatéral qui présente une organisation tonotopique : les neurones répondant aux sons basses fréquences sont en position antérieure, ventrale, ceux répondant aux hautes fréquences sont situés dans sa partie postérieure, dorsale. Avant de rejoindre le deuxième relais, il y a une décussation partielle des fibres en provenance du noyau cochléaire au niveau des corps trapézoïdes. 165 Le second relais synaptique a lieu dans le complexe olivaire supérieur, ensemble de noyaux situés dans la partie supérieure du pont. Dans la partie médiane du complexe olivaire, les neurones répondent à des stimulations basse fréquence et sont sensibles au décalage de phase entre les sons provenant des deux oreilles. Dans sa partie latérale, les neurones déchargent pour des stimulations hautes fréquences ipsilatérales et sont sensibles aux délais interauraux. Ainsi, le complexe olivaire supérieur est la première structure impliquée dans la localisation spatiale des sons. Les fibres auditives empruntent ensuite le lemnisque médian pour rejoindre le colliculus inférieur. Les neurones du colliculus inférieur répondent à la fréquence du son, à son intensité, et à sa localisation spatiale. La progression le long de la voie auditive sous-corticale est très rapide : les informations atteignent le colliculus inférieur en 5,5 ms. Elle permet le décodage de l’information auditive en terme de fréquence, d’intensité et de localisation. Après le colliculus inférieur, les informations auditives, comme les informations visuelles, effectuent un relais dans un noyau du thalamus : le corps genouillé médian (CGM) ; c’est le dernier relais avant que l’information ne soit transmise au cortex. Le cortex auditif est situé dans le lobe temporal. L’aire auditive primaire (A1 ou aire 41 selon Brodmann) se trouve en profondeur du lobe temporal, dans le gyrus transverse du gyrus temporal supérieur (STG), également dénommé gyrus de Heschl. Dans le CGM et A1, sont analysées les informations permettant la localisation et la reconnaissance du signal sonore, déjà largement décodées par les structures sous-corticales. Dans le cortex auditif primaire, la représentation du son est tonotopique ; les hautes fréquences activent les régions postérieures médianes du gyrus de Heschl, les basses fréquences sont analysées dans sa partie antérieure latérale (Langers et al., 2007; Luethke et al., 1989). Les informations auditives sont alors transmises à plus d’une quinzaine d’aires corticales différentes localisées essentiellement dans le STG (Hackett et al., 1998; Kaas & Hackett, 1998). 1.2. A1 et les aires auditives associatives 1.2.1. Chez le primate Deux aires auditives ont été décrites comme recevant les afférences du CGM : A1 et l’aire rostrolatérale (R) ; la limite entre ces deux aires se trouve au niveau des zones sensibles aux basses fréquences. Ces aires définissent le cœur du cortex auditif, avec une troisième : l’aire caudomédiale (CM) (Rauschecker, 1998). L’aire CM borde l’aire A1 dans sa région 166 répondant aux hautes fréquences (Figure 25a) (Kaas & Hackett, 1998; Rauschecker, 1998; Rauschecker & Tian, 2000). L’aire CM ne reçoit cependant pas d’afférences directes du CGM, puisqu’une lésion de A1 suffit à annuler ses réponses (Rauschecker & Tian, 2000). Ces trois aires présentent une organisation tonotopique et répondent préférentiellement à des sons purs. La ceinture latérale du cortex auditif est constituée d’aires situées en surface du gyrus temporal supérieur, adjacentes et parallèles aux aires R, A1 et CM : l’aire antérolatérale (AL), l’aire médiolatérale (ML) et l’aire caudolatérale (CL), respectivement (Rauschecker, 1998; Rauschecker & Tian, 2000). Les neurones de la ceinture latérale du cortex auditif (AL, ML et CL) répondent aux sons complexes plus qu’aux sons purs, leur décharge est préférentielle pour certaines valeurs de bande passante. De plus, ces neurones sont sensibles à la vitesse des changements spectraux19 : la dynamique temporelle du son. Les neurones de la région antérieure répondent à des variations lentes de fréquence alors que les neurones de la région caudale répondent à des changements rapides (Rauschecker & Tian, 2000). Dans une dernière étude, Rauschecker & Tian (2000) montrent une dissociation entre le traitement des informations spatiales et des vocalises. Les neurones de AL répondent aux vocalises, alors que les neurones de CL sont sélectifs de la localisation spatiale ; toutefois, les vocalises activent également l’aire caudomédiale. Ces résultats sont à l’origine de l’hypothèse d’une dissociation entre l’analyse des informations liées au « quoi » et celle des informations liées au « où », similaire à celle décrite dans le système visuel (Figure 25a,b) (Kaas & Hackett, 1999; Rauschecker & Tian, 2000; Tian et al., 2001). Un troisième niveau d’organisation a été décrit, il est constitué d’aires corticales périphériques (« parabelt areas ») situées en position latérale et ventrale des aires de la ceinture latérale (Hackett et al., 1998). Ces aires corticales semblent être impliquées dans des fonctions intégratives et associatives de plus haut niveau, notamment dans la perception de la structure des stimuli auditifs et donc dans la reconnaissance des objets (Kaas et al., 1999). 19 La dynamique temporelle fait référence aux changements de fréquence au cours du temps. Elle représente la même chose que la dynamique spectrale. 167 Figure 25. Voie dorsale et voie ventrale, chez le primate (a, b) et chez l'homme (c, d, e). (a) Adapté de Rauschecker & Tian (2000). La voie dorsale (en mauve) s'étend jusqu'aux aires frontales supérieures. La voie ventrale se termine dans le gyrus frontal inférieur. (b) Projections des voies auditives dans le cortex préfrontal selon Romanski et al. (1999). (c) Aires impliquées dans la localisation du son, identifiées à partir d'une analyse de source sur des données MEG. Issu de Brunetti et al. (2005). (d) Voie ventrale et dorsale chez l'homme. Les aires postérieures (en bleu) sont activées par la tâche de localisation spatiale. En orange, sont représentées les aires activées dans la tâche de jugement de la hauteur. Issu de Alain et al. (2001). (e) Représentation schématique des voies dorsale (en violet) et ventrale (en vert ) chez l'homme. Les deux voies sont représentées jusqu'au cortex frontal. En rose et rouge : aires classiquement associées à la compréhension (aire de Wernicke, BA22) et la production (aire de Broca, BA 44/45) du langage respectivement. BA: aire de Brodmann. 1.2.2. Chez l’homme Les études chez l’homme révèlent également une hiérarchie des aires auditives (Wessinger et al., 2001). Les aires auditives primaires, constituant le cœur du cortex auditif, sont localisées dans la partie médiane postérieure du gyrus de Heschl (Figure 25c) (Hackett et al., 2001; Liegeois-Chauvel et al., 1994; Liegeois-Chauvel et al., 1991; Sweet et al., 2005). Les neurones des aires auditives primaires répondent principalement à des sons purs présentés 168 à l’oreille controlatérale avec des latences courtes, autour de 20 ms (Liegeois-Chauvel et al., 1994; Liegeois-Chauvel et al., 1991; Wessinger et al., 2001). L’organisation de ces aires est tonotopique : des basses vers les hautes fréquences selon un axe antérieur (latéral)-postérieur (médian) (Langers et al., 2007; Liegeois-Chauvel et al., 1991; Wessinger et al., 1997; Wessinger et al., 2001). La réponse des neurones du cortex auditif primaire est la même que les stimuli auditifs consistent en du bruit ou du langage, révélant que l’aire auditive primaire est impliquée dans l’analyse précoce des caractéristiques acoustiques des différents stimuli auditifs (Zatorre et al., 1992). Une autre étude montre cependant une réponse amplifiée de A1 pour des stimuli linguistiques ; les auteurs proposent que cela reflète leur plus grande complexité acoustique (Belin et al., 2002). L’organisation tonotopique est plus marquée dans l’hémisphère droit que dans l’hémisphère gauche (Langers et al., 2007; Liegeois-Chauvel et al., 2001). Il semble donc y avoir une latéralisation prononcée dans le système auditif. Les aires auditives secondaires sont localisées sur les côtés postérieur et antérieur du gyrus de Heschl et dans la partie postérieure – le planum temporale – et la partie antérieure – le planum polare – du STG (Langers et al., 2007; Sweet et al., 2005). Dans les aires auditives secondaires, les neurones ne montrent pas de préférence pour les stimulations controlatérales, l’organisation tonotopique n’y est pas non plus évidente (Langers et al., 2007). Les aires auditives secondaires sont activées par des stimuli auditifs complexes et ne répondent que très peu à des sons purs (Wessinger et al., 2001). Les aires auditives secondaires paraissent donc impliquées dans des traitements auditifs de plus haut niveau (Zatorre et al., 1992). Il est également montré une dissociation anatomique et fonctionnelle entre l’analyse de la localisation spatiale, par la voie dorsale, et l’analyse de la nature du son, par la voie ventrale (Figure 25) (Alain et al., 2001; Barrett & Hall, 2006; Maeder et al., 2001). La séparation des voies ventrale et dorsale aurait lieu dès le planum temporale. Les informations sur la hauteur du son sont en effet traitées dans sa partie antérolatérale, alors que les informations sur la localisation spatiale du son sont analysées dans sa partie postéromédiane ; le planum temporale serait l’équivalent des zones de la ceinture du cortex auditif décrites chez le singe (Warren & Griffiths, 2003). La localisation du son implique des aires situées dans les régions cérébrales postérieures et dorsales, notamment la partie ventrale du lobule pariétal inférieur et le précunéus (Figure 25c) (Brunetti et al., 2005; Zatorre, Bouffard et al., 2002). La reconnaissance des sons met en jeu un réseau d’aires cérébrales situées dans la partie antérieure du lobe temporal, notamment les gyri temporaux supérieur (STG) et moyen (MTG) (Figure 25d,e) (Alain et al., 2001; Maeder et al., 2001). Cependant, la dissociation 169 anatomique entre voie dorsale et voie ventrale paraît également refléter une dissociation fonctionnelle liée à l’analyse des informations temporelles des stimuli auditifs (Belin & Zatorre, 2000). La voie dorsale serait en fait impliquée dans l’analyse de la dynamique temporelle du son, hypothèse appuyée par les études montrant une activation des aires postérieures par des stimuli présentant des variations spectrales (Thivard et al., 2000). La voie dorsale serait donc la voie du « comment », comment évoluent les éléments spectraux au cours du temps ; la fonction du « quoi » reste attribuée à la voie ventrale (Belin & Zatorre, 2000). La dynamique temporelle du son est un élément permettant le traitement des aspects phonologiques de la parole (Zatorre, Belin et al., 2002) ; ainsi, la sensibilité de la voie dorsale à la dynamique temporelle l’associerait à la compréhension du discours. Cette hypothèse est également renforcée par la présence de l’aire de Wernicke dans la partie postérieure du STG, aire impliquée dans la compréhension du langage (Figure 25e). Par ailleurs, différentes études mettent en évidence une dissociation fonctionnelle entre hémisphère droit et hémisphère gauche (Liegeois-Chauvel et al., 2001; Zatorre & Belin, 2001; Zatorre, Belin et al., 2002; Zatorre, Bouffard et al., 2002). La latéralisation des effets observés en IRMf est dépendante de la rapidité des changements spectraux plus que du contenu linguistique des stimuli. L’hémisphère gauche est activé par des changements rapides de fréquence alors que l’hémisphère droit est plus activé par des stimuli statiques ou changeant lentement (Belin et al., 1998; Husain, Fromm et al., 2006). Cette asymétrie hémisphérique en fonction de la dynamique temporelle pourrait expliquer la latéralisation du langage chez l’homme (Belin et al., 1998; Liegeois-Chauvel et al., 1999). Ainsi, l’hémisphère gauche paraît impliqué dans l’analyse de la dynamique temporelle, et l’hémisphère droit dans l’analyse spectrale des stimuli auditifs (Zatorre & Belin, 2001; Zatorre, Belin et al., 2002). Compte tenu de la latéralisation des traitements auditifs, et des études montrant que la localisation spatiale d’un son active les régions postérieures dorsales du cerveau, il est possible que la voie dorsale dans l’hémisphère gauche soit impliquée dans l’analyse de la dynamique temporelle des stimuli et qu’elle permette le décodage phonologique sous-tendant la compréhension du discours ; dans l’hémisphère droit, la voie dorsale aura pour rôle l’analyse de la localisation spatiale du son. En résumé, comme observé dans le système visuel, deux voies distinctes partent des aires auditives primaires vers les aires auditives associatives. Une de ces voies est impliquée dans l’analyse des caractéristiques acoustiques du son, la voie ventrale ou voie du « quoi » ; 170 elle met en jeu des aires cérébrales localisées dans la partie antéro-ventrale du lobe temporal. L’autre voie implique des aires corticales de la partie postéro-dorsale du cortex, c’est la voie dorsale. Son rôle est encore débattu actuellement, elle pourrait être impliquée soit dans l’analyse de la dynamique temporelle des stimuli auditifs (voie du « comment ») (Belin & Zatorre, 2000; Zatorre & Belin, 2001), soit dans le traitement des informations nécessaires à la localisation spatiale du son (voie du « où ») (Figure 25) (Alain et al., 2001; Brunetti et al., 2005; Kaas & Hackett, 1999; Maeder et al., 2001; Rauschecker & Tian, 2000; Zatorre, Bouffard et al., 2002). Ces deux voies distinctes convergent dans différentes régions du lobe frontal (Alain et al., 2001; Brunetti et al., 2005; Romanski et al., 1999). La voie ventrale se termine dans la partie ventrale du gyrus frontal inférieur alors que la voie dorsale se termine dans la partie dorsale du cortex préfrontal (Figure 25a,b,e) (Alain et al., 2001; Husain, McKinney et al., 2006; Rauschecker & Tian, 2000; Romanski et al., 1999). Ces deux aires frontales ont, par ailleurs, été décrites comme étant le lieu de convergence respectivement des informations visuelles liées à l’objet (catégorisation etc.) et celles liées à la localisation ou au mouvement de l’objet. Ainsi, il apparaît que l’organisation corticale est dépendante des informations extraites de différentes scènes sensorielles. Les informations concernant le mouvement ou la localisation spatiale engagent un réseau d’aires localisées dans la partie dorsale de l’encéphale, les informations liées à la nature des stimulations sont analysées via les aires situées dans la partie ventrale du cortex. 1.3. Décours temporel du traitement auditif : potentiels évoqués Les potentiels évoqués (PE) auditifs enregistrés en MEG ou en EEG traduisent le décours temporel du traitement auditif en mettant en évidence plusieurs composantes. Des réponses très précoces, entre 10 et 60 ms après le début de la stimulation, peuvent être enregistrées sur les électrodes centrales. Ces ondes cérébrales sont en général de faible amplitude et n’ont reçu que peu d’attention de la part des chercheurs. Durant ce laps de temps, il peut être observé 6 pics d’activité ; les deux ondes les plus communément observées sont le complexe Na/Pa (18 à 30 ms), suivi de l’onde P1 ou P50 (50 ms) (Figure 26a). La Pa, enregistrée sur les électrodes frontocentrales, est une onde visible dans diverses conditions expérimentales chez de nombreux sujets. Elle a pour origine une région médiane du gyrus de Heschl (Liegeois-Chauvel et al., 1994; Pantev et al., 1995). La topographie de la Pa montre une sensibilité à la fréquence du son. La positivité devient de plus en plus frontale à mesure de l’augmentation de la fréquence, révélant un changement d’orientation du dipôle soustendant la Pa. Après la Pa, il est parfois observé une composante positive apparaissant 50 ms 171 après le début de la stimulation : la P50 ou P1. La P50 a pour origine les régions latérales de l’aire auditive primaire (Liegeois-Chauvel et al., 1994). La P50 paraît être modulée par la pertinence d’un stimulus ; son amplitude diminue pour les stimuli non pertinents. Figure 26. Exemples de potentiels évoqués auditifs. (a) Illustration de PE auditifs précoces. La Pa, la N1et la P2 sont visibles sur les électrodes centrales (Fz, Cz). Issu de Pantev et al. (1995). (b) La N1 et la P2 sont visibles sur Fz et Cz. Les deux voyelles diffèrent au niveau phonologique, le /a/ est une voyelle douce ("soft"), et le /A/ est une voyelle appuyée ("pressed"). La P2 est plus ample pour les voyelles que pour les sons non vocaux ("tones", en pointillé). Issu de Tiitinen et al. (1999). La N1 auditive (en MEG, la M100 auditive) est une onde négative enregistrée sur les électrodes frontocentrales ; elle commence environ 100 ms après le début du stimulus (Figure 26). La N1 est modulée par la fréquence des stimuli ; sa latence et son amplitude diminuent avec l’augmentation de la fréquence (Crottaz-Herbette & Ragot, 2000; Jacobson et al., 1992; Näätänen & Picton, 1987; Näätänen et al., 1988). L’utilisation de sons complexes a mis en évidence une modulation de la topographie de la N1 par la fréquence des harmoniques : plus la fréquence des formants augmente, plus le dipôle expliquant la N1 a une orientation frontale (Crottaz-Herbette & Ragot, 2000; Pantev et al., 1995; Tiitinen et al., 1993). La N1 est 172 également sensible à la position du stimulus dans l’espace puisque la N1 diminue, révélant une adaptation lorsque des stimuli spatialement proches sont présentés(Näätänen et al., 1988). Au vu de la sensibilité de la N1 à la fréquence et à la localisation spatiale du son, la source cérébrale de la N1 serait placée dans le cortex auditif en position plus superficielle et latérale que la source de la Pa, au niveau de la partie supérieure du STG dans le planum temporale (Liegeois-Chauvel et al., 1994; Lutkenhoner & Steinstrater, 1998; Pantev et al., 1995). Les modifications de topographies seraient révélatrices de la tonotopie décrite dans le planum temporale (Pantev et al., 1995). Par ailleurs, la modulation de la N1 par la fréquence du son est indépendante des modulations liées au traitement de la localisation spatiale, suggérant une dissociation anatomique et fonctionnelle entre le traitement des informations spatiales et acoustiques, notamment au niveau du planum temporale en accord avec la dissociation anatomique et fonctionnelle rapportée par les études en imagerie (Näätänen et al., 1988; Warren & Griffiths, 2003). Il semble cependant, que plusieurs sources cérébrales contribuent à la N1 enregistrée à la surface du scalp (Näätänen & Picton, 1987; Näätänen et al., 1988). Les sources cérébrales proposées comme étant à l’origine de la N1 – celle que Näätänen & Picton (1987) appellent la « vraie N1 » – sont au nombre de trois (Näätänen & Picton, 1987). Une première source serait localisée dans le cortex auditif au niveau du planum temporale du STG, une deuxième source dans les aires auditives secondaires en position latérale par rapport au gyrus de Heschl (Liegeois-Chauvel et al., 1994; Lutkenhoner & Steinstrater, 1998; Näätänen & Picton, 1987). La troisième composante est une composante frontale dont l’origine parait être le cortex frontal, le cortex moteur ou le gyrus cingulaire (Giard et al., 1994; Giard et al., 1988). La N1 est également modulée par les processus attentionnels : son amplitude augmente lorsque l’attention des sujets est explicitement dirigée vers certaines caractéristiques du son (Alho et al., 1986; Alho et al., 1994; Giard et al., 1988). Cette augmentation d’amplitude pourrait refléter une augmentation de l’activité des sources à l’origine de la N1, ou l’addition de l’activité d’une autre source se traduisant par une large négativité (« processing negativity ») (Alho et al., 1994; Näätänen & Picton, 1987; Neelon et al., 2006). Après la N1, une onde positive est enregistrée au niveau du vertex entre 160 et 240 ms après le début de la stimulation : la P2 (Figure 26) (Michalewski et al., 1986). La P2 n’a été que peu étudiée ; son origine cérébrale paraît être une région antérieure au gyrus de Heschl et à la source de la N1 (Lutkenhoner & Steinstrater, 1998; Tiitinen et al., 1999). L’amplitude de la P2 est également modulée par la fréquence des stimuli : son amplitude diminue avec 173 l’augmentation de la fréquence (Verkindt et al., 1994). Durant l’intervalle de temps de la N1 et de la P2, il est possible de mettre en évidence une onde différentielle : la MMN (« Mismatch negativity ») (Naatanen & Alho, 1995, 1997). La MMN est enregistrée sur les électrodes frontocentrales entre 100 et 250 ms, et est obtenue après soustraction des PE enregistrés pour des stimuli rares aux PE enregistrés pour des stimuli fréquents présentés au sein d’une même séquence (Elangovan et al., 2005). Elle montre un autre aspect du traitement auditif : elle reflète la détection automatique d’un changement, en terme de fréquence, de durée, ou de contenu sémantique, entre deux stimuli auditifs (Naatanen & Alho, 1995; Roeber et al., 2003; Tiitinen et al., 1993). Elle est également sensible à la discrimination entre deux catégories de stimuli. Son amplitude est corrélée à la perception des sujets : plus les sujets perçoivent de similarité entre deux stimuli, plus la MMN est petite (Naatanen, 2001). Puisque la MMN est enregistrée simultanément à la N1 et la P2, il est probable que certaines modulations de la MMN soient également présentes au niveau de ces deux composantes ; elles sont, par exemple, toutes trois modulées par la fréquence des stimuli. Certains auteurs proposent d’ailleurs que les différentes phases de la MMN (précoce et tardive) correspondent successivement à la N1 et la P2 (Elangovan et al., 2005). Les aires activées par les stimuli auditifs et le décours temporel de ces activations dépendent fortement des caractéristiques physiques des stimuli mis en jeu. Dans ma thèse, je me suis intéressée à un stimulus auditif spécifique du fait de son rôle social : la voix. Pour bien appréhender le traitement de la voix, il est nécessaire de comprendre son mode de production et ses caractéristiques acoustiques. 2. La voix : de la production à l’écoute La voix, les vocalises ne sont pas l’apanage de l’espèce humaine. Bien avant que la voix n’ait acquis l’importance qu’elle a dans l’espèce humaine, où elle véhicule le langage articulé, les vocalises étaient le support de la communication orale chez de nombreuses espèces animales. Les vocalises sont par exemple utilisées pour la reconnaissance des individus d’une même famille chez les oiseaux (Jouventin et al., 1999; Price, 1999; Sharp et al., 2005), les macaques, les grenouilles (Bee & Gerhardt, 2002), les dauphins (Barton, 2006) etc. Les cris des animaux ont un rôle de première importance dans la survie des individus, particulièrement pour les animaux vivant en groupe qui ont des codes vocaux spécifiques pour alerter le groupe, notamment de la présence d’un danger (Ghazanfar et al., 2001). Dans 174 l’espèce humaine, la voix permet à la pensée de se muer en structures chantées ou parlées ; elle est le support du langage articulé. Mais, outre son rôle dans la perception du discours, elle porte également des informations paralinguistiques, importantes pour la reconnaissance de l’individu et de son état émotionnel; elle peut être considérée comme le « visage auditif » (Belin et al., 2004). Comme les visages, qui partagent une configuration générique et dont l’identité est déterminée par des variations subtiles de la position des éléments, une voix est caractérisée par un arrangement unique de différents paramètres acoustiques. Ces différents paramètres dépendent de l’anatomie de l’appareil phonatoire propre à chaque individu. La qualité de la voix est également influencée par d’autres facteurs, notamment par les facteurs culturaux, les habitudes vocales etc. Dans ma thèse, j’ai exploré l’extraction des informations paralinguistiques de la voix, plus spécifiquement la reconnaissance du genre. Avant de rentrer dans le sujet de la perception de la voix, je vais d’abord rappeler brièvement les mécanismes de production de la voix, puis les mécanismes cérébraux sous-tendant la compréhension et la production du langage. J’aborderai ensuite la perception des voix d’un point de vue extralinguistique. 2.1. Appareil phonatoire et structure de la voix La voix désigne l’ensemble des sons produits par l’air qui sortent des poumons et du larynx. La structure d’une voix est unique, elle dépend des différents organes de l’appareil phonatoire (Figure 27). L’appareil vocal humain fonctionne de façon analogue à un instrument de musique à vent et à corde. La voix est produite à partir d’une source d’air provenant des poumons et d’un ensemble de muscles dont le rôle est d’acheminer l’air de la trachée vers le larynx où il rencontre les cordes vocales (Figure 27). Les cordes vocales sont des muscles qui, sous la commande d’influx nerveux, vont se contracter ou se relâcher. La vibration des cordes vocales entraînent des mouvements d’ouverture et de fermeture de la glotte, il y a ainsi une libération saccadée de l’air emmagasiné dans les poumons. Le flux d’air sortant du larynx est ensuite amplifié via une série de structures jouant le rôle de caisses de résonnance : le pharynx, la bouche et les fosses nasales (Figure 27). 175 Figure 27. Appareil phonatoire humain. La voix est une onde sonore complexe caractérisée par sa fréquence et son intensité. La hauteur de la voix est liée à la fréquence de l’onde sonore issue des cordes vocales. Elle est donc déterminée par la périodicité du cycle d’ouverture/fermeture de la glotte. La voix est également caractérisée par les formants ; ces derniers résultent de l’amplification de certaines fréquences dans les différentes caisses de résonance constituant un système acoustique. Dans la voix, ils sont les fréquences amplifiées dans le conduit vocal, au niveau du pharynx et des cavités nasales. L'intensité de la voix varie généralement, pour le langage parlé, entre 40 et 60 dB. Elle dépend de la pression sous-glottique. La fréquence et l’intensité de la voix ne sont pas indépendantes. La fréquence laryngienne (fréquence fondamentale) est le résultat de la tension des cordes vocales mais également de la pression sous-glottique qui dépend de la forme des poumons, de la trachée et de l’ensemble de l’appareil phonatoire ; ceci démontre bien une interaction entre intensité et fréquence fondamentale. L’unicité de la voix et la variabilité intra-individuelle viennent de l’interaction entre ces différents facteurs. La parole est le résultat d’une modification de la fréquence de vibration des cordes vocales, qui permet de produire les vibrations acoustiques caractéristiques des différents sons du langage. Les sons qui sortent des cordes vocales ne sont que des mots en devenir. Le pharynx et les cavités avec lesquelles il est en contact modulent l’amplitude de certaines fréquences ; la langue, les dents et le voile du palais sculptent les sons. Après ces différentes modifications, les sons deviennent des mots. 2.2. Ecouter la voix : langage et perception La perception des voix a été largement étudiée, du fait de son importance dans la communication verbale par le langage. La voix véhicule également des informations paralinguistiques importantes dans les interactions sociales et à la communication non 176 verbale. L’existence de lésions provoquant spécifiquement des troubles du langage (les aphasies) ou des troubles de la perception de la voix (les phonagnosies) prouve que les structures cérébrales impliquées dans ces deux fonctions sont distinctes. L’aphasie est un trouble du langage affectant l’expression ou la compréhension du langage parlé ou écrit. Les aphasies sont de plusieurs types. Les deux aphasies principales décrites sont l’aphasie de Broca (1863) et l’aphasie de Wernicke (1874) ; elles sont la conséquence de lésions touchant respectivement les aires de Broca et Wernicke (Figure 22e). La phonagnosie est un trouble de la perception des voix allant de l’incapacité à discriminer deux voix non familières à l’impossibilité de reconnaître une voix familière (Van Lancker et al., 1988). 2.2.1. Le langage : la communication verbale Le langage est universel, toutes les tribus humaines ont développé un langage pour communiquer. L’apprentissage du langage est le même dans toutes les populations, bien que la syntaxe varie d’une langue à l’autre. a. Caractéristiques acoustiques du langage L’unité de base du langage est le phonème. Les phonèmes sont divisés en deux catégories : les voyelles et les consonnes. Une voyelle est un son musical perceptible alors que les consonnes sont des bruits n’ayant aucune signification si elles ne sont pas associées à une voyelle. Les consonnes et les voyelles sont classées en plusieurs catégories en fonction du lieu et du mode d’articulation. Le lieu d’articulation est le lieu de rétrécissement maximal de l’appareil phonatoire, le mode d’articulation décrit la configuration générale des organes articulatoires. Le mode d’articulation dépend de la voie empruntée par l’air en provenance des poumons : si l’air passe uniquement par la voie buccale, les consonnes et voyelles sont dites orales, si l’air emprunte les voies buccale et nasale, elles sont dites nasales. Les voyelles sont, en général, des sons complexes périodiques produits par une vibration des cordes vocales possédant une fréquence fondamentale et des harmoniques. Certaines harmoniques sont amplifiées, rendant compte du timbre propre à chaque voyelle ; ces fréquences renforcées sont les formants. Ces derniers, au nombre de 4 minimum, sont essentiels à la perception des voyelles ; les deux premiers formants (f1 et f2, ceux de plus basse fréquence) peuvent suffire à discriminer deux voyelles. Une consonne est un son, non nécessairement accompagné d’une vibration des cordes vocales, produit par l’obstruction du passage de l’air dans les cavités situées au dessus de la 177 glotte. En phonétique articulatoire, les consonnes sont classées en plusieurs catégories en fonction des lieux et modes d’articulation. Le lieu d’articulation distingue les consonnes labiales (/b/, /p/ etc.), des consonnes dentales (/d/, /t/, /n/), vélaires (/g/, /k/ etc.) etc. Le mode d’articulation permet un classement des consonnes en fonction du voisement, c’est à dire la mise en jeu des cordes vocales ; on distingue les consonnes voisées et les consonnes sourdes. Les consonnes voisées, sonores, (/b/, /g/, /d/ etc.) sont produites par une vibration des cordes vocales ; ce sont des sons complexes périodiques dont le spectre ressemble à celui d’une voyelle. Les consonnes sourdes (/p/, /t/, /k/ etc.) sont des sons complexes apériodiques produits sans vibration des cordes vocales, c’est la fermeture des cavités supra-glottiques qui détermine le son. Le mode d’articulation indique également le degré de fermeture des cavités supra-glottiques : consonnes fricatives ou occlusives. Les consonnes occlusives (/p/, /b/, /t/, /d/ etc.) sont produites en obstruant totalement le passage de l’air dans le conduit vocal. Les consonnes fricatives (/k/, /v/, /s/, etc.) résultent d’un resserrement du canal vocal n’allant pas jusqu’à sa fermeture. b. Structures cérébrales impliquées dans le langage Les premières données sur les structures cérébrales impliquées dans la perception du langage, de sa compréhension à sa production, ont été apportées par l’étude de patients montrant des troubles du langage associés à des fonctions cognitives normales. Ces pathologies sont les aphasies. Plusieurs types d’aphasie résultent de lésions cérébrales différentes. Cette première constatation montre que le langage est un processus qui a lieu en plusieurs étapes dans des structures cérébrales distinctes. Les lésions du lobe frontal gauche, au niveau de l’aire de Broca, provoquent un trouble de l’articulation des mots sans atteinte de la compréhension. Les troubles de la production sont associées à des erreurs grammaticales et à une mauvaise utilisation de certains mots. Ce type d’aphasie est nommée aphasie de Broca. Elle montre l’implication de l’aire de Broca dans les contrôles moteurs à la base du langage articulé. L’aphasie de Wernicke résulte de lésions postérieures de l’hémisphère gauche, au niveau de l’aire de Wernicke. Elle se traduit par une perte de la compréhension associée à un langage fluide et volubile mais incompréhensif. Ces données suggèrent que l’aire de Wernicke joue un rôle dans la relation entre le décodage phonétique et le sens du mot. Cependant, le discours des patients souffrant d’une aphasie de Wernicke est altéré, révélant une interaction entre les aires de Broca et de Wernicke ; cette interaction est assurée via un faisceau de fibres nerveuses : le faisceau arqué. L’aire de Broca reçoit des entrées en provenance de l’aire de Wernicke ; en 178 l’absence de ces entrées, elle n’a plus la possibilité de contrôler le contenu des mots produits. Des lésions du faisceau arqué induisent un autre type d’aphasie : l’aphasie de conduction, qui. est caractérisée par des troubles de la répétition et, une compréhension et une production du langage préservées (Cohen, 2004). L’aire de Wernicke est donc impliquée dans la compréhension du discours, plus précisément dans la représentation des séquences phonétiques. Les gyri supramarginal et angulaire semblent impliqués respectivement dans le traitement phonologique (Thierry et al., 1999), et dans le traitement sémantique des mots. Le faisceau arqué transmet les informations des aires postérieures aux aires antérieures dont l’aire de Broca, qui, elle, joue un rôle dans la production du langage. La partie antérieure de l’aire de Broca (aire 45) serait impliquée dans les aspects sémantiques de la production du langage ; sa partie postérieure (aire 44) serait responsable de la production du langage à proprement parler, elle enverrait un programme moteur au cortex moteur primaire. Les études lésionnelles ne sont pas très précises : il est rare d’observer une lésion touchant spécifiquement une aire corticale. En conséquence de quoi, il est probable que d’autres aires appartenant aux cortex temporal et frontal soient aussi impliquées dans la compréhension et la production du langage. De nouvelles données ont été apportées par les techniques de neuroimagerie ; elles remettent en question cette organisation simple des processus linguistiques. Les études en imagerie montrent en effet que la perception du langage met en jeu un réseau d’aires cérébrales largement distribuées, localisées dans les cortex temporal, pariétal et frontal essentiellement dans l’hémisphère gauche. Ces différentes aires cérébrales fonctionnent aussi bien en parallèle que de manière hiérarchique (Binder et al., 1997; Binder et al., 1996; Scott & Johnsrude, 2003). Les informations phonétiques, compréhensibles ou non, activent le gyrus temporal supérieur (STG) gauche, dans une région latérale et antérieure au cortex auditif primaire, et le sulcus temporal supérieur (STS) postérieur gauche. La partie antérolatérale du STG serait impliquée dans un traitement phonétique pré-lexical, alors que l’activation du STS postérieur refléterait la construction d’une représentation phonétique nécessaire à la répétition des mots entendus, compris ou pas (Scott et al., 2000; Scott et al., 2006). A contrario, le STS antérieur gauche est activé uniquement par les stimuli intelligibles (Scott et al., 2000). L’aire de Wernicke, située dans la partie postérieure du STG, n’est donc pas la seule responsable de la compréhension du langage ; elle n’est d’ailleurs pas activée dans l’étude de Scott et al. (2000). Il semble qu’un grand nombre d’aires du lobe temporal gauche, incluant le STG, le 179 gyrus temporal médian et le gyrus angulaire, soient impliquées dans la compréhension du langage (Binder et al., 1997; Spitsyna et al., 2006). L’aire de Broca est également mise en jeu par le traitement des informations sémantiques : elle est activée dans des tâches requérant un traitement sémantique sans production de parole (Binder et al., 1997; Zatorre et al., 1992). Il est proposé que la réalisation d’une tâche de décision phonétique mette en jeu l’aire de Broca car elle nécessite l’accès à la représentation motrice du mot. L’accès au code moteur n’est cependant pas nécessaire pour tout traitement sémantique puisque l’aire de Broca n’est pas activée lors d’une écoute passive de mots, même s’ils sont compris par les sujets (Zatorre et al., 1992). L’aire de Broca n’est pas non plus la seule aire frontale gauche activée dans la perception du discours. En fait, une grande partie du cortex préfrontal gauche est activée par les stimuli contenant des informations sémantiques ; seule une partie focalisée du gyrus frontal médian (aire 9) n’est pas activée, révélant ainsi son rôle dans des fonctions distinctes (Binder et al., 1997). Le langage met en jeu, en plus des aires corticales, des structures sous-corticales. Le cervelet faciliterait les opérations cérébrales complexes ; le thalamus a été associé aux influences attentionnelles dans la perception du langage. L’activation du cortex rétrosplénial pourrait refléter l’implication des fonctions mnésiques dans les tâches de décision sémantique (Binder et al., 1997; Thierry et al., 1999). La perception du langage semble donc engager de très nombreuses aires corticales localisées essentiellement dans l’hémisphère gauche. Les fonctions de ces différentes aires ne sont pas encore bien comprises. La voix est également le support d’informations non langagières donnant un accès à l’identité, à l’état émotionnel d’un individu. Bien que la voix soit le « visage auditif », ce versant de la perception des voix a été nettement moins exploré que la perception du langage ou que la perception des visages. Dans le domaine de la communication non verbale, la voix présente des similitudes avec le visage : elle est un stimulus complexe que nous sommes pourtant à même de décoder rapidement, et dont nous extrayons une multitude d’informations. Ces similitudes entre voix et visage m’ont conduit à l’étude de la voix durant ma thèse. Dans le paragraphe suivant, je vais détailler les études ayant porté sur la perception de la voix, afin de voir en quoi elle se différencie ou non de celle des visages. 2.2.2. Perception de la voix, informations paralinguistiques Même en l’absence de langage, l’être humain est capable de percevoir l’identité et l’état émotionnel d’un individu, d’après son rire, ses cris etc. Cette capacité est loin d’être 180 spécifique à l’espèce humaine ; elle est apparue bien avant le langage dans l’évolution. Quelques études seulement ont exploré la perception des informations paralinguistiques de la voix, au niveau comportemental et cérébral. Les études en neuroimagerie fonctionnelle tendent à démontrer que la voix est un stimulus auditif spécial, notamment en révélant l’existence d’aires cérébrales spécifiquement activées par les voix. a. Etudes comportementales Une voix est caractérisée par un ensemble d’éléments physiques, qui peuvent être statiques – fréquence fondamentale, formants – ou dynamiques, rythme de la parole, accents etc. La combinaison de ces différents paramètres rend chaque voix unique (Figure 28). La reconnaissance d’une personne à partir de sa voix va donc dépendre de ces différents éléments, que ce soit la reconnaissance de son identité, de son genre ou de son état émotionnel (Belin et al., 2004). Chez le macaque, il a été montré un effet de l’inversion temporelle des vocalises sur la reconnaissance des congénères ; les vocalises sont identifiés comme étant celles d’un congénère lorsqu’elles sont à l’endroit, i.e. dans le bon ordre temporel, mais pas après inversion temporelle (Ghazanfar et al., 2001). La dynamique temporelle de la voix est donc impliquée dans l’identification des individus appartenant à la même espèce. Chez l’homme, la reconnaissance de l’identité et la perception du genre du locuteur ont été investiguées ; elles semblent mettre en jeu à la fois les informations statiques et dynamiques. Figure 28. Illustration de 3 voix différentes. Le même mot ("lit") est prononcé par 3 personnes différentes (en colonne). Deux premières colonnes: voix de femmes. Colonne 3: voix d’hommes. Première ligne: amplitude du signal en fonction du temps. Deuxième ligne: spectrogrammes, fréquence du signal en fonction du temps. En violet: fréquence fondamentale de chaque voix. NB: la durée du mot varie en fonction du locuteur, elle est plus grande lorsque le locuteur est une femme (Andrews & Schmidt, 1997). L'énergie dans chaque bande de fréquence est également différente. 181 Perception du genre L’identification du genre d’un locuteur dépend en premier lieu de la hauteur de la voix, indicée par la fréquence fondamentale. Les voix masculines s’étendent sur une gamme de fréquence allant de 80 à 160 Hz ; la fréquence des voix féminines varie, elle, entre 150 et 300 Hz. Les voix féminines sont donc, en général plus aiguës que les voix masculines, même s’il existe un recouvrement partiel entre les deux gammes de fréquence (Figure 28) (Andrews & Schmidt, 1997; Mullennix et al., 1995; Murry & Singh, 1980; Whiteside, 1998). Le genre d’un individu est également indiqué par la fréquence des formants qui est généralement supérieure chez les femmes (Whiteside, 1998). Une étude montre cependant que c’est la combinaison des informations portées par la fréquence fondamentale et par les formants qui est importante (Mullennix et al., 1995). Dans cette étude, les stimuli utilisés étaient un continuum de voix synthétiques, allant d’une voix d’homme à une voix de femme ; les sujets jugeaient le genre du locuteur. Les auteurs ont testé l’effet de plusieurs adaptateurs sur l’évaluation par les sujets de la qualité de la voix en terme de genre. Un adaptateur est un stimulus répété présenté entre les différentes séquences de stimuli à identifier ; dans cette étude, l’adaptateur était soit une voix synthétique située à l’extrémité du continuum, soit une voix naturelle, soit une voix dont la fréquence fondamentale ou les formants étaient modifiés (Mullennix et al., 1995). L’adaptation n’a lieu que si l’adaptateur a la même fréquence fondamentale et la même fréquence formantique qu’un des extremas du continuum ; si seulement l’un ou l’autre est apparié, il n’y a pas d’adaptation. Par ailleurs, l’utilisation de voix non synthétiques (différant de quelques pourcents des voix synthétiques) suffit à annihiler l’adaptation (Mullennix et al., 1995). Les auteurs concluent de leurs résultats que la perception du genre dépend d’une représentation de la voix dérivée des informations auditives, et non d’une représentation abstraite stockée en mémoire ; en effet, si la représentation du genre était une représentation abstraite, l’adaptation aurait dû avoir lieu aussi bien avec la voix synthétique que la voix naturelle (Mullennix et al., 1995). Ces différentes expériences dévoilent également une différence entre la perception des voix d’hommes et celle des voix de femmes, bien qu’elles ne permettent pas de l’expliquer. Des différences entre le traitement des voix de femmes et d’hommes sont aussi rapportées par d’autres études (Fecteau et al., 2004b; Murry & Singh, 1980). Murry et Singh (1980) montrent que l’identification de la voix est basée sur des facteurs différents en fonction du sexe du locuteur. En utilisant un paradigme d’amorçage, il est montré un effet plus important de l’amorçage sur la catégorisation des voix de femmes que sur celle des voix d’hommes 182 (Fecteau et al., 2004b). La différence principale entre perception des voix d’hommes et de femmes semblent être le recours aux informations temporelles ; les voix de femmes ont tendance à être reconnues sur la base des informations temporelles de la voix (Murry & Singh, 1980). De la même façon, il est rapporté que les voix rythmées, présentant une grande variabilité de fréquence en fonction du temps, sont considérées comme féminines alors que les voix plus monotones sont considérées comme masculines (Andrews & Schmidt, 1997). Ainsi, il apparaît que les informations portées par la dynamique temporelle de la voix sont impliquées dans la reconnaissance du genre du locuteur, particulièrement lorsque les informations spectrales ne suffisent pas (Andrews & Schmidt, 1997; Fu et al., 2004). L’inversion de la voix démontre également le rôle des informations dynamiques et statiques dans la reconnaissance du genre du locuteur. L’inversion du signal, que ce soit dans le domaine fréquentiel ou dans le domaine temporel, perturbe la perception du genre du locuteur ; l’inversion fréquentielle a toutefois plus d’impact suggérant un rôle prépondérant des informations spectrales dans la perception du genre (Bedard & Belin, 2004). Ainsi, les informations spectrales et temporelles jouent un rôle dans la perception du genre. Ces études ne permettent cependant pas de savoir si ces informations sont combinées dans un prototype (équivalent au gestalt, dans la perception des visages). D’un côté, Mullenix et collaborateurs (1995) suggèrent que la perception du genre de la voix ne repose pas sur l’existence de prototype (voir ci-dessus). Ils montrent également que la perception du genre de la voix n’est pas catégorielle (il n’y a pas de discontinuité dans l’identification des voix du continuum) ; ce résultat va également dans le sens d’une représentation du genre dérivée des informations auditives (Figure 29a). Les résultats de cette étude sont néanmoins à prendre avec précaution, non seulement parce que les auteurs utilisent un continuum de voix synthétiques, mais également parce que la perception des sujets est évaluée sur une échelle allant de 1 à 6 (voix homme à voix femme). Ce type d’évaluation peut empêcher l’apparition d’une discontinuité : une voix qui, dans une tâche de choix forcé, serait systématiquement catégorisée comme masculine, pourrait être estimée avec le chiffre 3 indiquant une incertitude quant au choix de la réponse. L’absence de discontinuité peut donc simplement révéler l’incertitude des sujets pour déterminer le genre des voix intermédiaires, incertitude se reflétant par l’utilisation des chiffres 3 et 4 de l’échelle d’évaluation. D’un autre côté, des études mettent en évidence, en utilisant un continuum de voix naturelles, une discontinuité dans les réponses des sujets qui réalisent une tâche de choix forcé (femme ou homme uniquement), (Figure 29b) (Belin et al., 2006; Charest et al., 2005; Chartrand et al., 2005). 183 Les réponses des sujets présentant une discontinuité, le genre de la voix parait être représenté sous forme de prototypes stockés en mémoire. Ce résultat ne permet pas d’attester de façon sure de l’aspect catégoriel de la perception du genre. Pour pouvoir assurer qu’un processus est catégoriel, il faut en effet observer une discontinuité dans les réponses des sujets mais il est également nécessaire de prouver que la discrimination entre deux items se situant d’un même côté de la discontinuité est plus difficile que celle entre deux items situés de part et d’autre de la discontinuité. Ce deuxième résultat, nécessaire pour prouver que la perception du genre est catégoriel, n’a pas été trouvé dans les études s’interessant à la perception du genre de la voix (Communication personnelle de Pascal Belin). Les prototypes du genre contiendraient des informations temporelles et spectrales. Figure 29. Comportement observé dans deux études explorant la catégorisation du genre de la voix. (a) trait plein: évaluation de la qualité masculine ou féminine de voix synthétiques sur une échelle allant de 1 à 6 (ordonnées de gauche). Les traits en pointillés représentent les performances (ordonnées de droite) des sujets dans une tâche de discrimination entre deux voix (croix). Le trait avec les points représente les performances prédites à partir des réponses des sujets dans la tâche d'identification. L'absence d'un pic de discrimination dans la zone intermédiaire du continuum (autour des stimuli 5, 6, 7) suggère que la perception du genre n'est pas catégorielle. Issu de Mullennix et al. (1995). (b) Catégorisation du genre des voix d'un continuum de voix naturelles. Les résultats sont présentés en pourcentage de réponse "femme". Issu de Chartrand et al. (2005). Perception de l’identité La voix est caractérisée par un arrangement unique de différents éléments physiques qui dépend de la configuration de l’appareil phonatoire propre à chaque individu (Figure 30) (Lavner et al., 2000). La reconnaissance d’un individu repose sur la fréquence fondamentale de la voix et sur la fréquence des 3ème et 4ème formants, particulièrement lorsqu’elle est effectuée sur des voyelles (Lavner et al., 2000; Murry & Singh, 1980). Une modification même légère de la fréquence des 3ème et 4ème formants peut entraîner une diminution drastique de la reconnaissance de certains individus ; elle n’altère pourtant pas la reconnaissance de tous les individus (Lavner et al., 2000). Ces résultats confirment que l’identification d’une voix ne dépend pas d’un élément unique mais bien de la combinaison de différents éléments 184 (Lavner et al., 2000). Portée par les éléments statiques de la voix, l’identité d’un individu repose également sur les informations dynamiques telles qu’un accent, le rythme de la parole etc. (Belin et al., 2004). L’importance relative des informations spectrales et temporelles dans la reconnaissance d’une voix paraît dépendre du sexe de la personne à reconnaître et de la durée du stimulus (Murry & Singh, 1980; Schweinberger et al., 1997). Les voix d’hommes sont reconnues en majorité sur la base d’informations statiques, dépendant de l’anatomie du conduit vocal (comme la fréquence formantique ou le côté rauque d’une voix masculine) quelle que soit la durée du stimulus. Les voix féminines sont reconnues par les informations spectrales et dynamiques résultant de l’organisation globale de l’appareil phonatoire ; la reconnaissance des voix féminines est améliorée sur de longs échantillons de voix (Murry & Singh, 1980). La reconnaissance des voix, contrairement à celles des visages, semble donc dépendre du sexe du locuteur, en ce sens que ce dernier détermine le type d’informations permettant l’identification. Figure 30. Illustration de différentes voix. En haut: spectrogrammes (0-5kHz) générés d'après des échantillons de voix d'un même locuteur disant différents mots monosyllabiques. Noter que pour un même locuteur, il y a une régularité dans les caractéristiques acoustiques. Par exemple l'espacement entre les bandes claires révélant les harmoniques ou la bande noire apparaissant autour de 3kHz. En bas: spectrogrammes (0-5kHz) générés d'après des échantillons de voix de différents locuteurs disant le même mot (en bas). Lorsque plusieurs locuteurs disent le même mot, la régularité est observée au niveau de la trajectoire des bandes claires (formants). Au milieu: décours temporel du signal BOLD enregistré dans un voxel du cortex auditif primaire chez un sujet. Gris foncé: bloc de stimuli contenant différents mots prononcés par le même locuteur. Gris clair: bloc de stimuli contenant le même mot prononcé par différent locuteurs. En blanc: périodes de repos. Issu de Belin & Zatorre (2003). L’inversion de la voix a également un impact sur la reconnaissance du locuteur. Dans une tâche de discrimination entre deux locuteurs non familiers, il a été montré que la reconnaissance de la voix est perturbée suite à l’inversion fréquentielle du stimulus, l’inversion dans le domaine temporel n’ayant aucun effet (Bedard & Belin, 2004). Ces données montrent que, comme pour la reconnaissance du genre, les informations statiques sont primordiales pour l’identification. Cependant, la reconnaissance de voix familières (de 185 personnes célèbres) est fortement perturbée par l’inversion temporelle du stimulus ; les performances des sujets ne dépassent pas le niveau de la chance (Schweinberger, 2001). L’étude de Schweinberger s’intéresse aussi à l’effet d’amorçage sur la reconnaissance des voix ; les voix familières et non familières sont présentées une première fois (amorce), elles sont ensuite présentées une deuxième fois aux sujets : si l’amorce est efficace, les performances doivent être meilleures à la deuxième présentation. Les voix inversées, bien que moins bien reconnues que les voix à l’endroit, gardent un potentiel d’amorce : la reconnaissance de la voix est améliorée lorsque l’amorce est une voix inversée. Ceci suggère que les informations temporelles jouent un rôle important dans la reconnaissance des voix familières, mais que l’activation des représentations mnésiques (par l’amorce) passe essentiellement par les informations spectrales, conservées suite à l’inversion temporelle de la voix (Schweinberger, 2001). L’influence de l’amorçage dans la reconnaissance de la voix suppose l’existence d’une représentation mnésique de la voix d’un individu. Des auteurs proposent donc que le traitement de la voix met en jeu la construction d’un prototype (Lattner et al., 2003), et que la reconnaissance d’une voix se fait par l’analyse des écarts de cette voix par rapport au prototype (Papcun et al., 1989). La reconnaissance d’une voix est un processus relativement facile20, et cette facilité persiste au-delà d’un certain temps après la première confrontation à la voix (Papcun et al., 1989). Des voix ont d’abord été classées en fonction de la difficulté à les retenir par un premier groupe de sujets, 3 types de voix sont ainsi mis en évidence : des voix faciles, difficiles ou moyennement faciles à retenir (Papcun et al., 1989). Trois groupes de sujets ont ensuite appris une voix de chaque catégorie ; chaque groupe était divisé en 3 sous-groupes en fonction du moment (une semaine, deux semaines ou 4 semaines après l’apprentissage) où les sujets venaient passer la deuxième partie de l’expérience : la reconnaissance de la voix apprise. Le temps passé entre l’apprentissage et la reconnaissance d’une voix influence essentiellement le nombre de mauvaises identifications, c’est à dire la reconnaissance de voix inconnues comme étant des voix connues ; cet effet est particulièrement important pour la reconnaissance de voix jugées faciles (Papcun et al., 1989). Ces données ont conduit les auteurs à proposer un modèle de la reconnaissance des voix dans lequel une voix serait représentée en mémoire sous la forme d’un prototype et des écarts de cette voix par rapport au prototype ; les informations sur les écarts seraient perdues avec le temps. Dans leur étude, le 20 La reconnaissance des voix est dite facile. Néanmoins, comparé à la reconnaissance des visages, la reconnaissance de la voix est difficile. Les performances des sujets se situent autour de 60-70%, le niveau de la chance étant à 50%, dans les études de Schweinberger (2001) et de Bédard & Belin (2004). 186 prototype est construit à partir des voix considérées comme difficiles à reconnaître. Ainsi, pour les voix faciles le prototype n’est pas assez détaillé induisant une mauvaise identification des voix difficiles lorsque la voix apprise est une voix considérée comme facile (Papcun et al., 1989). Un stimulus auditif spécial ? L’effet d’inversion est un des facteurs ayant permis de démontrer la spécificité des visages par rapport aux autres stimuli visuels ; il est en effet spécifique des visages. Dans le domaine de la voix, l’inversion fréquentielle du stimulus induit une baisse de la discrimination entre deux voix non familières ; cette baisse des performances est également décrite suite à l’inversion fréquentielle et temporelle de stimuli musicaux (produits par des instruments de musique (Bedard & Belin, 2004). Ces observations ne permettent pas d’attester de l’existence d’un effet d’inversion spécifique de la voix. De plus, la discrimination entre les sons provenant de deux instruments est plus facile que la discrimination entre deux voix ; ceci rend la comparaison entre les deux conditions (inversion de la voix, et inversion d’un son musical) peu fiable (Bedard & Belin, 2004). Ces données pourraient suggérer que la voix n’est pas un stimulus spécial, qu’elle ne se distingue pas des autres stimuli auditifs. Les résultats des études en neuroimagerie infirment cette hypothèse puisqu’elles mettent en évidence des régions cérébrales s’activant spécifiquement pour les voix, notamment dans les gyrus et sulcus temporaux supérieurs. L’existence de régions cérébrales répondant de façon maximale à des stimuli vocaux soutiendrait l’hypothèse selon laquelle la voix est un stimulus auditif « à part ». b. Localisation cérébrale du traitement de la voix Les études cliniques ont dévoilé l’existence de structures cérébrales semblant spécifiquement impliquées dans la perception des voix, des lésions de ces régions provoquant des troubles de la reconnaissance des voix, familières ou non, sans atteinte de la reconnaissance des sons environnementaux (Neuner & Schweinberger, 2000). Ces données montrent une dissociation entre les traitements permettant la reconnaissance d’une personne et ceux permettant la reconnaissance des objets ; cependant, il n’a pas été décrit de cas de patients présentant des déficits spécifiques de la reconnaissance des sons environnementaux (Neuner & Schweinberger, 2000). Ces résultats ne permettent dont pas d’attester de l’existence d’une double dissociation anatomique et fonctionnelle, ce qui aurait confirmé la 187 mise en jeu de traitements différents dans la reconnaissance des voix et des stimuli non voix (Neuner & Schweinberger, 2000). Les études cliniques ont également révélé une dissociation entre la reconnaissance des voix familières et celle des voix non familières. Un déficit de la reconnaissance des voix familières n’est pas toujours accompagné d’un trouble de la discrimination entre deux voix non familières (Neuner & Schweinberger, 2000; Van Lancker et al., 1989). La reconnaissance des voix familières semble mettre en jeu le cortex pariétal inférieur droit, alors que la discrimination entre deux voix non familières paraît impliquer le lobe temporal de chaque hémisphère (Van Lancker et al., 1988; Van Lancker et al., 1989). Reste que les déficits dans la reconnaissance des voix, familières ou non, apparaissent en général suite à des lésions de l’hémisphère droit. Par la suite, les techniques de neuroimagerie telles que la TEP ou l’IRMf ont permis de mettre en évidence des zones corticales activées spécifiquement lors de la perception des voix. Identification des régions sensibles à la voix De nombreuses régions corticales sont sensiblement plus activées par des stimuli vocaux qu’ils portent ou non des informations linguistiques. Ces régions sont localisées dans les deux hémisphères le long du STS et dans le STG postérieur ; l’activité de ces régions tend à être plus grande dans l’hémisphère droit que dans l’hémisphère gauche (Figure 31a) (Belin et al., 2002; Belin et al., 2000). Ces régions sont non seulement sensibles mais aussi sélectives des stimuli vocaux comme l’atteste la comparaison des réponses observées pour les voix à une variété de stimuli auditifs (Belin et al., 2000). En appliquant aux voix les paradigmes développés pour montrer la sélectivité des réponses de la FFA aux visages, Belin et al. (2000) montrent que ces régions ne sont impliquées ni dans le traitement de tous les stimuli auditifs d’origine humaine, ni dans la discrimination entre des items d’une même catégorie. Ces régions sont par ailleurs plus actives pour les voix humaines que pour les vocalises animales ; ces dernières induisent toutefois une activité supérieure aux stimuli non voix dans une région restreinte du STS antérieur gauche (Fecteau et al., 2004a). L’activation des régions localisées le long du STS dépend des informations spectrales du stimulus ; la combinaison des basses et hautes fréquences est même nécessaire à l’activation de ces régions (Belin et al., 2000). Parmi ces différentes régions, seule la partie antérieure du STS présente une activité plus grande pour les voix que pour des stimuli réarrangés (« scrambled vocal sounds »), et ce même en l’absence d’informations linguistiques (Figure 31b,c) (Belin et al., 2002; von Kriegstein et al., 2003). Cette région est activée uniquement lorsque l’attention des sujets est dirigée vers les informations paralinguistiques (von Kriegstein et al., 2003). Les 188 auteurs en déduisent que le traitement des informations sémantiques pourrait inhiber le traitement des informations paralinguistiques. Belin et al. (2002) montrent, eux, que lors d’une écoute passive, cette région est quand même plus activée par les voix portant des informations linguistiques. Les différences entre ces deux études suggèrent que les informations paralinguistiques sont traitées automatiquement en l’absence de consigne attentionnelle. Cependant, les stimuli utilisés par Belin et collaborateurs (2002) sont des stimuli présentant une organisation phonétique mais n’induisant pas forcément de traitement sémantique, certains mots étant dans des langues étrangères. Ainsi, dans cette étude, le traitement des informations paralinguistiques serait privilégié même pour les stimuli à contenu sémantique, qui sont par ailleurs plus complexes et entraineraient donc une plus forte acitivité cérébrale. A part cette partie du pole temporal, toutes les régions sensibles aux voix présentent une activité spécifique des voix seulement lorsque ces dernières ont un contenu sémantique ; cette activation supérieure pour les stimuli linguistiques est observée dès l’aire auditive primaire (Figure 31c) (Belin et al., 2002). Ces études révèlent donc une dissociation entre les fonctions des hémisphères droit et gauche. Le STS antérieur gauche pourrait être impliqué dans le traitement phonologique des voix (Scott et al., 2000; von Kriegstein et al., 2003). La même région dans l’hémisphère droit effectuerait le traitement des informations paralinguistiques de la voix (Belin et al., 2002; Imaizumi et al., 1997; Lattner et al., 2005; von Kriegstein et al., 2003; Warren et al., 2006). Ces différentes études suggèrent que cette région focalisée du STS antérieur serait l’aire cérébrale impliquée sélectivement dans le traitement des informations paralinguistiques de la voix ; elle pourrait donc être l’aire auditive équivalente de la FFA. Par ailleurs, la partie antérieure du lobe temporal – le pole temporal – est également activée lors de la reconnaissance d’une voix, confirmant son rôle dans le traitement des signaux vocaux humains (Imaizumi et al., 1997; Nakamura et al., 2001). L’activité du STS antérieur droit est d’ailleurs corrélée aux performances des sujets dans une tâche de reconnaissance. La sensibilité de la partie antérieure du STS à l’identité de la voix est également démontrée par sa sensibilité à l’adaptation. La présentation de différents stimuli linguistiques prononcés par le même locuteur entraîne une diminution de la réponse de cette région, diminution qui refléterait l’adaptation à certaines caractéristiques acoustiques de la voix du locuteur (Belin & Zatorre, 2003). Ces différentes études révèlent donc qu’une région du STS antérieur est sélectivement activée par les stimuli vocaux quel que soit leur contenu sémantique ; cette région semble par ailleurs également mise en jeu lors de la reconnaissance des voix à un 189 niveau individuel. Cette région paraît donc être une bonne candidate pour être considérée comme la « FFA » auditive (Belin & Zatorre, 2003). Figure 31. Aires corticales sélectives des voix. (a) Régions répondant de façon maximale aux stimuli vocaux (moyenne de tous les sujets). L'hémisphère gauche est représenté à gauche. Notez 3 régions localisées le long du STS répondant préférentiellement aux voix. Issu de Belin et al. (2000). (b) Aires cérébrales impliquées dans la reconnaissance du contenu verbal (première ligne). Aires cérébrales impliquées dans la reconnaissance de l'identité du locuteur (deuxième ligne) Issu de Von Kriegstein et al. (2003). (c) Réponse moyenne dans les régions spécifiques des voix pour différents stimuli : stimuli vocaux sans contenu linguistique, les mêmes stimuli réarrangés ("scrambled stimuli"), stimuli vocaux avec contenu linguistique, et les mêmes stimuli réarrangés. Les histogrammes montrent la réponse des différentes régions pour ces différentes stimuli (dans le même ordre de gauche à droite). L'hémisphère gauche est représenté à gauche. Issu de Belin et al. (2002). NB: Les régions sensibles à la voix répondent préférentiellement au contenu sémantique de la voix. Seule la partie antérieure du STS droit répond plus aux voix qu'aux non voix. D’autres régions cérébrales sont activées lors de la perception des voix. Des régions du cortex préfrontal, plus particulièrement la partie postérieure du cortex orbito-frontal gauche, répondent préférentiellement aux stimuli vocaux indépendamment du fait qu’ils 190 contiennent des informations linguistiques (Fecteau et al., 2005; Imaizumi et al., 1997). Dans l’hémisphère droit, cette région du cortex orbito-frontal ne répond qu’aux stimuli vocaux ne contenant pas d’informations linguistiques, renforçant l’idée de l’implication de l’hémisphère droit dans le traitement des informations vocales paralinguistiques. Les régions frontales seraient impliquées dans la catégorisation de stimuli auditifs. Ainsi, chez le macaque, il a été montré l’implication du cortex préfrontal ventral dans la discrimination entre différentes vocalises en fonction de la signification sociale des cris (Gifford et al., 2005). La perception du genre Les mécanismes cérébraux sous-tendant la détection du genre du locuteur ont également été explorés. Il a notamment été démontré que les voix féminines induisent un signal BOLD supérieur aux voix masculines dans le cortex auditif, indépendamment du genre des auditeurs (Lattner et al., 2005; Sokhi et al., 2005). L’activité cérébrale plus grande pour les voix de femmes est observée bilatéralement dans les régions antérieures au gyrus de Heschl et dans le STG postérieur, elle est néanmoins plus importante dans l’hémisphère droit (Belin et al., 2006; Lattner et al., 2005; Sokhi et al., 2005). A contrario, aucune région cérébrale ne présente le pattern inverse à savoir une activité supérieure pour les voix d’hommes (Belin et al., 2006; Lattner et al., 2005). Il a néanmoins été montré, chez des sujets hommes, une activation plus forte du précunéus pour les voix d’hommes21 (Sokhi et al., 2005). Dans l’étude de Sokhi et al. (2005), les activités observées dans le STG antérieur droit et le précunéus sont indépendantes de la fréquence fondamentale de la voix suggérant que ces aires sont impliquées dans la perception du genre per se. Lattner et al. (2005) ont appliqué diverses modifications à des voix naturelles d’hommes et de femmes afin d’identifier les réponses cérébrales induites par le traitement de la hauteur et l’analyse des caractéristiques acoustiques de la voix. Ces résultats montrent principalement que la fréquence fondamentale plus élevée des voix de femmes conduit à la plus forte activation des régions du lobe temporal antérieures au gyrus de Heschl (Lattner et al., 2005). Les voix ayant des fréquences fondamentales « masculines » entraînent une activation du gyrus cingulaire antérieur (Lattner et al., 2005). Le gyrus cingulaire antérieur est également activé par les voix présentant un genre ambigu, c’est à dire des voix dont la fréquence fondamentale est située dans la région de recouvrement (Sokhi et al., 2005). L’activation du gyrus cingulaire antérieur pourrait 21 Pour l’anecdote : les résultats de Sokhi et collaborateurs (2005) ont été interprétés par des journalistes comme justifiant le fait que les hommes n’écoutent pas les femmes : « Les voix de femmes, plus aiguës et musicales, sont plus difficiles à « décoder » et nécessitent une plus grande activité cérébrale, expliquant une certaine…fatigue au bout d’un moment. » 191 refléter une plus grande demande attentionnelle par les stimuli ambigus ou le côté déplaisant des voix non naturelles (Lattner et al., 2005; Sokhi et al., 2005). Les voix présentant les caractéristiques d’un conduit vocal féminin mettent en jeu les régions postérieures du STG, notamment le planum temporale (Lattner et al., 2005). Le planum temporale est impliqué dans le traitement de la dynamique spectrale des stimuli auditifs ; son activation dans cette étude pourrait être due au rythme plus marqué des voix féminines (Andrews & Schmidt, 1997). Dans des expériences utilisant des continuums de voix naturelles, aucune région cérébrale ne montre une plus grande activité pour les paires de voix croisant la ligne frontière (genres différents) que pour les paires de stimuli situés du même côté (même genre), les différentes physiques entre les stimuli étant les mêmes pour les différentes paires. Au contraire, le STG postérieur gauche montre une diminution de l’activité pour les voix perçues comme différentes en terme de genre (Belin et al., 2006; Chartrand et al., 2005). Une interaction entre genre du locuteur et genre de l’auditeur est rapportée dans le précunéus et le gyrus cingulaire postérieur. Cette interaction est cependant dans le sens inverse de celle décrite par Sokhi et al. (2005) : l’activité est supérieure pour les voix de femmes chez les sujets hommes, le pattern inverse est observé chez les femmes (une plus grande activité pour les voix d’hommes) ; l’activité dans le précunéus semble plus grande chez les auditeurs masculins (Belin et al., 2006). Par ailleurs, il a été montré une diminution de l’activité du précunéus pour des voix de femmes répétées ; les voix d’hommes, quant à elles, induisent une diminution de l’activité dans le gyrus frontal inférieur gauche. Le gyrus frontal inférieur gauche est activé par des voix ayant des caractéristiques acoustiques masculines (Chartrand et al., 2005; Lattner et al., 2005). Il ne paraît donc pas y avoir de régions sélectivement impliquées dans la perception du genre de la voix ; certaines régions cérébrales semblent néanmoins plus sensibles aux voix de femmes qu’aux voix masculines. Au vu de la grande variabilité des données recueillies, les corrélats neuronaux de la perception du genre de la voix ne sont pas encore bien compris. Une zone paraît toutefois régulièrement impliquée dans la perception du genre de la voix, celle incluant le gyrus cingulaire postérieur et le précunéus (Charest et al., 2005). Il est nécessaire de continuer à investiguer les corrélats neuronaux de la perception du genre de la voix afin de comprendre le rôle de ces nombreuses aires cérébrales, et les caractéristiques vocales qui induisent l’acivation de ces différentes aires. 192 Reconnaissance de la voix et des émotions La reconnaissance de la voix met non seulement en jeu la partie antérieure du STS, mais elle active également d’autres régions cérébrales, dont les gyri parahippocampique, lingual et pariétal inférieur (Imaizumi et al., 1997; von Kriegstein et al., 2003). L’activation du gyrus parahippocampique gauche pourrait refléter la recherche d’informations biographiques sur le locuteur (Imaizumi et al., 1997). Le précunéus est aussi activé dans une tâche de reconnaissance de voix non familières ; les auteurs suggèrent que cette activation reflète la difficulté des auditeurs à retenir les voix non familières, difficulté indiquée par les résultats comportementaux (von Kriegstein et al., 2003). La reconnaissance des émotions vocales a également été explorée ; ces études révèlent que l’identification des émotions met en jeu des structures sous-corticales comme le cervelet ou l’hippocampe, ainsi que des structures corticales notamment les régions frontales inférieures (Fecteau et al., 2005; Imaizumi et al., 1997). L’activation du gyrus frontal inférieur droit a été décrite dans des tâches de reconnaissance des émotions faciales (Nakamura et al., 1999). Il apparaît ainsi que le gyrus frontal inférieur droit pourrait être impliqué dans la reconnaissance des émotions, quelle que soit la modalité d’origine des informations. Ces données confirmeraient l’hypothèse d’une ségrégation corticale entre le traitement des caractéristiques de l’objet et celui de sa localisation dans le cortex frontal ; les caractéristiques d’un stimulus comme l’émotion, l’identité, le genre d’un visage ou d’une voix, sont traitées dans le gyrus frontal inférieur (Alain et al., 2001; Brunetti et al., 2005; Fecteau et al., 2005; Imaizumi et al., 1997; Lattner et al., 2005; Nakamura et al., 1999). Ces différentes études montrent que la perception des voix met en jeu un grand nombre d’aires cérébrales, localisées essentiellement le long du STS. Parmi ces nombreuses aires, seule la partie antérieure du STS paraît sélectivement impliquée dans le traitement des sons vocaux sans contenu linguistique. Cette région est également activée lors de tâche de reconnaissance des voix, confirmant son rôle dans l’extraction des informations paralinguistiques de la voix. La reconnaissance du genre et de l’identité de la voix repose sur un vaste réseau cérébral, mais la fonction de ces différentes aires n’est pas encore bien comprise. c. Décours temporel 193 Le décours temporel de la perception des voix n’a été que très peu étudié ; les différentes composantes auditives (P50, N1, P2/MMN) n’ont pas toujours été analysées dans l’étude de la perception des voix. Récemment, il a été montré une modulation tardive de l’activité cérébrale par les voix, ne correspondant à aucune composante précitée ; cette composante est appelée la VSR (Levy et al., 2001, 2003). L’amplitude et la latence de la N1 ne sont pas influencées par l’aspect vocal ou non d’un stimulus auditif, de même que le contenu sémantique n’a pas d’effet sur la N1 (Näätänen & Picton, 1987). Ceci paraît normal au vu de la sensibilité de la N1 à des facteurs bas niveau tels que la localisation spatiale ou la fréquence des stimuli (Crottaz-Herbette & Ragot, 2000; Jacobson et al., 1992; Näätänen & Picton, 1987; Näätänen et al., 1988). La VSR aux environs de 300 ms Deux études récentes ont montré que les voix induisent une plus grande positivité que les stimuli non voix sur les électrodes frontales entre 260 et 380 ms (Levy et al., 2001, 2003). La latence du pic est environ 320 ms ; cette onde a été nommée la VSR (« Voice Selective Response ») puisqu’elle est plus ample pour des stimuli vocaux que pour une variété de stimuli non voix (Figure 32) (Levy et al., 2001, 2003). Le paradigme utilisé par Lévy et collaborateurs est un paradigme de rareté (« oddball paradigm ») dans lequel les sujets doivent détecter un stimulus rare (un son de piano, ou des sons plus courts). La VSR n’est observée que dans certaines conditions attentionnelles (Levy et al., 2003). Diriger l’attention des sujets vers une autre modalité (par exemple en regardant un film muet) annihile l’apparition de la VSR. De plus, lorsque les stimuli cibles diffèrent des stimuli non cibles par leur durée, la VSR est évoquée par les voix et les sons produits par les instruments à cordes ; ces deux sons ont des caractéristiques acoustiques similaires (Levy et al., 2003). Sous l’hypothèse que la VSR représente le traitement de la voix, celui-ci semble moins automatique que celui des visages ; les visages induisent en effet une N170 même lorsque l’attention des sujets n’est pas explicitement dirigée vers le visage (Severac Cauquil et al., 2000; Vuilleumier, 2000). L’amplitude de la VSR dépend également des traitements effectués sur les stimuli : lors de tâche requérant un traitement superficiel, la VSR est la même pour tous les stimuli (Levy et al., 2003). Si la VSR est un bon indice de la perception des voix, il semble que la voix ne soit pas traitée automatiquement. 194 Figure 32. VSR évoquées par plusieurs types de stimuli. Issu de Lévy et al. (2001). (a) Potentiels évoqués et topographies. Noter la VSR plus ample pour la voix humaine que pour une variété de sons musicaux (c) distribution antéropostérieure de la différence d'amplitude entre la VSR entre voix et les PE évoqués par les instruments de musique. Expérience 1. (b) Expérience 2. VSR évoquées par les voix et les cuivres ("brass"). L'expérience 2 a été mise en place pour confirmer que la VSR était bien spécifique des voix et non pas représentative de la rareté des stimuli (cette seconde hypothèse était proposée parce que la VSR ressemble en latence et topographie à la P3a, indice de la rareté d'un stimulus). Dans la première expérience, la catégorie "voix" comportait, en effet, moins d'items que la catégorie "instruments", la deuxième expérience compare deux catégories égales en nombre d'items. Une activité spécifique des voix plus précoce ? à 200 ms ? D’autres études suggèrent qu’un traitement automatique de la voix peut avoir lieu plus précocement : entre 150 et 220 ms, dans la gamme des latences de la P2 et de la MMN (Beauchemin et al., 2006; Lattner et al., 2003; Titova & Naatanen, 2001). Les modulations de la P2 et de la MMN par les informations paralinguistiques de la voix ont été explorées. Lattner et al. (2003) montrent que l’augmentation de l’amplitude de la MMN dépend des caractéristiques du stimulus rare. La MMN est plus ample lorsque les stimuli rares sont des stimuli non typiques (voix synthétiques ou modifiées) (Lattner et al., 2003). Dans une étude plus récente, ils ont montré que les stimuli non typiques induisent une augmentation de l’activité du STS antérieur ; l’augmentation de la MMN pourrait refléter cette augmentation (Lattner et al., 2005). Par ailleurs, la MMN est plus ample pour un stimulus rare non naturel (voix modifiée) ressemblant, en terme de F0, au stimulus fréquent (voix d’homme naturelle) que pour un stimulus rare naturel (voix de femmes) différant du stimulus fréquent par sa F0 et la fréquence des formants. Ces résultats suggèrent que la représentation mnésique du genre de la voix est prototypique, et que ce prototype regroupe les informations portées par la fréquence fondamentale et les formants ; l’augmentation de la MMN traduirait la violation de 195 l’attente des auditeurs (Lattner et al., 2003). La MMN reflète également la discrimination entre plusieurs voix ; l’augmentation de la MMN est inversement corrélée à la similarité entre la voix rare et la voix fréquente (Titova & Naatanen, 2001). La MMN est aussi modulée par la familiarité de la voix : elle est plus ample pour les voix familières que pour les voix non familières (Figure 33b) (Beauchemin et al., 2006). La MMN est un indice des traitements auditifs automatiques (Naatanen & Alho, 1995; Roeber et al., 2003; Tiitinen et al., 1993) ; ces différentes études montrent que les informations paralinguistiques de la voix peuvent engendrer des traitements automatiques. La MMN est cependant observée dans des paradigmes utilisant des stimuli non voix, ou ne demandant pas un traitement identitaire de la voix, révélant que les traitements sous-tendant la MMN ne sont pas spécifiques de la voix ; ils pourraient représenter le recouvrement d’informations mnésiques (Naatanen, 2001). La MMN n’est donc pas un bon indice de la perception des voix ; son amplitude est souvent étudiée, mais il semble qu’en fonction des tâches sa latence varie également (bien qu’elle ne soit pas décrite explicitement dans la plupart des études). Par ailleurs, les informations mnésiques ont un impact sur la MMN puisque la MMN, enregistrée dans les études sur le langage, est plus ample pour les sons spécifiques de la langue maternelle que pour les sons des langues étrangères. Bien que ces études ne permettent pas de révéler une latence à laquelle le traitement de la voix serait différent de celui des non voix, elles ont l’avantage de montrer que dans la gamme des latences de la P2, un traitement des informations paralinguistiques de la voix peut avoir lieu. La P2 pourrait refléter des différences entre voix et non voix ; elle est, en effet, souvent modulée par les différents stimuli utilisés dans les études s’intéressant à la MMN (Figure 33a) ; de plus, dans l’étude de Lévy et collaborateurs (2001), elle paraît plus ample pour les voix que pour les non voix (Voir Figure 31b). 196 Figure 33. Familiarité de la voix et potentiels évoqués. (a) Potentiels évoqués (P2) par les voix familières (pointillés longs), les voix non familières rares (pointillés courts) et fréquentes (trait plein). Les traits verticaux représentent 0, 200, 400 et 600 ms après le début de la stimulation; les valeurs positives sont représentées vers le bas. Noter la P2 plus ample pour les voix familières que pour les voix non familières (2nd trait à 200 ms). (b) MMN, topographie et familiarité. A gauche: MMN pour les voix familières, à droite : MMN pour les voix non familières. La MMN est plus ample pour les voix familières que non familières. Issu de Beauchemin et al. (2006). La modulation de la P2 par la familiarité de la voix a également été investiguée. Un effet d’amorçage sur l’amplitude de la P2 a été montré ; elle est augmentée à la deuxième présentation d’une voix, que cette voix soit familière ou non (Schweinberger, 2001). Les auteurs proposent que la modulation de la P2 par l’amorçage pour les voix non familières en l’absence d’effet comportemental traduit le « sentiment de familiarité » associé aux voix non familières causé par la répétition. Une autre étude propose que la P2 indexe le traitement sémantique car elle est plus ample pour les différentes voyelles présentées que pour un son pur, partageant certaines caractéristiques acoustiques spectrales des voyelles (Tiitinen et al., 1999). Cependant, ces résultats pourraient également refléter un traitement de la voix d’autant que la P2 évoquée par les différentes voyelles est identique. En résumé, la perception de la voix met donc en jeu un certain nombre d’aires cérébrales. La partie antérieure du STS droit paraît être l’aire impliquée dans le traitement des informations paralinguistiques de la voix. L’identification et la perception du genre du locuteur semblent mettre en jeu des aires cérébrales largement distribuées aussi bien dans le cortex pariétal, que dans le cortex frontal. Aucun consensus n’est fixé sur la fonction de ces 197 différentes aires dans la perception des voix, de leur détection à leur reconnaissance. Le décours temporel de la perception des voix révèle une différence entre voix et stimuli non vocaux environ 300 ms après le début de la stimulation. Cette activité paraît bien tardive comparée aux 170 ms – voire au 100 ms – nécessaires à la détection d’un visage, d’autant que les informations auditives parviennent au cortex auditif avant que les informations visuelles n’arrivent au cortex visuel (environ 20 ms versus 40 ms). D’autres études montrent une modulation des potentiels évoqués par les informations vocales autour de 200 ms ; cette activité plus précoce paraît plus réaliste et pourrait donc être un indice de la discrimination entre voix et non voix. Ceci n’a toutefois pas été testé ; la figure 2 de l’article de Levy et al. (2001) révèle pourtant une différence entre la P2 évoquée par les voix et les cuivres ; les résultats ne sont pourtant pas rapportés soit parce qu’ils ne sont pas significatifs, soit parce que le sujet de l’article était la VSR. d. Modèle de la perception des voix Les résultats de ces différentes études ont conduit les chercheurs à proposer un modèle de reconnaissance des voix similaire à celui proposé par Bruce & Young (1986) pour la reconnaissance des visages (Figure 34) (Belin et al., 2004; Neuner & Schweinberger, 2000). Figure 34. Modèle de reconnaissance des voix. La partie droite du modèle est une adaptation du modèle de Bruce & Young (1986). La partie gauche est le modèle proposé pour la reconnaissance des voix. Les flèches en pointillé indiquent des possibles interactions bimodales. Issu de Belin et al. (2004). Ce modèle propose que la perception de la voix commence par l’extraction des informations bas niveau qui aurait lieu au niveau des aires auditives primaires et secondaires, peut être à la latence de la Pa (P50). Après extraction des ces informations, l’analyse structurelle de la voix pourrait avoir lieu dans des régions proches du gyrus de Heschl, en 198 surface du lobe temporal. Suivant cette étape, les informations prendraient des chemins différents pour l’analyse de l’identité, du contenu sémantique et des émotions. L’analyse des informations phonétiques mettrait en jeu des aires situées dans le lobe temporal postérieur et antérieur, essentiellement dans l’hémisphère gauche. Les informations émotionnelles seraient analysées par les régions frontales et certains noyaux sous-corticaux. L’identité serait analysée dans la partie antérieure du STS droit et mettrait en jeu des modules de reconnaissance des voix, où la structure extraite de la voix (le prototype, équivalent du gestalt extrait des visages) serait comparée à la représentation mnésique. La correspondance entre la structure extraite et un prototype stocké en mémoire activerait les modules de reconnaissance des personnes, et permettrait l’accès aux informations biographiques notamment via le gyrus parahippocampique. Ce modèle est renforcé par les études lésionnelles montrant une double dissociation entre la perception du langage et la perception de l’identité. Il est en effet rapporté des cas de phonagnosie sans atteinte langagière et des cas d’aphasie associés à une reconnaissance des voix normale (Van Lancker et al., 1988; Van Lancker et al., 1989). De la même façon une dissociation entre traitement des émotions et traitement de l’identité est montrée par l’étude d’Imaizumi et al. (1997). Les régions antérieures du lobe temporal des deux hémisphères, le pole temporal, sont impliquées dans la reconnaissance des locuteurs, alors que la reconnaissance des émotions met en jeu le gyrus frontal inférieur (Fecteau et al., 2005; Imaizumi et al., 1997). Cependant, bien que ce modèle propose que ces 3 voies soient indépendantes, il est clair qu’elles interagissent puisqu’il y a, notamment, une suppression du traitement des informations paralinguistiques dans certains tâches requérant un traitement sémantique (von Kriegstein et al., 2003). Pour résumer, la perception du genre de la voix a été étudiée au niveau comportemental et en IRMf mais pas en EEG. Les résultats des études dans ce domaine présentent une grande variabilité. Certaines observations sont cependant constantes : l’activité cérébrale est en général supérieure pour les voix de femmes, particulièrement au niveau des régions localisées dans le lobe temporal. Cette grande variabilité des résultats suggère l’implication d’un grand nombre d’aires cérébrales dans le traitement du genre de la voix ; leur activité semble dépendre des différents facteurs acoustiques permettant l’identification du genre. Dans mes études présentées dans les pages suivantes, j’ai exploré le traitement du genre de la voix à l’aide des potentiels évoqués. Cette technique a l’avantage de donner des 199 informations temporelles sur les traitements effectués par le cerveau. Mes études pourraient permettre de distinguer les processus précoces effectués dans le cortex auditif primaire, liés à l’analyse de la fréquence des stimuli, des processus plus tardifs qui pourraient indexer le traitement du genre à proprement parler, et donc le traitement de la voix en tant que stimulus auditif spécial. Au niveau comportemental, il a par ailleurs été montré que le genre de la voix est indiqué en premier lieu par la fréquence fondamentale, mais d’autres informations peuvent être utilisées, notamment la dynamique spectrale. Pour explorer les processus impliqués dans la perception du genre de la voix, j’ai mis en place deux études. La première étude a pour but de montrer les différences entre traitement des voix d’hommes et de femmes, sur des voix normales. Dans la deuxième étude, en demandant aux locuteurs de forcer leur voix vers l’aigu ou le grave, j’ai rendu les informations sur la fréquence fondamentale non pertinentes pour la catégorisation du genre. Cette étude permet de distinguer le traitement des informations spectrales de celui du genre à proprement parler. 200 201 202 3. Travail expérimental : la perception du genre de la voix L’article suivant présente les résultats de trois études, réalisées sur les mêmes sujets, sur la perception du genre d’un individu. Une étude sur la perception du genre du visage et deux études sur la perception du genre de la voix. Les résultats de l’étude sur le genre du visage ont été exposés dans la partie visage. Objectifs & Méthodes (expérience 2 et 3) Dans la première étude, j’ai exploré la perception du genre de la voix sur des voix naturelles. La perception du genre reposant en premier lieu sur la fréquence fondamentale, j’ai réalisé une deuxième étude dans laquelle les informations sur la hauteur de la voix n’étaient plus pertinentes. Les stimuli utilisés ont été enregistrés au laboratoire ; il s’agissait de 14 mots français monosyllabiques prononcés par 3 femmes et 3 hommes soit normalement, soit avec une voix forcée vers l’aigu ou le grave. L’analyse de la fréquence fondamentale confirme que les voix de femmes sont plus aiguës que les voix d’hommes. Les voix forcées vers l’aigu ont une fréquence supérieure aux voix normales ou graves. Les fréquences fondamentales de ces dernières sont statistiquement similaires, bien que les sujets les perçoivent comme distinctes. Résultats & Conclusions Le taux de réponses correctes est identique pour les voix d’hommes et de femmes, mais les temps de réaction sont plus long pour les voix de femmes. La modification de la hauteur de la voix altère davantage la perception des voix féminines que celle des voix masculines. Ceci suggère que différentes informations sont utilisées pour juger de la masculinité ou de la féminité d’une voix. Au niveau électrophysiologique, il est montré des différences entre voix d’hommes et de femme dès les 30 premières millisecondes ; ces effets sont vraisemblablement liés au traitement de la hauteur. La N1 est plus ample pour les voix d’hommes que pour les voix de femmes, cet effet disparaît dans la deuxième expérience suggérant une modulation de la N1 par l’attention. Dans les processus plus tardifs, les voix de femmes évoquent une P2 plus ample que les voix d’hommes. La topographie à cette latence est la même pour les deux types de voix, seule l’amplitude varie, l’activité est plus ample pour les voix de femmes indépendamment de la fréquence fondamentale. Ceci suggère que le traitement du genre peut avoir lieu 200 ms après la présentation du stimulus. La VSR ne montre pas de modulation en fonction du genre de la voix. 203 204 Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Faces are easier: Gender categorisation of faces and voices Marianne Latinus1 and Margot J. Taylor2 1 CerCo, Université Toulouse 3 - CNRS, Faculté de Médecine de Rangueil, 31062 Toulouse, France 2 Diagnostic Imaging and Research Institute, Hospital for Sick Children, 555 University Avenue, Toronto, Ontario, Canada, M5G1X8 *Corresponding author: Marianne Latinus CerCo – Centre de recherche Cerveau et Cognition, Université Toulouse 3 – CNRS Faculté de Médecine de Rangueil 31062 Toulouse Cedex 9 France Tel: +33561173770 Fax: +33562172809 E mail: [email protected] -1- Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Abstract Gender is salient, socially critical information obtained from faces and voices, yet the brain processes underlying gender discrimination have not been well studied. We investigated neural correlates of gender processing of faces and voices in three ERP studies. In the first, participants categorised the gender of faces and greater activation to female faces was seen at 140-170ms over left fronto-temporal regions; the N170 was unaffected by face gender. In study 2, gender processing of voices was investigated and differences were seen between female and male voices starting at 30ms, in both spatio-temporal and peak analyses, particularly the fronto-central N1 and P2. As pitch differences may drive gender differences, the third study used normal, high- and low-pitched voices. The results of studies 2 and 3 suggested that pitch produced the early differences (30-50ms) observed. In study 2, N1 was larger for male voices, a result not seen in study 3, revealing that N1 was modulated by selective attention to pitch. In both studies, P2 (at 190-230ms) was larger for female voices, regardless of pitch discrepancies. This suggests that the P2 may index gender categorisation. Voice selective response (VSR) at 320ms was not sensitive to pitch or gender. Based on the comparison between the ERPs to face and voice processing these data demonstrate that the timing and localisation of gender processing in the brain is modality specific, occurring earlier and more anteriorly for faces. -2- Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Introduction Gender discrimination is an important ability for humans, as it is one of the first characteristics perceived in another individual. This skill is particularly critical with faces and voices. Face processing has been intensely studied; it has been shown that faces are special stimuli, the processing of which is subtended by specific networks and brain regions (Puce et al., 1996; Kanwisher et al., 1999) (Haxby et al., 2000). In event-related potential (ERP) studies, the face sensitive N170, a negative wave over posterior temporal brain areas at 170 ms, has been widely used in face recognition studies (Bentin et al., 1996; George et al., 1996; Itier et al., 2006), and it has been shown that N170 is sensitive to face configuration (Bentin et al., 1996; Sagiv & Bentin, 2001; Itier & Taylor, 2004a; George et al., 2005; Latinus & Taylor, 2005; Itier et al., 2006; Latinus & Taylor, 2006). Other visual components indexing face processing are P1 and P2. P1 is reported as to be sensitive to first-order configural processing (Halit et al., 2000; Itier & Taylor, 2004a), which is the first stage of face processing (Maurer et al., 2002), and to low-level features (Rossion et al., 1999b) although attentional modulations are also observed on P1 (Rossion et al., 1999a; Taylor, 2002; Batty et al., 2003; Holmes et al., 2003). The second stage of face processing, holistic processing, can be reflected in the N170 (Latinus & Taylor, 2006). P2 reflects deeper processing of ambiguous stimuli (Latinus & Taylor, 2005; 2006). Face recognition has shown to rest on second-order configural processing that differentiates the details of the facial features within the configural whole (Maurer et al., 2002). Neural correlates of recognition remain unclear, however, as some reports reveal a modulation of the N170 by familiarity while others fail to. Gender is a critical aspect for face recognition that is easily extracted from unfamiliar as well as familiar faces (Bruce & Young, 1986), and proceeds in parallel with face recognition (Bruce et al., 1987). Although female and male faces differ by shape in lateral views and texture in frontal views, and both shape and texture are used to perform gender categorisation on faces, male and female faces nevertheless share the same first-order configuration (Bruce & Langton, 1994; Cellerino et al., 2004). Only with holistic and second order configural processing that leads to identification, would gender effects likely be seen, supported by reported no differences between female and male faces on N170 (MouchetantRostaing et al., 2000). However, these authors provided evidence of an automatic extraction of gender information from faces between 145 to 185 ms seen as a decrease in the frontal positivity with both implicit and explicit gender processing. This suggests a separation between structural encoding prior to face identification and gender processing; processes that -3- Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience may occur in parallel. PET studies have also shown that gender categorisation involves different brain regions than face recognition mediated by configural processing (Andreasen et al., 1996). Voices are the auditory counterparts of faces (Bedard & Belin, 2004) as they, like faces, convey considerable social information besides being the vector of speech. Prephonetic processing of voices is an important skill, as it is a means of speaker identification and extraction of auditory derived semantic information such as age, emotional state or gender. Neuroimaging studies have provided evidence that, like faces, voices are special stimuli with the anterior part of the temporal lobes specifically involved in voice processing for both linguistic and extra-linguistic factors (Belin et al., 2000; Scott et al., 2000; Belin et al., 2002; von Kriegstein et al., 2003). Vocal sounds produce greater bilateral brain activity than non-vocal sounds in multiple brain regions particularly those located along the STS (Belin et al., 2000; Belin et al., 2002). Areas involved in specific language processing are located in the left anterior superior temporal sulcus (STS) (Scott et al., 2000), whereas voice characteristics are analysed in the right anterior STS (Belin et al., 2002; von Kriegstein et al., 2003). In ERP studies, it has been shown that voices induce a more positive wave than instrumental sounds 320 ms after stimulus onset; this positive deflection is called the VSR – voice selective response (Levy et al., 2001). VSR was modulated by attention, as with unattended auditory stimuli there were no differences between voices and other harmonic stimuli (Levy et al., 2003). Except for the two studies above, whose observations were restricted to the VSR, there are few papers that investigate voice processing per se with ERPs. The auditory N1 is described as sensitive to stimulus frequency and location, but does not distinguish between vocal and non-vocal sounds or speech and non-speech (Näätänen & Picton, 1987; Jacobson et al., 1992; Levy et al., 2001); auditory P2 is suggested to reflect semantic processing (Tiitinen et al., 1999; Schweinberger, 2001). Other studies revealed modulation of the MMN in the latency range of P2 by voice familiarity or prototypicallity (Lattner et al., 2003; Beauchemin et al., 2006). Speaker identification is dependent on a number of extra-linguistic acoustic parameters in relation to phonetic information; in particular, the perception of voice gender relies on the fundamental frequency, formant frequency and breathiness, although fundamental frequency is the primary dimension for gender judgments (Mullennix et al., 1995; Lavner et al., 2000). Fundamental frequency (F0) provides information on the perceived pitch and is most often higher in female than male voices, whereas formants drive information on timbre and gender, and reflect voice individuality; they also are lower in male -4- Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience voices (Andrews & Schmidt, 1997; Whiteside, 1998). Neuroimaging studies on voice recognition have shown that speaker identification involves areas located in the right anterior temporal lobe, particularly the STS (Imaizumi et al., 1997; Belin et al., 2002). fMRI studies on gender perception have shown that female and male voices activate different brain regions (Lattner et al., 2005; Sokhi et al., 2005). Female voices produced stronger bilateral response than male voices, with a right hemisphere dominance especially in the superior temporal gyrus (STG); bilateral inferior parietal lobe and insula were also more activated by female voices (Lattner et al., 2005). On the other hand, Sokhi et al. (2005) showed than female voice processing takes place in the STG whereas male voices produced a larger response in the right precuneus. However, differences between these could be due to Sokhi et al. (2005) including only male subjects. Lattner et al. (2005) also investigated pitch perception regardless of voice gender. They showed that high-pitch voices activate a neural network similar to female voices whereas low-pitch voices induced a larger activity in the left anterior cingulate gyrus (Lattner et al., 2005); pitch judgement involved right prefrontal cortex. Although the above studies were interested either in pitch perception or in gender categorisation, their results are highly variable, thus difficult to interpret and require confirmation. We wished to assess neuronal activity that underlies gender categorisation in visual and auditory modalities to determine if the processes engaged by gender categorisation are modality specific. Male/female categorisations of faces and voices were completed while ERPs were recorded. In the first study participants performed gender categorisation on photographs of faces, and in a second study on audio clips of voices. We further investigated the role of fundamental frequency gender categorisation of voices in a third study, using lowand high-pitched voices as well as normal voices. Because of the overlapping issues in the three studies, we present the three without separate discussions, and have a general discussion at the end, to avoid redundancies. General Methods Subjects Nineteen English speaking adults (9 females) aged between 20 and 35 years (mean = 26.4 years), participated in the study. None of the subjects reported any visual or hearing problems. They all gave informed written consent and the study was approved by the Sunnybrook Health Sciences Research Ethics Board. -5- Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Tasks and design The subjects performed a gender discrimination task of faces (study 1) or voices (study 2 and 3), i.e. they pressed one keyboard key for female and another one for male faces or voices. The attribution of the left and right hand responses to male or female faces and voices was varied across subjects. The ERPs were recorded in a dimly lit sound-proof booth; participants sat 60 cm from a screen on which face stimuli were presented. Auditory stimuli were presented binaurally via headphones at normal speaking levels (68dB ±5dB). Stimulus duration was 300 ms; inter-stimuli intervals varied randomly between 1300 and 1600 ms. For the face task, a fixation cross appeared between face presentations; for the auditory task, only the central fixation cross was on the screen. In all three tasks subjects were asked to maintain central fixation and refrain from making eye movements. EEG recordings EEG was recorded using an ANT system and a 64 electrode cap, including three ocular electrodes to monitor vertical and horizontal eye movements. Impedances were kept below 5kΩ. The sampling acquisition rate was 1024 Hz. FCz was the reference during acquisition; an average reference was calculated off-line. Continuous EEG was epoched into 600 ms sweeps including a 100 ms pre-stimuli baseline. Ocular and muscular artefacts, trials containing an amplitude shift greater than 100µV, were rejected from analysis. Epochs were averaged by condition and filtered using a bandpass filter 1-30 Hz. Preliminary analyses were completed on the electrophysiological data from each study to assess interactions between subject’s gender and brain activity for the different conditions. These analyses revealed differences between ERPs for female and male subjects; female subjects had consistently larger amplitude responses than male subjects. However, in the 3 studies, no interactions between subjects’ gender and gender categorisation were observed, i.e. female subjects did not process female and male stimuli differently than did male subjects. Consequently electrophysiological data analyses presented above are collapsed across the gender of the participants. Peak analyses were performed on individual data on the correct trials only in each condition. Spatio-temporal effects were assessed by comparing brain topography of each condition at each time point. A comparison was considered significant if the results of the ttest yielded p<0.01 for at least 15 consecutive 1ms time-bins and two adjacent electrodes. Study 1: Gender categorization on faces -6- Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Methods Subjects performed a gender categorisation task on front view, greyscale pictures of faces. Faces were photographs of 3 females and 3 males while saying each of the 14 words; no pictures repeated, but there were 14 photographs of each person leading to 42 pictures in each condition. Peak analyses were completed on classic peaks described in visual ERP face literature, i.e. P1, N170, P2 and VPP. Peak latencies and amplitudes were measured in a ±30 ms time-window centred on the latencies of the peak in the grand average (P1: 104 ms, N170 and VPP: 150 ms and P2: 220 ms). P1 and P2 were measured at O1/O2, PO7/PO8, P7/P8 and PO3/PO4, although for P2 electrodes P5/P6 were also included. N170 was measured at PO9/PO10, PO7/PO8, P7/P8 and P9/P10. VPP was measured at FC1/FC2, F1/F2, AF3/AF4 and Fz (Jeffreys, 1993). For each subject, latencies were measured at one time point per hemisphere at the electrode with the largest amplitude. Amplitudes were taken at this latency at the other selected electrodes over the hemisphere. Peak latencies and amplitudes were submitted to repeated measures analyses of variance; within subject factors were stimulus gender (2 levels), hemisphere (except for central electrodes) and electrode (4 levels for P1 and N170, 3 for VPP and 5 levels for P2) for peak amplitudes. A one-way ANOVA was run to compare spatio-temporal distribution to female and male faces. Results The task was easy, as accuracy reached 95% and mean reaction times (RTs) were around 550 ms. Significant differences were not found between female and male faces, either on accuracy or RTs. There was however, an interaction between female and male faces and subject gender on RTs (F(1,17) = 9.03, p = 0.008) as women categorised female faces faster (551.8 ms vs. 582.3 ms), whereas the opposite was observed for male subjects (male faces: 527.0 ms; female faces: 538.8 ms). Peak analyses revealed no differences in latencies or amplitudes between early ERPs evoked by female and male faces on P1, N170, P2 or VPP (Figure 1A). The spatio-temporal analysis revealed significant differences between 137 and 170 ms in left frontal regions (Figure 1B) and right parietal regions, reflecting differences between the topographies of the VPP/N170, evoked by female and male faces; the symmetric frontal positivity to female faces was more diffuse to male faces (Figure 1B). Study 2: Gender categorisation on voices -7- Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience We then investigated neural correlates of gender processing on normal female and male voices to determine if gender processing differed between visual and auditory modalities, or if similar processes are involved regardless of the sensory modality. We hypothesised that if gender processing occurs in a particular brain region, then whether via faces or voices, differences between female and male stimuli should occur over the same sites and possibly at the same latency. Methods Auditory stimuli were 84 vocal stimuli, 42 by female and 42 by male voices. Stimuli were 14 monosyllabic French words (e.g., bas, pré) all spoken by six different speakers (3 females and 3 males) and recorded using CoolEdit Pro (stereo; 22.05 kHz; 32 bits). The speakers also repeated the words using high- and low-pitched voices. Thus, there were six voice conditions: female high-pitched, female normal and female low-pitched voices, and the same for male voices. The same words were pronounced by all of the speakers. There were no significant differences in word duration across the six voiced conditions. As we were not interested in semantic processing, the experiments were run on native, mono-lingual English speaking adults with French words. We also compared auditory ERPs across conditions, to ensure that no differences were seen due to stimulus conditions. The stimuli were filtered using a high-pass filter (20 Hz) to remove low-frequencies not related to the stimuli. Intensities were normalised using Matlab; the normalisation involved dividing by global energy of the signal. To prevent the perceptual effect of clicks at onset and offset, an envelope of 10 ms on rise and fall times was applied to all stimuli. In this first auditory study we used only the stimuli in the speakers’ normal voices. Fundamental frequencies (F0) of the stimuli were measured using Yin program, developed by (de Cheveigne & Kawahara, 2002). Mean F0 for female voice was 195 Hz (± 14.6), significantly higher than the mean F0 for male voices (115 Hz ± 21.6). Participants performed a gender categorisation task, as they did for faces in Study 1. Peak analyses were completed on peaks classically described in auditory ERP literature, N1 – negative peak at 100 ms, P2 – positive deflection at 200 ms (Näätänen et al., 1988) and the VSR (Levy et al., 2001). The methodology and statistical analyses for latency and amplitude measures were the same as described in study 1. N1 was measured in a ±30 ms time-window centred at the grand average latency, 118 ms, at CP1/CP2, C1/C2 and FC1/FC2, plus the vertex Cz. The time-window for P2 was centred on 215 ms, and measured at electrodes F1/F2, F3/F4, FC1/FC2, FC3/FC4 and Fz. VSR was measured at FC1/FC2, F1/F2, -8- Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience F3/F4, AF3/AF4 and Fz in a ±30 ms time-window around 350 ms. As for the faces study, we compared brain topography evoked by male and female voices with a one-way ANOVA. Results Subjects performed well on gender discrimination of voices; accuracy was at 95% regardless of voice gender. RTs were longer for female (718 ms) than for male (690 ms) voices (F(1,17) = 6.31 , p = 0.022). ERPs revealed no latency differences between N1 for female voices (117 ms) or male voices (121 ms), but N1 was larger for male than female voices (F(1,18) = 18.35, p < 0.001 (Figure 2A – at Cz). P2 was smaller (F(1,18) = 8.56, p = 0.009) for male voices (2µV versus 2.9µV for female voices) (Figure 2A – ERPs at FC1). The VSR latency and amplitude were not modulated by voice gender (Figure 2A – ERPs at FC1). Spatio-temporal analyses of brain activity revealed differences between the processing of female and male voices starting as early as 30ms. The topographies for the two conditions differed between 30 and 50 ms; reaching significance in left posterior and right anterior temporal regions (see figure 3B – 45ms). These effects were due to greater positivity over right anterior temporal regions for male voices and relatively greater positivity in left temporal regions for female voices. Between 70ms and 115ms, the topographies for male and female voices were also dissimilar; differences reached significance in central regions with a right hemisphere bias, due to male voices inducing a more diffuse and larger negativity than female voices (see figure 2B, showing an example at 104ms). Topography differences in this latency range and the N1 modulation by voice gender (a larger N1 to male voices), suggest that N1 observed for male voices may arise from somewhat different brain sources than female voices. In the time window 130–170ms, female and male voice processing differed as well, particularly in the left hemisphere. As seen in figure 2B (146ms), the topography to male voices was similar to N1 topography (figure 2B, 104ms) whereas topography for female voices was transitioning to the topography underlying P2 (see figure 2B, 212ms). This may reflect an earlier onset from N1 to P2 for female voices. Between 190 and 230ms, topographies were similar but amplitudes of the signal differed due to P2 being larger for female voices (see figure 2B, 212ms). Male voices evoked greater activity than female voices between 320 and 370 ms (VSR latency range), particularly in left temporo-occipital regions (Figure 2, 339ms). No differences were observed in this latency range in frontal regions, where the VSR was observed with peak analyses. -9- Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Study 3: Does voice gender categorisation rely on pitch? Although in study 2 disparities were observed between the processing of female and male voices, the source of these differences is difficult to assess as female and male voices differ primarily in pitch (by 100 Hz) and pitch discrepancies may be used to categorise voice gender. Consequently, the observed differences could stem either from pitch perception, i.e. low-level processing, or from an effective gender categorisation, a more abstract representation. We proposed that the early ERP effects may reflect pitch processing and that later effects (~ at the P2 latency) may be the correlates of voice gender processing. Thus, we ran a third study including the altered-pitch voices (high-pitch and low-pitch voices), in order to distinguish between pitch and gender. Methods The full series of auditory stimuli described in study 2 was used. There were 252 stimuli divided into six categories (42 stimuli per condition): female high-pitch voices (HF), female low-pitch voices (LF), female normal voices (NF) and male high-pitch voices (HM), male low-pitch voices (LM), male normal voices (NM). Mean F0 range was 176 Hz (± 14.7) for low-pitch to 420 Hz (± 112.3) for high-pitch for female voices, and 113 (± 13.1) to 320 Hz (± 58.7) for male voices. Analyses of F0 showed that female voices were on average higher pitched than male voices, but the F0 for low-pitch voices did not differ from normal voices regardless of the sex of the speaker (see figure 3), although they sounded differently to the listeners. Participants again pressed one key for male voices and another for female voices (counter-balanced across subjects). Instructions for this task informed the subjects that the pitch of the voices may be altered. Peak and topographical analyses were conducted as for study 2. The spatio-temporal analysis was a two-way ANOVA with pitch and voice gender as inter-subject factors. Results Behavioural results Recognition of male voices was more accurate than female voices (F(1,17) = 20.29, p < 0.001), due to the altered voices (i.e. high- and low-pitched voices) disrupting female more than male categorisation (pitch x voice gender: F(2,34) = 14.04, p < 0.001) (Table 1). Accuracy on normal voices was high (~96%) regardless of gender. Categorisation of highpitch voices was the least accurate (F(2,34) = 53.09, p < 0.001), especially for female voices. Low-pitch voices were categorised as accurately as normal voices for male voices but not for female voices (See Table 1 and Figure 4A). RTs were equivalent for female and male voices - 10 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience (F(1,17) = 0.354, n.s.) but were modulated by subject gender, as responses were faster to same sex voices (subject x voice gender: F(1,17) = 5.24, p = 0.035) (Table 1). RTs differed as a function of pitch (F(2,34) = 7.72, p = 0.006); high-pitch voices took the longest to categorise. Pitch and voice gender interacted (F(2,34) = 36.91, p < 0.001) on RTs: the fastest responses were for low-pitch voices categorised as male, whereas responses to high-pitch voices were the fastest for female voices (see Table 1 and Figure 4B). Peak analyses N1 showed no sensitivity to pitch or voice gender in latency or amplitude. P2 was earlier (F(1,18) = 21.25, p < 0.001) and larger (F(1,18) = 14.95, p = 0.001) for female compared to male voices. A general effect of pitch on P2 latency (F(2,36) = 6.33, p = 0.007) and amplitude (F(2,36) = 7.69, p = 0.003) was observed, due to P2 to high-pitch voices having the longest latency and, for male voices, being the largest (Figure 5A). P2 at Fz only showed a modulation of amplitude by voice gender – larger for female voices (F(1,18) = 14.07, p = 0.001) and for high pitch voices (F(1,18) = 4.89, p = 0.014). Voice-selective response (VSR) was delayed by 5 ms for male voices reflecting the delay observed at the P2 latency, shown by a peak-to-peak analysis. VSR was earlier in the left hemisphere for high-pitch voices, the opposite was seen for low-pitch voices, no lateralisation was observed for normal voices (frequency x hemisphere: F(2,36) = 5.94, p = 0.006). VSR amplitude was not affected by pitch or gender. Topography analyses The ANOVAs revealed that the two factors we manipulated affected brain activity independently i.e. no interactions were seen between pitch and voice gender for any time points. Pitch modulated brain activity in the early processing between 34 and 55 ms (Figure 5C, left-hand column). Significant differences were seen in right anterior and left posterior regions, due to high-pitch voices inducing larger amplitudes than low-pitch and normal voices, shown by a multicomparison post-hoc analysis. The multicomparison was performed using Matlab and consisted of paired comparisons for the three pitch conditions, i.e. high vs. low pitched, normal vs. low-pitch and normal vs. high-pitch. High-pitch voices showed no hemispheric asymmetry, whereas the pattern of activity for low-pitch and normal voices showed right-frontal lateralisation (Figure 5B, left-hand column). In contrast, voice gender processing led to activity differences over central and right temporo-occipital regions between 170 and 215 ms, due to female voices having larger responses than male voices (collapsed data for pitch – Figure 5B and C, right-hand column). However, a major difference between male and female voices is fundamental frequency (F0) - 11 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience that is on average higher for female than male voice (see methods). Thus, in order to determine if this difference was due to gender categorisation, a one-way ANOVA was run on brain topography between high-pitch male voices (320 Hz) and normal female voices (195 Hz). This comparison revealed significant differences at the same latency and localisation as the comparison of average male to average female voices (Figure 5C on the right and 5D). Consequently, although in this particular case pitch was higher for male than female voices, the topography of the significant differences was similar to the gender comparison with a fundamental frequency higher for female than for male voices. These results suggest that the neural activity subtending P2 may be a neural correlate of gender discrimination of voices. Discussion Face gender processing Although some behavioural differences were found, there was o evidence of gender processing of faces on the face-sensitive ERP components. Participants categorised same sex faces faster in accordance with previous studies (Yamaguchi et al., 1995; Cellerino et al., 2004). No differences were seen on the visual P1, although it has been shown to be sensitive to configuration (Halit et al., 2000; Itier & Taylor, 2004a) and low-level features (Rossion et al., 1999b), which differ between female and male faces (Bruce & Langton, 1994; Cellerino et al., 2004). However, some studies have shown that directed attention to specific stimulus characteristics masks early effects on P1 (Rossion et al., 1999a; Batty et al., 2003). As the participants’ task required paying attention to the gender of the faces, this could account for the lack of differences on P1 to male and female faces. No modulation of N170 or VPP by face gender was observed, as also found by Mouchetant-Rostaing et al. (2000). Numerous studies have shown a modulation of N170 amplitude and latency by configural changes such as inversion (Bentin et al., 1996; Rossion et al., 2000; Taylor et al., 2001a; Itier & Taylor, 2004b), contrast reversal (Itier & Taylor, 2002) or using different face types (Bentin & Golland, 2002; Latinus & Taylor, 2005; 2006). However, N170 is evidently insensitive to the configural differences underlying gender. Gender categorisation is based on specific features such as face shape, textures and eyebrows (Bruce & Langton, 1994; Yamaguchi et al., 1995; Cellerino et al., 2004). Although Baudouin and Humphreys (2006) have shown that configuration is also an important cue for gender categorisation using composite faces (Baudouin & Humphreys, 2006), this is not contradictory with our results, as N170 reflects first-order configural and holistic processing - 12 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience (Latinus & Taylor, 2006) but not recognition per se (Bentin & Deouell, 2000; Eimer, 2000), which would entail completion of second-order relational configural processing (Maurer et al., 2002). This study reinforces the view that N170 reflects automatic face processing driven by first-order and holistic face configuration (Mouchetant-Rostaing et al., 2000; Severac Cauquil et al., 2000; Vuilleumier, 2000; Taylor et al., 2001b). Differences were seen in brain activity evoked by male and female faces between 127 and 180 ms, the latency range of the N170 but in left frontal regions. Andreasen et al (1996) showed that gender processing involved brain areas located in the left inferior temporal lobe and in the left frontal cortex with fMRI; the current study is consistent with this and provides the possible timing of this activation. This also provides evidence that gender categorisation of faces is independent of the structural encoding of faces, reflected in the posteriorly generated N170 (Bentin et al., 1996). Processing face gender, as for age categorisation, engages early processing that occurs in parallel with structural encoding (MouchetantRostaing & Giard, 2003). This is also in accordance with a study by Bacon-Macé (2006) who showed that face detection is automatically associated with gender detection, i.e. “I saw a woman’s face”, whereas identification depends on further processing (Bacon-Macé, 2006). These results plus the present data demonstrate that gender processing is automatic, it does not require attention (Reddy et al., 2004) and takes place in parallel to configural face processing leading to identification. P2 did not show a sensitivity to face gender, which would be in accordance with the model that it reflects a deeper processing only taking place for ambiguous stimuli (Latinus & Taylor, 2005), and the present task was easy, as shown by behavioural data. Furthermore, according to spatio-temporal analyses the gender categorisation occurred earlier than P2, suggesting that it is not necessary to process face stimuli in an extended way to extract gender information. Voice gender processing In contrast to the faces, studies 2 and 3 revealed a host of differences between the processing of female and male voices, both behaviourally and neurophysiologically. At the behavioural level, gender differences were seen on accuracy for; the altered voices, particularly for female voices, but not for normal pitch voices. As with faces, participants categorised same-sex voices faster. Gender categorisation affected RTs in study 2 as they were longer for female than male voices perhaps due to the greater range of F0s for female voices (154 Hz to 245 Hz) than male voices (92 to 152 Hz). In study 3, RTs were not modulated by gender but were by pitch. Stimulus analyses revealed that the range of F0 was - 13 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience broader for female than male voices, especially for high-pitched voices (see figure 3 and methods for mean values). Thus, F0 is more variable for female than male voices, which could explain the greater difficulty in categorizing female voices. Another explanation would be that the processing of female and male voices differs; for example Murry & Singh, (1980) showed that female voice perception relies on temporal information whereas male voice perception is more spectrally based. Thus, the different effects observed following pitch modification for female and male voice recognition may result from the use of short stimuli that reduce the temporal information. Voices where the pitch was more characteristic of the gender, i.e. high-pitch for female voices and low-pitch for male voices, were the fastest categorized. These results confirm that a person’s gender is in part derived from fundamental frequency and that high F0 are typical of a feminine voice and vice versa (Murry & Singh, 1980; Mullennix et al., 1995; Whiteside, 1998). Yet other parameters, such as temporal information, also influence gender categorisation as it remains reliable even in the absence of a customary F0. Spatio-temporal analyses revealed differences in the processing of female and male voices starting at 30 ms: female voices evoked a left lateralised positive activity whereas male voice processing showed greater positivity in the right hemisphere. Study 3 demonstrated that these early differences (30 to 50 ms) were driven by pitch processing; high-pitch voice processing differed from the processing of low-pitch and normal voices. This is coherent with the fact that F0 to low-pitch voices and normal voices did not differ significantly, regardless of voice gender. In this latency range, Pa or P50 is generally measured; this component is sensitive to stimulus frequency and its topography reflects changesg in dipole orientation with increasing frequency (Liegeois-Chauvel et al., 1994; Pantev et al., 1995). It has been proposed that this change in topography reflects the tonotopy of the primary auditory cortex (Pantev et al., 1995). Thus, in the present study, these early effects likely reflect frequency processing in the auditory cortex. In study 2, male voices evoked a larger N! than female voices, especially over posterior sites. This N1 modulation by voice gender was also evident in topographical differences. In study 3, however, N1 was no longer modulated by pitch or gender. N1 has been described to reflect the physical and temporal aspects of auditory stimuli (Näätänen & Picton, 1987) including stimulus frequency (Näätänen et al., 1988). N1 latency and amplitude decrease with increasing frequency using pure tone stimuli, especially for unattended tones (Näätänen & Picton, 1987; Jacobson et al., 1992; Alho et al., 1994; Crottaz-Herbette & Ragot, 2000). An fMRI study provided evidence of a lateralisation of pitch processing in the - 14 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience right hemisphere (Lattner et al., 2005); the ERP correlate of this may be the reduced negative activity seen to female voices. It has also been shown that selective attention influences the N1 component (Neelon et al., 2006), and that attention to pitch masks the N1 modulation by frequency (Alho et al., 1994), as for the visual P1 (Rossion et al., 1999a; Batty et al., 2003). This suggests that the smaller N1 for female voices seen in study 2 corresponds to pitch processing; this was not observed in study 3 due to attention directed to pitch, as subjects were instructed that pitches had been modified. Female voices evoked an earlier and larger P2 than male voices in study 3: between 146 and 220 ms differences were observed over fronto-central brain areas that encompass the P2 component. Peak analyses revealed that P2 latency and amplitude were increased for high pitch voices, particularly for the male high pitch voices. The spatio-temporal analysis showed no interaction between pitch and gender and no pitch effect in this latency range. Comparison between brain topographies to high-pitch male voices and female normal voices showed that male voices, even with a higher F0, yielded smaller responses than female voices at the same location and latency range. The combined results of study 2 and 3 suggest that neural mechanisms that underlie P2 are involved in gender categorisation. Sokhi et al. (2005) reported that female voices activate the right anterior STG whereas male voices activate the precuneus. This does not seem evident in our study as topography to male and female voices were equivalent, suggesting that a common brain region underlies P2, albeit activated to differing extents. However, as fMRI data does not provide temporal information, the brain areas described by Sokhi et al (2005) may be activated at different latencies; activation of the STG around 220 ms leading to a larger P2 for female voices and the precuneus may occur later and could drive differences we observed at the VSR latency in left posterior regions (Sokhi et al., 2005). Studies 2 and 3 revealed a positive deflection around 320 ms that was probably the VSR, although we did not use a voice/non-voice discrimination (Levy et al., 2001). It has been suggested that VSR, as the N170 for face, indexes the identification and distinction of human voice stimuli (Levy et al., 2003). We found that the VSR, as the N170, was not influenced by gender processing. Modification of voice frequency did not alter VSR, whereas studies have reported that modification of visual spatial frequencies does influence N170 (Reinvang et al., 2002; Goffaux et al., 2003; Pourtois et al., 2005). This suggests that the VRS and N170 may have some commonalities, but they may not index the same processing stage in the two modalities. - 15 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience The two studies with voices suggest that true voice gender processing occurs at the P2 latency while pitch processing occurs earlier. Although Levy et al (2001) were most interested in differences between voices and a range of non-vocal sounds (i.e. musical instruments) that occurred 260 to 380 ms after stimuli onset, in figure 2 of their paper, one can see that at the P2 latency, there were amplitude differences between brass and voices (Levy et al., 2001). P2 may also index voice processing, distinguishing between vocal and non-vocal sounds. An MEG study demonstrated that a violation of the expectations of listeners leads to a voicespecific brain response 200 ms after stimulus onset (Lattner et al., 2003). It has also been suggested that P2 is an index for speech processing as P2 was larger to vowels than tones (Tiitinen et al., 1999) and was sensitive to voice priming in a voice recognition paradigm (Schweinberger, 2001). These effects on P2 amplitude may reflect voice sensitivity more than speech processing. We suggest that the auditory ERPs index both pitch and gender processing: pitch processing starts very early and it is modulated by attention, particularly at the N1 latency, while gender discrimination occurs around 200 ms, associated with other aspects of voice processing. Comparison of face and voice gender processing This study revealed the gender processing of faces was faster than that of voices, even though auditory processing starts earlier than does visual processing. Activation of neurons in the primary auditory cortex is reported as early as 18 ms after stimulus onset (LiegeoisChauvel et al., 1994), whereas the first responses recorded in primary visual area occurs around 40 ms. Two hypotheses may explain these results. The first is that visual system is tuned to the extraction of information about an individual, whereas voice primarily driven linguistic information; thus, the processing of gender would be more efficient in the visual modality. A second explanation would be that visual gender information is available as soon as the stimulus is seen, whereas auditory gender information is not available immediately. The auditory system may thus require more time to process gender information; particularly for female voices that may be recognised largely on temporal information. Conclusions These three studies showed different patterns of ERPs in terms of peak analyses and topographies, consistent with gender processing being modality-specific. We provide evidence of differing processes in the extraction of gender information from faces and voices. Gender processing of faces involves left anterior temporal and frontal areas at 150ms. This - 16 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience suggests that face gender is processed in parallel with face recognition. Voice processing was more variable, however. Once pitch information has been accounted for, it appears that differences at the P2 latency remain in fronto-central regions, suggesting that gender categorisation takes place at this latency. This would be consistent with reaction times that are longer for gender categorisation of voices than of faces. These results suggest that neuronal processes underlying gender categorisation of faces and voices differs and that the brain processes that allow the discrimination of male and female faces occurs early and in differing brain areas than comparable discrimination of male and female voices. Acknowledgments Marianne Latinus gratefully acknowledges the salary support from the Fondation pour la Recherche Médicale. We thank Dr. Nancy J. Lobaugh for her generosity in allowing us full access to her ERP lab, and the help provided with the studies by Dr. Lobaugh and Erin Gibson. The authors also want to thank Rufin Van Rullen for constructive comments on the manuscript. - 17 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience References Alho, K., Teder, W., Lavikainen, J. & Naatanen, R. (1994) Strongly focused attention and auditory event-related potentials. Biol Psychol, 38, 73-90. Andreasen, N.C., O'Leary, D.S., Arndt, S., Cizadlo, T., Hurtig, R., Rezai, K., Watkins, G.L., Ponto, L.B. & Hichwa, R.D. (1996) Neural substrates of facial recognition. J Neuropsychiatry Clin Neurosci, 8, 139-146. Andrews, M.L. & Schmidt, C.P. (1997) Gender presentation: perceptual and acoustical analyses of voice. J Voice, 11, 307-313. Bacon-Macé, N.M. (2006) Temporal constraints of visual processing in a categorisation task of natural scenes (French thesis) Centre de recherche cerveau et cogition. Université Paul Sabatier, Toulouse, pp. 189. Batty, M., Delaux, S. & Taylor, M.J. (Year) Early neurophysiological effects in the explicit and implicit processing of facial emotions. The social brain. City. Baudouin, J.Y. & Humphreys, G.W. (2006) Configural information in gender categorisation. Perception, 35, 531-540. Beauchemin, M., De Beaumont, L., Vannasing, P., Turcotte, A., Arcand, C., Belin, P. & Lassonde, M. (2006) Electrophysiological markers of voice familiarity. Eur J Neurosci, 23, 3081-3086. Bedard, C. & Belin, P. (2004) A "voice inversion effect?" Brain Cogn, 55, 247-249. Belin, P., Zatorre, R.J. & Ahad, P. (2002) Human temporal-lobe response to vocal sounds. Brain Res Cogn Brain Res, 13, 17-26. Belin, P., Zatorre, R.J., Lafaille, P., Ahad, P. & Pike, B. (2000) Voice-selective areas in human auditory cortex. Nature, 403, 309-312. Bentin, S., Allison, T., Puce, A., Perez, E. & Mccarthy, G. (1996) Electrophysiological Studies of Face Perception in Humans. Journal of Cognitive Neuroscience, 8, 551565. Bentin, S. & Deouell, L. (2000) Structural encoding and face identification in face processing: ERP evidence for separate mechanisms. Journal of Cognitive Neuropsychology, 17, 35-54. Bentin, S. & Golland, Y. (2002) Meaningful processing of meaningless stimuli: the influence of perceptual experience on early visual processing of faces. Cognition, 86, B1-14. Bruce, V., Ellis, H., Gibling, F. & Young, A. (1987) Parallel processing of the sex and familiarity of faces. Can J Psychol, 41, 510-520. - 18 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Bruce, V. & Langton, S. (1994) The use of pigmentation and shading information in recognising the sex and identities of faces. Perception, 23, 803-822. Bruce, V. & Young, A. (1986) Understanding face recognition. Br J Psychol, 77 ( Pt 3), 305327. Cellerino, A., Borghetti, D. & Sartucci, F. (2004) Sex differences in face gender recognition in humans. Brain Res Bull, 63, 443-449. Crottaz-Herbette, S. & Ragot, R. (2000) Perception of complex sounds: N1 latency codes pitch and topography codes spectra. Clin Neurophysiol, 111, 1759-1766. de Cheveigne, A. & Kawahara, H. (2002) YIN, a fundamental frequency estimator for speech and music. J Acoust Soc Am, 111, 1917-1930. Eimer, M. (2000) Effects of face inversion on the structural encoding and recognition of faces. Evidence from event-related brain potentials. Brain Res Cogn Brain Res, 10, 145-158. George, N., Evans, J., Fiori, N., Davidoff, J. & Renault, B. (1996) Brain events related to normal and moderately scrambled faces. Cognitive Brain Research, 4, 65-76. George, N., Jemel, B., Fiori, N., Chaby, L. & Renault, B. (2005) Electrophysiological correlates of facial decision: insights from upright and upside-down Mooney-face perception. Brain Res Cogn Brain Res, 24, 663-673. Goffaux, V., Gauthier, I. & Rossion, B. (2003) Spatial scale contribution to early visual differences between face and object processing. Cognitive Brain Research, 16, 416424. Halit, H., de Haan, M. & Johnson, M.H. (2000) Modulation of event-related potentials by prototypical and atypical faces. Neuroreport, 11, 1871-1875. Haxby, J.V., Hoffman, E.A. & Gobbini, M.I. (2000) The distributed human neural system for face perception. Trends Cogn Sci, 4, 223-233. Holmes, A., Vuilleumier, P. & Eimer, M. (2003) The processing of emotional facial expression is gated by spatial attention: evidence from event-related brain potentials. Brain Res Cogn Brain Res, 16, 174-184. Imaizumi, S., Mori, K., Kiritani, S., Kawashima, R., Sugiura, M., Fukuda, H., Itoh, K., Kato, T., Nakamura, A., Hatano, K., Kojima, S. & Nakamura, K. (1997) Vocal identification of speaker and emotion activates different brain regions. Neuroreport, 8, 2809-2812. Itier, R.J., Latinus, M. & Taylor, M.J. (2006) Face, eye and object early processing: what is the face specificity? Neuroimage, 29, 667-676. Itier, R.J. & Taylor, M.J. (2002) Inversion and contrast polarity reversal affect both encoding and recognition processes of unfamiliar faces: a repetition study using ERPs. Neuroimage, 15, 353-372. - 19 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Itier, R.J. & Taylor, M.J. (2004a) Effects of repetition learning on upright, inverted and contrast-reversed face processing using ERPs. Neuroimage, 21, 1518-1532. Itier, R.J. & Taylor, M.J. (2004b) N170 or N1? Spatiotemporal differences between object and face processing using ERPs. Cereb Cortex, 14, 132-142. Jacobson, G.P., Lombardi, D.M., Gibbens, N.D., Ahmad, B.K. & Newman, C.W. (1992) The effects of stimulus frequency and recording site on the amplitude and latency of multichannel cortical auditory evoked potential (CAEP) component N1. Ear Hear, 13, 300-306. Jeffreys, D.A. (1993) The influence of stimulus orientation on the vertex positive scalp potential evoked by faces. Experimental Brain Research, 96, 163-172. Kanwisher, N., Stanley, D. & Harris, A. (1999) The fusiform face area is selective for faces not animals. Neuroreport, 10, 183-187. Latinus, M. & Taylor, M.J. (2005) Holistic processing of faces: learning effects with Mooney faces. J Cogn Neurosci, 17, 1316-1327. Latinus, M. & Taylor, M.J. (2006) Face processing stages: Impact of difficulty and the separation of effects. Brain Res, 1123, 179-187. Lattner, S., Maess, B., Wang, Y., Schauer, M., Alter, K. & Friederici, A.D. (2003) Dissociation of human and computer voices in the brain: evidence for a preattentive gestalt-like perception. Hum Brain Mapp, 20, 13-21. Lattner, S., Meyer, M.E. & Friederici, A.D. (2005) Voice perception: Sex, pitch, and the right hemisphere. Hum Brain Mapp, 24, 11-20. Lavner, Y., Gath, I. & Rosenhouse, J. (2000) The effects of acoustic modifications on the identification of familiar voices speaking isolated vowels. Speech Communication, 30, 9-26. Levy, D.A., Granot, R. & Bentin, S. (2001) Processing specificity for human voice stimuli: electrophysiological evidence. Neuroreport, 12, 2653-2657. Levy, D.A., Granot, R. & Bentin, S. (2003) Neural sensitivity to human voices: ERP evidence of task and attentional influences. Psychophysiology, 40, 291-305. Liegeois-Chauvel, C., Musolino, A., Badier, J.M., Marquis, P. & Chauvel, P. (1994) Evoked potentials recorded from the auditory cortex in man: evaluation and topography of the middle latency components. Electroencephalogr Clin Neurophysiol, 92, 204-214. Maurer, D., Grand, R.L. & Mondloch, C.J. (2002) The many faces of configural processing. Trends Cogn Sci, 6, 255-260. Mouchetant-Rostaing, Y. & Giard, M.H. (2003) Electrophysiological correlates of age and gender perception on human faces. J Cogn Neurosci, 15, 900-910. - 20 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Mouchetant-Rostaing, Y., Giard, M.H., Bentin, S., Aguera, P.E. & Pernier, J. (2000) Neurophysiological correlates of face gender processing in humans. Eur J Neurosci, 12, 303-310. Mullennix, J.W., Johnson, K.A., Topcu-Durgun, M. & Farnsworth, L.M. (1995) The perceptual representation of voice gender. J Acoust Soc Am, 98, 3080-3095. Murry, T. & Singh, S. (1980) Multidimensional analysis of male and female voices. J Acoust Soc Am, 68, 1294-1300. Näätänen, R. & Picton, T. (1987) The N1 wave of the human electric and magnetic response to sound: a review and an analysis of the component structure. Psychophysiology, 24, 375-425. Näätänen, R., Sams, M., Alho, K., Paavilainen, P., Reinikainen, K. & Sokolov, E.N. (1988) Frequency and location specificity of the human vertex N1 wave. Electroencephalogr Clin Neurophysiol, 69, 523-531. Neelon, M.F., Williams, J. & Garell, P.C. (2006) The effects of auditory attention measured from human electrocorticograms. Clin Neurophysiol, 117, 504-521. Pantev, C., Bertrand, O., Eulitz, C., Verkindt, C., Hampson, S., Schuierer, G. & Elbert, T. (1995) Specific tonotopic organizations of different areas of the human auditory cortex revealed by simultaneous magnetic and electric recordings. Electroencephalogr Clin Neurophysiol, 94, 26-40. Pourtois, G., Dan, E.S., Grandjean, D., Sander, D. & Vuilleumier, P. (2005) Enhanced extrastriate visual response to bandpass spatial frequency filtered fearful faces: time course and topographic evoked potentials mapping. Hum Brain Mapp, 26, 65-79. Puce, A., Allison, T., Asgari, M., Gore, J.C. & McCarthy, G. (1996) Differential sensitivity of human visual cortex to faces, letter-strings, and textures: a functional magnetic resonance imaging study. Journal of Neuroscience, 16, 5205-5215. Reddy, L., Wilken, P. & Koch, C. (2004) Face-gender discrimination is possible in the nearabsence of attention. J Vis, 4, 106-117. Reinvang, I., Magnussen, S. & Greenlee, M.W. (2002) Hemispheric asymmetry in visual discrimination and memory: ERP evidence for spatial frequency hypothesis. Exp Brain Res, 144, 483-495. Rossion, B., Campanella, S., Gomez, C.M., Delinte, A., Debatisse, D., Liard, L., Dubois, S., Bruyer, R., Crommelinck, M. & Guerit, J.M. (1999a) Task modulation of brain activity related to familiar and unfamiliar face processing: an ERP study. Clin Neurophysiol, 110, 449-462. Rossion, B., Delvenne, J.F., Debatisse, D., Goffaux, V., Bruyer, R., Crommelinck, M. & Guerit, J.M. (1999b) Spatio-temporal localization of the face inversion effect: an event-related potentials study. Biol Psychol, 50, 173-189. - 21 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Rossion, B., Gauthier, I., Tarr, M.J., Despland, P., Bruyer, R., Linotte, S. & Crommelinck, M. (2000) The N170 occipito-temporal component is delayed and enhanced to inverted faces but not to inverted objects: an electrophysiological account of face-specific processes in the human brain. Neuroreport, 11, 69-74. Sagiv, N. & Bentin, S. (2001) Structural encoding of human and schematic faces: holistic and part-based processes. Journal of Cognitive Neuroscience, 13, 937-951. Schweinberger, S.R. (2001) Human brain potential correlates of voice priming and voice recognition. Neuropsychologia, 39, 921-936. Scott, S.K., Blank, C.C., Rosen, S. & Wise, R.J. (2000) Identification of a pathway for intelligible speech in the left temporal lobe. Brain, 123 Pt 12, 2400-2406. Severac Cauquil, A., Edmonds, G.E. & Taylor, M.J. (2000) Is the face-sensitive N170 the only ERP not affected by selective attention? Neuroreport, 11, 2167-2171. Sokhi, D.S., Hunter, M.D., Wilkinson, I.D. & Woodruff, P.W. (2005) Male and female voices activate distinct regions in the male brain. Neuroimage, 27, 572-578. Taylor, M.J. (2002) Non-spatial attentional effects on P1. Clin Neurophysiol, 113, 1903-1908. Taylor, M.J., Edmonds, G.E., McCarthy, G. & Allison, T. (2001a) Eyes first! Eye processing develops before face processing in children. Neuroreport, 12, 1671-1676. Taylor, M.J., Itier, R.J., Allison, T. & Edmonds, G.E. (2001b) Direction of gaze effects on early face processing: eyes-only versus full faces. Brain Res Cogn Brain Res, 10, 333340. Tiitinen, H., Sivonen, P., Alku, P., Virtanen, J. & Naatanen, R. (1999) Electromagnetic recordings reveal latency differences in speech and tone processing in humans. Brain Res Cogn Brain Res, 8, 355-363. von Kriegstein, K., Eger, E., Kleinschmidt, A. & Giraud, A.L. (2003) Modulation of neural responses to speech by directing attention to voices or verbal content. Brain Res Cogn Brain Res, 17, 48-55. Vuilleumier, P. (2000) Faces call for attention: evidence from patients with visual extinction. Neuropsychologia, 38, 693-700. Whiteside, S.P. (1998) Identification of a speaker's sex: a study of vowels. Percept Mot Skills, 86, 579-584. Yamaguchi, M.K., Hirukawa, T. & Kanazawa, S. (1995) Judgment of gender through facial parts. Perception, 24, 563-575. - 22 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Table 1: Mean Accuracy and Reaction Times for study 3 for each condition. Female Voices Male Voices Hits (%) RTs (ms) Hits (%) RTs (ms) High-pitched 76.82 ± 2.27 775.08 ± 25.35 87.84 ± 1.95 863.75 ± 31.87 Normal 96.11 ± 0.86 810.94 ± 30.92 96.49 ± 1.3 760.63 ± 28.32 Low-pitched 84.71 ± 1.65 808.8 ± 33.65 97.87 ± 1.01 748.73 ± 29.62 NB: Accuracy was particularly low for high-pitched voices, especially for female voices. RTs to female high-pitched voices are the fastest whereas for male voices low-pitched voices induced the fastest response. - 23 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Figure Captions Figure 1: Grand average ERPs and topographies for faces, study 1. A) ERPs to female (▬) and male (▬) faces at electrodes PO7 and PO8. B) Topographies of N170 to male and female faces. First column: male faces, second column: female faces, third column: significant F-values (F(1,18) > 6.5146) of the difference between male and female stimuli. NB: For the F-value topographies, values that are not significant are in green. The scale is a /+ maximum F-value. Figure 2: Grand average ERPs and topographies for voices, study 2. A) ERPs to normal female (▬) and male (▬) voices at Cz (left) and FC1 (right). B) Topographies for each time interval where there were significant differences between male and female voices. First column: male voices, second column: female voices, third column: significant F-values (F(1,18) > 6.5146) of the difference between male and female stimuli. NB: For the F-value topographies, values that are not significant are in green. The scale is a -/+ maximum F-value. Figure 3: Fundamental frequency (F0) in Hz of the stimuli used in studies 2 and 3, and graphic representation. Note that F0 for female voices were on average higher than male voices. Low-pitched (black) and normal voices (dark grey) did not differ significantly, but high pitch voices (clear grey) were always the highest regardless of gender. Figure 4: Behavioural results for study 3. A) Accuracy in percentages. Normal voices (dark grey) were well categorised regardless of gender. Pitch modifications impaired female voice categorisation more than male. High-pitched voices (clear grey) were the worst categorised for both male and female voices. Low pitched voices are represented in black. B) Reaction times in ms for the different conditions. RTs did not differ as a function of voice gender but were modulated by pitch. Figure 5: Peak and spatio-temporal analysis for study 3. A) Grand average ERPs for each condition at FC1 (P2 is represented). Female voices are in pink, male voices are in blue. - 24 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience The lighter to darker lines represent the higher pitch to the lower pitch voices. Note the delayed and smaller P2 for male voices. B) Topographies at 45ms of the voices, averaged by pitch (left column) and at 184ms by gender (right column). High-pitch voices led to larger activity and female voices produced greater frontal activity than to male voices. C) Topographies of the significant F-values revealed by the two ANOVAs for the pitch factor (first column – 45 ms) and gender factor (second column – 184 ms) seen in B. D) Comparison between activity to male high-pitched voices and female normal voices, and maps of the significant F values of the one-way ANOVA. Note that the female voices evoked a larger activity than male voices with a similar distribution of effects as seen in the gender results (C), even though in this comparison the female voices had an F0 125Hz lower than the male voices. - 25 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Figure 1 - 26 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Figure 2 - 27 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Figure 3 - 28 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Figure 4 - 29 - Latinus & Taylor Manuscript in preparation for European Journal of Neuroscience Figure 5 - 30 - 4. Discussion Perception du genre de la voix Les expériences 2 et 3 de l’article précédent avaient pour but d’explorer la perception du genre de la voix. Les résultats comportementaux mettent en évidence une différence entre la perception des voix d’hommes et celle des voix de femmes. Dans la première expérience, cette différence n’est visible qu’au niveau des temps de réaction, qui sont plus longs pour la catégorisation des voix de femmes. Dans la deuxième expérience, la modification de la hauteur de la voix produit des résultats inattendus. En effet, puisque la hauteur est un élément primordial de la perception du genre, une hypothèse était que les voix de femmes forcées vers l’aigu soient perçues comme féminines, et les voix des hommes forcées vers le grave comme masculines ; or, les résultats comportementaux vont à l’encontre de cette hypothèse. La modification de la hauteur de la voix n’altère presque pas la perception des voix d’hommes mais elle modifie de façon importante la perception des voix de femmes. Cela suggère que la modification de la hauteur ne perturbe pas toutes les caractéristiques acoustiques utilisées pour juger du côté masculin d’une voix, mais qu’elle perturbe les informations utilisées pour juger de la féminité d’une voix. Ces informations manquantes pour la détection du genre de la voix pourraient être celles contenues dans la dynamique temporelle de la voix. Certaines études montrent en effet que le traitement des voix de femmes repose sur la dynamique temporelle de la voix (Andrews & Schmidt, 1997; Murry & Singh, 1980). Ainsi, dans notre expérience, du fait de l’utilisation de mots courts (~300 ms), le recours aux informations temporelles a pu être impossible. Ces résultats révèlent donc que les voix masculines sont reconnues par une fréquence fondamentale basse, mais que d’autres informations spectrales peuvent être utilisées en l’absence d’une F0 pertinente. Pour les voix de femmes, la détection du genre passe essentiellement par la F0 mais lorsque celle-ci n’est pas appropriée, elle requiert des informations temporelles non disponibles dans des stimuli courts. Des différences entre voix d’hommes et de femmes sont observées très précocement. A 30 ms la topographie pour les voix d’hommes est distincte de celle observée pour les voix de femmes. Elle est cependant similaire pour les voix d’hommes et les voix graves : un pic d’activité est observé dans l’hémisphère gauche. Les voix de femmes induisent une activité latéralisée à droite. La topographie pour les voix aiguës est différente aussi bien de celle des voix de femmes que de celle des voix d’hommes ; elle ne présente pas de latéralisation. Ces différences de topographie en fonction de la hauteur de la voix reflètent probablement la 235 tonotopie des aires auditives primaires, d’autant qu’elles sont observées dans l’intervalle des latences du complexe Na/Pa (Pantev et al., 1995). Les voix d’hommes entraînent une N1 plus ample que les voix de femmes, les topographies étant également différentes. La topographie pour les voix d’hommes indique une activation plus postérieure que celle des voix de femmes ; ces résultats sont en accord avec les études montrant une sensibilité de l’amplitude et de la topographie de la N1 à la fréquence des stimuli reflétant la tonotopie observée dans les aires auditives secondaires (Crottaz-Herbette & Ragot, 2000; Näätänen & Picton, 1987; Näätänen et al., 1988; Pantev et al., 1995). Les modulations de la N1 disparaissent dans la deuxième étude. Ces résultats refléteraient une modulation de la N1 par les processus attentionnels ; les différences physiques entre les stimuli sont conservées, mais la hauteur de la voix n’est plus un indice pertinent, elle n’est donc pas traitée de façon approfondie (Alho et al., 1994). La P2 est modulée par le genre de la voix : elle est plus ample pour les voix féminines. Sa topographie est similaire pour les voix féminines et masculines. Par ailleurs, à cette latence, la topographie des différences entre les voix de femmes normales et les voix d’hommes aiguës est similaire à la topographie des différences entre voix d’hommes et voix de femmes. Cette dernière comparaison montre que les différences observées à la latence de la P2 ne sont pas induites par la fréquence fondamentale de la voix, mais bien par le genre. Je pense donc, que la P2 auditive pourrait refléter l’activité d’une source cérébrale sensible aux genres de la voix. Ces résultats suggèrent également que la P2 pourrait refléter l’étape de distinction entre la voix et les autres stimuli auditifs. Cette dernière hypothèse ne peut cependant pas être vérifiée par ses deux expériences. Ces deux études engendrent deux hypothèses. La perception des voix aurait lieu 200 ms après la stimulation, et non pas 320 ms. Le genre de la voix paraît être traité à la même latence. Afin de tester ces hypothèses, j’ai pensé à une troisième étude en collaboration avec Magali Batty (Service d’exploration fonctionelle en pédopsychiatrie, Tours), étude qui est actuellement en préparation. Les stimuli utilisés dans cette étude seront les voix utilisées dans mes deux expériences, ces mêmes stimuli inversés, ainsi que des sons purs appariés en terme d’enveloppe et de fréquence fondamentale à chacune des voix. La comparaison entre les sons purs et les voix permettrait de mettre en évidence des traitements spécifiques de la voix. Les stimuli inversés sont ajoutés pour tester l’effet d’inversion ; en effet, dans le domaine de la perception des visages, la sensibilité de la N170 à l’inversion des visages est un indice de la spécificité des visages. Par ailleurs, l’utilisation de sons purs inversés pourrait permettre de 236 montrer que l’effet d’inversion, s’il existe, est spécifique des visages. Les effets précoces observés dans mes expériences précédentes devraient être communs aux voix et aux non voix. Les effets sur la P2 devraient être spécifiques des voix. Si la P2 ou la VSR reflète le traitement de la voix, on s’attend à des différences entre voix et non voix, et pourquoi pas à un effet d’inversion sur l’une de ces composantes. Comparaison entre le genre du visage et le genre de la voix Cette étude avait également pour but d’explorer la perception du genre d’un individu à travers les deux modalités sensorielles primordiales pour cette tâche : la vision et l’audition. L’hypothèse sous-jacente supposait que si la perception du genre était un processus amodal, ou supramodal, la discrimination du genre devrait conduire à une topographie/activité similaire après les traitements spécifiques quelle que soit la modalité. Les résultats de ces études ne permettent pas de mettre en évidence une telle similarité. En premier lieu, au niveau comportemental, la catégorisation du genre est effectuée plus rapidement sur le visage que sur la voix (550 contre 700 ms en moyenne). Ce résultat peut paraître surprenant au vu des différences recontrées au niveau cortical ; en effet, les aires auditives sont activées plus tôt que les aires visuelles. Cependant, dans notre étude, le visage est un stimulus statique, la voix, quant à elle, est un stimulus dynamique. Ainsi, toutes les informations visuelles sont disponibles dès le début de la présentation, ce qui n’est pas le cas pour les voix. Cette hypothèse suffit à expliquer les données. Une deuxième hypothèse pourrait être que l’information visuelle prévaut sur l’information auditive dans le cadre de la perception du genre. Cette deuxième hypothèse sera explorée dans mes travaux sur les interactions multimodales. Une deuxième distinction entre voix et visage, au niveau comportemental, est l’absence de différence entre la catégorisation des visages d’hommes et de femmes, alors que la catégorisation des voix de femmes est plus lente d’environ 30 ms que celle des voix d’hommes. Cette seconde observation peut également resulter de la dynamique des stimuli auditifs : il a en effet été démontré que la perception des voix de femmes dépend d’indices dynamiques alors que la perception des voix d’hommes se fait essentiellement via des informations spectrales. Les informations sur la dynamique de la voix n’étant pas disponibles au même moment que les informations spectrales, ceci peut expliquer que les temps de réaction des sujets soient plus longs lorsqu’il s’agit de catégoriser une voix féminine. 237 L’activité cérébrale enregistrée dans ces deux tâches est également différente. Les visages de femmes et d’hommes évoquent une activité différente sur les électrodes frontales entre 140 et 170 ms. Au contraire, les voix d’hommes et de femmes évoquent une activité différente dès 40 ms ; la topographie des différences ne ressemble jamais à celle obtenue entre visages d’hommes et visages de femmes. Même si nombre de différences entre voix d’hommes et de femmes peuvent résulter des traitements bas niveau (traitement des informations spectrales), mon étude montre qu’une différence liée à la perception du genre de la voix (et non aux différences de fréquence entre les voix) apparaît entre 175 et 215 ms sur les électrodes centrales. Ainsi, il semble que la perception du genre d’un visage diffère de la perception du genre de la voix, et il ne semble pas y avoir un centre supramodal de la perception du genre. Ainsi, ces trois études suggèrent que le traitement des voix n’est peut-être pas similaire à celui des visages ; plus particulièrement la reconnaissance du genre ne semble pas être effectuée de la même façon sur le visage que sur la voix. Il apparaît également une différence dans les vitesses de traitement entre les deux modalités ; cette différence pourrait être due aux caractéristiques des stimuli (voix dynamique contre visage statique) mais elle pourrait refléter un avantage du système visuel dans la perception du genre de l’individu. Au niveau électrophysiologique, l’activité cérébrale évoquée par les visages de femmes et les visage d’hommes diffère de manière localisée à la fois spatialement et temporellement (à 180 ms sur les électrodes frontales). Au contraire, les voix d’hommes et de femmes induisent une activité cérébrale différente pendant une longue période et en des régions variées. Dans la dernière étude de ma thèse, j’ai étudié la perception du genre de la voix sur des stimuli bimodaux constitués de visages et de voix. Dans cette étude, des stimuli congruents et incongruents ont été utilisés lorsque l’attention des sujets était dirigée vers l’une ou l’autre, ou les deux modalités sensorielles. Ainsi, grâce à l’utilisation de stimuli incongruents, cette étude permet de tester l’hypothèse d’une asymétrie entre les modalités sensorielles dans la perception du genre. Elle explore également les corrélats électrophysiologiques des interactions bimodales. 238 B. Interactions bimodales Dans la vie quotidienne, les informations du monde extérieur, en général congruentes, atteignent simultanément nos différents sens. Les paroles prononcées par un locuteur sont perçues par le système auditif (émission sonore) mais également par le système visuel (mouvement articulatoire des lèvres) ; ces deux informations sont intégrées simultanément et améliorent la perception du langage : le rôle des informations visuelles est particulièrement important dans des conditions bruitées (MacLeod & Summerfield, 1987). Ce type d’interactions entre plusieurs modalités se retrouve à tous les niveaux de notre vie quotidienne ; qui n’a jamais gouté un bonbon en ressentant un goût de pomme lorsque le bonbon est vert, alors que si la couleur du bonbon est inconnue, son gout n’est plus définissable. Il est donc normal de s’interroger sur la contribution respective de chacune des informations unimodales à la perception de notre environnement, et sur leurs possibles interactions. L’interaction entre les informations provenant de nos différents sens est montrée par deux types d’études. Une première approche de l’étude des interactions multimodales repose sur l’observation des réponses des sujets à des stimulations multimodales conflictuelles. La deuxième approche consiste à observer la réponse des sujets à des informations sensorielles redondantes. Dans ma thèse, j’ai étudié les interactions entre vision et audition dans la perception des personnes ; il s’agissait d’une tâche de catégorisation du genre sur des stimuli bimodaux congruents ou incongruents. Ainsi, mes études utilisent les deux types de paradigmes décrits ci-dessus. J’ai en effet analysé les réponse comportementales et neuronales des sujets à des stimulations sensorielles portant des informations redondantes/congruentes ou conflictuelles/incongruentes. 1. La preuve par les illusions Les interactions multimodales donnent naissance à de nombreuses illusions sensorielles. Les illusions intermodales peuvent mettre en jeu tous les systèmes sensoriels. Sont ainsi décrites des illusions visuo-auditives, visuo-tactiles, visuo-gustatives etc. Je restreindrai pourtant ma présentation à l’interaction entre les systèmes auditif et visuel, puisque ce sont eux qui m’ont intéressée au cours de ma thèse. Certaines illusions résultent d’une altération des traitements auditifs par les informations visuelles, par exemple l’effet 239 McGurk. D’autres illusions proviennent d’une perturbation des traitements visuels par les informations auditives. 1.1. L’effet McGurk L’effet McGurk est un exemple frappant d’interaction bimodale. Cette illusion, décrite par McGurk et McDonald (1976), se situe dans le domaine de la parole. Elle traduit l’influence du mouvement articulatoire des lèvres sur la perception auditive. La perception auditive de la syllabe ‘ba’ est modifiée par la présentation simultanée d’une bouche mimant le mouvement articulatoire de la syllabe ‘ga’ ; la syllabe finalement perçue est la syllabe ‘da’ (McGurk & MacDonald, 1976). L’effet McGurk est une illusion intermodale très robuste. La majorité des sujets (~80%) y est sensible, même lorsque la nature des informations unimodales est connue. L’effet McGurk est observé même en l’absence de synchronisation temporelle et/ou spatiale entre le son et l’image (Jones & Jarick, 2006; Jones & Munhall, 1997; Munhall et al., 1996). La force de l’effet McGurk dépend du poids respectif donné aux informations auditives et visuelles, expliquant pourquoi certains sujets n’y sont pas sensibles ou d’autres très sensibles. L’effet McGurk est, par exemple, invariablement observé chez les sourds implantés cochléaires22 (communication de Julien Rouger, CerCo). L’effet McGurk résulte d’une différence entre les lieux d’articulation des consonnes ‘g’ et ‘b’. Le lieu d’articulation est, rappelons-le, le lieu d’obstruction de l’air dans les cavités supra-glottiques. Le lieu d’articulation est indiqué majoritairement par les informations visuelles, néanmoins les informations auditives y donnent également accès, notamment par la transition formantique23 entre la consonne et la voyelle. La consonne ‘b’ est une consonne labiale (produite par un resserrement des lèvres), ‘g’ est une consonne vélaire (produite par un appui du dos de la langue contre le voile du palais). Visuellement, le lieu d’articulation de la consonne ‘d’ (consonne dentale, produite par un rapprochement de la pointe de la langue des dents) est proche de celui de la consonne ‘g’ : ce sont toutes deux des consonnes non labiales, ne mettant pas en jeu de mouvement des lèvres. A contrario, les informations auditives sur le lieu d’articulation sont relativement similaires pour les syllabes ‘da’ et ‘ba’. Ainsi, la combinaison des informations visuelles et auditives ne peut conduire qu’à une perception intermédiaire afin de satisfaire au mieux la volonté de concordance habituellement vécue ; 22 Les sujets sourds implantés cochléaires, influencés en premier lieu par les informations visuelles, rapportent percevoir soit un ‘ga, soit un ‘da’. 23 Comme je l’ai dit dans le paragraphe 2.2.1a., une consonne est définie par rapport à la voyelle adjacente. La transition formatique définit un changement rapide de la fréquence d’un formant, notamment lors du passage de la consonne à la voyelle. Cette transition formantique permet de différencier les différentes syllabes du langage. 240 cette concordance est trouvée dans la syllabe ‘da’. L’effet McGurk est en général décrit lors de la présentation visuelle de consonnes non labiales (par exemple ‘ga’ ou ‘ka’) associée à la présentation auditive d’une consonne labiale (par exemple ‘ba’ ou ‘ma’), la syllabe perçue étant alors intermédiaire (‘da’ ou ‘na’). Inversement, la présentation visuelle de la syllabe ‘ba’ et auditive de la syllabe ‘ga’ induit également une illusion visuo-auditive mais elle ne résulte pas en une fusion des deux percepts, plutôt en une addition : les sujets reportent entendre ‘bga’. L’effet McGurk n’est pas restreint à la perception des syllabes, il est également rapporté pour des phrases entières. La présentation auditive d’une phrase n’ayant aucune signification ("My bab pop me poo brive") combinée à la présentation visuelle d’une autre phrase n’ayant aucun sens ("My gag kok me koo grive") conduit à la perception de "My dad taught me to drive" (« mon père m’a appris à conduire ») par la plupart des sujets (Massaro & Stork, 1998). L’effet McGurk révèle l’existence d’interactions entre les informations linguistiques visuelles et auditives ; cette interaction serait relativement précoce puisqu’elle a lieu avant l’interprétation phonétique (Summerfield, 1992). 1.2. Ventriloquie : illusion spatiale et temporelle L’interaction entre modalités visuelle et auditive est également démontrée dans le domaine de la localisation spatiale. La localisation d’un son est affectée par des informations visuelles (Bertelson & Radeau, 1981; Driver, 1996; Radeau & Bertelson, 1987). Cette illusion est à la base de la ventriloquie ; le ventriloque parle en bougeant les lèvres le moins possible mais en en animant la bouche d’une marionnette : la parole est alors attribuée à cette dernière (Figure 35). La perception du mouvement articulatoire des lèvres influence la localisation spatiale de la source sonore (Driver, 1996). Figure 35. Ventriloque et sa marionnette. Les données visuelles que le public peut associer aux paroles entendues proviennent de la marionnette (Issu du site internet de Christian Gabriel, ventriloque). 241 La ventriloquie est une illusion multimodale dans le domaine de la communication langagière. Elle peut également être étendue à d’autres domaines. La localisation spatiale d’une source sonore fixe est modifiée par la présence d’une information visuelle : la source sonore est perçue comme étant plus proche de la source visuelle qu’elle ne l’est effectivement (Bertelson & Radeau, 1981; Radeau & Bertelson, 1987; Slutsky & Recanzone, 2001; Spence & Driver, 2000). Ce biais perceptuel diminue avec l’augmentation de la distance séparant les sources auditive et visuelle ; autrement dit, plus les sources auditive et visuelle sont éloignées l’une de l’autre, plus les deux évènements ont tendance à être traités de façon indépendante (Slutsky & Recanzone, 2001). L’illusion spatiale dépend également de la synchronisation entre la présentation du stimulus sonore et celle du stimulus visuel (Radeau & Bertelson, 1987). Cette illusion montre un biais important de l’information visuelle sur la localisation spatiale d’un stimulus auditif. Au contraire, la localisation d’une cible visuelle n’est pas ou peu influencée par une information auditive discordante (Bertelson & Radeau, 1981; Radeau & Bertelson, 1987). Il apparaît donc que le traitement des informations spatiales est dominé par la modalité visuelle. L’effet de ventriloquie ne dépend ni de facteurs attentionnels exogènes (capture automatique de l’attention) ni de facteurs attentionnels endogènes (attention délibérée), il reflète une interaction sensorielle automatique entre les modalités visuelle et auditive (Bertelson et al., 2000; Spence & Driver, 2000; Vroomen, Bertelson et al., 2001). Il a également été démontré une ventriloquie dans le domaine temporel (Bertelson & Aschersleben, 2003; Fendrich & Corballis, 2001). L’évaluation de l’occurrence temporelle d’un stimulus visuel est influencée par la présentation d’un stimulus auditif ; un effet similaire mais de plus faible amplitude est rapporté lors de l’évaluation de l’occurrence temporelle d’un stimulus auditif (Aschersleben & Bertelson, 2003; Fendrich & Corballis, 2001). Ainsi, la modalité auditive paraît dominer la modalité visuelle dans le traitement des aspects temporels des évènements. Cette dominance est relative puisque la modalité visuelle influence également la modalité auditive. 1.3. Flashs illusoires Récemment, une équipe de chercheurs a mis en évidence une illusion visuelle provoquée par des informations auditives (Shams et al., 2000, 2002). Les informations auditives altèrent la perception visuelle quand bien même celle-ci n’est pas ambiguë ; la présentation d’un flash visuel accompagné de plusieurs bips auditifs entraîne la perception illusoire de plusieurs flashs. Cette perception illusoire est un phénomène robuste : les sujets 242 connaissant le principe de l’illusion y sont tout de même sensibles ; tous les sujets n’y sont cependant pas sensibles (80 % des sujets y sont sensibles) (Andersen et al., 2004; Shams et al., 2000, 2002). Cette illusion est purement perceptuelle, elle ne dépend ni de la saillance du stimulus visuel ni de processus cognitifs (Shams et al., 2002). Elle dépend de l’intervalle de temps entre les stimulations auditive et visuelle ; elle n’a pas lieu lorsque ces stimulations sont séparées par plus de 100 ms, ce qui correspond à la fenêtre temporelle de l’intégration des neurones multisensoriels (Shams et al., 2002). L’information auditive entraîne une fission du stimulus visuel en deux stimuli ou plus. A l’inverse, dans leurs études, Shams et al. (2000, 2002) ne rapportent pas d’effet de fusion ; une fusion correspondrait à une diminution du nombre de flashs perçus par rapport au nombre réel de flashs lorsqu’un seul bip est présenté. Cependant, il a été montré récemment un effet de fusion : le nombre de flashs visuels perçus diminue avec le nombre de bips auditifs (Andersen et al., 2004). L’effet de fusion reste néanmoins inférieur à l’effet de fission, et il disparaît lorsque le stimulus auditif est ambigu. Andersen et al. (2004) ont également montré que l’illusion n’est pas produite lorsque les stimuli à compter sont les stimuli auditifs, sauf si ces derniers ont une faible intensité. Ainsi, dans cette illusion, l’information visuelle ne biaise pas l’information auditive à moins que cette dernière ne soit ambiguë. Ces deux études mettent donc à nouveau en évidence une asymétrie dans l’influence d’une modalité sur l’autre modalité en fonction de la tâche à réaliser. Ces différentes études sur les illusions intermodales révèlent une interaction entre les modalités visuelle et auditive, dans le traitement des aspects temporels, spatiaux, et discriminatifs des évènements. Elles montrent également une asymétrie dans l’influence d’une modalité sur une autre. Cette asymétrie démontre l’existence d’une dominance sensorielle, dépendant de l’information à traiter. Cependant, dans certains paradigmes conflictuels, la modalité non dominante peut également altérer la perception ; c’est le cas notamment dans l’effet McGurk. 1.4. Un cas particulier d’interaction intermodale : La synesthésie La synesthésie, bien qu’elle ne puisse pas être considérée comme une illusion perceptuelle, illustre néanmoins la communication entre les différents systèmes sensoriels. Elle se traduit par l’association entre deux ou plusieurs sens, mais elle peut également être intramodale, par exemple l’association d’un graphème et d’une couleur. 243 « Mon monde est coloré. Les lettres et les nombres possèdent une dimension de plus par rapport à une perception auditive normale: ils ont des couleurs. Le A et le 4 sont rouges pétillants, le E est jaune citron et le R bleu noir. La surface du I est lisse et douce tandis que celle du Z est peluchée. En entendant ou en lisant une phrase, je vois les mots colorés déambuler devant moi comme sur un écran. L'année a une forme ovale et lisse et rejoint les semaines et les jours dans une forme spiralée compliquée; chaque mois possède une couleur. Je me souviens de la couleur du nom d'une personne avant de me rappeler comment elle s'appelle: Anna est rouge et vert foncé et son anniversaire est violet blanc, ce qui ne peut être que le premier mai. Je ne peux pas inhiber ces sensations volontairement, elles étaient toujours là et toujours les mêmes, elles accompagnent tout simplement le langage en donnant une dimension supplémentaire au vécu quotidien. Ce n'est que récemment que j'ai appris, avec étonnement, que les autres n'avaient pas ces mêmes perceptions et j'ai de la peine à m'imaginer un monde sans mes couleurs, tout comme un nonsynesthète a de la peine à comprendre mon monde. On a tendance à assumer que la réalité est la même pour tout le monde - l'expérience de la synesthésie nous montre que cela n'est pas le cas.» Irène Schönenberger La synesthésie se définit comme une association intermodale involontaire. La stimulation d’un sens induit spontanément une sensation dans un autre sens : un son peut être associé à une couleur etc. La synesthésie est un phénomène durable, robuste. Un même sujet présente toujours les mêmes associations. Plusieurs types de synesthésie sont décrits. La synesthésie bimodale mettant en jeu deux sens est en général unidirectionnelle : un son déclenche une perception colorée mais pas l’inverse. La synesthésie multimodale est le croisement des informations de 3 ou plusieurs sens ; elle est en général bidirectionnelle. La synesthésie cognitive ou catégorielle consiste en une association entre une information sensorielle et les systèmes de catégorisation culturels (l’alphabet coloré en est la forme la plus fréquente – (Figure 36)). Il existe toutefois autant de synesthésies que de synesthètes : chaque individu crée ses propres associations sensorielles. Figure 36. Alphabet tel qu'il est perçu par un synesthète. La synesthésie est en général de nature développementale. Elle est plus fréquemment observée chez les femmes que chez les hommes, et est souvent transmise à la descendance (Baron-Cohen et al., 1993; Cytowic, 1995). La synesthésie paraît donc avoir en partie une cause génétique ; il est d’ailleurs suggéré qu’elle mette en jeu le chromosome X. Sa prévalence dans la population générale varie énormément selon les estimations (d’une personne sur 20 à une sur 200000). Cette grande variabilité est en partie dû au fait que les 244 recensements n’ont été faits qu’avec des personnes se déclarant synesthètes ; la prévalence décrite par ces études est d’autant moins représentative que nombre de synesthètes ne se rendent pas compte de leur synesthésie. Les études s’intéressant à un échantillon aléatoire de la population montrent que la prévalence de la synesthésie pourrait être de 1 personne sur 20. Plusieurs théories neurobiologiques tentent d’expliquer la synesthésie. Selon BaronCohen (1993), la synesthésie est observée chez tous les nouveau-nés (jusqu’à 4 mois). Après 4 mois, il y aurait une sélection des connexions corticales par mort cellulaire de manière à isoler les informations sensorielles. C’est cette phase de sélection qui serait défectueuse chez les synesthètes (Baron-Cohen et al., 1993). Une autre théorie propose que la synesthésie résulte d’un dysfonctionnement des connexions présentes chez tous les individus. En temps normal, certains réseaux fonctionnels sont inhibés ; cette inhibition ferait défaut dans la synesthésie. Cette seconde hypothèse est soutenue par l’existence de synesthésies non développementales induites par des crises d’épilepsie, des commotions cérébrales, ou la prise de drogues hallucinogènes (Grossenbacher & Lovelace, 2001). Une dernière théorie propose que la synesthésie résulte d’une différence au niveau du fonctionnement global du cerveau ; l’existence d’un nombre infini de synesthésies, de même que la forte association entre émotion et expériences synesthètes, tendrait à soutenir cette hypothèse. Il est proposé que l’hippocampe soit une structure majeure responsable de la synesthésie (Cytowic, 1995). L’existence d’illusions intermodales ou d’associations intermodales témoigne de l’interaction entre nos différents systèmes sensoriels, qui ne fonctionnent donc pas de façon indépendante les uns des autres. Sur la base de l’existence de telles interactions, les recherches en neuroscience ont exploré les effets comportementaux et neuronaux de la bimodalité. 2. Etudes comportementales des interactions multimodales Dans la vie quotidienne, les situations où nos sens véhiculent des informations sensorielles contradictoires sont rarement rencontrées. Les interactions multimodales existent pourtant, elles se traduisent en général par une amélioration des performances des systèmes sensoriels. Les interactions multimodales dans des situations non illusoires sont mises en évidence par différentes approches expérimentales. Dans le domaine de la localisation spatiale, les chercheurs ont exploré l’effet de le présentation d’un stimulus accessoire (c’est à dire non pertinent) sur la localisation d’une cible dans une autre modalité : c’est la facilitation intersensorielle. D’autres recherches ont étudié la perception d’un objet défini par plusieurs 245 composantes sensorielles ; ces études montrent que lorsque toutes les composantes sensorielles définissant l’objet sont présentes, son traitement est amélioré : c’est l’effet de redondance. Ces deux approches diffèrent puisque dans un cas l’objet à localiser n’est défini que par une seule composante sensorielle, alors que dans l’autre l’objet est caractérisé par ses deux composantes sensorielles, qui sont donc redondantes. Ces deux approches dévoilent une facilitation de la bimodalité sur la détection ou l’identification de cibles. 2.1. Facilitation intersensorielle La facilitation intersensorielle décrit l’amélioration des performances dans des tâches de localisation spatiale par la présentation d’un stimulus non pertinent dans une autre modalité sensorielle. Les données montrent en général une diminution des temps de réactions pour la détection, la localisation ou le jugement de l’altitude (haut vs bas) d’une cible visuelle excentrée lorsqu’un stimulus auditif non pertinent (indice) est présenté du même côté que la cible (Frassinetti et al., 2002; McDonald et al., 2000; McDonald & Ward, 2000; Schmitt et al., 2000; Spence & Driver, 1997; Spence et al., 1998). La localisation d’une cible auditive est, elle aussi, facilitée par la présentation d’un indice visuel (Schmitt et al., 2000). Cependant, un indice visuel ne facilite pas la détection ou le jugement de l’altitude d’une cible auditive dans des tâches où l’indice est orthogonal à la cible24 (« orthogonal cueing ») (Schmitt et al., 2000; Spence & Driver, 1997). Si le stimulus visuel est accompagné d’un stimulus auditif de telle sorte que cela produise un effet de ventriloquie, le traitement de la cible auditive est facilité par le stimulus visuel, même lorsque l’indice est orthogonal à la cible (Spence & Driver, 2000; Vroomen, Bertelson et al., 2001). Ces données suggèrent que la facilitation est liée à une capture automatique de l’attention par le stimulus accessoire. Cette capture automatique de l’attention spatiale n’a lieu que dans un sens : de l’audition vers la vision. La vision n’influence pas l’audition sauf si elle renseigne sur la localisation illusoire d’un son, et capture ainsi automatiquement l’attention auditive spatiale vers cet emplacement illusoire (Spence & Driver, 2000; Vroomen, Bertelson et al., 2001). Les effets de facilitation observés entre un indice auditif et une cible visuelle dépendent des concordances spatiotemporelles entre les deux stimuli (Frassinetti et al., 2002; Frens et al., 1995). Plus ces deux stimuli sont éloignés dans l’espace et dans le temps, moins l’indice auditif facilitera le 24 Un indice est un stimulus accessoire qui facilite le traitement de la cible. L’ « orthogonal cueing » fait référence au fait que l’indice a une direction opposée à la cible. Dans l’étude de Spence et al. (1997), les sujets doivent juger si la cible auditive apparaît en haut ou en bas, quel que soit le côté où elle est présentée, l’indice, lui, est présenté à gauche ou à droite. Ainsi, les informations apportées par l’indice sont orthogonales à celles nécessaires à la réalisation de la tâche. 246 traitement de la cible visuelle. Certaines études montrent par ailleurs, que la facilitation est maximale lorsque le stimulus auditif précède le stimulus visuel (Frens et al., 1995), bien que d’autres montrent le phénomène inverse (Giray & Ulrich, 1993). 2.2. Effet de redondance L’effet de redondance explique la diminution des temps de réaction des sujets pour des stimuli bimodaux portant des informations congruentes. La redondance s’appliquera donc plus à la reconnaissance d’objets bimodaux. Les études montrent qu’un objet bimodal est plus rapidement traité que le même objet défini par une seule composante sensorielle. La facilitation du traitement des stimuli bimodaux liée à redondance des informations sensorielles est démontrée, notamment, dans des tâches de détection (Forster et al., 2002 ; Fort et al., 2002a; Giray & Ulrich, 1993; Hughes et al., 1994; Molholm et al., 2002). La détection d’un stimulus bimodal est plus rapide d’environ 50 ms que la détection de stimuli unimodaux (Molholm et al., 2002). L’amélioration des temps de traitement, c’est à dire la diminution des temps de réaction (TR), engendrée par la bimodalité dans la détection d’un stimulus est rapportée avec des stimuli non écologiques tels que la détection d’un flash associé à un son (Fort et al., 2002a; Molholm et al., 2002) mais également avec des stimuli écologiques tels que des images/bruits d’animaux (Molholm et al., 2004). Les sujets doivent détecter la présence d’un animal défini à l’avance (ex : une vache) dans une séquence de stimuli constituée de stimuli unimodaux (visuel ou auditif), de stimuli bimodaux congruents ou incongruents ; les différents stimuli ont un statut cible ou non cible (Molholm et al., 2004). Les stimuli bimodaux congruents sont cibles s’ils sont constitués d’un meuglement associé à l’image d’une vache, les stimuli bimodaux incongruents sont cibles si l’une des composantes sensorielles (l’image ou le son) est cible ; dans tous les cas, cette tâche peut être effectuée en répondant seulement à une composante sensorielle : meuglement ou (non exclusif) image de vache. La détection de la vache est plus rapide pour les stimuli bimodaux congruents que pour les stimuli unimodaux ou les stimuli bimodaux incongruents. Ces deux derniers types de stimuli induisent, par ailleurs des TR similaires démontrant qu’une information conflictuelle dans une modalité n’affecte pas les réponses des sujets (Molholm et al., 2004). Dans cette tâche particulière, il n’y a donc pas d’interférence entre les deux modalités sensorielles. Ces résultats révèlent qu’il n’y a pas d’asymétrie entre les modalités auditive et visuelle lors de la perception d’un animal. Les résultats de Molholm et al. (2004) montrent également que les informations apportées par le système visuel sont plus rapidement et plus précisément traitées que les informations auditives. Au contraire, Fort et al. (2002) en 247 utilisant des objets caractérisés par une composante visuelle (un cercle se déformant dans le sens horizontal ou vertical) et une composante auditive (son pur de 540 ou 560 Hz) montrent une primauté de la modalité auditive pour la détection de l’objet (Fort et al., 2002a). Ces deux études pourraient suggérer que le poids des modalités visuelle et auditive n’est pas le même en fonction des stimuli utilisés et de la tâche effectuée par les sujets qui ne requiert pas le même niveau de traitement dans les deux études : l’une demande la détection d’un stimulus particulier (Molholm et al., 2004), l’autre la simple détection d’une stimulation (Fort et al., 2002a). Par ailleurs, dans ces deux études une différence est également observée au niveau des stimuli. Dans l’étude de Molholm et al. (2004), les stimuli visuels sont statiques, et les stimuli auditifs dynamiques ; or, dans l’étude de Fort et al. (2002) ce sont les stimuli visuels qui sont dynamiques, le stimulus auditif est statique (son pur), l’information qu’il porte est toujours la même. La facilitation liée à la bimodalité est également observée dans des tâches de localisation spatiale (Hughes et al., 1994; Schroger & Widmann, 1998). L’emplacement d’une cible audiovisuelle est plus rapidement perçu que celui des seules parties visuelle ou auditive (Schroger & Widmann, 1998). Dans une tâche de localisation spatiale, la facilitation est observée quel que soit le mode de réponse des sujets : réponse manuelle ou saccadique (Hughes et al., 1994). Par ailleurs, ces études montrent également que dans ce type de tâche une coïncidence spatiale entre les deux composantes unimodales est nécessaire ; plus la distance entre les composantes unimodales augmente, plus la facilitation diminue (Frens et al., 1995; Hughes et al., 1994). L’identification d’un objet bimodal est aussi plus rapide et plus précise que celle du même objet défini par une seule composante sensorielle (Giard & Peronnet, 1999; TederSalejarvi et al., 2002 ). Cette facilitation est démontrée avec des stimuli non écologiques comme des ellipses associées à des bruits ; la reconnaissance d’un objet est plus rapide et plus efficace lorsqu’il est caractérisé par ses deux composantes sensorielles (Giard & Peronnet, 1999). Ils rapportent également une différence entre les sujets : certains sujets répondent plus vite à la composante auditive qu’à la composante visuelle et, vice versa. Ces données montrent qu’il existe également une dominance sensorielle au niveau individuel (Fort et al., 2002b; Giard & Peronnet, 1999). L’effet de redondance a été peu étudié dans la perception de stimuli bimodaux à caractères sociaux, c’est à dire l’intégration des informations provenant d’un visage et d’une voix. Quelques études se sont intéressées, soit à la perception du langage, soit à la perception 248 des émotions. La redondance des informations visuelle et auditive est notamment responsable de l’amélioration de la compréhension du discours dans des conditions bruitées ou simulant du bruit (Calvert et al., 1998; MacLeod & Summerfield, 1987). Dans des conditions normales d’audition, la compréhension du discours est plus rapide sur les stimuli bimodaux que sur les stimuli unimodaux (Besle et al., 2004). Afin d’étudier la perception des émotions via les visages et les voix, de Gelder & Vroomen (2000) ont utilisé un continuum de visages allant d’une émotion (joie) à une autre (tristesse). Ces visages étaient présentés seuls ou associés à une voix congruente ou non ; les sujets devaient répondre si la personne était triste ou joyeuse. Dans un premier temps, toute mention à une quelconque modalité sensorielle était évitée. Les résultats montrent que les sujets répondent plus rapidement lorsque la voix et le visage portent des informations émotionnelles congruentes et plus lentement lorsque les émotions sont incongruentes (de Gelder et al., 1999; De Gelder & Vroomen, 2000; Dolan et al., 2001). Dans la suite de leur étude, les auteurs ont exploré la perception bimodale des émotions en dirigeant l’attention des sujets vers l’une ou l’autre modalité. Ils montrent que la présentation d’une voix, alors même qu’elle doit être ignorée, biaise la reconnaissance de l’expression faciale particulièrement dans la zone ambiguë du continuum : lorsque l’émotion portée par le visage est ambiguë, c’est la voix qui induit la réponse des sujets (De Gelder & Vroomen, 2000). Puis, en utilisant un continuum de voix allant de la joie à la peur présentées en même temps qu’un visage congruent ou non, ils montrent que le visage perturbe la reconnaissance de l’émotion vocale, mais seulement au niveau des pourcentages de réponses correctes (De Gelder & Vroomen, 2000; Vroomen, Driver et al., 2001). Dans une autre étude, ils montrent que la reconnaissance de l’émotion vocale est perturbée par la présentation concomitante d’un visage, indépendamment des ressources attentionnelles disponibles (Vroomen, Driver et al., 2001). De ces différentes études, De Gelder & Vroomen (2000) déduisent que la combinaison des informations en provenance de deux modalités sensorielles est un processus automatique : même lorsqu’ils ont pour consigne d’ignorer une modalité, les sujets sont influencés par l’émotion présentée dans cette modalité (De Gelder & Vroomen, 2000). Leurs résultats montrent également une asymétrie dans l’influence d’une modalité sur l’autre : la reconnaissance des expressions faciales est plus influencée par la voix que l’inverse, surtout au niveau des TR. Les auteurs proposent que cette asymétrie résulte d’une différence méthodologique ; cependant, l’hypothèse que cela reflète une dominance sensorielle de l’audition dans le domaine de la perception des émotions ne peut pas non plus être écartée. 249 2.3. Règles de synchronies Les interactions multimodales sont régies par certaines règles ; notamment pour qu’il y ait interaction entre modalités, il est nécessaire d’avoir une synchronisation spatiotemporelle entre les stimuli. A y regarder de plus près, les règles de synchronies ne s’appliquent pas à tous les types d’interactions multimodales, révélant ainsi des différences entre la localisation et l’identification d’une cible bimodale. La facilitation dépend d’une cohérence spatiotemporelle pour la localisation d’une cible bimodale : plus les écarts spatiaux et temporels augmentent, plus la facilitation comportementale diminue. Cette nécessité de cohérence est rapportée dans les études étudiant le ventriloquisme ou celles étudiant la facilitation intersensorielle ou l’effet de redondance (Frassinetti et al., 2002; Frens et al., 1995; Hughes et al., 1994; Radeau & Bertelson, 1987; Slutsky & Recanzone, 2001). Au contraire, la détection ou l’identification d’une cible bimodale ne nécessite pas forcément une congruence spatiale ou temporelle. L’effet McGurk persiste lorsque la source visuelle et la source auditive sont séparées de 90°, et lorsque les stimuli visuel et auditif sont décalés de 180 ms (Jones & Jarick, 2006; Jones & Munhall, 1997; Munhall et al., 1996). Cependant, la dynamique temporelle des informations visuelle et auditive doit être similaire ; par exemple, l’effet McGurk est aboli si la dynamique temporelle de l’information visuelle est différente de celle de l’information auditive (Munhall et al., 1996). Ces contradictions dans les règles spatiotemporelles gouvernant les interactions multimodales impliquées dans la localisation et l’identification d’une cible suggèrent que ces deux types de traitements puissent être effectués par des substrats neuronaux différents (Calvert et al., 1998; Calvert et al., 2001). 2.4. Modèles expliquant les interactions multimodales Les études décrites précédemment dévoilent que les intégrations multisensorielles sont modulées par les paradigmes utilisés. L’utilisation de stimuli portant des informations redondantes peut montrer un effet de la bimodalité par rapport à l’unimodalité mais, seule l’utilisation de stimuli incongruents peut permettre de révéler une dominance sensorielle (Andersen et al., 2004). Les théories tentant d’expliquer les interactions multimodales n’ont pris en compte que l’un ou l’autre de ces aspects des interactions multisensorielles. 250 2.4.1. Modèles expliquant la facilitation25 Plusieurs modèles ont tenté d’expliquer la facilitation provoquée par la présentation d’un stimulus accessoire ou par la présentation d’objets bimodaux. Une hypothèse suggère que la facilitation intersensorielle résulte d’une attraction automatique de l’attention en un point précis de l’espace par le stimulus accessoire. Ce déplacement attentionnel permettrait une préparation et donc une amélioration des traitements du stimulus cible, même dans une autre modalité sensorielle (Driver & Spence, 1998). Une autre hypothèse propose que les informations du stimulus accessoire et du stimulus pertinent soient traitées de manière indépendante, et que la facilitation est la conséquence d’une sommation des énergies dans les deux canaux sensoriels ; la sommation des énergies des deux stimuli augmenterait la saillance du stimulus pertinent (Nickerson, 1973). L’effet de redondance a été expliqué essentiellement par deux modèles. Le modèle de « la course indépendante » (« independant race model ») propose que la diminution des temps de réaction observée pour les stimuli bimodaux reflète le fait que chaque composante sensorielle est traitée indépendamment de l’autre ; l’information sensorielle traitée la première va induire la réponse. D’une certaine façon, ce modèle nie l’existence d’interactions entre les sens. Les temps de réaction pour les cibles bimodales correspondant à une distribution des TR minimum dans chaque modalité, ils seraient en moyenne plus courts que ceux observés dans chaque modalité séparément. Ce modèle suggère que les informations redondantes sont traitées de manière indépendante et donc que les relations entre les informations unimodales ne sont pas prises en compte. Miller (1991) a démontré que ce modèle ne permettait pas d’expliquer la facilitation liée à l’effet de redondance. Dans son étude, un stimulus visuel peut apparaître au milieu, en haut ou en bas d’un écran ; le stimulus auditif a une hauteur (une fréquence) plus ou moins élevée. Les sujets doivent répondre lorsqu’un stimulus est en bas ou en haut, en terme d’altitude pour le stimulus visuel et de fréquence pour le stimulus auditif. Miller (1991) montre que les sujets répondent plus vite lorsque les stimuli sont bimodaux et que les informations unimodales sont congruentes (un son de haute fréquence associé à un stimulus visuel en haut de l’écran) que lorsqu’elles sont incongruentes. Il dévoile ainsi la non validité du modèle de course indépendante ; en effet, si les informations sensorielles étaient traitées indépendamment, le fait qu’elles soient congruentes ou non ne devrait pas influencer 25 Ici, le terme facilitation fait référence à l’amélioration des performances, c’est à dire la diminution des erreurs et des temps de réaction, par la bimodalité. Il est donc utilisé dans un contexte plus général que dans la facilitation intersensorielle mentionnée plus haut (cf 2.1) 251 la réponse des sujets (Miller, 1991). Ces résultats montrent donc que les TR sont influencés par les propriétés de la cible bimodale et non par les propriétés des composantes unimodales la définissant. Il a donc proposé un second modèle : le modèle de co-activation interactive. Selon ce modèle, les informations unimodales sont initialement traitées de façon indépendante mais elles convergent dans les mêmes régions cérébrales et sont intégrées lors d’étapes ultérieures ; ce modèle permet d’expliquer les résultats de Miller (1991). Par la suite, d’autres paradigmes ont infirmé le modèle de course indépendante. En étudiant la distribution des TR des sujets aux stimuli bimodaux et unimodaux, ces différents auteurs ont montré que les TR pour la cible bimodale étaient significativement inférieurs aux TR minimums théoriques prédits par le modèle de course indépendante (Besle et al., 2004; Molholm et al., 2004; Molholm et al., 2002; Schroger & Widmann, 1998). Ainsi, ces études penchent donc en faveur du modèle de co-activation interactive. 2.4.2. Hypothèses sur la dominance sensorielle Toutes les études sur les illusions intermodales suggèrent que le poids des modalités sensorielles n’est pas équivalent selon la tâche à réaliser. La modalité auditive prend le pas sur la modalité visuelle dans le traitement des aspects temporels d’un stimulus tels que sa durée (Walker & Scott, 1981), sa fréquence (Wada et al., 2003), ou son occurrence temporelle (Bertelson & Aschersleben, 2003; Fendrich & Corballis, 2001; Shimojo & Shams, 2001). La modalité visuelle paraît être la modalité dominante dans le traitement des aspects spatiaux d’une stimulation (Bertelson et al., 2000; Shimojo & Shams, 2001). Les dominances des modalités auditives et visuelles ne sont bien sûr pas restreintes aux aspects temporels ou spatiaux des stimuli ; par exemple, une information auditive peut influencer la perception de l’intensité d’un stimulus visuel. Plusieurs hypothèses tentent d’expliquer la dominance d’une modalité sensorielle sur une autre. Bien que certains auteurs tentent de les opposer, ces hypothèses ne sont en aucun cas exclusives. Andersen et al. (2004) ont d’ailleurs démontré qu’elles contribuent toutes en partie à la dominance sensorielle observée dans certaines conditions expérimentales. L’hypothèse de la discontinuité suggère que la modalité dominante sera celle dans laquelle la stimulation est discontinue (Shams et al., 2002; Shimojo & Shams, 2001). Cette hypothèse permet en partie d’expliquer pourquoi, dans l’expérience de Shams et al. (2002), les stimuli auditifs provoquent une fission des flashs visuels mais pas de fusion. En effet, pour tester la fusion des stimuli, la discontinuité est présentée dans la modalité visuelle ; la 252 modalité auditive n’a donc pas d’effet. Cependant, puisque Andersen et al. (2004) observent une fusion des stimuli visuels lorsque le nombre de bips diminue, ils suggèrent que la discontinuité n’est pas nécessaire à l’apparition d’une dominance sensorielle. L’effet de fusion étant plus faible que l’effet de fission, ils proposent que la discontinuité de la stimulation favorise la tendance d’une modalité à dominer l’autre. L’hypothèse de la modalité adéquate propose que la modalité dominante soit la modalité la plus adaptée à la réalisation de la tâche (Andersen et al., 2004; Welch & Warren, 1980). La modalité donnant les informations les plus précises dans un domaine particulier a plus d’influence que les autres. Cette hypothèse pourrait expliquer la dominance de la modalité visuelle dans le cas de la localisation spatiale d’un stimulus, ou celle de la modalité auditive lors du jugement des aspects temporaux d’une stimulation. Cette hypothèse est toutefois remise en question par les résultats d’études montrant que certaines illusions peuvent être inversées. La modalité visuelle peut parfois influencer le traitement des informations auditives, particulièrement lorsque ces dernières sont ambiguës (Andersen et al., 2004; Wada et al., 2003). Ces observations ont conduit certains auteurs à proposer une autre hypothèse : l’hypothèse de la fiabilité de l’information. Selon cette hypothèse, la modalité sensorielle qui domine les interactions multisensorielles est celle donnant une information à laquelle les sujets peuvent se fier. Cette hypothèse tient compte à la fois de la modalité préférée pour la réalisation d’une tâche mais également des caractéristiques des stimuli et de facteurs cognitifs. Cette hypothèse permettrait d’expliquer pourquoi les informations visuelles entraînent une illusion auditive dans certaines conditions ambiguës (Andersen et al., 2004; Wada et al., 2003). Ces deux dernières hypothèses ne sont pas indépendantes ; la modalité adéquate influence la perception dans l’autre modalité, sauf si les informations qu’elle porte sont ambiguës, auquel cas l’autre modalité devient la modalité dominante. Une dernière hypothèse suppose que la dominance sensorielle est provoquée par des influences attentionnelles : hypothèse de l’attention dirigée. Selon cette hypothèse, une modalité domine l’autre parce que l’attention des sujets est dirigée vers cette modalité en particulier (Andersen et al., 2004). Dans certains cas, cependant, un stimulus saillant pourrait capturer automatiquement l’attention des sujets vers une modalité particulière et masquer les effets liés à l’attention dirigée (Andersen et al., 2004). 253 3. Corrélats neuronaux des interactions multimodales Au niveau comportemental, la multimodalité a été étudiée par différentes méthodes (illusion, redondance etc.) ; similairement, différentes approches ont permis de mettre en évidence les mécanismes cérébraux sous-tendant les interactions multimodales. Dans certaines études, la priorité a été mise sur la localisation de zones cérébrales hétéromodales : régions cérébrales répondant à des stimulations en provenance de plusieurs sens. Ces études ne permettent pas de mettre en évidence les processus cérébraux impliqués dans l’intégration des informations proprement dite. D’autres analyses permettent de dévoiler les activités soustendant les interactions entre différentes modalités ; elles utilisent deux types de paradigmes. Une méthode classiquement utilisée consiste à comparer l’activité évoquée par des stimuli bimodaux à celle évoquée par les stimuli unimodaux (Calvert, 2001; Calvert et al., 2000; Giard & Peronnet, 1999). L’interaction entre deux modalités est démontrée lorsque l’activité observée dans la condition bimodale est significativement supérieure à la somme des activités unimodales : (AV) >> (A + V)26. Un autre moyen permettant de révéler les activités reflétant une interaction entre deux modalités est de comparer l’activité cérébrale évoquée par des stimuli congruents et incongruents. Calvert et ses collaborateurs (1999, 2000, 2001) supposent, par ailleurs, que l’utilisation d’un critère très sélectif pourrait permettre d’isoler spécifiquement les aires cérébrales intégrant les informations multimodales. Ainsi, ils ne considèrent comme multimodales que les aires présentant une augmentation et une diminution significative de leur activité, respectivement, pour les stimuli bimodaux congruents et incongruents. De nombreuses régions cérébrales ont été identifiées comme étant hétéromodales chez différentes espèces animales. Les aires hétéromodales sont des zones de convergences sensorielles, recevant des afférences des aires cérébrales unimodales ; elles ne sont pas forcément impliquées dans l’intégration des informations à proprement parler (Calvert, 2001; Calvert & Thesen, 2004). Parmi ces régions, certaines sont localisées dans le cortex, d’autres sont sous-corticales. Les régions hétéromodales supposées sont les régions antérieure et postérieure du STS, les aires intrapariétales, notamment le sulcus intrapariétal et les cortex insulaire, préfrontal et prémoteur (Figure 37a) (Calvert, 2001; Calvert & Thesen, 2004; Downar et al., 2000; Lewis & Van Essen, 2000). Au niveau sous-cortical, le colliculus 26 Ce paradigme fait l’hypothèse d’une sommation linéaire des activités cérébrales. Il ne serait pas valable dans le cas où la sommation ne serait pas linéaire mais saturerait par exemple. 254 supérieur est régulièrement décrit comme étant une aire hétéromodale, de même que la zone du claustrum, proche de l’insula (Figure 37a) (Calvert et al., 2001; Meredith et al., 1992). Figure 37. Localisation des aires hétéromodales. (a) Localisation des aires dites hétéromodales sur une vue latérale (à gauche) et sagittale (à droite) du cerveau. Différentes régions hétéromodales sont décrites en couleur à travers les différentes vues. En jaune sont représentées les frontières des zones multisensorielles localisées dans les sulci. Issu de Calvert & Thesen (2004). (b) Aires cérébrales impliquées dans la localisation de cibles bimodales. Les flèches et les têtes de flèches indiquent respectivement les aires situées dans la profondeur et sur les côtés du sulcus intrapariétal. Issu de Sestiéri et al. (2006). (c) Aires cérébrales impliquées dans la reconnaissance d'objets bimodaux. Les flèches et les têtes de flèches indiquent respectivement les aires situées dans le STS gauche et dans le gyrus occipital inférieur. Issu de Sestiéri et al. (2006). 255 Rappelons que la localisation et l’identification de cibles bimodales ne sont pas soumises aux mêmes règles de synchronies. Cette différence suppose une distinction entre les corrélats neuronaux de la localisation et de l’identification de stimuli bimodaux, distinction qui serait parallèle à celle déjà décrite dans les systèmes auditif et visuel. Une dissociation anatomique a, par ailleurs, été décrite dans le traitement des informations multimodales spatiales, et celui des informations liées à l’identification (Figure 37b,c) (Sestieri et al., 2006). Le traitement des informations spatiales met en jeu des aires corticales unimodales et hétéromodales situées dans la partie dorsale de l’encéphale, alors que les caractéristiques du stimulus, permettant sa catégorisation, sont analysées dans les aires ventrales. Une grande quantité de travaux ont porté sur les corrélats neuronaux des interactions multisensorielles dans le cadre de la localisation de cible ; au contraire, les études s’intéressant à l’identification d’objets bimodaux font défaut. 3.1. Localisation de cibles bimodales 3.1.1. Localisation cérébrale La localisation spatiale d’une cible bimodale active les régions dorsales : le précunéus, le lobule pariétal inférieur, et le sulcus intrapariétal (Sestieri et al., 2006). Ces 3 aires cérébrales sont des aires hétéromodales activées par des stimuli unimodaux (visuels ou auditifs) ou bimodaux (audiovisuels ou visuotactiles) (Bremmer et al., 2001; Bushara et al., 1999; Calvert, 2001; Calvert et al., 2001; Macaluso & Driver, 2001; Macaluso et al., 2000a; Macaluso et al., 2000b). Les stimuli tactiles, quant à eux, n’activent le sulcus intrapariétal qu’à condition d’être couplés avec une stimulation visuelle (Macaluso et al., 2000a). L’attention portée vers un endroit ou l’autre de l’espace a des effets multimodaux ou spécifiques d’une modalité (Macaluso et al., 2000a). Le sulcus intrapariétal (IPS) gauche est ainsi activé lorsque l’attention des sujets est dirigée à droite, et ce quelle que soit la modalité attendue. Le gyrus postcentral (aire somesthésique) et le gyrus occipital supérieur (aire visuelle) montrent une modulation de leur activité par l’attention dirigée dans les modalités visuelles et tactiles respectivement (Macaluso & Driver, 2001; Macaluso et al., 2000a; Macaluso et al., 2005). Dans une autre étude, Macaluso et al. (2000a) observent que le sulcus intrapariétal n’est activé par des stimuli tactiles que lorsque l’information visuelle est également disponible, confirmant ainsi le rôle de l’IPS dans l’intégration multimodale (Figure 38b). Ils montrent également que lorsqu’un stimulus tactile arrive simultanément à un 256 stimulus visuel, l’activité dans le gyrus lingual (aire visuelle associative) augmente ; cette augmentation n’est pas liée à une afférence directe du système somesthésique sur le gyrus lingual puisque ce dernier n’est pas activé lorsque la stimulation tactile est controlatérale à la stimulation visuelle (Figure 38a) (Macaluso et al., 2000b). L’augmentation de l’activité dans le gyrus lingual est corrélée à une augmentation d’activité dans le gyrus postcentral, ainsi que dans le lobule pariétal inférieur, au niveau du gyrus supramarginal. Ces résultats montrent donc que la facilitation intersensorielle peut résulter d’une augmentation d’activité dans les structures unisensorielles, augmentation induite par des connexions en retour depuis les aires hétéromodales (Macaluso & Driver, 2001; Macaluso et al., 2000b). Dans l’étude de Sestieri et al. (2006), une seule aire présente une activation différente pour les stimuli congruents et incongruents : le STS postérieur droit, région relativement proche du gyrus supramarginal et du lobule inférieur. Cette aire pourrait donc également être impliquée dans l’établissement du lien entre les informations spatiales en provenance du système visuel et du système auditif. Figure 38. Aires cérébrales modulées par les interactions multimodales pour la localisation d'une cible. (a) Illustration de l'augmentation d'activité dans le gyrus lingual suite à la présentation simultanée d'un stimulus tactile du côté ipsilatéral (graphique de gauche) et du côté controlatéral (graph de droite) à la stimulation visuelle. Issu de Macaluso et Driver (2000). (b) Activité du sulcus intrapariétal gauche lors de la localisation d'une cible tactile à droite. Sur l'histogramme : les 3 barres à gauche représentent l'activité de l'IPS, lorsque les yeux sont ouverts quand l'attention du sujet est dirigée à gauche (L), à droite (R) et en condition passive (C1). Les 3 barres à droite représentent l'activité de l'IPS, lorsque les yeux sont fermés quand l'attention du sujet est dirigée à gauche (L), à droite (R) et au repos (C2). Issu de Macaluso et al. (2000a). 257 3.1.2. Décours temporel Des modulations des potentiels évoqués sont rapportées lors de l’étude des interactions multimodales dans le domaine de la localisation spatiale ; ces modulations sont également le reflet des déplacements attentionnels. La présentation d’un stimulus tactile non pertinent pour la réalisation de la tâche, simultanément à un stimulus visuel, entraîne une augmentation de la N1 visuelle, autour de 140 ms (Macaluso & Driver, 2005). De la même façon, la N1 visuelle est plus ample lorsqu’un stimulus auditif et un stimulus visuel sont localisés dans le même hémichamp visuel ; des analyses de sources effectuées sur ces données suggèrent que l’augmentation de la N1 visuelle résulte de projections en retour des aires hétéromodales. Par ailleurs, une autre étude montre que l’attention spatiale module également l’activité précoce dans les régions unisensorielles (Eimer, 2001; Eimer & Driver, 2001). Cette modulation est observée dans la modalité attendue mais également dans la modalité qui doit être ignorée par les sujets. Ces données révèlent que lorsque l’attention des sujets est dirigée vers une localisation spécifique, cela affecte les processus cérébraux ayant lieu dans les cortex unisensoriels. Ces différentes études montrent que la localisation spatiale de cible bimodale conduit à une augmentation de l’activité dans les régions dites unimodales. Ainsi, il apparaît que les interactions entre différentes modalités sensorielles ne sont pas seulement l’affaire d’un traitement hiérarchique unidirectionnel, mais qu’elles résultent également d’une modulation de l’activité des aires unisensorielles par les aires hétéromodales localisées dans le cortex pariétal, plus précisément à la jonction pariéto-temporo-occipitale (pour une revue sur les interactions multisensorielles dans le domaine de la localisation spatiale, voir (Macaluso & Driver, 2005)). Chez le macaque, il a en outre été démontré des recouvrements dans les champs récepteurs des neurones de l’aire pariétale ventrale (VIP) répondant aux informations visuelles et auditives, confirmant ainsi le rôle de VIP dans la représentation supramodale de l’espace (Schlack et al., 2005) ; VIP a par ailleurs été rapporté comme étant l’équivalent de l’IPS chez l’homme (Bremmer et al., 2001). Ces données confirmeraient ainsi le rôle du sulcus intrapariétal dans la représentation multimodale de l’espace. 258 3.2. La perception des objets, du langage, des visages et des voix 3.2.1. Localisation cérébrale Sestiéri et al. (2006) ont étudié les corrélats neuronaux de la localisation spatiale et de l’identification de cible bimodale sur les mêmes stimuli, congruents ou incongruents. Dans cette étude, la tâche de reconnaissance implique des régions des voies ventrales auditive et visuelle : le gyrus occipital inférieur, la partie antérieure du STS et le STG (Sestieri et al., 2006). Ces différentes régions cérébrales, particulièrement le STS, sont des aires cérébrales hétéromodales, répondant à des stimulations visuelles et/ou auditives (Beauchamp et al., 2004; Callan et al., 2003; Calvert, 2001; Calvert et al., 2000; Calvert & Thesen, 2004; Macaluso et al., 2004; Wright et al., 2003). L’activité du STS antérieur augmente pour les stimuli linguistiques congruents (la voix et le visage prononcent les mêmes mots) et diminue pour les stimuli incongruents (les mots perçus par la lecture labiale et la voix sont différents) par rapport à l’activité engendrée par les stimulations unimodales (Figure 39a) (Calvert et al., 2000). Ces données révèlent que le STS est une aire cérébrale hétéromodale également impliquée dans l’intégration des informations visuelles et auditives (Callan et al., 2003; Calvert et al., 2000; Macaluso et al., 2004; Wright et al., 2003). En utilisant l’association entre un phonème et un graphème (sa représentation visuelle), Raij et al. (2001) montrent également une modulation de l’activité du STS par la bimodalité (Raij et al., 2000). Une autre étude montre que l’activation du STS ne dépend pas de la synchronisation temporelle entre les composantes visuelle et auditive de stimuli linguistiques ; le STS est plus activé par les stimuli bimodaux que par les stimuli unimodaux, mais son activité est similaire que la présentation des stimuli soit ou non simultanée (Olson et al., 2002). Ainsi, le STS paraît impliqué dans l’intégrations des informations visuelles et auditives de la parole, mais cette intégration ne nécessite pas de synchronisation temporelle. Cependant, les performances comportementales des sujets montrent qu’avec le délai utilisé dans l’étude d’Olson et al. (2002), délai d’une seconde, les entrées auditives et visuelles sont perçues comme indépendantes ; ainsi, la plus grande activité du STS pourrait simplement refléter son comportement hétéromodal : le STS est activé par des stimuli auditifs ou visuels, la présence des 2 informations entraîne une sommation conduisant à une activité supérieure. Sestieri et al. (2006) n’ont pourtant pas trouvé d’effet de la congruence dans cette zone hétéromodale. 259 Figure 39. Illustration des aires cérébrales répondant aux stimuli linguistiques. (a) Localisation du STS (à gauche) et ses réponses à des stimuli audiovisuels congruents et incongruents (graphique à droite). Activation représentée en pourcentage de la somme des activités unimodales. Les stimuli congruents entraînent une augmentation d'activité, les stimuli incongruents une diminution. Issu de Calvert et al. (2000). (b) Réponse de différentes aires cérébrales à des stimuli linguistiques bimodaux ou unimodaux. Le complexe V5 et les aires auditives primaires (BA 41/42) sont plus activés par les stimuli bimodaux, le claustrum/insula est activé par les stimuli unimodaux visuels et auditifs. Issu de Calvert et al. (1999). La congruence sémantique entre les informations bimodales dans une tâche de reconnaissance active l’insula, le cortex cingulaire antérieur et le gyrus frontal inférieur ; régions qui ont également été décrites comme hétéromodales (Amedi et al., 2005; Laurienti et al., 2003; Sestieri et al., 2006). Ces données suggèrent une différence dans le traitement de la parole et le traitement des stimuli non langagiers. La parole bimodale est intégrée au niveau du STS alors que les informations non langagières interagissent dans le cortex frontal et l’insula. L’activation de l’insula est également rapportée dans les études sur le langage ; elle est plus activée pour les stimuli bimodaux, mais seulement lorsque ceux-ci présentent une synchronisation temporelle (Olson et al., 2002). Cependant, Calvert et al. (1999), dans une tâche utilisant des stimuli langagiers, montrent une activation de l’insula par les stimuli unimodaux indépendamment de leur modalité sensorielle, mais pas de sommation supralinéaire liée à la bimodalité. Certaines études décrivent également une activation de l’insula/claustrum dans des tâches d’appariement crossmodal. Par exemple, il a été montré que la reconnaissance visuelle d’une forme perçue par le système tactile active l’insula 260 (Hadjikhani & Roland, 1998). Ainsi, l’insula pourrait être impliquée dans la détection de la synchronie temporelle entre les stimuli (Bushara et al., 2001) mais elle pourrait également être un relais entre les différentes modalités sensorielles (Ettlinger & Wilson, 1990). Dans le domaine de la perception du langage, il est trouvé une augmentation de l’activité dans les cortex sensoriels unimodaux par la stimulation bimodale ; cette augmentation n’est pas observée lorsque les stimuli ne présentent pas de congruence sémantique (par exemple, un damier et un stimulus linguistique) (Figure 39b) (Calvert et al., 1999; Calvert et al., 2000). Pour les auteurs, la facilitation perceptuelle, observée au niveau comportemental, résulterait d’une augmentation de l’activité dans les cortex unimodaux (Calvert et al., 1999). Une augmentation de l’activité des neurones dans le cortex auditif est également démontrée chez le macaque ; le taux de décharge des neurones du cortex auditif primaire et des aires de la ceinture augmente lorsqu’un visage et une vocalise sont délivrés simultanément (Ghazanfar et al., 2001). Calvert et al. (2000) et Ghazanfar & Logothetis (2001) proposent que l’augmentation d’activité dans les régions dites unimodales reflète une influence descendante du STS sur les aires unimodales via des connexions « en retour » (« feedback »). D’autres études montrent une diminution de l’activité du cortex auditif lorsque l’attention des sujets est dirigée vers le stimulus visuel. Ainsi, la modulation de l’activité des aires unimodales par les aires hétéromodales peut aussi résulter en une diminution de l’activité des aires unimodales (Downar et al., 2000; Kawashima et al., 1999). En dehors de la compréhension du discours, la perception des visages et des voix a également été étudiée dans le domaine émotionnel. Les structures cérébrales impliquées dans l’intégration bimodale d’informations émotionnelles dépendent de la valence de l’émotion, c’est à dire s’il s’agit d’une émotion positive ou négative. Les émotions positives (par exemple, la joie) semblent impliquer des structures de l’hémisphère gauche alors que les émotions négatives (par exemple, la peur) paraissent recruter des régions situées dans l’hémisphère droit ; cette latéralisation hémisphérique paraît liée au caractère bimodal des stimuli puisqu’elle n’est pas décrite lorsque les auteurs comparent l’activité cérébrale évoquée par les stimuli unimodaux positifs et négatifs (Pourtois et al., 2005). De plus, les stimuli bimodaux entraînent une plus grande activité dans le gyrus temporal médian gauche que les stimuli unimodaux. L’amygdale est plus activée lorsque les émotions exprimées par la voix et le visage sont congruentes, particulièrement dans le cas des émotions négatives (peur) (Dolan et al., 2001; Ethofer et al., 2006). L’amygdale ne paraît cependant pas être un centre émotionnel hétéromodal puisqu’elle n’est pas activée par les voix exprimant la peur. Elle est, 261 par contre, impliquée dans l’association et la rétention de stimuli intermodaux (Pourtois et al., 2005). Ces études montrent également que la présentation simultanée d’une voix et d’un visage émotionnel entraîne une augmentation de l’activité dans le gyrus fusiforme, dans des sites proches de la FFA, particulièrement pour les émotions négatives (de Gelder et al., 2005; Dolan et al., 2001; Ethofer et al., 2006; Pourtois et al., 2005). Une autre étude a montré une activation des régions dédiées à la perception des visages dans une tâche de reconnaissance de la voix ; la FFA n’est activée que lorsque l’attention des sujets est dirigée vers l’identité vocale, et non lorsque les sujets font attention au contenu sémantique des stimuli. Les auteurs suggèrent que la FFA reçoit des entrées sensorielles en provenance d’une région qui a déjà été activée par la tâche, à savoir le STS antérieur droit, la région sélective des voix ; ce résultat est confirmé par une analyse corrélative des activations de ces deux zones. Ces données suggèrent que la reconnaissance d’une personne ne résulte pas de l’activation d’un centre supramodal, mais bien d’une communication entre les zones répondant aux visages et celles répondant aux voix (von Kriegstein et al., 2006; von Kriegstein et al., 2005). 3.2.2. Décours temporel Les études sur la reconnaissance multimodale des objets en potentiels évoqués révèlent que les interactions multimodales sont très précoces, dès 40 ms, et qu’elles s’étendent sur un large intervalle de temps jusqu’à 200 ms post-stimulus (Figure 40). Cette première observation montre que l’intégration d’informations en provenance de différentes modalités sensorielles n’est pas le résultat d’un processus physiologique unique mais d’une cascade d’évènements (Giard & Peronnet, 1999). 262 Figure 40. Illustration du décours temporel des interactions multimodales. Les différentes colonnes de gauche représentent la topographie de l'activité cérébrale pour les stimuli auditifs (Au), visuels (Vi), la somme des deux (Au + Vi), et pour les stimuli bimodaux (AV). Dans les colonnes de droite, les topographies (potentiels et densité de courant (SCD)) de l'interaction quantifiée par la différence [AV-(A+V)] entre la réponse multimodale et la somme des réponses unimodales. Dernière colonne à droite: cartes des valeurs de t estimées à partir des potentiels; en gris sont signifiées les valeurs significatives. NB: l'interaction entre différentes modalités sensorielles débute très tôt et perdure pendant un large intervalle temporel. Issu de Giard & Perronnet (1999). a. Activité précoce De nombreuses études rapportent effectivement une activité plus ample pour les stimuli bimodaux que pour la somme des activités unimodales, signifiant une intégration bimodale visuo-auditive, aux environs de 40 ms (Fort et al., 2002a, b; Giard & Peronnet, 1999; Molholm et al., 2002; Teder-Salejarvi et al., 2002). Cette activité précoce est supposée reflèter les interactions existant dès les aires sensorielles primaires (Fort et al., 2002a; Giard & Peronnet, 1999; Molholm et al., 2002). Cette activité précoce est enregistrée sur les électrodes occipitales postérieures ; l’activité distinguant stimuli bimodaux et unimodaux sur les électrodes fronto-centrales est plus tardive, autour de 120 ms, à la latence de la N1 auditive et de la P1 visuelle. Ainsi, cette activité précoce semble représenter une modulation de l’activité du cortex visuel par les entrées auditives ; les informations auditives parviennent en effet plus rapidement (quelques 20 ms avant) au cortex auditif que les informations visuelles au cortex visuel (Fort et al., 2002a; Molholm et al., 2002). Deux hypothèses pourraient expliquer l’influence aussi rapide de l’information auditive sur les traitements 263 visuels : une connexion directe entre les aires auditives primaires et le cortex visuel, ou une connexion indirecte via un centre hétéromodal supérieur qui modulerait l’activité du cortex visuel. La première hypothèse est soutenue par les études chez les primates démontrant l’existence de connexions anatomiques entre les différents cortex primaires (Cappe & Barone, 2005; Falchier et al., 2002). La deuxième hypothèse est en accord avec celle proposée suite aux résultats obtenus en IRMf, à savoir un contrôle des régions unimodales par les zones hétéromodales. D’autres auteurs proposent que cette activité précoce reflète des activités anticipatoires (Teder-Salejarvi et al., 2002). Teder-Salejarvi et al. (2002) déclarent que filtrer les données en passe haut à 2 Hz et faire varier la période pendant laquelle est appliquée la correction de la ligne de base (de -100 à 0 ms ou de -100 à -50 ms) peut permettre d’empêcher les effets liés à l’anticipation ; dans leur étude les effets précoces disparaissent après ces différentes analyses. En appliquant ces critères, d’autres études montrent cependant que les effets précoces des interactions bimodales persistent révélant ainsi qu’ils ne sont pas le résultat d’une anticipation (Fort et al., 2002a; Molholm et al., 2002). Dans certains cas, cette modulation précoce de l’activité cérébrale n’est pas rapportée. C’est le cas, par exemple, dans une étude s’intéressant à l’identification de cibles bimodales dont les composantes unisensorielles ne sont pas redondantes (Fort et al., 2002b). Les études s’intéressant à la perception bimodale de stimuli écologiques (animaux ou émotions), par conséquent plus complexes, ne rapportent pas de modulations précoces de l’activité cérébrale, soit qu’elles n’aient pas été analysées, soit que les stimuli visuels et auditifs ne soient pas présentés de manière synchrone (Besle et al., 2004; Molholm et al., 2004; Pourtois et al., 2000). b. P1 visuelle et N1 auditive Giard & Peronnet (1999) montrent également que l’activité cérébrale évoquée par un stimulus bimodal varie à la latence de la P1 visuelle. Les auteurs suggèrent que cette augmentation de l’amplitude de la P1 visuelle traduit l’augmentation de la saillance du stimulus visuel grâce à la présentation simultanée d’un stimulus auditif (Giard & Peronnet, 1999). Dans ce même intervalle de temps, une modulation de la topographie de la N1 auditive est rapportée : l’amplitude de la N1 augmente dans les régions temporales ; cette augmentation n’est pas significative sur les électrodes frontales. Rappellons que la N1 auditive reflète l’activité de plusieurs sources cérébrales ; ainsi, ces données suggèrent que l’entrée visuelle pourrait modifier l’activité d’un des générateurs à l’origine de la N1 auditive. D’autres études montrent des modulations de la P1 visuelle et de la N1 auditive par la bimodalité (Besle et al., 2004; Joassin et al., 2004; Pourtois et al., 2000). La N1 auditive est 264 plus ample pour les stimuli congruents en terme d’émotion ou d’identité que pour les stimuli incongruents ou unimodaux ; cette augmentation résulte de l’amplification des traitements auditifs dans les aires auditives associatives sous l’influence d’entrées visuelles congruentes (Joassin et al., 2004; Pourtois et al., 2000). Dans une étude portant sur la perception bimodale de la parole, l’inverse est démontré : la N1 auditive est réduite pour les stimuli bimodaux congruents (Besle et al., 2004). Les auteurs proposent que cela reflète un amorçage phonétique par les informations visuelles qui sont présentées plus tôt (Besle et al., 2004). Dans les études en MEG, il n’est pas rapporté de modulation de la M100 auditive (Miki et al., 2004; Raij et al., 2000). Ceci révèle que les effets de la bimodalité sur la N1 auditive traduisent la modulation d’un des générateurs de la N1 auditive qui n’est pas enregistré en MEG. c. Activité plus tardive Des modulations plus tardives sont également rapportées sur les électrodes postérieures (Giard & Peronnet, 1999; Molholm et al., 2004; Molholm et al., 2002). La N170 (N1 visuelle) est décrite comme étant plus petite pour les stimuli bimodaux que pour les stimuli unimodaux, dans les études utilisant des stimuli simples (Giard & Peronnet, 1999; Molholm et al., 2002). Les auteurs proposent que la diminution de l’amplitude de la N170 reflète une facilitation ; le stimulus visuel est rendu plus saillant par l’entrée auditive et nécessite donc un traitement visuel moins approfondi. Cette hypothèse est soutenue par les études de Fort et al. (2002a, b) dans lesquelles la N170 n’est pas modulée lorsque la tâche consiste simplement à détecter un stimulus, ou lorsque les informations viuselles et auditives ne sont pas redondantes. Molholm et al. (2004) montrent, au contraire, une augmentation de l’amplitude de la N170 pour les stimuli bimodaux congruents, mais seulement lorsque ceux-ci ont un statut cible. La N170 paraît donc être modulée par la bimodalité des stimuli seulement lorsque ces derniers sont pertinents pour la tâche à accomplir. Des effets plus tardifs, autour de 190 ms, sont aussi décrits sur les électrodes fronto-temporales et pourraient refléter l’activation de l’insula ; les stimuli bimodaux évoquent une activité qui leur est spécifique (Fort et al., 2002a, b; Giard & Peronnet, 1999). Cette activité dans les régions temporofrontales est observée lorsque les sujets doivent détecter ou reconnaître des objets caractérisés par des informations redondantes ou non. Ces résultats suggèrent que l’activité évoquée à cette latence (190 ms) pourrait être le reflet de la détection d’un stimulus bimodal quelles que soient les informations qu’il contient (Fort et al., 2002a, b). 265 d. Effets liés à la dominance sensorielle des sujets Nous avons vu précédemment qu’il existait une dominance sensorielle au niveau individuel : certains sujets répondent plus rapidement aux stimuli auditifs et d’autres aux stimuli visuels (Fort et al., 2002b; Giard & Peronnet, 1999). Au niveau neuronal, la dominance sensorielle des sujets conduit à des modulations différentes de l’activité des cortex unisensoriels ( Figure 41) (Fort et al., 2002b; Giard & Peronnet, 1999). Chez les sujets « visuels », il est rapporté une augmentation de l’activité dans le cortex auditif durant les premières 150 ms pour les stimuli audiovisuels ; au contraire, chez les sujets auditifs, l’augmentation est observée dans le cortex visuel. Ainsi, la bimodalité semble entraîner une augmentation de l’activité dans le cortex sensoriel de la modalité non dominante (Giard & Peronnet, 1999). La dominance sensorielle des sujets module l’activité cérébrale même lorsque les composantes unisensorielles ne sont pas redondantes, mais cette modulation apparaît plus tardivement. Une modulation de l’activité cérébrale à la latence de la N1 auditive est observée chez les sujets visuels, et une modulation à la latence de la N170 est observée chez les sujets auditifs (Fort et al., 2002b). Ces données montrent que les traitements précoces effectués sur les stimuli bimodaux dépendent de la modalité dominante du sujet, et de la tâche à effectuer. Ainsi, lorsque la tâche ne requiert pas l’identification des deux composantes unisensorielles, des modulations très précoces sont observées dans la modalité non dominante ; lorsque l’identification de chaque composante est nécessaire, les effets n’apparaissent qu’autour de 140 ms. Les différences entre ces études pourraient signifier que la modulation des PE précoces est la conséquence de processus attentionnels. Figure 41. Illustration de l'activité cérébrale en fonction de la dominance sensorielle des sujets, dans les conditions auditives, visuelles et audiovisuelles. SCD indique l'analyse de la densité de courant. NB: chez les sujets auditifs les interactions sont observées sur les électrodes postérieures, alors que chez les sujets visuels, une augmentation de l'activité au niveau du cortex auditif est observée pour les stimuli bimodaux. Issu de Giard & Perronnet (1999). 266 Pour résumer, les interactions multimodales impliquent un grand nombre d’aires cérébrales à différentes latences. Les processus cérébraux impliqués dans la perception d’objets bimodaux sont sensibles à la tâche, aux stimuli etc. (Fort & Giard, 2004; TederSalejarvi et al., 2002). Cependant, des résultats sont constamment rapportés comme la modulation de l’activité dans les zones considérées à priori comme étant unimodales, telles que les cortex auditif et visuel primaires, le gyrus fusiforme etc. Cette modulation des zones unimodales est observée aussi bien en IRMf qu’en potentiels évoqués ; dans ce dernier cas, elle est visible dans la précocité des effets liés à la multimodalité. Une autre constance de ces études est l’activation plus grande des gyri temporaux, le MTG et le STG, ou du sulcus temporal supérieur. La situation des loci d’activation le long du STS dépend de la tâche, des stimuli utilisés dans les études. Par exemple, dans les tâches requérant un traitement linguistique, les activations supérieures sont observées dans le STS antérieur gauche, alors que dans les tâches étudiant la perception bimodale d’objet cette activation est supérieure dans la région postérieure du STS (Beauchamp et al., 2004). Le claustrum et l’insula pourraient être des zones relais des différentes modalités sensorielles ; cependant, leur rôle dans les interactions multimodales paraît plus complexe que celui de simple relais intersensoriel (Calvert et al., 1999). D’autres études sont nécessaires afin de distinguer les effets purement liés aux interactions bimodales de ceux liés à l’attention des sujets, attention qui semble ne pas avoir été contrôlée dans la majorité des études. 3.3. Conclusions En conclusion, l’intégration des informations en provenance de nos différents sens met en jeu un réseau d’aires cérébrales largement distribuées, s’étendant à quasiment tout le cortex. Les modulations de l’activité de ce réseau sont très précoces puisqu’elles sont rapportées dans les 200 milisecondes suivant la présentation des stimuli. Ces différentes données présentent un schéma commun qui va à l’encontre des hypothèses fournies dans les années 60, 70. Les premiers modèles ayant tenté d’expliquer les interactions multimodales suggéraient un traitement hiérarchique des informations sensorielles : des aires sensorielles primaires vers les aires sensorielles secondaires, puis vers les aires hétéromodales (Bushara et al., 2003; Calvert & Thesen, 2004). Un deuxième modèle suggére une interaction entre les cortex unisensoriels via une structure hétéromodale telle que le claustrum ou l’insula (Ettlinger & Wilson, 1990). 267 Ces deux modèles sont remis en cause au vue des données accumulées en anatomie, en imagerie et en électrophysiologie. En anatomie, il a été mis en évidence des connexions neuronales directes entre les aires sensorielles primaires et secondaires de différentes modalités (Cappe & Barone, 2005; Falchier et al., 2002). Les études lésionnelles montrent également que le traitement des informations multimodales met en jeu un réseau d’aires cérébrales largement distribuées : les lésions des aires dites hétéromodales n’annihilent pas les appariements et les transferts crossmodaux. Par ailleurs, des études plus récentes en potentiels évoqués rapportent que l’activité cérébrale est précocement modulée par les informations multimodales, dès 40 ms (Fort et al., 2002a, b; Giard & Peronnet, 1999). Figure 42. Un modèle des interactions multimodales. Différentes aires cérébrales semblent spécialisées dans différents traitements de l'information, les informations spatiales sont traitées dans l'IPS, le STS paraît impliqué dans la perception des objets etc. Les régions en bleu/jaune (IPS, STS) sont des régions hétéromodales également impliquées dans l'établissement d'un lien entre les informations sensorielles. La région représentée avec une moitié jaune et une moitié bleue indique que les informations sensorielles peuvent être partagées mais pas forcément intégrées (nouvelle association). La région en blanc indique un relais supposé entre les cortex sensoriels sans que son rôle soit bien compris. J'ai ajouté une flèche entre les cortex primaires puisque les études anatomiques suggèrent l'existence de connexions directes entre ces derniers. SC: colliculus supérieur, FC cortex frontal. Adapté de Calvert (2001). Ces données montrent donc que les aires hétéromodales fonctionnent en parallèle aux réseaux unimodaux et ne constituent pas le dernier échelon du traitement sensoriel (Figure 42) (Bushara et al., 2003; Calvert & Thesen, 2004). Par ailleurs, la précocité des interactions 268 multimodales suggère qu’elles ne dépendent pas uniquement de connexions en retour des aires hétéromodales vers les aires unimodales. Il apparaît donc que les aires hétéromodales et unimodales interagissent afin de construire une perception cohérente de notre environnement. Certaines aires hétéromodales semblent par ailleurs avoir des rôles précis dans les processus intersensoriels. Le colliculus supérieur est impliqué dans la détection de la cohérence spatiale, l’insula paraît jouer un rôle dans la perception de la synchronie entre les informations multisensorielles. Les études sur les intégrations multisensorielles présentent une grande variabilité de résultats, témoignant probablement d’un fonctionnement plus complexe qu’on ne le pensait a priori. Les structures mises en jeu diffèrent en fonction des tâches, des stimuli et des analyses effectuées sur les données. Dans la dernière étude de ma thèse, je me suis intéressée aux interactions entre les traitements des visages et des voix. Les études unimodales mettent en évidence une spécificité des visages et, dans une moindre mesure, des voix comparés aux autres types de stimuli visuels ou auditifs. Du fait de cette spécifité intramodale, il est fort probable que l’intégration des informations véhiculées par les visages et les voix soit différente de l’intégration d’autres types de stimuli audiovisuels ; en particulier parce que le visage est un stimulus particulièrement saillant, capturant l’attention de manière automatique. Les résultats de mes expériences précédentes sur la catégorisation du genre suggéraient une influence du visage sur la voix et non l’inverse. Cette étude m’a permis, d’une part, de tester l’hypothèse d’une dominance du visage sur la voix dans le cadre du traitement du genre via l’utilisation de stimuli congruents et incongruents ; ces deux types de stimuli m’ont également permis de mettre en évidence l’influence des processus ascendants (« bottom-up ») sur le traitement des informations multisensorielles. D’autre part, en dirigeant l’attention des sujets vers la voix, le visage ou les deux, j’ai étudié l’influence des processus descendants (« topdown ») sur le traitement de ces informations. Cette étude permet donc de distinguer les processus purement liés aux interactions multimodales, c’est à dire à la liaison entre les informations provenant de différents sens, de ceux résultant d’une modulation attentionnelle. 269 270 271 272 4. Travail expérimental Objectifs & Méthodes Dans cette étude, j’ai exploré les interactions multimodales dans la perception du genre de l’individu. Les stimuli utilisés étaient des visages statiques et des voix présentés simultanément pendant 300 ms ; les stimuli étaient congruents ou incongruents en terme de genre. L’attention des sujets était dirigée vers la voix (VOICE) ou vers le visage (FACE) ; la tâche des sujets consistait en une catégorisation du genre. Dans un troisième partie, les sujets jugeaient la congruence des stimuli en terme de genre ; l’attention était donc dirigée vers les deux modalités (BOTH). Diriger l’attention des sujets vers les différentes modalités nous a permis de mettre en évidence les effets des interactions multimodales induits par l’attention. L’utilisation de stimuli congruents et incongruents permet de révéler l’activité cérébrale liée à la multimodalité per se. Résultats & Conclusions Les données comportementales révèlent une interaction automatique entre le traitement des visages et des voix : la présentation d’une information incongruente dans la modalité ignorée entraîne une augmentation des TR. L’interaction entre les deux modalités est asymétrique : la catégorisation du genre des visages n’est pas affectée par une voix incongruente, alors qu’un visage incongruent entraîne une forte diminution des performances de catégorisation du genre de la voix. Ainsi, dans cette tâche la modalité dominante paraît être la vision. D’un point de vue général, les potentiels évoqués par les stimuli bimodaux ressemblent à ceux évoqués par les visages, en accord avec l’hypothèse d’une dominance des visages sur les voix. Des différences liées à l’attention apparaissent très tôt, dès 40 ms et jusqu’à 140 ms. La topographie de l’activité cérébrale est représentative d’un traitement unimodal lorsque l’attention est dirigée vers une ou l’autre modalité. L’activité cérébrale dans la condition BOTH est similaire à celle évoquée par la condition VOICE dans les régions centrales, et supérieure à celle évoquée par la condition FACE dans les régions postérieures. La N170 n’est influencée ni par l’attention, ni par la congruence. Autour de 180 ms, une différence est mise en évidence entre les stimuli congruents et incongruents sur les électrodes fronto-temporales. Cette différence pourrait refléter une activité liée à la bimodalité, c’est à dire aux processus intégratifs la sous-tendant. 273 274 Page 1 of 39 Top-down and bottom-up attentional modulation in processing bimodal face/voice stimuli. Marianne Latinus1,* Rufin VanRullen1 and Margot J. Taylor2 1 CerCo, Université Toulouse 3 - CNRS, Faculté de Médecine de Rangueil, 31062 Toulouse Cedex 9, France 2 r Fo Diagnostic Imaging and Research Institute, Hospital for Sick Children, 555 University Avenue, Toronto, Ontario, Canada, M5G1X8 er Pe *Corresponding author: Marianne Latinus Re CerCo – Centre de recherche Cerveau et Cognition, Université Toulouse 3 – CNRS Faculté de Médecine de Rangueil 31062 Toulouse Cedex 9, France Tel: +33561173770 Fax: +33562172809 E mail: [email protected] Running title: Multimodal face and voice processing. ew vi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology Journal of Neurophysiology Multimodal face and voice processing -2- Abstract Integration of multimodal information is a critical capacity of the human brain, with classic studies showing facilitation or interference of perceptual processing. Bimodal stimuli pivotal to social interactions, faces and voices, have received little study and the impact of attention has not been investigated. We explored multimodal processing of simultaneously presented faces and r Fo voices using ERPs. Subjects performed two gender categorisation tasks directing attention either to faces or to voices; in a third task, they judged whether the bimodal face/voice stimuli were congruent in terms of gender. Behavioural data revealed asymmetrical interactions between face Pe and voice processing; the ignored modality affected the processing in the attended modality, but this disruption was more pronounced for voices. Spatio-temporal analyses revealed a modulation er of brain activity in early processes (35 to 120ms), over unisensory cortices, dependant on directed Re attention. Top-down influences and gender congruency did not modulate N170/VPP. However, between 180 and 205ms, congruent stimuli induced a larger right frontal activity than incongruent vi stimuli. These data determined that top-down influences drive early multimodal interactions by ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 2 of 39 favouring one or the other modality, whereas bottom-up interactions (i.e. congruency effects) are relatively late. Keywords: audiovisual stimuli, attention, ERPs, gender. Page 3 of 39 Introduction The ability to integrate information through several sensory modalities is a vital skill of the human brain, as information we receive from the external world is often multimodal. The integration of multisensory stimuli can represent a perceptual gain; for example, in a noisy environment, lip-reading helps in the comprehension of speech (MacLeod and Summerfield 1987). Studies on multimodal processing demonstrate facilitation for processing bimodal stimuli, r Fo seen as an increase in accuracy and a decrease in reaction times (RTs) compared to unimodal stimuli (Fort et al. 2002a; Giard and Peronnet 1999; Molholm et al. 2004; Schroger and Widmann 1998; Talsma and Woldorff 2005; Teder-Salejarvi et al. 2002), with multimodal integration being Pe greater with stimuli presented synchronously in the spatial and the temporal domains (Calvert et al. 2001; Stein and Meredith 1993). As unimodal studies have shown that object recognition and er spatial localisation involve anatomically and functionally distinct processes, studies that Re investigate multimodal integration have focused either on spatial information or object recognition processing (in the visual domain – (Haxby et al. 1991; Mishkin et al. 1983) and in the vi auditory domain – (Alain et al. 2001; Barrett and Hall 2006; Rauschecker and Tian 2000)); but ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology see (Belin and Zatorre 2000)). For example, in localisation tasks, studies reveal a behavioural advantage for bimodal stimuli compared to unimodal stimuli either with visuo-tactile (Hadjikhani and Roland 1998) or with visuo-auditory stimuli (Schroger and Widmann 1998). Contrary to the number of studies on multimodal spatial information, only a few have investigated multimodal object recognition. Using visual shapes and tones associated to form various bimodal objects, an enhancement of behavioural response for the detection of bimodal objects has been shown, as long as the bimodal information was redundant (Fort et al. 2002a; b; Giard and Peronnet 1999). The benefits of bimodal inputs for the detection of natural, ecologically valid objects (such as Journal of Neurophysiology Multimodal face and voice processing 2 animals) have also been demonstrated (Molholm et al. 2004); the same study revealed that visual detection of an animal was easier and faster than auditory detection. Investigations of higher-level multimodal inputs critical to human social interactions (faces and voices) have been less common. Most studies on face and voice integration have focussed on speech processing. The interaction between the processing of face and voice in the speech domain is classically demonstrated by the McGurk effect, in which incongruent face and voice information lead to an intermediate or novel percept (McGurk and MacDonald 1976); lip- r Fo reading information biases the processing of auditory speech information. Other studies revealed, as for simple bimodal object processing and spatial processing, an advantage of bimodal redundant speech compared to either visual (i.e. lip-reading) or auditory speech, shown by shorter Pe RTs to bimodal speech (Besle et al. 2004). The small literature on face/voice interactions in a er non-verbal context, e.g., to discriminate gender, age, identity or emotions, is largely focussed on emotional processing (Dolan et al. 2001; Pourtois et al. 2005; Pourtois et al. 2000), demonstrating Re interference in the processing of incongruent emotional voices and faces (De Gelder and Vroomen 2000). vi Neural correlates of crossmodal integration or binding have been investigated using fMRI, ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 4 of 39 PET and to a lesser extent EEG. Various studies interested in multimodal interactions have found that the localisation and timing of crossmodal binding were task-sensitive (Fort and Giard 2004). Spatial localisation of audiovisual stimuli activates more regions located in parietal lobes (Bushara et al. 1999) whereas bimodal object recognition preferentially involves brain areas in the temporal lobes (Sestieri et al. 2006), consistent with the dorsal/ventral or what/where pathways (Ungerleider and Haxby 1994). One means to assess bimodal integration is to compare the bimodal activity to the sum of the unimodal activities (AV – (A+V)). Using this paradigm in a speech perception study, it was reported that semantically congruent bimodal stimuli enhanced Page 5 of 39 Multimodal face and voice processing 3 activation either in sensory-specific cortices (Calvert et al. 1999; Eimer 2001; Giard and Peronnet 1999) or in brain regions described as heteromodal areas, such as the superior temporal sulcus/gyrus (STS/STG) (Calvert et al. 2000). The timing of this bimodal processing appears to be very rapid. Several studies demonstrated that multimodal stimuli affect brain processing within 40ms, in what are usually described as unisensory cortices (Fort et al. 2002b; Giard and Peronnet 1999; Molholm et al. 2002; Teder-Salejarvi et al. 2002). Even with more complex stimuli, an early interaction between visual and auditory processing was seen on the visual N1 (~150 ms), r Fo which was modulated by the congruency of bimodal stimuli (Molholm et al. 2004). Early interactions between the processing of congruent emotional faces and voices have been shown to enhance the auditory N1 for congruent stimuli (Pourtois et al. 2000); yet, in a bimodal speech Pe perception study, the opposite was demonstrated, namely a reduced N1 to congruent bimodal stimuli (Besle et al. 2004). er Although face/voice associations to extract non-speech information are rarely studied, Re there is a wealth of face and voice processing studies in unimodal paradigms. Most of the face studies focus on identity/emotional processing, whereas a major part of voice processing studies vi are focussed on speech. It has been shown that faces are recognized faster than objects (Tanaka ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology 2001) and that inversion disturbs face more than object processing (Yin 1969). Conjointly with neuroimaging studies, this suggests a specific system dedicated to face processing, which includes brain regions such as the fusiform and occipito-temporal gyri and the superior temporal region ((Allison et al. 1994; Kanwisher et al. 1998; Puce et al. 1995 1997) but see (Gauthier et al. 1999; Rossion and Gauthier 2002)). Neurophysiological studies provide evidence for a component, the N170, that is sensitive to a range of manipulations of faces, and is much smaller or absent to non-face stimuli (Bentin et al. 1996; George et al. 1996; Itier et al. 2006; Rossion et al. 2000). Moreover, the N170 reflects automatic face processing (Puce et al. 1999; Severac Journal of Neurophysiology Multimodal face and voice processing 4 Cauquil et al. 2000), is not sensitive to gender (Latinus and Taylor submitted; MouchetantRostaing et al. 2000), identity (Eimer 2000; Rossion et al. 1999a but see Caharel, 2002 #61), and seems sensitive to the configural processing preferentially engaged by faces (Latinus and Taylor 2006; Maurer et al. 2002). Two other visual components are considered in face processing studies: P1 and P2, two positive peaks occurring around 100 and 200 ms, respectively. Face sensitivity of P1 remains controversial as some configural changes affect P1 (Halit et al. 2000; Itier and Taylor 2004a; Linkenkaer-Hansen et al. 1998; Taylor 2002), although other paradigms r Fo fail to see P1 effects (Latinus and Taylor 2006; 2005; Rossion et al. 1999b) suggesting either an attentional modulation (Holmes et al. 2003; Rossion et al. 1999a) or a sensitivity to low-level features (Rossion et al. 1999b). P2 has been associated with deeper processing of ambiguous Pe stimuli and may reflect the recruitment of additional analytic processing to perform face er identification or detection (Caharel et al. 2002; Latinus and Taylor 2006; 2005). Some comparable studies have been completed with voices, ‘auditory faces’ (Bedard and Re Belin 2004; Belin et al. 2004). Inversion of voices in the frequency or time domain impacts voice recognition behaviourally (Bedard and Belin 2004; Schweinberger 2001), yet this inversion effect vi is not restricted to voices. To assess voice specificity, the neural correlates of voice processing ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 6 of 39 have been investigated with fMRI and PET; linguistic and extra-linguistic voice processing takes place in specific temporal brain regions (Belin et al. 2000; Binder et al. 2000; Scott et al. 2000; Zatorre et al. 1992). Vocal sounds induce a greater activation than non-vocal stimuli from primary auditory to associative auditory areas (Belin et al. 2002). It has been shown that speech processing implicates the left anterior STS, whereas non-linguistic processing occurs in the right hemisphere in areas located along the STS (Belin et al. 2004; Belin et al. 2002; Imaizumi et al. 1997; Scott et al. 2000; von Kriegstein et al. 2003). Temporal aspects of voice processing are less understood as there are fewer ERP studies comparing voices to other auditory stimuli. Two Page 7 of 39 Multimodal face and voice processing 5 reports, however, provide evidence for a positive deflection 320 ms after stimulus onset that is larger to voices than to various non-voice stimuli. This component was labelled the Voice Selective Response (VSR) and was distinct from other components in that time range (Levy et al. 2003; 2001). Other studies using EEG or MEG have suggested that voice processing may start earlier, in the latency range of the auditory P2, 160-240ms (Beauchemin et al. 2006; Latinus and Taylor submitted; Lattner et al. 2003). There is currently little consensus in the bimodal auditory/visual literature regarding early r Fo processing stages, as few ERP studies have examined the critical skill of integrating faces and voices, an essential ability for social interactions. Here we investigated face and voice integration on gender judgement in three different tasks. Subjects were asked to judge gender on bimodal Pe stimuli, with simultaneously presented faces and voices. The first task was to determine if the er gender information carried by the face and the voice was congruent or not; the two other tasks were to categorise the bimodal stimuli by gender, in one case while ignoring faces and Re responding only to voices or, conversely, attending only to the faces. It was traditionally believed that processes occurring in the first 200 ms arise from areas that are considered as unimodal or vi sensory specific (Giard and Peronnet 1999; Shams et al. 2001); however, as summarised above, ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology multiple studies revealed very early interactions between auditory and visual processing in these areas (Fort et al. 2002a; Giard and Peronnet 1999; Shams et al. 2001; Teder-Salejarvi et al. 2002). We hypothesised that directing attention to only one modality would modulate early ERPs, in that ERPs to bimodal stimuli would be more representative of the attended modality. The congruency task was designed to reveal potential interaction effects as performing the task required the processing of both auditory and visual information; the pattern of cerebral activity should reflect the processing in both modalities. In other words, the directed attention aspects of the tasks were to determine the influence of top-down modulation on multimodal processing, whereas the use of Journal of Neurophysiology Multimodal face and voice processing 6 congruent and incongruent stimuli was expected to provide information on bottom-up stimulusdependent interactions. Material and Methods Subjects Nineteen English speaking adults (9 women) aged between 20 and 35 years (mean = 26.4 years) participated in the study. Subjects reported normal medical history and no hearing r Fo problems; all had normal or corrected to normal vision. They all provided informed written consent and the experiment was approved by the Sunnybrook Health Sciences Research Ethics Board. Stimuli and procedure er Pe Stimuli were bimodal auditory/visual stimulus pairs that were comprised of front view greyscale pictures of faces associated with a voiced word; the stimulus duration was 300ms. Face Re stimuli were 42 female and 42 male faces. Voice stimuli were 14 monosyllabic French words recorded in stereo from 3 female and 3 male speakers; there were 42 female and 42 male voice vi stimuli. The same words were pronounced by female and male speakers, and there were no ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 8 of 39 repetitions of words by a speaker. The words averaged 300ms in duration, including 10ms rise and fall times. We purposefully used French words in English speaking subjects to limit the extent of lexical processing. Voices and faces were randomly associated to form 84 stimuli: 42 were congruent, half of them were female face/female voice and the other male face/male voice, and 42 were incongruent (i.e., male face/female voice or female face/male voice). Face stimuli were presented for 300ms in the centre of a computer screen; their onset was synchronised with the onset of auditory stimuli using Presentation software; inter-stimuli intervals varied randomly Page 9 of 39 Multimodal face and voice processing 7 between 1300 and 1600 ms. The subjects performed three different gender judgment tasks. 1) The first task was to indicate with one of two keys whether the stimuli were congruent or incongruent in terms of gender, i.e. the subjects had to pay attention to both face and voice gender (BOTH). This task was the hardest, and subjects completed two blocks of 84 stimuli. As this task differed in terms of response mapping, it was always run first. 2) Attention was directed towards the faces, i.e. subjects performed a gender discrimination of faces (FACE) while ignoring the voices for 84 trials. 3) In the third task, they performed gender discrimination of the voices (VOICE) while r Fo ignoring the faces for 84 trials. In these two studies, participants pressed one keyboard key for female and another for male faces or voices. The order of the presentation of these two tasks was counterbalanced across subjects, as was the response key attribution. Pe EEG recording and analysis er The ERPs were recorded in a dimly lit sound-proof booth; participants sat 60 cm from a screen on which stimuli were presented. A fixation cross appeared between presentations and Re subjects were asked to look at it and refrain from making eye movements. During the execution of the tasks, EEG was recorded using an ANT system and a 64 electrode cap, including three vi ocular electrodes to monitor vertical and horizontal eye movements. Impedances were kept below ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology 5k . The sampling acquisition rate was 1024 Hz. FCz was the reference during acquisition; an average reference was calculated off-line. Continuous EEG was epoched into 600 ms sweeps including a 100 ms pre-stimulus baseline. Ocular and muscular artefacts, or trials containing an amplitude shift greater than 100µV, were rejected from analyses. Epochs were averaged by condition (6 conditions: congruent/incongruent in the 3 tasks) and filtered using a bandpass filter between 1-30 Hz. Peak analyses were completed on classical peaks described in the visual, i.e. P1, N170, P2 and VPP, and the auditory, i.e. N1, VSR (Voice Selective Response – (Levy et al. 2001)), ERP literature. Peak latencies and amplitudes were measured in a ±30 ms time-window Journal of Neurophysiology Multimodal face and voice processing 8 centred on the latencies of the peak in the grand average (P1: 105 ms, N170: 155 ms, VPP: 160 ms and P2: 220 ms). P1 and P2 were measured at O1/O2, PO7/PO8, and PO3/PO4. N170 was measured at PO9/PO10, PO7/PO8, P7/P8 and P9/P10. VPP was measured at FC1/FC2, FC3/FC4, F1/F2, F3/F4 and C1/C2. Auditory N1 was measured in a ±30 ms time-window centred at 100 ms at FC1/FC2, C1/C2, CP1/CP2 and VSR in a window centred at 350 ms at AF3/AF4, F3/F4 and F1/F2. For each subject, latencies were measured at one time point per hemisphere at the electrode with the largest amplitude. Amplitudes were taken at this latency at the other selected r Fo electrodes over the hemisphere (Picton et al. 2000). Unimodal auditory stimuli generally evoke biphasic ERPs, the negative N1, described above, followed by the auditory P2 in fronto-central regions, a positive wave occurring 200 ms Pe after stimulus onset. Auditory P2 has been proposed to index voice processing (Latinus and er Taylor submitted; Lattner et al. 2003). Unfortunately, auditory P2 was not apparent in our study, probably because it was masked by the VPP, which occurred in almost the same latency range Re and regions. However, looking at the grand average for each condition, a shoulder was evident on the descending slope of the VPP around 190 ms (see figure 1 – an example for VOICE vi condition). This inflexion on the descending slope of the VPP may reflect an embedded auditory ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 10 of 39 P2. Thus, between 160 and 230 ms, we calculated the first and second derivative of the ERPs for 5 electrodes per hemisphere (F1,F3,FC1,FC3,C1 in the left hemisphere and F2,F4,FC2,FC4,C2 in the right hemisphere), for each subject and condition. A null second derivative indicated the presence of an inflexion. We measured the slope of the ERPs between the two points (x1 and x2) where the second derivative was null (figure 1, SLOPE(shoulder) this value by the global descending slope (figure 1, = (Y2-Y1)/(X2-X1)); we normalized SLOPE(global) = (Ymin-Ymax)/(Xmin-Xmax)) of the VPP around the shoulder (between the maximum of the VPP (figure 1, Xmax,Ymax) and the next minimum (figure 1, Xmin,Ymin)). The strength of the shoulder was defined as the value of the ratio Page 11 of 39 Multimodal face and voice processing SLOPE(shoulder)/SLOPE(global); 9 the smaller this ratio, the more evident the shoulder (with negative ratios indicating the presence of a second peak), whereas ratios tending to 1 indicated the absence of a shoulder. Peak latencies and amplitudes were submitted to repeated measures analyses of variance; within subject factors were attention (3 levels), congruency (2 levels), hemisphere and electrode for peak amplitudes. Spatio-temporal effects were assessed using a two-way ANOVA with attention and congruency as inter-subject factors on brain topography at each time point. A r Fo comparison was considered significant if the results of the t-test yielded p < 0.01 for at least 15 consecutive 1ms time-bins and two adjacent electrodes. Results er Pe Behavioural results Re Behavioural data analyses revealed that subjects performed gender categorisation as well vi on faces (96.47%) as on voices (95.44%); congruency judgement in the BOTH condition was ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology more difficult (90.05%) reflected by the lower percentage of correct responses (F36,2 = 15.96, p < 0.001). Congruency of the face and voice affected gender categorisation performance only when subjects attended to the voices – VOICE condition (attention x congruency: F36,2 = 7.92, p = 0.002): incongruent face information impaired gender categorisation of voices (congruent: 97.49%; incongruent: 93.38%) – see figure 2A. Reaction times were influenced by task (F36,2 = 63.09, p < 0.001): they were longer in the BOTH condition, i.e. the congruency judgment took longer than simple gender categorisation; categorisation itself was longer in the auditory than the visual modality (Figure 2B). Congruency affected reaction times regardless of attentional Journal of Neurophysiology Multimodal face and voice processing 10 conditions; incongruent stimuli were longer to categorise for all three tasks (F18,1 = 35.89, p < 0.001). Early effects, P1 and N1 components Overall, the waveforms had similar morphologies to those observed in face ERP studies. Spatio-temporal and peak analyses revealed a modulation of brain activity by attention and congruence at a number of locations and latency ranges. Early differences due to the attentional r Fo condition were observed in central and posterior brain areas (figure 3 – top) around 40 ms. These early differences across the three attentional conditions were seen in the spatio-temporal analyses, with activity in the FACE condition being smaller; activity was more positive in central Pe regions to BOTH and, to a lesser extent, VOICE conditions, and in posterior regions, brain er activity was most negative to VOICE (figure 3 – bottom). P1 and N1 latencies were not affected by attention or congruency. P1 amplitude varied with attention as it was larger in the FACE and Re BOTH conditions than in the VOICE condition (F36,2 = 8.37, p = 0.001) – figure 4A; N1 amplitude was not affected by attention (figure 4B). P1 was largest at PO7/PO8 regardless of vi where attention was directed; however, when attention was directed towards faces in the FACE ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 12 of 39 and BOTH conditions, O1/O2 were the second largest, whereas for the VOICE condition P1 measured at PO7/PO8 and PO3/PO4 were equivalent and superior to P1 measured at O1/O2 (attention x electrodes: F72,4 = 5.25, p = 0.006) (see table1). In other words, the P1 topography was more occipital in conditions with attention directed to faces. N170/VPP N170 latency was modulated by attention (F36,2 = 6.93, p = 0.006); N170 was earlier when attention was directed towards both faces and voices (BOTH – 147.65 ms) than when it was Page 13 of 39 Multimodal face and voice processing 11 directed towards faces (FACE – 150.72 ms) or voices (VOICE – 155.13 ms) alone. N170 was earlier in the right hemisphere (RH – 149.88 ms, LH – 152.45 ms; F18,1 = 5.25, p = 0.034) (Figure 4A). VPP peaked earlier when attention was directed to faces (154.53 ms) and to both faces and voices (153.03 ms), relative to when attention was directed only towards voices (159.65 ms) (F36,2 = 4.71, p = 0.03) (Figure 5B). N170 and VPP amplitude were not affected by the different conditions (Figure 5A and B). Between 135 and 150 ms, spatio-temporal analyses revealed a larger positivity in BOTH r Fo and FACE conditions at central electrodes (Figure 5C). This may reflect the delayed VPP for the VOICE condition; in this latency range (135-150ms) VPP for BOTH and FACE conditions was almost at the maximum whereas for the VOICE condition it was still in the ascending slope. er Pe Auditory and Visual P2s, and later effects On the grand average ERPs a shoulder was observed on the descending slope of the VPP Re (figure 1, 4B and 5B). This shoulder appeared to increase in conditions when voice processing was important, i.e. VOICE and BOTH conditions. Therefore, we hypothesised that it represented vi an indicator of the auditory P2 component which was otherwise absent from our ERPs. Statistical ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology analyses of slope ratio value (representing shoulder strength) provided evidence for an interaction between attention and congruency (F18,2 = 4.52, p = 0.034). The shoulder was more pronounced in BOTH conditions regardless of congruency, VOICE conditions particularly for congruent stimuli, and in the FACE incongruent condition. Congruency affected brain topography between 182 and 206 ms in right fronto-temporal areas due to incongruent stimuli evoking an overall more positive activity (Figure 5D). Visual P2 was larger in the right than in the left hemisphere (F18, 1 = 8.54, p = 0.009), but was not affected by attention or congruency. Hemisphere modulated VSR latency (F18, 1 = 10.4, p Journal of Neurophysiology Multimodal face and voice processing 12 = 0.005) and amplitude (F18, 1 = 17.42, p = 0.001), but not attention or congruency; VSR was earlier and larger in the right hemisphere. Discussion This study investigated the influence of top-down and bottom-up processes on multimodal face/voice interactions. Top-down influences are revealed by the task performed by the subjects; r Fo stimuli were the same in all three tasks, only attentional instructions differed. Differences in the processing of congruent and incongruent stimuli revealed bottom-up influences, i.e. how stimulus Pe characteristics influence the interaction between modalities. er Top-down and bottom-up influences on behaviour Behavioural data showed that directing attention toward one or the other sensory modality Re biased the processing of bimodal face/voice stimuli. RTs were longer for gender categorisation of voices (regardless of congruency), and in accordance with previous reports using ecologically vi valid bimodal stimuli, visually based categorisation was faster than auditory based categorisation ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 14 of 39 (De Gelder and Vroomen 2000; Molholm et al. 2004). RTs were longer for incongruent stimuli regardless of the direction of attention, revealing the automatic processing of multimodal information, as the ignored modality affected processing in the attended modality (De Gelder and Vroomen 2000). Incongruent information modulated face and voice processing differently, however, as accuracy varied only for the VOICE condition; this suggests asymmetrical interference between face and voice processing in this paradigm, faces having a higher impact on voice processing than Page 15 of 39 Multimodal face and voice processing 13 the opposite. Interference effects have been reported in other studies using various paradigms and stimuli (Joassin et al. 2004; Molholm et al. 2002; Shimojo and Shams 2001). Reddy et al. (2004) demonstrated that gender categorisation of faces occurs in the near absence of attention, showing that gender is automatically extracted from faces. In contrast, our results demonstrate that extracting gender from voices may require more attention. Gender categorisation of voices was affected by the addition of irrelevant face information, yet the opposite was less true; this suggests that faces capture attention (Bindemann et al. 2005) and disturb voice processing r Fo whereas voices may not automatically claim attention; thus voice processing interferes less with the processing of faces. The hardest task was to evaluate gender from both the face and the voice and to judge Pe their congruency, reflected by its lower accuracy and longer RTs. In multimodal studies, a er behavioural facilitation is often reported with bimodal stimuli (Fort et al. 2002a; Giard and Peronnet 1999; Molholm et al. 2002; Schroger and Widmann 1998); however, in tasks involving Re identification of a non-redundant target, RTs are generally longer (Fort et al. 2002b). These longer RTs in non-redundant target identification reflect that these tasks require the extraction of vi the relevant information from both modalities. Moreover, in our study, more time was needed, as ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology subjects were not identifying a single target but had to decide on the congruency judgement. Behavioural results provide evidence of a modulation of the response by both top-down and bottom-up influences. Incongruent stimuli (those with inconsistent bottom-up information) delayed multimodal processing, as congruency affected reaction times regardless of attention instructions. Top-down processes had an impact on multimodal interaction as directed attention to one and/or the other modality did not modulate behaviour in the same way. It suggests that directing attention to a specific sensory modality led to a competition in attentional resources. This competition was particularly evident for the VOICE condition, due to the processing of faces Journal of Neurophysiology Multimodal face and voice processing 14 being automatic (Vuilleumier 2000). As face processing appears mandatory, some attentional resources are automatically allocated to faces, consequently voice processing could not be as efficient as face processing. Directed attention to both auditory and visual modalities (BOTH condition) led to a decrement in accuracy and increment in RTs, again likely reflecting competition between attentional resources. The ERP pattern, however, regardless of conditions, was very similar to that described in r Fo the face literature (Bentin et al. 1996; Itier and Taylor 2004b; Rossion et al. 2000). This also suggests that face processing may be more automatic than voice processing, in accordance with the conclusions from the behavioural data. In addition, there were significant differences between Pe ERP signals due to both top-down and bottom-up influences. er Modulation of brain activity by top-down processes Re Brain activity was modulated according to the different conditions by 40 ms. Directing attention to one and/or the other modality led to dissimilar topographies in central brain regions, vi particularly between the FACE and the other two conditions. Other studies using various ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 16 of 39 paradigms (object recognition, spatial localisation etc.) have reported very early activity to bimodal stimuli when comparing the response to bimodal stimuli to the sum of responses to unimodal stimuli (Giard and Peronnet 1999; Molholm et al. 2002; Shams et al. 2001; TederSalejarvi et al. 2002); early multimodal effects were explained either as anticipatory effects (Teder-Salejarvi et al. 2002) or as recruitment of a novel population of neurons by bimodal stimuli in the visual cortex (Giard and Peronnet 1999). Here, this early modulation seemed to reflect top-down processes; subjects had to focus on one or the other modality, and this produced the early activation of unisensory cortices of the attended modality, reflecting preparatory Page 17 of 39 Multimodal face and voice processing 15 processes due to top-down influence. For example, in the VOICE condition, the observed brain topography was similar to the one expected for unimodal voice stimulus, i.e. larger activity in fronto-central brain regions (see Figure 2 of (Latinus and Taylor submitted)). Similarly, in the FACE condition, activity to bimodal stimuli was larger in occipital regions. Thus, directed attention to vision or audition led to a greater activation of modality-specific cortices. When attention was directed towards both faces and voices (BOTH), an intermediate topography was observed: attending to both modalities enhanced activity in each sensory cortex, but somewhat r Fo reduced compared single-modality directed attention conditions. The early visual P1 was larger when attention was directed to faces i.e. in FACE and BOTH conditions, yet the early auditory N1 amplitude did not show modulation by attention. Pe Moreover, P1 topography differed across the conditions; P1 in the FACE and BOTH conditions er was maximal over occipital electrodes whereas P1 in the VOICE condition was more parietal. This suggests that P1 in the condition where attention was directed towards voices reflects Re activation of generator(s) different from those involved for face processing (i.e. in FACE and BOTH condition). The fronto-central N1 recorded in the present study may be the negative vi counterpart of the P1 as it is generally observed with visual stimuli; yet, it can also reflect ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology auditory processing (Näätänen and Picton 1987). However, the conditions modulated P1 and N1 in different ways, revealing a probable modulation of the N1/P1 complex in central regions by auditory processing. If there was no evidence of auditory processing, N1 and P1 should be modulated similarly across conditions; this was not the case as only P1 varied with task. This suggests that processing of voice information in the VOICE condition in fact modulated N1 amplitude. Although in some studies bimodal stimuli enhanced the auditory N1 (Pourtois et al. 2000), others have shown that visual stimuli/tasks lead to a deactivation in auditory cortex resulting in a smaller N1 to bimodal stimuli (Besle et al. 2004; Kawashima et al. 1999). Journal of Neurophysiology Multimodal face and voice processing 16 Unimodal studies of auditory processing find that auditory N1 is enhanced to attended auditory stimuli (Alho et al. 1986). The absence of differences on the N1 across the conditions may reflect either a deactivation of auditory cortex when attention was directed to faces or a greater activation of auditory cortex when attention was directed to voices. N170 and VPP peaked earlier when attention was directed to both faces and voices (BOTH condition); this may reflect an interaction or facilitation between the unimodal processing in this condition. N170 and VPP amplitude were not modulated by task, although studies using r Fo non-face stimuli demonstrated a modulation of the visual N1 with bimodal stimuli (Giard and Peronnet 1999; Molholm et al. 2004). Although this appears inconsistent with our results, there are numerous studies that distinguish between the N1 and N170, which reflect separable Pe processes and are differentially affected by task manipulations. The N170 is a face sensitive er component, and studies have shown that N170 is not modulated by attention (e.g., Severac Cauquil et al. 2000; Vuilleumier 2000); this could explain why in our study the N170 was similar across conditions. Re The auditory P2 was not seen in our experiment, probably because it was hidden by the vi presence of the VPP. However, we observed a shoulder in the descending slope of the VPP ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 18 of 39 around the auditory P2 latency (around 180/190 ms (Michalewski et al. 1986)) that may correspond to processes normally underlying P2 in unimodal conditions, such as voice processing (Latinus and Taylor submitted; Lattner et al. 2003). Analyses of this shoulder showed that it was larger in VOICE and BOTH conditions and in FACE condition for incongruent stimuli; a larger shoulder would imply increased voice processing. Thus, in the FACE experiment a voice was more effectively ignored when it was congruent but was processed, even if irrelevant for the task, when carrying incongruent information. Page 19 of 39 Multimodal face and voice processing 17 Modulation of brain activity by bottom-up processes Congruency affected brain activity around 190 ms after stimuli onset; incongruent stimuli evoked a more positive activity than congruent stimuli in right anterior frontal regions. fMRI studies using bimodal stimuli have shown that the processing of incongruent and congruent stimuli differed in activation in the inferior frontal gyrus (IFG) and the anterior insula (Amedi et al. 2005; Callan et al. 2003; Calvert et al. 1999; Calvert et al. 2001), areas thought to be heteromodal. Activity in these regions decreased for incongruent stimuli (Calvert et al. 2000; r Fo Sestieri et al. 2006). The localisation of the modulation of brain activity by congruency (right frontal regions) in the present study is compatible with the idea that these differences between congruent and incongruent stimuli arise from insula or right IFG, and provides a latency (190ms) Pe to the previously described effect in the fMRI literature. The inferior frontal gyrus and insula er particularly in the left hemisphere are thought to reflect the retrieval and manipulation of linguistic semantic representations (Poldrack et al. 1999; Wagner 1999). In contrast, these regions Re in the right hemisphere may be involved in semantic representation (e.g. gender congruency judgment between auditory and visual inputs), independent of linguistic information. ew vi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology In conclusion, we observed that top-down influences modulate the processing of multimodal stimuli as early as 40 ms after stimuli onset, yet, this influence depended on the preferential modality for the task, providing evidence for a visual bias in the case of face/voice gender categorisation. It is possible that this bias would be reversed when studying speech perception. Top-down influences modulated the latencies of VPP and N170, which were earlier when both faces and voices were important for the task (BOTH condition), reflecting a dialogue between unisensory cortices well before 200 ms. Congruency between face and voice gender Journal of Neurophysiology Multimodal face and voice processing 18 affected multimodal processing around 190 ms, suggesting that bottom-up multimodal interactions for gender processing are relatively late. r Fo er Pe ew vi Re 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 20 of 39 Page 21 of 39 Multimodal face and voice processing 19 Acknowledgments Marianne Latinus was supported by la Fondation pour La Recherche Médicale (FRM, FDT20051206128). We thank Dr. Nancy J. Lobaugh for her generosity in allowing us full access to her ERP lab, and the help provided with the studies by Dr. Lobaugh and Erin Gibson. r Fo er Pe ew vi Re 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology Journal of Neurophysiology Multimodal face and voice processing 20 References Alain C, Arnott SR, Hevenor S, Graham S, and Grady CL. "What" and "where" in the human auditory system. Proc Natl Acad Sci U S A 98: 12301-12306, 2001. Alho K, Sams M, Paavilainen P, and Naatanen R. Small pitch separation and the selectiveattention effect on the ERP. Psychophysiology 23: 189-197, 1986. Allison T, McCarthy G, Nobre A, Puce A, and Belger A. Human extrastriate visual cortex and the perception of faces, words, numbers, and colors. Cerebral Cortex 5: 544-554, 1994. r Fo Amedi A, von Kriegstein K, van Atteveldt NM, Beauchamp MS, and Naumer MJ. Functional imaging of human crossmodal identification and object recognition. Exp Brain Res 166: 559-571, 2005. Pe Barrett DJ, and Hall DA. Response preferences for "what" and "where" in human non-primary er auditory cortex. Neuroimage 32: 968-977, 2006. Beauchemin M, De Beaumont L, Vannasing P, Turcotte A, Arcand C, Belin P, and Re Lassonde M. Electrophysiological markers of voice familiarity. Eur J Neurosci 23: 3081-3086, 2006. vi Bedard C, and Belin P. A "voice inversion effect?" Brain Cogn 55: 247-249, 2004. ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 22 of 39 Belin P, Fecteau S, and Bedard C. Thinking the voice: neural correlates of voice perception. Trends Cogn Sci 8: 129-135, 2004. Belin P, and Zatorre RJ. 'What', 'where' and 'how' in auditory cortex. Nat Neurosci 3: 965-966, 2000. Belin P, Zatorre RJ, and Ahad P. Human temporal-lobe response to vocal sounds. Brain Res Cogn Brain Res 13: 17-26, 2002. Page 23 of 39 Multimodal face and voice processing 21 Belin P, Zatorre RJ, Lafaille P, Ahad P, and Pike B. Voice-selective areas in human auditory cortex. Nature 403: 309-312, 2000. Bentin S, Allison T, Puce A, Perez E, and Mccarthy G. Electrophysiological Studies of Face Perception in Humans. Journal of Cognitive Neuroscience 8: 551-565, 1996. Besle J, Fort A, Delpuech C, and Giard MH. Bimodal speech: early suppressive visual effects in human auditory cortex. Eur J Neurosci 20: 2225-2234, 2004. Bindemann M, Burton AM, Hooge IT, Jenkins R, and de Haan EH. Faces retain attention. r Fo Psychon Bull Rev 12: 1048-1053, 2005. Binder JR, Frost JA, Hammeke TA, Bellgowan PS, Springer JA, Kaufman JN, and Possing ET. Human temporal lobe activation by speech and nonspeech sounds. Cereb Cortex 10: 512528, 2000. er Pe Bushara KO, Weeks RA, Ishii K, Catalan MJ, Tian B, Rauschecker JP, and Hallett M. Modality-specific frontal and parietal areas for auditory and visual spatial localization in humans. Nat Neurosci 2: 759-766, 1999. Re Caharel S, Poiroux S, Bernard C, Thibaut F, Lalonde R, and Rebai M. ERPs associated with vi familiarity and degree of familiarity during face recognition. Int J Neurosci 112: 1499-1512, 2002. ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology Callan DE, Jones JA, Munhall K, Callan AM, Kroos C, and Vatikiotis-Bateson E. Neural processes underlying perceptual enhancement by visual speech gestures. Neuroreport 14: 22132218, 2003. Calvert GA, Brammer MJ, Bullmore ET, Campbell R, Iversen SD, and David AS. Response amplification in sensory-specific cortices during crossmodal binding. Neuroreport 10: 26192623, 1999. Journal of Neurophysiology Multimodal face and voice processing 22 Calvert GA, Campbell R, and Brammer MJ. Evidence from functional magnetic resonance imaging of crossmodal binding in the human heteromodal cortex. Curr Biol 10: 649-657, 2000. Calvert GA, Hansen PC, Iversen SD, and Brammer MJ. Detection of audio-visual integration sites in humans by application of electrophysiological criteria to the BOLD effect. Neuroimage 14: 427-438, 2001. De Gelder B, and Vroomen J. The perception of emotions by ear and by eye. Cognition and Emotion 14: 289-311, 2000. r Fo Dolan RJ, Morris JS, and de Gelder B. Crossmodal binding of fear in voice and face. Proc Natl Acad Sci U S A 98: 10006-10010, 2001. Eimer M. Crossmodal links in spatial attention between vision, audition, and touch: evidence Pe from event-related brain potentials. Neuropsychologia 39: 1292-1303, 2001. er Eimer M. Effects of face inversion on the structural encoding and recognition of faces. Evidence from event-related brain potentials. Brain Res Cogn Brain Res 10: 145-158, 2000. Re Fort A, Delpuech C, Pernier J, and Giard MH. Dynamics of cortico-subcortical cross-modal operations involved in audio-visual object detection in humans. Cereb Cortex 12: 1031-1039, ew 2002a. vi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 24 of 39 Fort A, Delpuech C, Pernier J, and Giard MH. Early auditory-visual interactions in human cortex during nonredundant target identification. Brain Res Cogn Brain Res 14: 20-30, 2002b. Fort A, and Giard MH. Multi electrophysiological mechanisms of audio-visual integration in human perception In: The Handbook of Multisensory Processes, edited by Calvert GA, Spence C, and Stein BE. Cambridge: MIT Press, 2004, p. 503-514. Gauthier I, Tarr MJ, Anderson AW, Skudlarski P, and Gore JC. Activation of the middle fusiform 'face area' increases with expertise in recognizing novel objects. Nature Neurosciences 2: 568-573., 1999. Page 25 of 39 Multimodal face and voice processing 23 George N, Evans J, Fiori N, Davidoff J, and Renault B. Brain events related to normal and moderately scrambled faces. Cognitive Brain Research 4: 65-76, 1996. Giard MH, and Peronnet F. Auditory-visual integration during multimodal object recognition in humans: a behavioral and electrophysiological study. J Cogn Neurosci 11: 473-490, 1999. Hadjikhani N, and Roland PE. Cross-modal transfer of information between the tactile and the visual representations in the human brain: A positron emission tomographic study. J Neurosci 18: 1072-1084, 1998. r Fo Halit H, de Haan M, and Johnson MH. Modulation of event-related potentials by prototypical and atypical faces. Neuroreport 11: 1871-1875, 2000. Haxby JV, Grady CL, Horwitz B, Ungerleider LG, Mishkin M, Carson RE, Herscovitch P, Pe Schapiro MB, and Rapoport SI. Dissociation of object and spatial visual processing pathways er in human extrastriate cortex. Proc Natl Acad Sci U S A 88: 1621-1625, 1991. Holmes A, Vuilleumier P, and Eimer M. The processing of emotional facial expression is gated Re by spatial attention: evidence from event-related brain potentials. Brain Res Cogn Brain Res 16: 174-184, 2003. vi Imaizumi S, Mori K, Kiritani S, Kawashima R, Sugiura M, Fukuda H, Itoh K, Kato T, ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology Nakamura A, Hatano K, Kojima S, and Nakamura K. Vocal identification of speaker and emotion activates different brain regions. Neuroreport 8: 2809-2812, 1997. Itier RJ, Latinus M, and Taylor MJ. Face, eye and object early processing: what is the face specificity? Neuroimage 29: 667-676, 2006. Itier RJ, and Taylor MJ. Effects of repetition and configural changes on the development of face recognition processes. Dev Sci 7: 469-487, 2004a. Itier RJ, and Taylor MJ. N170 or N1? Spatiotemporal differences between object and face processing using ERPs. Cereb Cortex 14: 132-142, 2004b. Journal of Neurophysiology Multimodal face and voice processing 24 Joassin F, Maurage P, Bruyer R, Crommelinck M, and Campanella S. When audition alters vision: an event-related potential study of the cross-modal interactions between faces and voices. Neurosci Lett 369: 132-137, 2004. Kanwisher N, Tong F, and Nakayama K. The effect of face inversion on the human fusiform face area. Cognition 68: B1-11, 1998. Kawashima R, Imaizumi S, Mori K, Okada K, Goto R, Kiritani S, Ogawa A, and Fukuda H. Selective visual and auditory attention toward utterances-a PET study. Neuroimage 10: 209215, 1999. r Fo Latinus M, and Taylor MJ. Face processing stages: Impact of difficulty and the separation of effects. Brain Res 1123: 179-187, 2006. Pe Latinus M, and Taylor MJ. Faces are easier: Gender categorisation of faces and voices Neuroimage submitted. er Latinus M, and Taylor MJ. Holistic processing of faces: learning effects with Mooney faces. J Cogn Neurosci 17: 1316-1327, 2005. Re Lattner S, Maess B, Wang Y, Schauer M, Alter K, and Friederici AD. Dissociation of human vi and computer voices in the brain: evidence for a preattentive gestalt-like perception. Hum Brain Mapp 20: 13-21, 2003. ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 26 of 39 Levy DA, Granot R, and Bentin S. Neural sensitivity to human voices: ERP evidence of task and attentional influences. Psychophysiology 40: 291-305, 2003. Levy DA, Granot R, and Bentin S. Processing specificity for human voice stimuli: electrophysiological evidence. Neuroreport 12: 2653-2657, 2001. Linkenkaer-Hansen K, Palva JM, Sams M, Hietanen JK, Aronen HJ, and Ilmoniemi RJ. Face-selective processing in human extrastriate cortex around 120 ms after stimulus onset revealed by magneto- and electroencephalography. Neuroscience Letters 253: 147-150, 1998. Page 27 of 39 Multimodal face and voice processing 25 MacLeod A, and Summerfield Q. Quantifying the contribution of vision to speech perception in noise. Br J Audiol 21: 131-141, 1987. Maurer D, Grand RL, and Mondloch CJ. The many faces of configural processing. Trends Cogn Sci 6: 255-260, 2002. McGurk H, and MacDonald J. Hearing lips and seeing voices. Nature 264: 746-748, 1976. Michalewski HJ, Prasher DK, and Starr A. Latency variability and temporal interrelationships of the auditory event-related potentials (N1, P2, N2, and P3) in normal subjects. r Fo Electroencephalogr Clin Neurophysiol 65: 59-71, 1986. Mishkin M, Ungerleider LG, and Macko KA. Object vision and spatial vision: two cortical pathways. Trends Neurosci 6: 414-417, 1983. Pe Molholm S, Ritter W, Javitt DC, and Foxe JJ. Multisensory visual-auditory object recognition er in humans: a high-density electrical mapping study. Cereb Cortex 14: 452-465, 2004. Molholm S, Ritter W, Murray MM, Javitt DC, Schroeder CE, and Foxe JJ. Multisensory Re auditory-visual interactions during early sensory processing in humans: a high-density electrical mapping study. Brain Res Cogn Brain Res 14: 115-128, 2002. Y, Giard MH, Bentin S, Aguera PE, ew Mouchetant-Rostaing vi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology and Pernier J. Neurophysiological correlates of face gender processing in humans. Eur J Neurosci 12: 303-310, 2000. Näätänen R, and Picton T. The N1 wave of the human electric and magnetic response to sound: a review and an analysis of the component structure. Psychophysiology 24: 375-425, 1987. Picton TW, Bentin S, Berg P, Donchin E, Hillyard SA, Johnson R, Jr., Miller GA, Ritter W, Ruchkin DS, Rugg MD, and Taylor MJ. Guidelines for using human event-related potentials to study cognition: recording standards and publication criteria. Psychophysiology 37: 127-152, 2000. Journal of Neurophysiology Multimodal face and voice processing 26 Poldrack RA, Wagner AD, Prull MW, Desmond JE, Glover GH, and Gabrieli JD. Functional specialization for semantic and phonological processing in the left inferior prefrontal cortex. Neuroimage 10: 15-35, 1999. Pourtois G, de Gelder B, Bol A, and Crommelinck M. Perception of facial expressions and voices and of their combination in the human brain. Cortex 41: 49-59, 2005. Pourtois G, de Gelder B, Vroomen J, Rossion B, and Crommelinck M. The time-course of intermodal binding between seeing and hearing affective information. Neuroreport 11: 13291333, 2000. r Fo Puce A, Allison T, Gore JC, and McCarthy G. Face-sensitive regions in human extrastriate cortex studied by functional MRI. J Neurophysiol 74: 1192-1199, 1995. Pe Puce A, Allison T, and McCarthy G. Electrophysiological studies of human face perception. er III: Effects of top-down processing on face-specific potentials. Cereb Cortex 9: 445-458, 1999. Rauschecker JP, and Tian B. Mechanisms and streams for processing of "what" and "where" in Re auditory cortex. Proc Natl Acad Sci U S A 97: 11800-11806, 2000. Reddy L, Wilken P, and Koch C. Face-gender discrimination is possible in the near-absence of ew attention. J Vis 4: 106-117, 2004. vi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 28 of 39 Rossion B, Campanella S, Gomez CM, Delinte A, Debatisse D, Liard L, Dubois S, Bruyer R, Crommelinck M, and Guerit JM. Task modulation of brain activity related to familiar and unfamiliar face processing: an ERP study. Clin Neurophysiol 110: 449-462, 1999a. Rossion B, Delvenne JF, Debatisse D, Goffaux V, Bruyer R, Crommelinck M, and Guerit JM. Spatio-temporal localization of the face inversion effect: an event-related potentials study. Biol Psychol 50: 173-189, 1999b. Rossion B, and Gauthier I. How does the brain process upright and inverted faces? Behav and Cogn Neuroscience Rev 1: 62-74, 2002. Page 29 of 39 Multimodal face and voice processing 27 Rossion B, Gauthier I, Tarr MJ, Despland P, Bruyer R, Linotte S, and Crommelinck M. The N170 occipito-temporal component is delayed and enhanced to inverted faces but not to inverted objects: an electrophysiological account of face-specific processes in the human brain. Neuroreport 11: 69-74, 2000. Schroger E, and Widmann A. Speeded responses to audiovisual signal changes result from bimodal integration. Psychophysiology 35: 755-759, 1998. Schweinberger SR. Human brain potential correlates of voice priming and voice recognition. r Fo Neuropsychologia 39: 921-936, 2001. Scott SK, Blank CC, Rosen S, and Wise RJ. Identification of a pathway for intelligible speech in the left temporal lobe. Brain 123 Pt 12: 2400-2406, 2000. Pe Sestieri C, Di Matteo R, Ferretti A, Del Gratta C, Caulo M, Tartaro A, Olivetti Belardinelli er M, and Romani GL. "What" versus "where" in the audiovisual domain: an fMRI study. Neuroimage 33: 672-680, 2006. Re Severac Cauquil A, Edmonds GE, and Taylor MJ. Is the face-sensitive N170 the only ERP not affected by selective attention? Neuroreport 11: 2167-2171, 2000. vi Shams L, Kamitani Y, Thompson S, and Shimojo S. Sound alters visual evoked potentials in humans. Neuroreport 12: 3849-3852, 2001. ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology Shimojo S, and Shams L. Sensory modalities are not separate modalities: plasticity and interactions. Curr Opin Neurobiol 11: 505-509, 2001. Stein BE, and Meredith MA. The merging of the senses. Cambridge, MA, USA: MIT Press, 1993. Talsma D, and Woldorff MG. Selective attention and multisensory integration: multiple phases of effects on the evoked brain activity. J Cogn Neurosci 17: 1098-1114, 2005. Journal of Neurophysiology Multimodal face and voice processing 28 Tanaka JW. The entry point of face recognition: evidence for face expertise. J Exp Psychol Gen 130: 534-543, 2001. Taylor MJ. Non-spatial attentional effects on P1. Clin Neurophysiol 113: 1903-1908, 2002. Teder-Salejarvi WA, McDonald JJ, Di Russo F, and Hillyard SA. An analysis of audio-visual crossmodal integration by means of event-related potential (ERP) recordings. Brain Res Cogn Brain Res 14: 106-114, 2002. Ungerleider LG, and Haxby JV. 'What' and 'where' in the human brain. Curr Opin Neurobiol 4: 157-165, 1994. r Fo von Kriegstein K, Eger E, Kleinschmidt A, and Giraud AL. Modulation of neural responses to speech by directing attention to voices or verbal content. Brain Res Cogn Brain Res 17: 48-55, 2003. er Pe Vuilleumier P. Faces call for attention: evidence from patients with visual extinction. Neuropsychologia 38: 693-700, 2000. Re Wagner AD. Working memory contributions to human learning and remembering. Neuron 22: 19-22, 1999. vi Yin RK. Looking at upside-down faces. Journal of Experimental Psychology 81: 141-145, 1969. ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 30 of 39 Zatorre RJ, Evans AC, Meyer E, and Gjedde A. Lateralization of phonetic and pitch discrimination in speech processing. Science 256: 846-849, 1992. Page 31 of 39 Multimodal face and voice processing 29 Figure Captions Figure 1: Illustration of the measures used to evaluate the strength of the shoulder on the descending slope of the VPP. We measured the second derivative throughout the ERP; a null second derivative (i.e. an inflexion point) between 160 (latency of VPP) and 220 ms revealed the presence of a shoulder. A first zero-crossing of the second derivative (coordinates: X1, Y1), was followed by a second zero-crossing (X2, Y2). The strength of the shoulder was assessed using the r Fo ERP slope between these two points (SLOPE(shoulder) = (Y2- Y1)/(X2 - X1), which was then normalized by the global slope of the descending ramp of VPP, between the VPP maximum the next minimum Xmin, Pe Ymin : SLOPE(global) = Xmax, Ymax (Ymin-Ymax)/(Xmin-Xmax). The and ratio (SLOPE(shoulder)/SLOPE(global)) reflects the strength of the shoulder; the smaller this ratio, the more er pronounced the shoulder. Ratio values tending to 1 indicated an absence of shoulder. Re Figure 2: A. Accuracy for the different conditions. B. Reaction times. Responses to congruent stimuli are in dark and to incongruent stimuli in gray. * p < 0.001 between congruent and vi incongruent stimuli in the same attentional task. ¤ p < 0.001 in comparisons across attentional tasks regardless of congruency. ew 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology Figure 3: Early brain activity was modulated by attention. Top: map of the F-values for the factor attention at 40 ms; significant threshold (p = 0.01) is indicated by the arrow. Bottom: map for each condition left to right: FACE, VOICE, BOTH. Journal of Neurophysiology Multimodal face and voice processing 30 Figure 4: Grand average ERPs for the three tasks. A. ERPs at PO7 (left) and PO8 (right) for the congruent stimuli in each attentional task. FACE: dark gray, VOICE: clear gray, BOTH: black. B. ERPs at FC1 (left) and FC2 (right) illustrating auditory N1, VPP and the shoulder (likely reflecting the auditory P2) for congruent stimuli in the different conditions. Figure 5: N170 (A) at PO9 and VPP (B) at C2 for the 6 conditions. In green: VOICE task, in red: FACE task, in black: BOTH task. Dark coloured traces: congruent stimuli, lighter coloured r Fo traces: incongruent stimuli. C. Effects of attention around 140 ms; the two-way ANOVA was significant in central regions; bottom: map of the F-values, significant threshold (p = 0.01) is indicated by the arrow. D. Modulation of brain activity by congruency around 190 ms; on the Pe right, topographic map of the significant F-values between congruent and incongruent stimuli; er bottom: map of the F-values, significant threshold (p = 0.01) is indicated by the arrow ew vi Re 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 32 of 39 Page 33 of 39 Multimodal face and voice processing 31 Table 1: P1 amplitude as a function of electrode in the different attentional paradigms. Electrodes To Voices (µV) To Faces (µV) To Both (µV) O1/O2 4.827 ± .643 6.018 ± .754 5.431 ± .808 PO3/PO4 5.223 ± .614 5.667 ± .697 4.992 ± .720 PO7/PO8 5.349 ± .642 6.999 ± .559 6.251 ± .723 r Fo er Pe ew vi Re 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology Journal of Neurophysiology Multimodal face and voice processing r Fo er Pe ew vi Re 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 34 of 39 32 Page 35 of 39 r Fo er Pe ew vi Re 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology Journal of Neurophysiology r Fo er Pe ew vi Re 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 36 of 39 Page 37 of 39 r Fo er Pe ew vi Re 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology Journal of Neurophysiology r Fo er Pe ew vi Re 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Page 38 of 39 Page 39 of 39 r Fo er Pe ew vi Re 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Journal of Neurophysiology 314 5. Discussion Cette étude révèle une interaction entre le traitement du visage et celui de la voix. Dans mes études unimodales, la catégorisation du genre des visages et des voix est effectuée respectivement avec des temps de réaction de 550 ms et 700 ms (Latinus & Taylor, soumis) ; avec les stimuli bimodaux congruents, les TR pour la catégorisation du genre sont de 600 et 750 ms lorsque l’attention des sujets est dirigée respectivement vers les visages et les voix. Ces différences ne sont pas significatives. Ainsi, ces résultats révèlent que la présentation simultanée d’une information congruente n’a pas d’impact sur les temps de réaction des sujets. Au contraire, si l’information est incongruente, le traitement du genre est ralenti quelle que soit la modalité sur laquelle est dirigée l’attention (638 et 790 ms pour les visages et les voix respectivement). Ces résultats confirment l’automaticité des interactions bimodales (De Gelder & Vroomen, 2000). Au niveau des pourcentages de réponses correctes, la voix n’influence pas la perception du genre du visage. Le genre du visage paraît donc être traité automatiquement, sans que l’attention soit explicitement dirigée vers le visage. Cette observation est en accord avec une étude, utilisant un paradigme de tâche double, montrant que la discrimination du genre des visages peut se faire en quasi absence d’attention (Reddy et al., 2004). Au contraire, le traitement de la voix ne paraît pas automatique ; il est en effet nettement influençable par la présentation simultanée d’un visage. Ces résultats mettent en évidence que, lorsqu’il s’agit de percevoir le genre d’un individu, les informations visuelles dominent les informations auditives ; dans cette tâche tous les sujets répondent d’ailleurs plus rapidement lorsqu’il s’agit de discriminer le genre du visage. Au niveau électrophysiologique, le pattern des potentiels évoqués est similaire à celui enregistré quand des visages sont présentés seuls. Cette observation confirme le traitement automatique des visages, et démontre la quasi impossibilité d’inhiber un tel traitement. Mes données permettent également de montrer que les effets précoces observés sont liés à l’attention des sujets. L’attention dirigée vers les visages conduit à une topographie qui serait similaire à celle observée dans les études unimodales de la perception des visages. Au contraire, diriger l’attention vers la voix induit une activité cérébrale plus représentative d’un traitement auditif. Lorsque la tâche est de juger de la congruence de la voix et du visage, la topographie est similaire à celle évoquée dans la tâche requérant la catégorisation du genre de la voix. Lorsque les sujets doivent déterminer la congruence des deux informations, le traitement des informations visuelles et auditives est nécessaire mais le traitement de l’information auditive est favorisé parce qu’il s’agit de la modalité non dominante. Cette 315 hypothèse serait en accord avec les résultats observés dans les études de Giard & Perronnet (1999) et Fort et al. (2000a) qui montrent que l’activité augmente dans les cortex sensoriels primaires de la modalité non dominante. L’attention des sujets module également l’activité cérébrale à la latence du complexe P1 visuelle/ N1 auditive. La P1 est plus ample lorsque l’attention des sujets est dirigée vers le visage que lorsqu’elle est dirigée vers la voix ; la N1, elle, n’est pas modulée par l’attention des sujets. Ce résultat pourrait traduire une « volonté » d’inhiber les traitements visuels lorsque les sujets doivent catégoriser le genre de la voix ; inhibition qui ne serait pas très efficace, la P1 étant malgré tout plus ample. Ces différents résultats suggèrent que les modulations précoces observées dans les études ayant exploré la multimodalité pourraient refléter des influences descendantes. Par exemple, dans l’étude de Giard & Perronnet (1999), les sujets n’ont pas de consignes spécifiques sur la modalité attendue, néanmoins, les informations visuelles et auditives sont redondantes, et ils peuvent avoir « décidé » de fixer leur attention sur leur modalité dominante. Ainsi les sujets auditifs, pour lesquels le traitement auditif est plus facile, amplifieraient les traitements dans le cortex visuel et vice versa. Les stimuli congruents et incongruents induisent une activité différente sur les électrodes fronto-temporales droites, 190 ms après la stimulation. Ce résultat est en accord avec les observations décrites dans l’équipe de MH Giard (Fort et al., 2002a, b; Giard & Peronnet, 1999). Cependant, ces auteurs suggèrent que cette activité traduit la simple détection de stimuli bimodaux ; or, dans mes études, elle distingue les stimuli congruents des stimuli incongruents. Ainsi, l’intégration d’informations en provenance de nos différents sens pourrait avoir lieu à cette latence. La localisation de cette activité sur les électrodes frontotemporales suggère que la source de cette activité pourrait être l’insula (Fort et al., 2002a, b). L’hypothèse de la localisation de la source de cette activité dans l’insula ou le gyrus frontal inférieur est soutenue par les études en IRMf montrant que ces régions présentent une activité différente pour les stimuli congruents et incongruents (Calvert et al., 2000). Dans l’hémisphère gauche, l’insula et le gyrus frontal inférieur sont considérés comme étant impliqués dans la manipulation des représentations linguistiques sémantiques (Sestieri et al., 2006). Dans l’hémisphère droit, ces régions pourraient être impliquées dans l’association sémantique de stimuli multisensoriels non langagiers. Cette étude a montré que les interactions entre modalités sont asymétriques. L’asymétrie entre modalités, c’est à dire la dominance sensorielle, n’avait pour l’instant été démontrée que dans des tâches demandant un traitement des aspects temporels ou spatiaux 316 d’une stimulation. Mon étude montre qu’une asymétrie existe également dans la perception des « objets ». L’existence d’une asymétrie entre la perception des visages et des voix suggère également que le traitement des visages et des voix est différent : les visages paraissent être traités de façon plus automatique que les voix. Cependant, cette asymétrie pourrait résulter des caractéristiques propres aux stimuli visuels et auditifs. Dans mon étude, les visages sont statiques et les stimuli auditifs sont, par définition, dynamiques. L’information visuelle est donc disponible immédiatement, alors que l’information auditive n’est disponible qu’au fur et à mesure de la présentation du stimulus. L’asymétrie, et donc la dominance sensorielle, pourrait résulter de la quantité d’informations disponibles à la présentation du stimulus. Cette différence dans les quantités d’informations disponibles est néanmoins inhérente à la multimodalité, les caractéristiques temporelles des informations visuelles et auditives n’étant pas les mêmes. Mon étude met également en évidence le rôle primordial de l’attention dans les interactions multimodales (attention dirigée vers une modalité particulière) ; l’attention semble responsable des effets précoces de la bimodalité. Les interactions bimodales, à proprement parler, c’est à dire celles conduisant à la perception d’une congruence (ou d’une incongruence), semblent prendre place plus tardivement, autour de 190 ms. 317 318 Après-propos Dans les pages précédentes, nous avons exploré le traitement des visages et des voix ainsi que les interactions entre ces traitements. La voix est le pendant auditif du visage ; ils véhiculent tous deux des informations sur les personnes etc. Mes études tendent à démontrer que, bien que la voix et le visage véhiculent le même type d’informations, la perception des voix n’est pas tout à fait similaire à celle des visages. Je suppose que cette différence vient de l’utilisation courante faite de ces deux stimuli : les visages servent, en premier lieu, à l’identification de nos interlocuteurs, alors que la voix est primordiale dans la communication orale. L’utilisation différente que nous faisons des informations issues du visage et de la voix pourrait conduire à ce que les traitements automatiques qu’ils mettent en jeu ne soient pas dédiés à l’extraction des mêmes informations. Mes études sur la perception des visages m’ont permis d’explorer le décours temporel du traitement des visages, de leur détection à leur identification. La perception d’un visage commence, comme celle de tout autre stimulus visuel, par l’extraction des informations de bas niveau : luminance, contraste, orientation… ces informations parviennent au cortex visuel en 40 à 50 ms, d’après les enregistrements chez le macaque (Celebrini et al., 1993). Les différentes études que j’ai réalisées sur le traitement des visages m’ont permis de proposer un modèle de la reconnaissance des visages mettant en jeu les trois étapes décrites par Maurer et al. (2002). Ce modèle est présenté en détail dans la discussion de la première partie ; les grandes lignes en sont rappelées ci dessous. La première étape du traitement des visages, qui pourrait commencer dès 100 ms après la stimulation, est l’extraction de la configuration de premier ordre, c’est à dire la configuration générique du visage ; le visage est alors détecté, mais pas reconnu. A la suite de l’extraction de la configuration de premier ordre, le traitement holistique est mis en œuvre ; les informations sur les liens spatiaux unissant les différents élements, et les informations de plus bas niveau (texture, couleur etc.), sont intégrées dans une représentation du visage perçu. Ce pattern est ensuite comparé aux gestalts stockés en mémoire. Si une correspondance est trouvée entre le pattern construit et un des gestalts stockés, l’accès aux informations biographiques est rendu possible ; dans une étape ultérieure, le nom sera accessible. Au contraire, si la comparaison s’avère nulle, les relations spatiales entre les éléments sont extraites du gestalt via le traitement configural de second ordre ; commence alors l’encodage de ce nouveau visage. Après plusieurs expositions à ce nouveau 319 visage, une représentation sera construite et stockée en mémoire où elle sera associée à des informations biographiques. En plus de l’identité, le visage véhicule des informations sur le genre. Dans les modèles existant, la perception du genre a été considérée comme basée sur des informations visuelles d’assez bas niveau, et donc négligée (Bruce & Young, 1986). En utilisant des visages normaux, j’ai montré que la discrimination du genre a lieu quasi simultanément au traitement holistique dans des régions frontales. Le traitement du genre semble prendre place en parallèle du traitement de l’identité. Le genre est un élement important extrait d’un visage ; il est donc nécessaire de l’intégrer au modèle de la reconnaissance des visages. Le traitement de la voix commence, lui aussi, par l’extraction d’informations bas niveau telles que les différentes fréquences du son. Par la suite, des informations de plus haut niveau vont être extraites lors de l’analyse structurelle de la voix ; ces informations peuvent être les transitions formantiques, la dynamique temporelle du son etc. Le genre de la voix est reconnu en partie grâce à des informations bas niveau ; de nombreuse études montrent en effet que la hauteur de la voix est l’élément fondamental de la reconnaissance du genre (Andrews & Schmidt, 1997; Mullennix et al., 1995). Mon étude montre, cependant, que la fréquence fondamentale n’est pas nécessaire à la perception du genre ; en effet, même lorsque la hauteur de la voix n’est plus un indice pertinent, les sujets discriminent les voix d’hommes et de femmes à un niveau bien supérieur à celui de la chance. D’autres informations sont donc utilisées dans la reconnaissance du genre de la voix, informations qui ne sont pas modifiées lorsque la voix est forcée vers le grave ou l’aigu ; une de ces informations pourrait être la dynamique temporelle de la voix (Andrews & Schmidt, 1997). Ainsi, dans les modèles de perception de la voix, il est également indispensable de décrire la perception du genre. Mes études sur la perception du genre de la voix et du visage mettent en évidence une différence au niveau des temps de réaction des sujets, mais également au niveau de l’activité cérébrale sous-tendant le traitement du genre. Il semble donc que la perception des visages et des voix ne fonctionne pas de façon tout à fait similaire ; les TR sont bien plus courts pour les visages. Un modèle comparatif du traitement visuel et auditif du genre devra tenir compte de ces différences. Cette asymétrie entre traitement des visages et traitement des voix est également apparente dans la reconnaissance du genre sur les stimuli bimodaux ; le genre du visage influence plus la reconnaissance du genre de la voix que l’inverse. Même si cette différence 320 pourrait être liée au fait que les visages présentés sont des images statiques et que les voix sont des stimuli dynamiques (voir discussion à la suite de la partie « voix »), il n’empêche que dans des conditions réelles, les informations visuelles sur le genre d’un individu sont disponibles immédiatement ce qui n’est pas le cas des informations auditives. Cette observation suggère donc une différence entre le poids des modalités sensorielles en fonction de la nature des stimuli, mais également de la tâche à réaliser sur ces stimuli. Cette différence est également à prendre en compte dans les modèles de la perception des voix et des visages. En résumé, les modèles existant aujourd’hui proposent une similarité entre traitement des visages et traitement des voix. Ils ne tiennent cependant pas compte du traitement du genre, et de l’importance relative des informations véhiculées par le visage ou la voix. Le rôle primordial de la voix est de véhiculer le langage ; les temps de réaction des sujets sont d’ailleurs plus courts lorsqu’ils jugent le contenu sémantique d’une voix que lorsqu’ils doivent identifier le locuteur (von Kriegstein et al., 2003). Au contraire, le traitement des visages est orienté vers la perception de l’identité. De telles différences entre les informations principalement extraites de ces stimulus supposent que les systèmes auditif et visuel vont être orientés de façon à optimiser les traitements les plus courants. La spécialisation des systèmes sensoriels pour le traitement de certaines informations peut conduire à ce que le traitement des voix et des visages soit différent et donc, induire une asymétrie des interactions bimodales. Je propose donc un modèle de la reconnaissance des visages et des voix qui intègre les différents résultats recueillis au cour de ma thèse (Figure 43). 321 Figure 43. Modèle de la reconnaissance des voix et des visages adapté de Belin et al. 2004 et Bruce & Young (1986).Dans ce modèle, le traitement des visages est symbolisé en rouge, le traitement des voix en bleu. L'épaisseur des flèches détermine les informations prioritaires extraites du stimulus. Dans les boites, les photos illustrent les prototypes stockés en mémoire (Issu de Schyns et al. (2002)). Les fleches violettes indiquent les interactions intermodales, et la dominance sensorielle. Le trait en pointillé représente une séparation entre les processus qui ont fait l'objet de cette thèse (au dessus du trait) et ceux qui n'ont pas été directement testés (en dessous). 322 Ce modèle résume les conclusions tirées de mes études ; il propose également de nouvelles hypothèses qui n’ont pas été testées. La reconnaissance des voix et des visages a lieu en parallèle ; ces deux voies peuvent néanmoins interagir. Ce modèle part de l’hypothèse selon laquelle les traitements effectués sur un stimulus seront optimisés pour leur utilisation la plus courante : la perception des informations jouant un rôle dans la communication non verbale – l’identité, le genre, les émotions – pour les visages, la perception du langage pour la voix. La perception des visages Précédemment, nous avons vu que la reconnaissance du visage s’effectue en plusieurs étapes ; deux étapes sont nécessaires à la construction d’une représentation globale du visage. Cette représentation est ensuite comparée aux gestalts stockés en mémoire ; la reconnaissance a lieu lorsque la représentation correspond à un gestalt existant (Figure 43). En parallèle de l’extraction de l’identité du visage, d’autres traitements peuvent avoir lieu : perception du genre, des émotions, du langage via la lecture labiale. La représentation extraite du visage va également être comparée à des gestalts du genre, et de l’émotion. En effet, il a été montré que la perception du genre du visage est un processus catégoriel, suggérant l’existence de prototypes féminin et masculin (Campanella et al., 2001). De plus, la perception du genre est perturbée sur des visages chimériques contenant pour moitié un visage d’homme et pour l’autre un visage de femme, démontrant qu’elle dépend en partie du traitement holistique (Baudouin & Humphreys, 2006). Il est également admis que la reconnaissance du genre est basée sur les caractéristiques de certains éléments du visage, révélant l’importance des éléments du visage (Roberts & Bruce, 1988; Yamaguchi et al., 1995). Ces différentes données suggèrent que les représentations prototypiques du genre du visage passent par une représentation globale dont certains éléments seront accentués, par exemple, la longueur des cheveux, la forme des yeux etc. ; les informations spatiales seront, au contraire, négligées. Ainsi, le genre serait reconnu via une comparaison entre le pattern extrait et les gestalts du « genre » stockés en mémoire. La reconnaissance du genre serait donc plus rapide que la reconnaissance de l’individu, car elle ne nécessite pas que la représentation extraite du visage soit complète ; elle ne sera par ailleurs comparée qu’à deux gestalts existants. Ainsi, la reconnaissance du genre pourrait avoir lieu peu après le commencement du traitement holistique. De la même façon, un certain nombre de gestalts émotionnels pourraient exister, qui présenteraient également une accentuation de certains traits, notamment la bouche ou les yeux selon l’émotion. L’hypothèse de l’existence de 323 gestalts particuliers, dans lesquels certains éléments sont plus marqués que d’autres, pour les émotions et la perception du genre est appuyée par les études de Schyns et ses collaborateurs (2001, 2002, 2006). Ils ont développé une technique, la technique des « bulles », qui permet de révéler quels sont les éléments d’un visage les plus déterminants pour l’identification, la reconnaissance du genre ou de l’expression émotionnelle. Les résultats révèlent que l’identification d’un visage nécessite une représentation complète de la configuration du visage. Au contraire, la perception du genre requiert moins d’informations ; elle passe essentiellement par la bouche et les yeux. Le pattern émotionnel présente une accentuation au niveau de la bouche (par exemple pour juger la joie ou la surprise) ou des yeux (pour juger la peur ou la colère) (Figure 43, photos dans les boîtes) (Gosselin & Schyns, 2001; Schyns et al., 2002; Sowden & Schyns, 2006). La reconnaissance du genre et des émotions semble donc mettre en jeu le traitement configural et une partie du traitement holistique, afin de construire un gestalt qui sera comparé aux prototypes stockés en mémoire, dans lesquels certains traits caractéristiques sont accentués. Ces différents traitements du visage seraient effectués en parallèle, par des réseaux cérébraux distincts. Bien qu’elles ne soient pas représentées dans mon modèle, il existe également des interactions intramodales entre les différentes voies de traitement. Ceci est, par exemple, démontré dans les études révélant une facilitation dans la perception du genre pour les visages familiers (Dubois et al., 1999), ce qui suggère qu’il pourrait y avoir interaction entre les traitements de l’identité et du genre. La lecture labiale serait également effectuée en parallèle de l’extraction du genre, de l’émotion ou de l’identité du visage. Pour la lecture labiale, la bouche seule suffit à décoder les informations ; le traitement holistique n’est pas forcément nécessaire, même s’il a probablement lieu en condition normale. La compréhension du langage ne passe que très peu par les informations visuelles ; la capacité des sujets à lire sur les lèvres est en effet très faible. Dans ce domaine, le système auditif prévaut sur le système visuel. Ainsi, la lecture labiale n’est pas une opération primordiale effectuée sur le visage ; je suppose donc que les traitements sous-tendant la lecture labiale sont différents de ceux permettant la reconnaissance de l’identité, du genre ou des émotions. Il est également important de noter que la lecture labiale, contrairement à la reconnaissance de l’identité et du genre, est un processus dynamique ; cette différence peut également avoir des conséquences sur les traitements mis en jeu. Il serait nécessaire d’approfondir les recherches sur la perception du discours via la lecture labiale, afin de comprendre quelles informations sont nécessaires à la lecture labiale, et si elle passe ou non par le traitement holistique du visage. 324 La perception des voix La voix est particulièrement importante pour la communication verbale ; son rôle est avant tout de véhiculer le langage articulé. Je suggère donc que l’analyse structurelle de la voix est orientée vers l’extraction d’une structure permettant la perception du discours et non vers la perception des informations paralinguistiques. Sous l’hypothèse d’une similarité entre traitement des visages et traitement des voix, on peut penser que, suite à l’analyse structurelle, un prototype vocal va être extrait dont les informations principales permettraient la perception du langage. Les informations linguistiques portées par la voix sont traitées dans une voie principale et parallèle aux autres. Le propotype vocal issu de l’analyse structurelle contiendrait également les informations nécessaires à la reconnaissance de la voix telles que les informations spectrales, et temporelles ainsi que celles sur les transitions formantiques. Des différences minimes dans ce schéma commun détermineraient l’unicité de la voix. De nombreuses études montrent par ailleurs que la reconnaissance de la voix, la perception du genre et la perception des émotions vocales reposent sur des informations bas niveau telles que la fréquence fondamentale ou les fréquences des formants. Néanmoins, il est démontré que la reconnaissance du genre de la voix est un processus catégoriel (Belin et al., 2006; Charest et al., 2005; Chartrand et al., 2005), suggérant donc l’existence de prototypes vocaux représentant le genre de la voix. Ces observations suggèrent une organisation de la perception des voix similaire à celle des visages, dans la perception des informations paralinguistiques, même si elles ne sont pas les informations principales extraites de la voix. Le prototype construit à partir de la voix perçue, dont la création est influencée par les informations linguistiques, sera comparé à des gestalts stockés en mémoire dont certains éléments seraient accentués. Dans la cas de la perception du genre de la voix, les éléments marqués seraient la fréquence fondamentale et la dynamique temporelle. Nous avons, en effet, vu précédemment que ces deux informations sont importantes dans la perception du genre (Andrews & Schmidt, 1997; Murry & Singh, 1980). En parallèle du traitement du genre, une voie pourrait être impliquée dans la reconnaissance de l’identité, mettant en jeu des gestalts stockés en mémoire dont d’autres informations seraient accentuées. Suite à la reconnaissance, la voix serait associée à des informations biographiques sur le locuteur dans des modules de reconnaissance de la personne supramodaux. Nous sommes également capables d’inférer les émotions exprimées par un individu à partir de sa voix. Les informations vocales résident dans la fréquence fondamentale de la voix mais également dans la prosodie : la dynamique temporelle du son. 325 Les voix exprimant la tristesse sont en général plus graves et plus lentes que les voix exprimant la joie (De Gelder & Vroomen, 2000). Le prototype vocal émotionnel contiendrait donc une combinaison d’informations spectrales et temporelles. En résumé, l’analyse structurelle de la voix pourrait permettre la construction d’un prototype axée sur le traitement des informations linguistiques. Ce prototype contiendrait également les informations nécessaires à l’extraction des informations paralinguistiques de la voix. C’est pourquoi dans ce modèle, je propose que les informations comparées aux gestalts soient issues de l’analyse structurelle de la voix. Par ailleurs, il est important de mentionner que ces voies interagissent ; le genre détermine, par exemple, les informations qui vont être utilisées pour la reconnaissance du locuteur. L’articulation du langage influence également de façon notoire la reconnaissance de la voix. Les connaissances accumulées ces dernières années améliorent notre compréhension des processus cérébraux sous-tendant la perception des voix ; néanmoins, des études supplémentaires seraient nécessaires afin de comprendre quels mécanismes sous-tendent l’étape fondamentale de l’analyse structurelle de la voix. Interaction entre la perception des visages et celle des voix Les résultats de mes études unimodales et bimodales mettent en évidence une asymétrie entre le traitement du genre de la voix et du visage. L’information portée par le visage paraît avoir plus de poids que celle portée par la voix. A partir de cette observation, je propose que l’asymétrie entre voix et visage résulte de la spécialisation des systèmes auditif et visuel dans les traitements de la voix et du visage. Le système auditif est spécialisé dans l’analyse du langage ; il serait donc la modalité dominante dans la compréhension du langage. Néanmoins, l’existence de l’effet McGurk montre que les informations visuelles influencent également la compréhension des informations auditives. A ma connaissance, l’effet McGurk n’est observé que lorsque les sujets portent leur attention sur les informations labiales ; ainsi, cela suggère que l’influence de la voix sur le visage dans le domaine de la parole pourrait être automatique, alors que l’inverse dépendrait d’une orientation « volontaire » vers le visage. Une autre hypothèse qui pourrait expliquer que les informations visuelles influencent la perception auditive serait que dans le cas du langage, les informations visuelles et auditives sont disponibles en même temps ; ceci pourrait justifier la reciprocité entre les interactions bimodales. Cette hypothèse est soutenue par les études montrant que lorsque la dynamique temporelle du mouvement des lèvres ne coincide par avec celle de la voix, l’effet McGurk est aboli (Munhall et al., 1996). 326 Le système visuel est, quant à lui, spécialisé dans la reconnaissance de l’identité ; je suppose donc que, dans ce cas, les informations visuelles vont avoir un rôle plus important dans la reconnaissance d’un individu. Les interactions multimodales seront donc en premier lieu gouvernées par les informations visuelles. En ce qui concerne la reconnaissance des émotions, il serait interessant d’étudier l’influence de la bimodalité en utilisant des visages dynamiques. En effet, les observations précédentes, à savoir l’influence du visage dans la perception du genre ou de l’identité, peuvent être la conséquence du moment auquel les informations sont disponibles : les informations visuelles sont disponibles immédiatement, ce qui n’est pas le cas des informations auditives. Dans le domaine émotionnel, bien qu’un visage émotionnel puisse être statique, la génération d’une expression faciale est en général un phénomène dynamique. Ainsi, comme dans le langage, les informations visuelles et auditives varient au cours du temps, et sont en général disponibles au même moment. Ce modèle est issu de l’analyse des données recuillies au cours de ma thèse. Il suggère des similarités entre traitement de la voix et traitement du visage, mais également une différence importante liée aux opérations effectuées en priorité sur ces deux stimuli. Le modèle illustre également les interactions entre les traitements engagés par les visages et les voix. Mes données ont révélé que la perception bimodale du genre est asymétrique. Deux hypothèses peuvent expliquer cette différence : l’occurrence des informations et la dominance sensorielle à proprement parler. Il est difficile de séparer ces deux facteurs en étudiant la reconnaissance de l’identité ou la perception du genre. Néanmoins, l’étude des émotions et du langage sur des stimuli bimodaux dynamiques pourrait permettre de séparer ces deux facteurs. En effet, les informations linguistiques et émotionnelles sont dynamiques et ainsi, elles seront disponibles quasi simultanément dans les deux systèmes sensoriels. Les résultats d’une telle étude permettraient de révéler si la disponibilité des informations détermine la dominance sensorielle, ou si c’est l’importance relative des traitements effectués dans chaque modalité qui influence la dominance sensorielle. 327 328 Références Aguirre, G. K., Singh, R., D'Esposito, M., (1999). Stimulus inversion and the responses of face and object-sensitive cortical areas. Neuroreport. 10, 189-94. Aguirre, G. K., Zarahn, E., D'Esposito, M., (1998). An area within human ventral cortex sensitive to "building" stimuli: evidence and implications. Neuron. 21, 373-83. Alain, C., Arnott, S. R., Hevenor, S., Graham, S., Grady, C. L., (2001). "What" and "where" in the human auditory system. Proc Natl Acad Sci U S A. 98, 12301-6. Alho, K., Sams, M., Paavilainen, P., Naatanen, R., (1986). Small pitch separation and the selective-attention effect on the ERP. Psychophysiology. 23, 189-97. Alho, K., Teder, W., Lavikainen, J., Naatanen, R., (1994). Strongly focused attention and auditory event-related potentials. Biol Psychol. 38, 73-90. Allison, T., McCarthy, G., Nobre, A., Puce, A., Belger, A., (1994). Human extrastriate visual cortex and the perception of faces, words, numbers, and colors. Cerebral Cortex. 5, 544-554. Allison, T., Puce, A., McCarthy, G., (2000). Social perception from visual cues: role of the STS region. Trends Cogn Sci. 4, 267-278. Allison, T., Puce, A., Spencer, D. D., McCarthy, G., (1999). Electrophysiological studies of human face perception. I: Potentials generated in occipitotemporal cortex by face and non-face stimuli. Cerebral Cortex. 9, 415-30. Amedi, A., von Kriegstein, K., van Atteveldt, N. M., Beauchamp, M. S., Naumer, M. J., (2005). Functional imaging of human crossmodal identification and object recognition. Exp Brain Res. 166, 559-71. Andersen, T. S., Tiippana, K., Sams, M., (2004). Factors influencing audiovisual fission and fusion illusions. Brain Res Cogn Brain Res. 21, 301-8. Andrews, M. L., Schmidt, C. P., (1997). Gender presentation: perceptual and acoustical analyses of voice. J Voice. 11, 307-13. Anllo-Vento, L., Luck, S. J., Hillyard, S. A., (1998). Spatio-temporal dynamics of attention to color: evidence from human electrophysiology. Hum Brain Mapp. 6, 216-38. Aschersleben, G., Bertelson, P., (2003). Temporal ventriloquism: crossmodal interaction on the time dimension. 2. Evidence from sensorimotor synchronization. Int J Psychophysiol. 50, 157-63. Bacon-Macé, N. M., Temporal constraints of visual processing in a categorisation task of natural scenes (French thesis). Centre de recherche cerveau et cogition. Université Paul Sabatier, Toulouse, 2006, pp. 189. Baron-Cohen, S., Harrison, J., Goldstein, L. H., Wyke, M., (1993). Coloured speech perception: is synaesthesia what happens when modularity breaks down? Perception. 22, 419-26. Barrett, D. J., Hall, D. A., (2006). Response preferences for "what" and "where" in human non-primary auditory cortex. Neuroimage. 32, 968-77. Bartlett, J. C., Searcy, J., (1993). Inversion and configuration of faces. Cognit Psychol. 25, 281-316. Bartlett, J. C., Searcy, J. H., Abdi, H., What are the routes to face recognition? In: M. A. Peterson, G. Rhodes, Eds., Perception of faces objects and scene. vol. Oxford University Press, 2003, pp. 21-53. 329 Barton, J. J., Keenan, J. P., Bass, T., (2001). Discrimination of spatial relations and features in faces: effects of inversion and viewing duration. Br J Psychol. 92, 527-49. Barton, R. A., (2006). Animal communication: do dolphins have names? Curr Biol. 16, R5989. Batty, M., Delaux, S., Taylor, M. J., Early neurophysiological effects in the explicit and implicit processing of facial emotions. The social brain, Götberg, Sweden, 2003. Baudouin, J. Y., Humphreys, G. W., (2006). Configural information in gender categorisation. Perception. 35, 531-40. Bayle, D., Latinus, M., Bohler, K., Deltheil, T., Taylor, M. J., (Soumis). Early processing differences between learned and famous faces. Brain and Cognition. Beauchamp, M. S., Lee, K. E., Argall, B. D., Martin, A., (2004). Integration of auditory and visual information about objects in superior temporal sulcus. Neuron. 41, 809-23. Beauchemin, M., De Beaumont, L., Vannasing, P., Turcotte, A., Arcand, C., Belin, P., Lassonde, M., (2006). Electrophysiological markers of voice familiarity. Eur J Neurosci. 23, 3081-6. Bedard, C., Belin, P., (2004). A "voice inversion effect?" Brain Cogn. 55, 247-9. Bee, M. A., Gerhardt, H. C., (2002). Individual voice recognition in a territorial frog (Rana catesbeiana). Proc Biol Sci. 269, 1443-8. Belin, P., Fecteau, S., Bedard, C., (2004). Thinking the voice: neural correlates of voice perception. Trends Cogn Sci. 8, 129-35. Belin, P., Pernet, C., Chartrand, J. P., The cerebral representation of voice gender. Auditory Cortex, Grantham, UK, 2006. Belin, P., Zatorre, R. J., (2000). 'What', 'where' and 'how' in auditory cortex. Nat Neurosci. 3, 965-6. Belin, P., Zatorre, R. J., (2003). Adaptation to speaker's voice in right anterior temporal lobe. Neuroreport. 14, 2105-9. Belin, P., Zatorre, R. J., Ahad, P., (2002). Human temporal-lobe response to vocal sounds. Brain Res Cogn Brain Res. 13, 17-26. Belin, P., Zatorre, R. J., Lafaille, P., Ahad, P., Pike, B., (2000). Voice-selective areas in human auditory cortex. Nature. 403, 309-12. Belin, P., Zilbovicius, M., Crozier, S., Thivard, L., Fontaine, A., Masure, M. C., Samson, Y., (1998). Lateralization of speech and auditory temporal processing. J Cogn Neurosci. 10, 536-40. Bentin, S., Allison, T., Puce, A., Perez, E., Mccarthy, G., (1996). Electrophysiological Studies of Face Perception in Humans. Journal of Cognitive Neuroscience. 8, 551-565. Bentin, S., Deouell, L., (2000). Structural encoding and face identification in face processing: ERP evidence for separate mechanisms. Journal of Cognitive Neuropsychology. 17, 35-54. Bentin, S., Golland, Y., (2002). Meaningful processing of meaningless stimuli: the influence of perceptual experience on early visual processing of faces. Cognition. 86, B1-14. Bertelson, P., Aschersleben, G., (2003). Temporal ventriloquism: crossmodal interaction on the time dimension. 1. Evidence from auditory-visual temporal order judgment. Int J Psychophysiol. 50, 147-55. Bertelson, P., Radeau, M., (1981). Cross-modal bias and perceptual fusion with auditoryvisual spatial discordance. Percept Psychophys. 29, 578-84. Bertelson, P., Vroomen, J., de Gelder, B., Driver, J., (2000). The ventriloquist effect does not depend on the direction of deliberate visual attention. Percept Psychophys. 62, 321-32. Besle, J., Fort, A., Delpuech, C., Giard, M. H., (2004). Bimodal speech: early suppressive visual effects in human auditory cortex. Eur J Neurosci. 20, 2225-34. 330 Binder, J. R., Frost, J. A., Hammeke, T. A., Cox, R. W., Rao, S. M., Prieto, T., (1997). Human brain language areas identified by functional magnetic resonance imaging. J Neurosci. 17, 353-62. Binder, J. R., Frost, J. A., Hammeke, T. A., Rao, S. M., Cox, R. W., (1996). Function of the left planum temporale in auditory and linguistic processing. Brain. 119 ( Pt 4), 123947. Bodamer, J., (1947). Die-Prosop-agnosie. Arch Psychiat Nerv 179, 6-54. Botzel, K., Schulze, S., Stodieck, S. R., (1995). Scalp topography and analysis of intracranial sources of face-evoked potentials. Experimental Brain Research. 104, 135-43. Boutsen, L., Humphreys, G. W., (2003). The effect of inversion on the encoding of normal and "thatcherized" faces. Q J Exp Psychol A. 56, 955-75. Boutsen, L., Humphreys, G. W., Praamstra, P., Warbrick, T., (2006). Comparing neural correlates of configural processing in faces and objects: an ERP study of the Thatcher illusion. Neuroimage. 32, 352-67. Bremmer, F., Schlack, A., Shah, N. J., Zafiris, O., Kubischik, M., Hoffmann, K., Zilles, K., Fink, G. R., (2001). Polymodal motion processing in posterior parietal and premotor cortex: a human fMRI study strongly implies equivalencies between humans and monkeys. Neuron. 29, 287-96. Bruce, V., Burton, A. M., Hanna, E., Healey, P., Mason, O., Coombes, A., Fright, R., Linney, A., (1993). Sex discrimination: how do we tell the difference between male and female faces? Perception. 22, 131-52. Bruce, V., Ellis, H., Gibling, F., Young, A., (1987). Parallel processing of the sex and familiarity of faces. Can J Psychol. 41, 510-20. Bruce, V., Langton, S., (1994). The use of pigmentation and shading information in recognising the sex and identities of faces. Perception. 23, 803-22. Bruce, V., Young, A., (1986). Understanding face recognition. Br J Psychol. 77 ( Pt 3), 30527. Brunetti, M., Belardinelli, P., Caulo, M., Del Gratta, C., Della Penna, S., Ferretti, A., Lucci, G., Moretti, A., Pizzella, V., Tartaro, A., Torquati, K., Olivetti Belardinelli, M., Romani, G. L., (2005). Human brain activation during passive listening to sounds from different locations: an fMRI and MEG study. Hum Brain Mapp. 26, 251-61. Bushara, K. O., Grafman, J., Hallett, M., (2001). Neural correlates of auditory-visual stimulus onset asynchrony detection. J Neurosci. 21, 300-4. Bushara, K. O., Hanakawa, T., Immisch, I., Toma, K., Kansaku, K., Hallett, M., (2003). Neural correlates of cross-modal binding. Nat Neurosci. 6, 190-5. Bushara, K. O., Weeks, R. A., Ishii, K., Catalan, M. J., Tian, B., Rauschecker, J. P., Hallett, M., (1999). Modality-specific frontal and parietal areas for auditory and visual spatial localization in humans. Nat Neurosci. 2, 759-66. Caharel, S., Courtay, N., Bernard, C., Lalonde, R., Rebai, M., (2005). Familiarity and emotional expression influence an early stage of face processing: an electrophysiological study. Brain Cogn. 59, 96-100. Caharel, S., Fiori, N., Bernard, C., Lalonde, R., Rebai, M., (2006). The effects of inversion and eye displacements of familiar and unknown faces on early and late-stage ERPs. Int J Psychophysiol. 62, 141-51. Caharel, S., Poiroux, S., Bernard, C., Thibaut, F., Lalonde, R., Rebai, M., (2002). ERPs associated with familiarity and degree of familiarity during face recognition. Int J Neurosci. 112, 1499-512. Caldara, R., Thut, G., Servoir, P., Michel, C. M., Bovet, P., Renault, B., (2003). Face versus non-face object perception and the 'other-race' effect: a spatio-temporal event-related potential study. Clin Neurophysiol. 114, 515-28. 331 Callan, D. E., Jones, J. A., Munhall, K., Callan, A. M., Kroos, C., Vatikiotis-Bateson, E., (2003). Neural processes underlying perceptual enhancement by visual speech gestures. Neuroreport. 14, 2213-8. Calvert, G. A., (2001). Crossmodal processing in the human brain: insights from functional neuroimaging studies. Cereb Cortex. 11, 1110-23. Calvert, G. A., Brammer, M. J., Bullmore, E. T., Campbell, R., Iversen, S. D., David, A. S., (1999). Response amplification in sensory-specific cortices during crossmodal binding. Neuroreport. 10, 2619-23. Calvert, G. A., Brammer, M. J., Iversen, S. D., (1998). Crossmodal identification. Trends Cogn Sci. 2, 247-253. Calvert, G. A., Campbell, R., Brammer, M. J., (2000). Evidence from functional magnetic resonance imaging of crossmodal binding in the human heteromodal cortex. Curr Biol. 10, 649-57. Calvert, G. A., Hansen, P. C., Iversen, S. D., Brammer, M. J., (2001). Detection of audiovisual integration sites in humans by application of electrophysiological criteria to the BOLD effect. Neuroimage. 14, 427-38. Calvert, G. A., Thesen, T., (2004). Multisensory integration: methodological approaches and emerging principles in the human brain. J Physiol Paris. 98, 191-205. Campanella, S., Chrysochoos, A., Bruyer, R., (2001). Categorical perception of facial gender information : Behavioural evidence and the face-space metaphor. Visual Cognition. 8, 237-262. Campanella, S., Hanoteau, C., Depy, D., Rossion, B., Bruyer, R., Crommelinck, M., Guerit, J. M., (2000). Right N170 modulation in a face discrimination task: an account for categorical perception of familiar faces. Psychophysiology. 37, 796-806. Campanella, S., Quinet, P., Bruyer, R., Crommelinck, M., Guerit, J. M., (2002). Categorical perception of happiness and fear facial expressions: an ERP study. J Cogn Neurosci. 14, 210-27. Cappe, C., Barone, P., (2005). Heteromodal connections supporting multisensory integration at low levels of cortical processing in the monkey. Eur J Neurosci. 22, 2886-902. Carmel, D., Bentin, S., (2002). Domain specificity versus expertise: factors influencing distinct processing of faces. Cognition. 83, 1-29. Celebrini, S., Thorpe, S., Trotter, Y., Imbert, M., (1993). Dynamics of orientation coding in area V1 of the awake primate. Vis Neurosci. 10, 811-25. Chao, L. L., Martin, A., Haxby, J. V., (1999). Are face-responsive regions selective only for faces? Neuroreport. 10, 2945-50. Charest, I., Pelletier, I., Fillion-Bilodeau, S., Belizaire, G., Chartrand, J. P., Pinard, C., Bertrand-Gauvin, C., Belin, P., Neural correlates of voice gender perception: an eventrelated fMRI study. Human Brain Mapping. The Organisation for Human Brain Mapping, Toronto, Ontario, Canada, 2005. Chartrand, J. P., Pinard, C., Fillion-Bilodeau, S., Bertrand-Gauvin, C., Belin, P., The effect of ‘genderness’ on STS voice selective activation., Human Brain Mapping. The organisation for Human Brain Mapping, Toronto, Ontario, Canada, 2005. Clark, V. P., Keil, K., Maisog, J. M., Courtney, S., Ungerleider, L. G., Haxby, J. V., (1996). Functional magnetic resonance imaging of human visual cortex during face matching: a comparison with positron emission tomography. Neuroimage. 4, 1-15. Cohen, L., (2004). L'homme thermomètre. Le cerveau en pièce détachée, vol. Odile Jacob Sciences, Paris. Crottaz-Herbette, S., Ragot, R., (2000). Perception of complex sounds: N1 latency codes pitch and topography codes spectra. Clin Neurophysiol. 111, 1759-66. 332 Curran, T., Tanaka, J. W., Weiskopf, D. M., (2002). An electrophysiological comparison of visual categorization and recognition memory. Cogn Affect Behav Neurosci. 2, 1-18. Cytowic, (1995). Synesthesia: phenomenology and neuropsychology. A review of current knowledge. Psyche. 2. de Gelder, B., Bocker, K. B., Tuomainen, J., Hensen, M., Vroomen, J., (1999). The combined perception of emotion from voice and face: early interaction revealed by human electric brain responses. Neurosci Lett. 260, 133-6. de Gelder, B., Morris, J. S., Dolan, R. J., (2005). Unconscious fear influences emotional awareness of faces and voices. Proc Natl Acad Sci U S A. 102, 18682-7. De Gelder, B., Vroomen, J., (2000). The perception of emotions by ear and by eye. Cognition and Emotion. 14, 289-311. Desimone, R., Albright, T. D., Gross, C. G., Bruce, C., (1984). Stimulus-selective properties of inferior temporal neurons in the macaque. J Neurosci. 4, 2051-62. Di Russo, F., Martinez, A., Sereno, M. I., Pitzalis, S., Hillyard, S. A., (2002). Cortical sources of the early components of the visual evoked potential. Hum Brain Mapp. 15, 95-111. Diamond, R., Carey, S., (1986). Why faces are and are not special: an effect of expertise. Journal of Experimental Psychology : General. 115, 107-117. Dolan, R. J., Fink, G. R., Rolls, E., Booth, M., Holmes, A., Frackowiak, R. S., Friston, K. J., (1997). How the brain learns to see objects and faces in an impoverished context. Nature. 389, 596-9. Dolan, R. J., Morris, J. S., de Gelder, B., (2001). Crossmodal binding of fear in voice and face. Proc Natl Acad Sci U S A. 98, 10006-10. Downar, J., Crawley, A. P., Mikulis, D. J., Davis, K. D., (2000). A multimodal cortical network for the detection of changes in the sensory environment. Nat Neurosci. 3, 277-83. Driver, J., (1996). Enhancement of selective listening by illusory mislocation of speech sounds due to lip-reading. Nature. 381, 66-8. Driver, J., Spence, C., (1998). Cross-modal links in spatial attention. Philos Trans R Soc Lond B Biol Sci. 353, 1319-31. Dubois, S., Rossion, B., Schiltz, C., Bodart, J. M., Michel, C., Bruyer, R., Crommelinck, M., (1999). Effect of familiarity on the processing of human faces. Neuroimage. 9, 27889. Dyer, A. G., Neumeyer, C., Chittka, L., (2005). Honeybee (Apis mellifera) vision can discriminate between and recognise images of human faces. J Exp Biol. 208, 4709-14. Edwards, R., Xiao, D., Keysers, C., Foldiak, P., Perrett, D., (2003). Color sensitivity of cells responsive to complex stimuli in the temporal cortex. J Neurophysiol. 90, 1245-56. Eimer, M., (1998). Does the face-specific N170 component reflect the activity of a specialized eye processor? Neuroreport. 9, 2945-8. Eimer, M., (2000a). Effects of face inversion on the structural encoding and recognition of faces. Evidence from event-related brain potentials. Brain Res Cogn Brain Res. 10, 145-58. Eimer, M., (2000b). Event-related brain potentials distinguish processing stages involved in face perception and recognition. Clin Neurophysiol. 111, 694-705. Eimer, M., (2000c). The face-specific N170 component reflects late stages in the structural encoding of faces. Neuroreport. 11, 2319-24. Eimer, M., (2001). Crossmodal links in spatial attention between vision, audition, and touch: evidence from event-related brain potentials. Neuropsychologia. 39, 1292-303. Eimer, M., Driver, J., (2001). Crossmodal links in endogenous and exogenous spatial attention: evidence from event-related brain potential studies. Neurosci Biobehav Rev. 25, 497-511. 333 Elangovan, S., Cranfordt, J. L., Walker, L., Stuart, A., (2005). A comparison of the mismatch negativity and a differential waveform response. Int J Audiol. 44, 637-46. Epstein, R., Harris, A., Stanley, D., Kanwisher, N., (1999). The parahippocampal place area: recognition, navigation, or encoding? Neuron. 23, 115-25. Epstein, R., Kanwisher, N., (1998). A cortical representation of the local visual environment. Nature. 392, 598-601. Epstein, R. A., Higgins, J. S., Parker, W., Aguirre, G. K., Cooperman, S., (2006). Cortical correlates of face and scene inversion: a comparison. Neuropsychologia. 44, 1145-58. Ethofer, T., Anders, S., Erb, M., Droll, C., Royen, L., Saur, R., Reiterer, S., Grodd, W., Wildgruber, D., (2006). Impact of voice on emotional judgment of faces: an eventrelated fMRI study. Hum Brain Mapp. 27, 707-14. Ettlinger, G., Wilson, W. A., (1990). Cross-modal performance: behavioural processes, phylogenetic considerations and neural mechanisms. Behav Brain Res. 40, 169-92. Falchier, A., Clavagnier, S., Barone, P., Kennedy, H., (2002). Anatomical evidence of multimodal integration in primate striate cortex. J Neurosci. 22, 5749-59. Fantz, R. L., Miranda, S. B., (1975). Newborn infant attention to form of contour. Child Dev. 46, 224-8. Farah, M. J., (1996). Is face recognition 'special'? Evidence from neuropsychology. Behav Brain Res. 76, 181-9. Farah, M. J., Levinson, K. L., Klein, K. L., (1995). Face perception and within-category discrimination in prosopagnosia. Neuropsychologia. 33, 661-74. Farah, M. J., Tanaka, J. W., Drain, H. M., (1995). What causes the face inversion effect? Journal of Experimental Psychology: Human Perception & Performance. 21, 628-34. Farah, M. J., Wilson, K. D., Drain, H. M., Tanaka, J. R., (1995). The inverted face inversion effect in prosopagnosia: evidence for mandatory, face-specific perceptual mechanisms. Vision Res. 35, 2089-93. Farah, M. J., Wilson, K. D., Drain, M., Tanaka, J. N., (1998). What is "special" about face perception? Psychol Rev. 105, 482-98. Fecteau, S., Armony, J. L., Joanette, Y., Belin, P., (2004a). Is voice processing speciesspecific in human auditory cortex? An fMRI study. Neuroimage. 23, 840-8. Fecteau, S., Armony, J. L., Joanette, Y., Belin, P., (2004b). Priming of non-speech vocalizations in male adults: the influence of the speaker's gender. Brain Cogn. 55, 300-2. Fecteau, S., Armony, J. L., Joanette, Y., Belin, P., (2005). Sensitivity to voice in human prefrontal cortex. J Neurophysiol. 94, 2251-4. Fendrich, R., Corballis, P. M., (2001). The temporal cross-capture of audition and vision. Percept Psychophys. 63, 719-25. Forster, B., Cavina-Pratesi, C., Aglioti, S. M., Berlucchi, G., (2002). Redundant target effect and intersensory facilitation from visual-tactile interactions in simple reaction time. Exp Brain Res. 143, 480-7. Fort, A., Delpuech, C., Pernier, J., Giard, M. H., (2002a). Dynamics of cortico-subcortical cross-modal operations involved in audio-visual object detection in humans. Cereb Cortex. 12, 1031-9. Fort, A., Delpuech, C., Pernier, J., Giard, M. H., (2002b). Early auditory-visual interactions in human cortex during nonredundant target identification. Brain Res Cogn Brain Res. 14, 20-30. Fort, A., Giard, M. H., Multi electrophysiological mechanisms of audio-visual integration in human perception In: G. A. Calvert, et al., Eds., The Handbook of Multisensory Processes. vol. MIT Press, Cambridge, 2004, pp. 503-514. 334 Frassinetti, F., Bolognini, N., Ladavas, E., (2002). Enhancement of visual perception by crossmodal visuo-auditory interaction. Exp Brain Res. 147, 332-43. Freire, A., Lee, K., Symons, L. A., (2000). The face-inversion effect as a deficit in the encoding of configural information: direct evidence. Perception. 29, 159-70. Frens, M. A., Van Opstal, A. J., Van der Willigen, R. F., (1995). Spatial and temporal factors determine auditory-visual interactions in human saccadic eye movements. Percept Psychophys. 57, 802-16. Fu, Q. J., Chinchilla, S., Galvin, J. J., (2004). The role of spectral and temporal cues in voice gender discrimination by normal-hearing listeners and cochlear implant users. J Assoc Res Otolaryngol. 5, 253-60. Fujita, I., Tanaka, K., Ito, M., Cheng, K., (1992). Columns for visual features of objects in monkey inferotemporal cortex. Nature. 360, 343-6. Furey, M. L., Tanskanen, T., Beauchamp, M. S., Avikainen, S., Uutela, K., Hari, R., Haxby, J. V., (2006). Dissociation of face-selective cortical responses by attention. Proc Natl Acad Sci U S A. 103, 1065-70. Gauthier, I., Anderson, A. W., Tarr, M. J., Skudlarski, P., Gore, J. C., (1997). Levels of categorization in visual recognition studied using functional magnetic resonance imaging. Curr Biol. 7, 645-51. Gauthier, I., Curran, T., Curby, K. M., Collins, D., (2003). Perceptual interference supports a non-modular account of face processing. Nat Neurosci. 6, 428-32. Gauthier, I., Skudlarski, P., Gore, J., Anderson, A., (2000). Expertise for cars and birds recuits brain areas involved in face recognition. Nature Neurosciences. 3, 191-197. Gauthier, I., Tarr, M. J., (1997). Becoming a "Greeble" expert: exploring mechanisms for face recognition. Vision Res. 37, 1673-82. Gauthier, I., Tarr, M. J., (2002). Unraveling mechanisms for expert object recognition: bridging brain activity and behavior. J Exp Psychol Hum Percept Perform. 28, 431-46. Gauthier, I., Tarr, M. J., Anderson, A. W., Skudlarski, P., Gore, J. C., (1999). Activation of the middle fusiform 'face area' increases with expertise in recognizing novel objects. Nature Neurosciences. 2, 568-73. Gauthier, I., Tarr, M. J., Moylan, J., Skudlarski, P., Gore, J. C., Anderson, A. W., (2000). The fusiform "face area" is part of a network that processes faces at the individual level. J Cogn Neurosci. 12, 495-504. George, N., Dolan, R. J., Fink, G. R., Baylis, G. C., Russell, C., Driver, J., (1999). Contrast polarity and face recognition in the human fusiform gyrus. Nat Neurosci. 2, 574-80. George, N., Evans, J., Fiori, N., Davidoff, J., Renault, B., (1996). Brain events related to normal and moderately scrambled faces. Cognitive Brain Research. 4, 65-76. George, N., Jemel, B., Fiori, N., Chaby, L., Renault, B., (2005). Electrophysiological correlates of facial decision: insights from upright and upside-down Mooney-face perception. Brain Res Cogn Brain Res. 24, 663-73. George, N., Jemel, B., Fiori, N., Renault, B., (1997). Face and shape repetitions effects in humans: a spatio-temporal ERP study. Neuroreport. 8, 1417-1423. Ghazanfar, A. A., Smith-Rohrberg, D., Hauser, M. D., (2001). The role of temporal cues in rhesus monkey vocal recognition: orienting asymmetries to reversed calls. Brain Behav Evol. 58, 163-72. Giard, M. H., Peronnet, F., (1999). Auditory-visual integration during multimodal object recognition in humans: a behavioral and electrophysiological study. J Cogn Neurosci. 11, 473-90. Giard, M. H., Perrin, F., Echallier, J. F., Thevenet, M., Froment, J. C., Pernier, J., (1994). Dissociation of temporal and frontal components in the human auditory N1 wave: a 335 scalp current density and dipole model analysis. Electroencephalogr Clin Neurophysiol. 92, 238-52. Giard, M. H., Perrin, F., Pernier, J., Peronnet, F., (1988). Several attention-related wave forms in auditory areas: a topographic study. Electroencephalogr Clin Neurophysiol. 69, 371-84. Gifford, G. W., 3rd, MacLean, K. A., Hauser, M. D., Cohen, Y. E., (2005). The neurophysiology of functionally meaningful categories: macaque ventrolateral prefrontal cortex plays a critical role in spontaneous categorization of species-specific vocalizations. J Cogn Neurosci. 17, 1471-82. Giray, M., Ulrich, R., (1993). Motor coactivation revealed by response force in divided and focused attention. J Exp Psychol Hum Percept Perform. 19, 1278-91. Gobbini, M. I., Haxby, J. V., (2006). Neural response to the visual familiarity of faces. Brain Res Bull. 71, 76-82. Gochin, P. M., (1996). The representation of shape in the temporal lobe. Behav Brain Res. 76, 99-116. Goffaux, V., Gauthier, I., Rossion, B., (2003). Spatial scale contribution to early visual differences between face and object processing. Cognitive Brain Research. 16, 416424. Goffaux, V., Hault, B., Michel, C., Vuong, Q. C., Rossion, B., (2005). The respective role of low and high spatial frequencies in supporting configural and featural processing of faces. Perception. 34, 77-86. Goffaux, V., Jemel, B., Jacques, C., Rossion, B., Schyns, P. G., (2003). ERPs evidence for task modulations on face perceptual processing at different spatial scales. Cognitive Science. 27, 313-325. Goffaux, V., Rossion, B., (2006). Faces are "spatial"--holistic face perception is supported by low spatial frequencies. J Exp Psychol Hum Percept Perform. 32, 1023-39. Goren, C. C., Sarty, M., Wu, P. Y. K., (1975). Visual following and pattern discrimination of face-like stimuli by newborn infants. Pediatrics. 56, 544-549. Goshen-Gottstein, Y., Ganel, T., (2000). Repetition priming for familiar and unfamiliar faces in a sex-judgment task: evidence for a common route for the processing of sex and identity. J Exp Psychol Learn Mem Cogn. 26, 1198-214. Gosselin, F., Schyns, P. G., (2001). Bubbles: a technique to reveal the use of information in recognition tasks. Vision Res. 41, 2261-71. Grill-Spector, K., Knouf, N., Kanwisher, N., (2004). The fusiform face area subserves face perception, not generic within-category identification. Nat Neurosci. 7, 555-62. Grill-Spector, K., Kushnir, T., Edelman, S., Avidan, G., Itzchak, Y., Malach, R., (1999). Differential processing of objects under various viewing conditions in the human lateral occipital complex. Neuron. 24, 187-203. Grill-Spector, K., Sayres, R., Ress, D., (2006). High-resolution imaging reveals highly selective nonface clusters in the fusiform face area. Nat Neurosci. 9, 1177-85. Gross, C. G., Rocha-Miranda, C. E., Bender, D. B., (1972). Visual properties of neurons in inferotemporal cortex of the Macaque. J Neurophysiol. 35, 96-111. Grossenbacher, P. G., Lovelace, C. T., (2001). Mechanisms of synesthesia: cognitive and physiological constraints. Trends Cogn Sci. 5, 36-41. Hackett, T. A., Preuss, T. M., Kaas, J. H., (2001). Architectonic identification of the core region in auditory cortex of macaques, chimpanzees, and humans. J Comp Neurol. 441, 197-222. Hackett, T. A., Stepniewska, I., Kaas, J. H., (1998). Thalamocortical connections of the parabelt auditory cortex in macaque monkeys. J Comp Neurol. 400, 271-86. 336 Hadjikhani, N., Roland, P. E., (1998). Cross-modal transfer of information between the tactile and the visual representations in the human brain: A positron emission tomographic study. J Neurosci. 18, 1072-84. Halgren, E., Dale, A. M., Sereno, M. I., Tootell, R. B., Marinkovic, K., Rosen, B. R., (1999). Location of human face-selective cortex with respect to retinotopic areas. Hum Brain Mapp. 7, 29-37. Halgren, E., Raij, T., Marinkovic, K., Jousmaki, V., Hari, R., (2000). Cognitive response profile of the human fusiform face area as determined by MEG. Cereb Cortex. 10, 6981. Halit, H., de Haan, M., Johnson, M. H., (2000). Modulation of event-related potentials by prototypical and atypical faces. Neuroreport. 11, 1871-5. Haxby, J. V., Gobbini, M. I., Furey, M. L., Ishai, A., Schouten, J. L., Pietrini, P., (2001). Distributed and overlapping representations of faces and objects in ventral temporal cortex. Science. 293, 2425-30. Haxby, J. V., Grady, C. L., Horwitz, B., Ungerleider, L. G., Mishkin, M., Carson, R. E., Herscovitch, P., Schapiro, M. B., Rapoport, S. I., (1991). Dissociation of object and spatial visual processing pathways in human extrastriate cortex. Proc Natl Acad Sci U S A. 88, 1621-5. Haxby, J. V., Hoffman, E. A., Gobbini, M. I., (2000). The distributed human neural system for face perception. Trends Cogn Sci. 4, 223-233. Haxby, J. V., Horwitz, B., Ungerleider, L. G., Maisog, J. M., Pietrini, P., Grady, C. L., (1994). The functional organization of human extrastriate cortex: a PET-rCBF study of selective attention to faces and locations. J Neurosci. 14, 6336-53. Haxby, J. V., Ungerleider, L. G., Clark, V. P., Schouten, J. L., Hoffman, E. A., Martin, A., (1999). The effect of face inversion on activity in human neural systems for face and object perception. Neuron. 22, 189-99. Henderson, R. M., McCulloch, D. L., Herbert, A. M., (2003). Event-related potentials (ERPs) to schematic faces in adults and children. Int J Psychophysiol. 51, 59-67. Henson, R., Shallice, T., Dolan, R., (2000). Neuroimaging evidence for dissociable forms of repetition priming. Science. 287, 1269-72. Hillyard, S. A., Anllo-Vento, L., (1998). Event-related brain potentials in the study of visual selective attention. Proc Natl Acad Sci U S A. 95, 781-7. Hoffman, E. A., Haxby, J. V., (2000). Distinct representations of eye gaze and identity in the distributed human neural system for face perception. Nat Neurosci. 3, 80-4. Hole, G. J., (1994). Configurational factors in the perception of unfamiliar faces. Perception. 23, 65-74. Hole, G. J., George, P. A., Dunsmore, V., (1999). Evidence for holistic processing of faces viewed as photographic negatives. Perception. 28, 341-59. Holmes, A., Vuilleumier, P., Eimer, M., (2003). The processing of emotional facial expression is gated by spatial attention: evidence from event-related brain potentials. Brain Res Cogn Brain Res. 16, 174-84. Huber, L., Troje, N. F., Loidolt, M., Aust, U., Grass, D., (2000). Natural categorization through multiple feature learning in pigeons. Q J Exp Psychol B. 53, 341-57. Hughes, H. C., Reuter-Lorenz, P. A., Nozawa, G., Fendrich, R., (1994). Visual-auditory interactions in sensorimotor processing: saccades versus manual responses. J Exp Psychol Hum Percept Perform. 20, 131-53. Hung, C. P., Kreiman, G., Poggio, T., DiCarlo, J. J., (2005). Fast readout of object identity from macaque inferior temporal cortex. Science. 310, 863-6. 337 Husain, F. T., Fromm, S. J., Pursley, R. H., Hosey, L. A., Braun, A. R., Horwitz, B., (2006). Neural bases of categorization of simple speech and nonspeech sounds. Hum Brain Mapp. 27, 636-51. Husain, F. T., McKinney, C. M., Horwitz, B., (2006). Frontal cortex functional connectivity changes during sound categorization. Neuroreport. 17, 617-21. Imaizumi, S., Mori, K., Kiritani, S., Kawashima, R., Sugiura, M., Fukuda, H., Itoh, K., Kato, T., Nakamura, A., Hatano, K., Kojima, S., Nakamura, K., (1997). Vocal identification of speaker and emotion activates different brain regions. Neuroreport. 8, 2809-12. Ishai, A., Ungerleider, L. G., Martin, A., Haxby, J. V., (2000). The representation of objects in the human occipital and temporal cortex. J Cogn Neurosci. 12 Suppl 2, 35-51. Ishai, A., Ungerleider, L. G., Martin, A., Schouten, J. L., Haxby, J. V., (1999). Distributed representation of objects in the human ventral visual pathway. Proc Natl Acad Sci U S A. 96, 9379-84. Ishai, A., Yago, E., (2006). Recognition memory of newly learned faces. Brain Res Bull. 71, 167-73. Itier, R. J., Herdman, A. T., George, N., Cheyne, D., Taylor, M. J., (2006). Inversion and contrast-reversal effects on face processing assessed by MEG. Brain Res. 1115, 10820. Itier, R. J., Latinus, M., Taylor, M. J., (2006). Face, eye and object early processing: what is the face specificity? Neuroimage. 29, 667-76. Itier, R. J., Taylor, M. J., (2002). Inversion and contrast polarity reversal affect both encoding and recognition processes of unfamiliar faces: a repetition study using ERPs. Neuroimage. 15, 353-72. Itier, R. J., Taylor, M. J., (2004a). Effects of repetition learning on upright, inverted and contrast-reversed face processing using ERPs. Neuroimage. 21, 1518-32. Itier, R. J., Taylor, M. J., (2004b). Face inversion and contrast-reversal effects across development: in contrast to the expertise theory. Dev Sci. 7, 246-60. Itier, R. J., Taylor, M. J., (2004c). N170 or N1? Spatiotemporal differences between object and face processing using ERPs. Cereb Cortex. 14, 132-42. Itier, R. J., Taylor, M. J., (2004d). Source analysis of the N170 to faces and objects. Neuroreport. 15, 1261-5. Ito, M., Tamura, H., Fujita, I., Tanaka, K., (1995). Size and position invariance of neuronal responses in monkey inferotemporal cortex. J Neurophysiol. 73, 218-26. Jacobson, G. P., Lombardi, D. M., Gibbens, N. D., Ahmad, B. K., Newman, C. W., (1992). The effects of stimulus frequency and recording site on the amplitude and latency of multichannel cortical auditory evoked potential (CAEP) component N1. Ear Hear. 13, 300-6. Jacques, C., Rossion, B., (2004). Concurrent processing reveals competition between visual representations of faces. Neuroreport. 15, 2417-21. Jacques, C., Rossion, B., (2006a). The speed of individual face categorization. Psychol Sci. 17, 485-92. Jacques, C., Rossion, B., (2006b). The time course of visual competition to the presentation of centrally fixated faces. J Vis. 6, 154-62. Jeffreys, D. A., (1993). The influence of stimulus orientation on the vertex positive scalp potential evoked by faces. Experimental Brain Research. 96, 163-172. Jeffreys, D. A., (1996). Evoked potential studies of face and object processing. Visual Cognition. 3, 1-38. Jemel, B., George, N., Olivares, E., Fiori, N., Renault, B., (1999). Event-related potentials to structural familiar face incongruity processing. Psychophysiology. 36, 437-52. 338 Jemel, B., Pisani, M., Calabria, M., Crommelinck, M., Bruyer, R., (2003). Is the N170 for faces cognitively penetrable? Evidence from repetition priming of Mooney faces of familiar and unfamiliar persons. Brain Res Cogn Brain Res. 17, 431-46. Jemel, B., Schuller, A. M., Cheref-Khan, Y., Goffaux, V., Crommelinck, M., Bruyer, R., (2003). Stepwise emergence of the face-sensitive N170 event-related potential component. Neuroreport. 14, 2035-9. Joassin, F., Maurage, P., Bruyer, R., Crommelinck, M., Campanella, S., (2004). When audition alters vision: an event-related potential study of the cross-modal interactions between faces and voices. Neurosci Lett. 369, 132-7. Johnson, M. H., Dziurawiec, S., Ellis, H., Morton, J., (1991). Newborns' preferential tracking of face-like stimuli and its subsequent decline. Cognition. 40, 1-19. Jolicoeur, P., Gluck, M. A., Kosslyn, S. M., (1984). Pictures and names: making the connection. Cognit Psychol. 16, 243-75. Jones, J. A., Jarick, M., (2006). Multisensory integration of speech signals: the relationship between space and time. Exp Brain Res. 174, 588-94. Jones, J. A., Munhall, K., (1997). The effects of separating auditory and visual sources on audiovisual integration of speech. Canadian Acoustics. 25, 13-19. Jouventin, P., Aubin, T., Lengagne, T., (1999). Finding a parent in a king penguin colony: the acoustic system of individual recognition. Anim Behav. 57, 1175-1183. Joyce, C., Rossion, B., (2005). The face-sensitive N170 and VPP components manifest the same brain processes: the effect of reference electrode site. Clin Neurophysiol. 116, 2613-31. Kaas, J. H., Hackett, T. A., (1998). Subdivisions of auditory cortex and levels of processing in primates. Audiol Neurootol. 3, 73-85. Kaas, J. H., Hackett, T. A., (1999). 'What' and 'where' processing in auditory cortex. Nat Neurosci. 2, 1045-7. Kaas, J. H., Hackett, T. A., Tramo, M. J., (1999). Auditory processing in primate cerebral cortex. Curr Opin Neurobiol. 9, 164-70. Kanwisher, N., McDermott, J., Chun, M. M., (1997). The fusiform face area: a module in human extrastriate cortex specialized for face perception. J Neurosci. 17, 4302-11. Kanwisher, N., Stanley, D., Harris, A., (1999). The fusiform face area is selective for faces not animals. Neuroreport. 10, 183-7. Kanwisher, N., Tong, F., Nakayama, K., (1998). The effect of face inversion on the human fusiform face area. Cognition. 68, B1-11. Kanwisher, N., Yovel, G., (2006). The fusiform face area: a cortical region specialized for the perception of faces. Philos Trans R Soc Lond B Biol Sci. 361, 2109-28. Kawashima, R., Imaizumi, S., Mori, K., Okada, K., Goto, R., Kiritani, S., Ogawa, A., Fukuda, H., (1999). Selective visual and auditory attention toward utterances-a PET study. Neuroimage. 10, 209-15. Kemp, R., McManus, C., Pigott, T., (1990). Sensitivity to the displacement of facial features in negative and inverted images. Perception. 19, 531-43. Kilgour, A. R., de Gelder, B., Lederman, S. J., (2004). Haptic face recognition and prosopagnosia. Neuropsychologia. 42, 707-12. Kilgour, A. R., Lederman, S. J., (2002). Face recognition by hand. Percept Psychophys. 64, 339-52. Kilgour, A. R., Lederman, S. J., (2006). A haptic face-inversion effect. Perception. 35, 92131. Kobatake, E., Tanaka, K., (1994). Neuronal selectivities to complex object features in the ventral visual pathway of the macaque cerebral cortex. J Neurophysiol. 71, 856-67. 339 Kreiman, G., Koch, C., Fried, I., (2000). Category-specific visual responses of single neurons in the human medial temporal lobe. Nat Neurosci. 3, 946-53. Langers, D. R., Backes, W. H., van Dijk, P., (2007). Representation of lateralization and tonotopy in primary versus secondary human auditory cortex. Neuroimage. 34, 26473. Latinus, M., Taylor, M. J., (2005). Holistic processing of faces: learning effects with Mooney faces. J Cogn Neurosci. 17, 1316-27. Latinus, M., Taylor, M. J., (2006). Face processing stages: Impact of difficulty and the separation of effects. Brain Res. 1123, 179-187. Latinus, M., Taylor, M. J., (soumis). Faces are easier: Gender categorisation of faces and voices Eur J Neurosci. Latinus, M., Taylor, M. J., (submitted). Faces are easier: Gender categorisation of faces and voices Neuroimage. Lattner, S., Maess, B., Wang, Y., Schauer, M., Alter, K., Friederici, A. D., (2003). Dissociation of human and computer voices in the brain: evidence for a preattentive gestalt-like perception. Hum Brain Mapp. 20, 13-21. Lattner, S., Meyer, M. E., Friederici, A. D., (2005). Voice perception: Sex, pitch, and the right hemisphere. Hum Brain Mapp. 24, 11-20. Laurienti, P. J., Wallace, M. T., Maldjian, J. A., Susi, C. M., Stein, B. E., Burdette, J. H., (2003). Cross-modal sensory processing in the anterior cingulate and medial prefrontal cortices. Hum Brain Mapp. 19, 213-23. Lavner, Y., Gath, I., Rosenhouse, J., (2000). The effects of acoustic modifications on the identification of familiar voices speaking isolated vowels. Speech Communication. 30, 9-26. Le Grand, R., Mondloch, C. J., Maurer, D., Brent, H. P., (2001). Neuroperception. Early visual experience and face processing. Nature. 410, 890. Leder, H., Bruce, V., (2000). When inverted faces are recognized: the role of configural information in face recognition. Q J Exp Psychol A. 53, 513-36. Leder, H., Candrian, G., Huber, O., Bruce, V., (2001). Configural features in the context of upright and inverted faces. Perception. 30, 73-83. Leder, H., Carbon, C. C., (2006). Face-specific configural processing of relational information. Br J Psychol. 97, 19-29. Leveroni, C. L., Seidenberg, M., Mayer, A. R., Mead, L. A., Binder, J. R., Rao, S. M., (2000). Neural systems underlying the recognition of familiar and newly learned faces. J Neurosci. 20, 878-86. Levy, D. A., Granot, R., Bentin, S., (2001). Processing specificity for human voice stimuli: electrophysiological evidence. Neuroreport. 12, 2653-7. Levy, D. A., Granot, R., Bentin, S., (2003). Neural sensitivity to human voices: ERP evidence of task and attentional influences. Psychophysiology. 40, 291-305. Lewis, J. W., Van Essen, D. C., (2000). Corticocortical connections of visual, sensorimotor, and multimodal processing areas in the parietal lobe of the macaque monkey. J Comp Neurol. 428, 112-37. Lewis, M. B., Johnston, R. A., (1997). The Thatcher illusion as a test of configural disruption. Perception. 26, 225-7. Liegeois-Chauvel, C., de Graaf, J. B., Laguitton, V., Chauvel, P., (1999). Specialization of left auditory cortex for speech perception in man depends on temporal coding. Cereb Cortex. 9, 484-96. Liegeois-Chauvel, C., Giraud, K., Badier, J. M., Marquis, P., Chauvel, P., (2001). Intracerebral evoked potentials in pitch perception reveal a functional asymmetry of the human auditory cortex. Ann N Y Acad Sci. 930, 117-32. 340 Liegeois-Chauvel, C., Musolino, A., Badier, J. M., Marquis, P., Chauvel, P., (1994). Evoked potentials recorded from the auditory cortex in man: evaluation and topography of the middle latency components. Electroencephalogr Clin Neurophysiol. 92, 204-14. Liegeois-Chauvel, C., Musolino, A., Chauvel, P., (1991). Localization of the primary auditory area in man. Brain. 114 ( Pt 1A), 139-51. Linkenkaer-Hansen, K., Palva, J. M., Sams, M., Hietanen, J. K., Aronen, H. J., Ilmoniemi, R. J., (1998). Face-selective processing in human extrastriate cortex around 120 ms after stimulus onset revealed by magneto- and electroencephalography. Neuroscience Letters. 253, 147-50. Liu, J., Harris, A., Kanwisher, N., (2002). Stages of processing in face perception: an MEG study. Nat Neurosci. 5, 910-6. Liu, J., Higuchi, M., Marantz, A., Kanwisher, N., (2000). The selectivity of the occipitotemporal M170 for faces. Neuroreport. 11, 337-41. Logothetis, N. K., Pauls, J., Poggio, T., (1995). Shape representation in the inferior temporal cortex of monkeys. Curr Biol. 5, 552-63. Lueschow, A., Miller, E. K., Desimone, R., (1994). Inferior temporal mechanisms for invariant object recognition. Cereb Cortex. 4, 523-31. Luethke, L. E., Krubitzer, L. A., Kaas, J. H., (1989). Connections of primary auditory cortex in the New World monkey, Saguinus. J Comp Neurol. 285, 487-513. Lutkenhoner, B., Steinstrater, O., (1998). High-precision neuromagnetic study of the functional organization of the human auditory cortex. Audiol Neurootol. 3, 191-213. Macaluso, E., Driver, J., (2001). Spatial attention and crossmodal interactions between vision and touch. Neuropsychologia. 39, 1304-16. Macaluso, E., Driver, J., (2005). Multisensory spatial interactions: a window onto functional integration in the human brain. Trends Neurosci. 28, 264-71. Macaluso, E., Frith, C., Driver, J., (2000a). Selective spatial attention in vision and touch: unimodal and multimodal mechanisms revealed by PET. J Neurophysiol. 83, 3062-75. Macaluso, E., Frith, C. D., Driver, J., (2000b). Modulation of human visual cortex by crossmodal spatial attention. Science. 289, 1206-8. Macaluso, E., Frith, C. D., Driver, J., (2005). Multisensory stimulation with or without saccades: fMRI evidence for crossmodal effects on sensory-specific cortices that reflect multisensory location-congruence rather than task-relevance. Neuroimage. 26, 414-25. Macaluso, E., George, N., Dolan, R., Spence, C., Driver, J., (2004). Spatial and temporal factors during processing of audiovisual speech: a PET study. Neuroimage. 21, 72532. MacLeod, A., Summerfield, Q., (1987). Quantifying the contribution of vision to speech perception in noise. Br J Audiol. 21, 131-41. Maeder, P. P., Meuli, R. A., Adriani, M., Bellmann, A., Fornari, E., Thiran, J. P., Pittet, A., Clarke, S., (2001). Distinct pathways involved in sound recognition and localization: a human fMRI study. Neuroimage. 14, 802-16. Malach, R., Reppas, J. B., Benson, R. R., Kwong, K. K., Jiang, H., Kennedy, W. A., Ledden, P. J., Brady, T. J., Rosen, B. R., Tootell, R. B., (1995). Object-related activity revealed by functional magnetic resonance imaging in human occipital cortex. Proc Natl Acad Sci U S A. 92, 8135-9. Massaro, D. W., Stork, D. G., (1998). Speech recognition and sensory integration. American Scientist. 86, 236-244. Maurer, D., Grand, R. L., Mondloch, C. J., (2002). The many faces of configural processing. Trends Cogn Sci. 6, 255-260. 341 McCarthy, G., Puce, A., Belger, A., Allison, T., (1999). Electrophysiological studies of human face perception. II: Response properties of face-specific potentials generated in occipitotemporal cortex. Cereb Cortex. 9, 431-44. McCarthy, G., Puce, A., Gore, J. C., Allison, T., (1997). Face-specific processing in the human fusiform gyrus. Journal of Cognitive Neuroscience. 9, 605-610. McDonald, J. J., Teder-Salejarvi, W. A., Hillyard, S. A., (2000). Involuntary orienting to sound improves visual perception. Nature. 407, 906-8. McDonald, J. J., Ward, L. M., (2000). Involuntary listening aids seeing: evidence from human electrophysiology. Psychol Sci. 11, 167-71. McGurk, H., MacDonald, J., (1976). Hearing lips and seeing voices. Nature. 264, 746-8. Meredith, M. A., Wallace, M. T., Stein, B. E., (1992). Visual, auditory and somatosensory convergence in output neurons of the cat superior colliculus: multisensory properties of the tecto-reticulo-spinal projection. Exp Brain Res. 88, 181-6. Mervis, C. B., Rosch, E., (1981). Categorisation of natural objects. Annual Review of Psychology. 32, 89-115. Michalewski, H. J., Prasher, D. K., Starr, A., (1986). Latency variability and temporal interrelationships of the auditory event-related potentials (N1, P2, N2, and P3) in normal subjects. Electroencephalogr Clin Neurophysiol. 65, 59-71. Michel, F., Poncet, M., Signoret, J. L., (1989). [Are the lesions responsible for prosopagnosia always bilateral?]. Revue de Neurologie. 145, 764-70. Miki, K., Watanabe, S., Kakigi, R., (2004). Interaction between auditory and visual stimulus relating to the vowel sounds in the auditory cortex in humans: a magnetoencephalographic study. Neurosci Lett. 357, 199-202. Miller, J., (1991). Channel interaction and the redundant-targets effect in bimodal divided attention. J Exp Psychol Hum Percept Perform. 17, 160-9. Miranda, S. B., Fantz, R. L., (1973). Visual preferences of Down's syndrome and normal infants. Child Dev. 44, 555-61. Molholm, S., Ritter, W., Javitt, D. C., Foxe, J. J., (2004). Multisensory visual-auditory object recognition in humans: a high-density electrical mapping study. Cereb Cortex. 14, 452-65. Molholm, S., Ritter, W., Murray, M. M., Javitt, D. C., Schroeder, C. E., Foxe, J. J., (2002). Multisensory auditory-visual interactions during early sensory processing in humans: a high-density electrical mapping study. Brain Res Cogn Brain Res. 14, 115-28. Mooney, C. M., (1957). Age in the development of closure ability in children. Canadian Journal of Psychology. 11, 219-226. Moscovitch, M., Winocur, G., Behrmann, M., (1997). What is special about face recognition? Nineteen experiments on a person with visual agnosia and dyslexia but normal face recognition. Journal of Cognitive Neurosciences. 9, 555-604. Mouchetant-Rostaing, Y., Giard, M. H., Bentin, S., Aguera, P. E., Pernier, J., (2000). Neurophysiological correlates of face gender processing in humans. Eur J Neurosci. 12, 303-10. Mullennix, J. W., Johnson, K. A., Topcu-Durgun, M., Farnsworth, L. M., (1995). The perceptual representation of voice gender. J Acoust Soc Am. 98, 3080-95. Munhall, K. G., Gribble, P., Sacco, L., Ward, M., (1996). Temporal constraints on the McGurk effect. Percept Psychophys. 58, 351-62. Murry, T., Singh, S., (1980). Multidimensional analysis of male and female voices. J Acoust Soc Am. 68, 1294-300. Naatanen, R., (2001). The perception of speech sounds by the human brain as reflected by the mismatch negativity (MMN) and its magnetic equivalent (MMNm). Psychophysiology. 38, 1-21. 342 Naatanen, R., Alho, K., (1995). Mismatch negativity--a unique measure of sensory processing in audition. Int J Neurosci. 80, 317-37. Naatanen, R., Alho, K., (1997). Mismatch negativity--the measure for central sound representation accuracy. Audiol Neurootol. 2, 341-53. Näätänen, R., Picton, T., (1987). The N1 wave of the human electric and magnetic response to sound: a review and an analysis of the component structure. Psychophysiology. 24, 375-425. Näätänen, R., Sams, M., Alho, K., Paavilainen, P., Reinikainen, K., Sokolov, E. N., (1988). Frequency and location specificity of the human vertex N1 wave. Electroencephalogr Clin Neurophysiol. 69, 523-31. Nakamura, K., Kawashima, R., Ito, K., Sugiura, M., Kato, T., Nakamura, A., Hatano, K., Nagumo, S., Kubota, K., Fukuda, H., Kojima, S., (1999). Activation of the right inferior frontal cortex during assessment of facial emotion. J Neurophysiol. 82, 16104. Nakamura, K., Kawashima, R., Sugiura, M., Kato, T., Nakamura, A., Hatano, K., Nagumo, S., Kubota, K., Fukuda, H., Ito, K., Kojima, S., (2001). Neural substrates for recognition of familiar voices: a PET study. Neuropsychologia. 39, 1047-54. Neelon, M. F., Williams, J., Garell, P. C., (2006). The effects of auditory attention measured from human electrocorticograms. Clin Neurophysiol. 117, 504-21. Neuner, F., Schweinberger, S. R., (2000). Neuropsychological impairments in the recognition of faces, voices, and personal names. Brain Cogn. 44, 342-66. Nickerson, R. S., (1973). Intersensory facilitation of reaction time: energy summation or preparation enhancement? Psychol Rev. 80, 489-509. Olson, I. R., Gatenby, J. C., Gore, J. C., (2002). A comparison of bound and unbound audiovisual information processing in the human cerebral cortex. Brain Res Cogn Brain Res. 14, 129-38. Oram, M. W., Perrett, D. I., (1992). Time course of neural responses discriminating different views of the face and head. J Neurophysiol. 68, 70-84. Pantev, C., Bertrand, O., Eulitz, C., Verkindt, C., Hampson, S., Schuierer, G., Elbert, T., (1995). Specific tonotopic organizations of different areas of the human auditory cortex revealed by simultaneous magnetic and electric recordings. Electroencephalogr Clin Neurophysiol. 94, 26-40. Papcun, G., Kreiman, J., Davis, A., (1989). Long-term memory for unfamiliar voices. J Acoust Soc Am. 85, 913-25. Pascalis, O., de Haan, M., Nelson, C. A., (2002). Is face processing species-specific during the first year of life? Science. 296, 1321-3. Pernet, C., Basan, S., Doyon, B., Cardebat, D., Demonet, J. F., Celsis, P., (2003). Neural timing of visual implicit categorization. Brain Res Cogn Brain Res. 17, 327-38. Perrett, D. I., Hietanen, J. K., Oram, M. W., Benson, P. J., (1992). Organization and functions of cells responsive to faces in the temporal cortex. Philosophical Transactions of the Royal Society of London. B335, 23-30. Perrett, D. I., Mistlin, A. J., Chitty, A. J., Smith, P. A., Potter, D. D., Broennimann, R., Harries, M., (1988). Specialized face processing and hemispheric asymmetry in man and monkey: evidence from single unit and reaction time studies. Behav Brain Res. 29, 245-58. Perrett, D. I., Rolls, E. T., Caan, W., (1982). Visual neurones responsive to faces in the monkey temporal cortex. Exp Brain Res. 47, 329-42. Perrett, D. I., Rolls, E. T., Caan, W., (1987). Visual neurones responsive to faces. Trends Neurosci. 10, 358-64. 343 Picton, T. W., Bentin, S., Berg, P., Donchin, E., Hillyard, S. A., Johnson, R., Jr., Miller, G. A., Ritter, W., Ruchkin, D. S., Rugg, M. D., Taylor, M. J., (2000). Guidelines for using human event-related potentials to study cognition: recording standards and publication criteria. Psychophysiology. 37, 127-52. Pietrini, P., Furey, M. L., Ricciardi, E., Gobbini, M. I., Wu, W. H., Cohen, L., Guazzelli, M., Haxby, J. V., (2004). Beyond sensory images: Object-based representation in the human ventral pathway. Proc Natl Acad Sci U S A. 101, 5658-63. Pourtois, G., de Gelder, B., Bol, A., Crommelinck, M., (2005). Perception of facial expressions and voices and of their combination in the human brain. Cortex. 41, 4959. Pourtois, G., de Gelder, B., Vroomen, J., Rossion, B., Crommelinck, M., (2000). The timecourse of intermodal binding between seeing and hearing affective information. Neuroreport. 11, 1329-33. Price, J. J., (1999). Recognition of family-specific calls in stripe-backed wrens. Anim Behav. 57, 483-492. Puce, A., Allison, T., Asgari, M., Gore, J. C., McCarthy, G., (1996). Differential sensitivity of human visual cortex to faces, letter-strings, and textures: a functional magnetic resonance imaging study. Journal of Neuroscience. 16, 5205-5215. Puce, A., Allison, T., Bentin, S., Gore, J. C., McCarthy, G., (1998). Temporal cortex activation in humans viewing eye and mouth movements. J Neurosci. 18, 2188-99. Puce, A., Allison, T., Gore, J. C., McCarthy, G., (1995). Face-sensitive regions in human extrastriate cortex studied by functional MRI. J Neurophysiol. 74, 1192-9. Puce, A., Allison, T., McCarthy, G., (1999). Electrophysiological studies of human face perception. III: Effects of top-down processing on face-specific potentials. Cereb Cortex. 9, 445-58. Purcell, D. G., Stewart, A. L., (1988). The face-detection effect: configuration enhances detection. Percept Psychophys. 43, 355-66. Quaglino, A., (1867). Emiplegia sinistra con amaurosi - guarigione - perdita totale della percezione dei colori e della memoria della configurazione degli oggetti. Giornale d'Oftalmologia Italiano. 10, 106-112. Quiroga, R. Q., Reddy, L., Kreiman, G., Koch, C., Fried, I., (2005). Invariant visual representation by single neurons in the human brain. Nature. 435, 1102-7. Radeau, M., Bertelson, P., (1987). Auditory-visual interaction and the timing of inputs. Thomas (1941) revisited. Psychol Res. 49, 17-22. Raij, T., Uutela, K., Hari, R., (2000). Audiovisual integration of letters in the human brain. Neuron. 28, 617-25. Rauschecker, J. P., (1998). Cortical processing of complex sounds. Curr Opin Neurobiol. 8, 516-21. Rauschecker, J. P., Tian, B., (2000). Mechanisms and streams for processing of "what" and "where" in auditory cortex. Proc Natl Acad Sci U S A. 97, 11800-6. Rebai, M., Poiroux, S., Bernard, C., Lalonde, R., (2001). Event-related potentials for category-specific information during passive viewing of faces and objects. Int J Neurosci. 106, 209-26. Reddy, L., Wilken, P., Koch, C., (2004). Face-gender discrimination is possible in the nearabsence of attention. J Vis. 4, 106-17. Rhodes, G., Brake, S., Atkinson, A. P., (1993). What's lost in inverted faces? Cognition. 47, 25-57. Rhodes, G., Byatt, G., Michie, P. T., Puce, A., (2004). Is the fusiform face area specialized for faces, individuation, or expert individuation? J Cogn Neurosci. 16, 189-203. 344 Robbins, R., McKone, E., (2007). No face-like processing for objects-of-expertise in three behavioural tasks. Cognition. 103, 34-79. Roberts, T., Bruce, V., (1988). Feature saliency in judging the sex and familiarity of faces. Perception. 17, 475-81. Roeber, U., Widmann, A., Schroger, E., (2003). Auditory distraction by duration and location deviants: a behavioral and event-related potential study. Brain Res Cogn Brain Res. 17, 347-57. Rolls, E. T., (1992). Neurophysiological mechanisms underlying face processing within and beyond the temporal cortical visual areas. Philos Trans R Soc Lond B Biol Sci. 335, 11-20; discussion 20-1. Romanski, L. M., Tian, B., Fritz, J., Mishkin, M., Goldman-Rakic, P. S., Rauschecker, J. P., (1999). Dual streams of auditory afferents target multiple domains in the primate prefrontal cortex. Nat Neurosci. 2, 1131-6. Rosch, E., Mervis, C. B., Gray, W., Johnson, D., Boyes-Braem, P., (1976). Basic objects in natural categories. Cognit Psychol. 8, 382-439. Rossion, B., Campanella, S., Gomez, C. M., Delinte, A., Debatisse, D., Liard, L., Dubois, S., Bruyer, R., Crommelinck, M., Guerit, J. M., (1999). Task modulation of brain activity related to familiar and unfamiliar face processing: an ERP study. Clin Neurophysiol. 110, 449-62. Rossion, B., Delvenne, J. F., Debatisse, D., Goffaux, V., Bruyer, R., Crommelinck, M., Guerit, J. M., (1999). Spatio-temporal localization of the face inversion effect: an event-related potentials study. Biol Psychol. 50, 173-89. Rossion, B., Dricot, L., Devolder, A., Bodart, J. M., Crommelinck, M., De Gelder, B., Zoontjes, R., (2000). Hemispheric asymmetries for whole-based and part-based face processing in the human fusiform gyrus. J Cogn Neurosci. 12, 793-802. Rossion, B., Gauthier, I., (2002). How does the brain process upright and inverted faces? Behav and Cogn Neuroscience Rev. 1, 62-74. Rossion, B., Gauthier, I., Goffaux, V., Tarr, M. J., Crommelinck, M., (2002). Expertise training with novel objects leads to left-lateralized facelike electrophysiological responses. Psychol Sci. 13, 250-7. Rossion, B., Gauthier, I., Tarr, M. J., Despland, P., Bruyer, R., Linotte, S., Crommelinck, M., (2000). The N170 occipito-temporal component is delayed and enhanced to inverted faces but not to inverted objects: an electrophysiological account of face-specific processes in the human brain. Neuroreport. 11, 69-74. Rossion, B., Joyce, C. A., Cottrell, G. W., Tarr, M. J., (2003). Early lateralization and orientation tuning for face, word, and object processing in the visual cortex. Neuroimage. 20, 1609-24. Rossion, B., Kung, C. C., Tarr, M. J., (2004). Visual expertise with nonface objects leads to competition with the early perceptual processing of faces in the human occipitotemporal cortex. Proc Natl Acad Sci U S A. 101, 14521-6. Rossion, B., Schiltz, C., Crommelinck, M., (2003). The functionally defined right occipital and fusiform "face areas" discriminate novel from visually familiar faces. Neuroimage. 19, 877-83. Rossion, B., Schiltz, C., Robaye, L., Pirenne, D., Crommelinck, M., (2001). How does the brain discriminate familiar and unfamiliar faces?: a PET study of face categorical perception. J Cogn Neurosci. 13, 1019-34. Rotshtein, P., Henson, R. N., Treves, A., Driver, J., Dolan, R. J., (2005). Morphing Marilyn into Maggie dissociates physical and identity face representations in the brain. Nat Neurosci. 8, 107-13. 345 Rousselet, G. A., Mace, M. J., Fabre-Thorpe, M., (2004a). Animal and human faces in natural scenes: How specific to human faces is the N170 ERP component? J Vis. 4, 13-21. Rousselet, G. A., Mace, M. J., Fabre-Thorpe, M., (2004b). Spatiotemporal analyses of the N170 for human faces, animal faces and objects in natural scenes. Neuroreport. 15, 2607-11. Sadr, J., Jarudi, I., Sinha, P., (2003). The role of eyebrows in face recognition. Perception. 32, 285-93. Sagiv, N., Bentin, S., (2001). Structural encoding of human and schematic faces: holistic and part-based processes. Journal of Cognitive Neuroscience. 13, 937-951. Schiltz, C., Rossion, B., (2006). Faces are represented holistically in the human occipitotemporal cortex. Neuroimage. 32, 1385-94. Schlack, A., Sterbing-D'Angelo, S. J., Hartung, K., Hoffmann, K. P., Bremmer, F., (2005). Multisensory space representations in the macaque ventral intraparietal area. J Neurosci. 25, 4616-25. Schmitt, M., Postma, A., De Haan, E., (2000). Interactions between exogenous auditory and visual spatial attention. Q J Exp Psychol A. 53, 105-30. Schroger, E., Widmann, A., (1998). Speeded responses to audiovisual signal changes result from bimodal integration. Psychophysiology. 35, 755-9. Schweinberger, S. R., (2001). Human brain potential correlates of voice priming and voice recognition. Neuropsychologia. 39, 921-36. Schweinberger, S. R., Herholz, A., Sommer, W., (1997). Recognizing famous voices: influence of stimulus duration and different types of retrieval cues. J Speech Lang Hear Res. 40, 453-63. Schyns, P. G., Bonnar, L., Gosselin, F., (2002). Show me the features! Understanding recognition from the use of visual information. Psychol Sci. 13, 402-9. Scott, S. K., Blank, C. C., Rosen, S., Wise, R. J., (2000). Identification of a pathway for intelligible speech in the left temporal lobe. Brain. 123 Pt 12, 2400-6. Scott, S. K., Johnsrude, I. S., (2003). The neuroanatomical and functional organization of speech perception. Trends Neurosci. 26, 100-7. Scott, S. K., Rosen, S., Lang, H., Wise, R. J., (2006). Neural correlates of intelligibility in speech investigated with noise vocoded speech--a positron emission tomography study. J Acoust Soc Am. 120, 1075-83. Searcy, J. H., Bartlett, J. C., (1996). Inversion and processing of component and spatialrelational information in faces. J Exp Psychol Hum Percept Perform. 22, 904-15. Sergent, J., Ohta, S., MacDonald, B., (1992). Functional neuroanatomy of face and object processing. A positron emission tomography study. Brain. 115 Pt 1, 15-36. Sergent, J., Signoret, J. L., (1992a). Functional and anatomical decomposition of face processing: evidence from prosopagnosia and PET study of normal subjects. Philos Trans R Soc Lond B Biol Sci. 335, 55-61; discussion 61-2. Sergent, J., Signoret, J. L., (1992b). Varieties of functional deficits in prosopagnosia. Cereb Cortex. 2, 375-88. Sestieri, C., Di Matteo, R., Ferretti, A., Del Gratta, C., Caulo, M., Tartaro, A., Olivetti Belardinelli, M., Romani, G. L., (2006). "What" versus "where" in the audiovisual domain: an fMRI study. Neuroimage. 33, 672-80. Severac Cauquil, A., Edmonds, G. E., Taylor, M. J., (2000). Is the face-sensitive N170 the only ERP not affected by selective attention? Neuroreport. 11, 2167-71. Shams, L., Kamitani, Y., Shimojo, S., (2000). Illusions. What you see is what you hear. Nature. 408, 788. Shams, L., Kamitani, Y., Shimojo, S., (2002). Visual illusion induced by sound. Brain Res Cogn Brain Res. 14, 147-52. 346 Sharp, S. P., McGowan, A., Wood, M. J., Hatchwell, B. J., (2005). Learned kin recognition cues in a social bird. Nature. 434, 1127-30. Sheinberg, D. L., Logothetis, N. K., (1997). The role of temporal cortical areas in perceptual organization. Proc Natl Acad Sci U S A. 94, 3408-13. Shimojo, S., Shams, L., (2001). Sensory modalities are not separate modalities: plasticity and interactions. Curr Opin Neurobiol. 11, 505-9. Sinha, P., Poggio, T., (1996). Role of learning in three-dimensional form perception. Nature. 384, 460-3. Slutsky, D. A., Recanzone, G. H., (2001). Temporal and spatial dependency of the ventriloquism effect. Neuroreport. 12, 7-10. Sokhi, D. S., Hunter, M. D., Wilkinson, I. D., Woodruff, P. W., (2005). Male and female voices activate distinct regions in the male brain. Neuroimage. 27, 572-8. Sowden, P. T., Schyns, P. G., (2006). Channel surfing in the visual brain. Trends Cogn Sci. 10, 538-45. Spence, C., Driver, J., (1997). Audiovisual links in exogenous covert spatial orienting. Percept Psychophys. 59, 1-22. Spence, C., Driver, J., (2000). Attracting attention to the illusory location of a sound: reflexive crossmodal orienting and ventriloquism. Neuroreport. 11, 2057-61. Spence, C., Nicholls, M. E., Gillespie, N., Driver, J., (1998). Cross-modal links in exogenous covert spatial orienting between touch, audition, and vision. Percept Psychophys. 60, 544-57. Spitsyna, G., Warren, J. E., Scott, S. K., Turkheimer, F. E., Wise, R. J., (2006). Converging language streams in the human temporal lobe. J Neurosci. 26, 7328-36. Summerfield, Q., (1992). Lipreading and audio-visual speech perception. Philos Trans R Soc Lond B Biol Sci. 335, 71-8. Sweet, R. A., Dorph-Petersen, K. A., Lewis, D. A., (2005). Mapping auditory core, lateral belt, and parabelt cortices in the human superior temporal gyrus. J Comp Neurol. 491, 270-89. Tamura, H., Tanaka, K., (2001). Visual response properties of cells in the ventral and dorsal parts of the macaque inferotemporal cortex. Cereb Cortex. 11, 384-99. Tanaka, J., Farah, M. J., The Holistic representation of faces. In: M. A. Peterson, G. Rhodes, Eds., Perception of faces objects and scene. vol. Oxford University Press, 2003, pp. 21-53. Tanaka, J., Luu, P., Weisbrod, M., Kiefer, M., (1999). Tracking the time course of object categorization using event-related potentials. Neuroreport. 10, 829-35. Tanaka, J. W., (2001). The entry point of face recognition: evidence for face expertise. J Exp Psychol Gen. 130, 534-43. Tanaka, J. W., Curran, T., (2001). A neural basis for expert object recognition. Psychol Sci. 12, 43-7. Tanaka, J. W., Curran, T., Porterfield, A. L., Collins, D., (2006). Activation of preexisting and acquired face representations: the N250 event-related potential as an index of face familiarity. J Cogn Neurosci. 18, 1488-97. Tanaka, J. W., Farah, M. J., (1993). Parts and wholes in face recognition. Q J Exp Psychol A. 46, 225-45. Tanaka, J. W., Sengco, J. A., (1997). Features and their configuration in face recognition. Mem Cognit. 25, 583-92. Tanaka, K., (1992). Inferotemporal cortex and higher visual functions. Curr Opin Neurobiol. 2, 502-5. Tanaka, K., (1993). Neuronal mechanisms of object recognition. Science. 262, 685-8. 347 Tanaka, K., (1996). Representation of Visual Features of Objects in the Inferotemporal Cortex. Neural Netw. 9, 1459-1475. Tanaka, K., Saito, H., Fukada, Y., Moriya, M., (1991). Coding visual images of objects in the inferotemporal cortex of the macaque monkey. J Neurophysiol. 66, 170-89. Tarr, M. J., Gauthier, I., (2000). FFA: a flexible fusiform area for subordinate-level visual processing automatized by expertise. Nat Neurosci. 3, 764-9. Taylor, M. J., (2002). Non-spatial attentional effects on P1. Clin Neurophysiol. 113, 19031908. Taylor, M. J., Edmonds, G. E., McCarthy, G., Allison, T., (2001). Eyes first! Eye processing develops before face processing in children. Neuroreport. 12, 1671-1676. Taylor, M. J., George, N., Ducorps, A., (2001). Magnetoencephalographic evidence of early processing of direction of gaze in humans. Neurosci Lett. 316, 173-7. Taylor, M. J., Itier, R. J., Allison, T., Edmonds, G. E., (2001). Direction of gaze effects on early face processing: eyes-only versus full faces. Brain Res Cogn Brain Res. 10, 33340. Teder-Salejarvi, W. A., McDonald, J. J., Di Russo, F., Hillyard, S. A., (2002). An analysis of audio-visual crossmodal integration by means of event-related potential (ERP) recordings. Brain Res Cogn Brain Res. 14, 106-14. Thierry, G., Boulanouar, K., Kherif, F., Ranjeva, J. P., Demonet, J. F., (1999). Temporal sorting of neural components underlying phonological processing. Neuroreport. 10, 2599-603. Thivard, L., Belin, P., Zilbovicius, M., Poline, J. B., Samson, Y., (2000). A cortical region sensitive to auditory spectral motion. Neuroreport. 11, 2969-72. Thompson, P., (1980). Margaret Thatcher: a new illusion. Perception. 9, 483-4. Tian, B., Reser, D., Durham, A., Kustov, A., Rauschecker, J. P., (2001). Functional specialization in rhesus monkey auditory cortex. Science. 292, 290-3. Tiitinen, H., Alho, K., Huotilainen, M., Ilmoniemi, R. J., Simola, J., Naatanen, R., (1993). Tonotopic auditory cortex and the magnetoencephalographic (MEG) equivalent of the mismatch negativity. Psychophysiology. 30, 537-40. Tiitinen, H., Sivonen, P., Alku, P., Virtanen, J., Naatanen, R., (1999). Electromagnetic recordings reveal latency differences in speech and tone processing in humans. Brain Res Cogn Brain Res. 8, 355-63. Titova, N., Naatanen, R., (2001). Preattentive voice discrimination by the human brain as indexed by the mismatch negativity. Neurosci Lett. 308, 63-5. Tovée, M. J., Cohen-Tovée, E. M., (1993). The neural substrates of face processing models: a review. Cogn Neuropsychol. 10, 505-528. Tovee, M. J., Rolls, E. T., Ramachandran, V. S., (1996). Rapid visual learning in neurones of the primate temporal visual cortex. Neuroreport. 7, 2757-60. Troje, N. F., Huber, L., Loidolt, M., Aust, U., Fieder, M., (1999). Categorical learning in pigeons: the role of texture and shape in complex static stimuli. Vision Res. 39, 35366. Tsao, D. Y., Freiwald, W. A., Tootell, R. B., Livingstone, M. S., (2006). A cortical region consisting entirely of face-selective cells. Science. 311, 670-4. Turati, C., Simion, F., Milani, I., Umilta, C., (2002). Newborns' preference for faces: what is crucial? Dev Psychol. 38, 875-82. Valentine, T., (1988). Upside-down faces: a review of the effect of inversion upon face recognition. British Journal of psychology. 79, 471-491. Valentine, T., Bruce, V., (1986). The effect of race, inversion and encoding activity upon face recognition. Acta Psychol (Amst). 61, 259-73. 348 Van Essen, D. C., Anderson, C. H., Felleman, D. J., (1992). Information processing in the primate visual system: an integrated systems perspective. Science. 255, 419-23. Van Lancker, D. R., Cummings, J. L., Kreiman, J., Dobkin, B. H., (1988). Phonagnosia: a dissociation between familiar and unfamiliar voices. Cortex. 24, 195-209. Van Lancker, D. R., Kreiman, J., Cummings, J., (1989). Voice perception deficits: neuroanatomical correlates of phonagnosia. J Clin Exp Neuropsychol. 11, 665-74. Verkindt, C., Bertrand, O., Thevenet, M., Pernier, J., (1994). Two auditory components in the 130-230 ms range disclosed by their stimulus frequency dependence. Neuroreport. 5, 1189-92. von Kriegstein, K., Eger, E., Kleinschmidt, A., Giraud, A. L., (2003). Modulation of neural responses to speech by directing attention to voices or verbal content. Brain Res Cogn Brain Res. 17, 48-55. von Kriegstein, K., Kleinschmidt, A., Giraud, A. L., (2006). Voice recognition and crossmodal responses to familiar speakers' voices in prosopagnosia. Cereb Cortex. 16, 1314-22. von Kriegstein, K., Kleinschmidt, A., Sterzer, P., Giraud, A. L., (2005). Interaction of face and voice areas during speaker recognition. J Cogn Neurosci. 17, 367-76. Vroomen, J., Bertelson, P., de Gelder, B., (2001). Directing spatial attention towards the illusory location of a ventriloquized sound. Acta Psychol (Amst). 108, 21-33. Vroomen, J., Driver, J., de Gelder, B., (2001). Is cross-modal integration of emotional expressions independent of attentional resources? Cogn Affect Behav Neurosci. 1, 3827. Vuilleumier, P., (2000). Faces call for attention: evidence from patients with visual extinction. Neuropsychologia. 38, 693-700. Vuilleumier, P., Sagiv, N., Hazeltine, E., Poldrack, R. A., Swick, D., Rafal, R. D., Gabrieli, J. D., (2001). Neural fate of seen and unseen faces in visuospatial neglect: a combined event-related functional MRI and event-related potential study. Proc Natl Acad Sci U S A. 98, 3495-500. Wada, Y., Kitagawa, N., Noguchi, K., (2003). Audio-visual integration in temporal perception. Int J Psychophysiol. 50, 117-24. Walker, J. T., Scott, K. J., (1981). Auditory-visual conflicts in the perceived duration of lights, tones and gaps. J Exp Psychol Hum Percept Perform. 7, 1327-39. Warren, J. D., Griffiths, T. D., (2003). Distinct mechanisms for processing spatial sequences and pitch sequences in the human auditory brain. J Neurosci. 23, 5799-804. Warren, J. D., Scott, S. K., Price, C. J., Griffiths, T. D., (2006). Human brain mechanisms for the early analysis of voices. Neuroimage. 31, 1389-97. Welch, R. B., Warren, D. H., (1980). Immediate perceptual response to intersensory discrepancy. Psychol Bull. 88, 638-67. Wessinger, C. M., Buenocore, M. H., Kussmaul, C. L., Mangun, G. R., (1997). Tonotopy in human auditory cortex examined with functionnal magnetic resonance imaging. Hum Brain Mapp. 5, 18-25. Wessinger, C. M., VanMeter, J., Tian, B., Van Lare, J., Pekar, J., Rauschecker, J. P., (2001). Hierarchical organization of the human auditory cortex revealed by functional magnetic resonance imaging. J Cogn Neurosci. 13, 1-7. Whiteside, S. P., (1998). Identification of a speaker's sex: a study of vowels. Percept Mot Skills. 86, 579-84. Wigan, A. L. (Ed.) (1844). The duality of the mind: Proved by the structure, functions, and diseases of the brain, and by the phenomena of mental derangement, and shown to be essential to moral responsibility., London. 349 Wright, D. B., Sladden, B., (2003). An own gender bias and the importance of hair in face recognition. Acta Psychol (Amst). 114, 101-14. Wright, T. M., Pelphrey, K. A., Allison, T., McKeown, M. J., McCarthy, G., (2003). Polysensory interactions along lateral temporal regions evoked by audiovisual speech. Cereb Cortex. 13, 1034-43. Xu, Y., (2005). Revisiting the role of the fusiform face area in visual expertise. Cereb Cortex. 15, 1234-42. Xu, Y., Liu, J., Kanwisher, N., (2005). The M170 is selective for faces, not for expertise. Neuropsychologia. 43, 588-97. Yamaguchi, M. K., Hirukawa, T., Kanazawa, S., (1995). Judgment of gender through facial parts. Perception. 24, 563-75. Yarbus, A. L., (1961). Eye movements during the examination of complicated objects. Biofizika. 6(2), 52-6. Yarbus, A. L., Eye movements during perception of complex objects. In: L. A. Riggs, Ed., Eye Movements and Vision. vol. Plenum Press, New York, 1967, pp. 171-196. Yin, R. K., (1969). Looking at upside-down faces. Journal of Experimental Psychology. 81, 141-145. Young, A. W., Flude, B. M., Ellis, A. W., Hay, D. C., (1987). Interference with face naming. Acta Psychol (Amst). 64, 93-100. Young, A. W., Hellawell, D., Hay, D. C., (1987). Configurational information in face perception. Perception. 16, 747-59. Yovel, G., Kanwisher, N., (2004). Face perception: domain specific, not process specific. Neuron. 44, 889-98. Yovel, G., Kanwisher, N., (2005). The neural basis of the behavioral face-inversion effect. Curr Biol. 15, 2256-62. Zatorre, R. J., Belin, P., (2001). Spectral and temporal processing in human auditory cortex. Cereb Cortex. 11, 946-53. Zatorre, R. J., Belin, P., Penhune, V. B., (2002). Structure and function of auditory cortex: music and speech. Trends Cogn Sci. 6, 37-46. Zatorre, R. J., Bouffard, M., Ahad, P., Belin, P., (2002). Where is 'where' in the human auditory cortex? Nat Neurosci. 5, 905-9. Zatorre, R. J., Evans, A. C., Meyer, E., Gjedde, A., (1992). Lateralization of phonetic and pitch discrimination in speech processing. Science. 256, 846-9. Zion-Golumbic, E., Bentin, S., (2006). Dissociated Neural Mechanisms for Face Detection and Configural Encoding: Evidence from N170 and Induced Gamma-Band Oscillation Effects. Cereb Cortex. 350