DOCTEUR DE L`UNIVERSITE TOULOUSE III De la perception

Transcripción

DOCTEUR DE L`UNIVERSITE TOULOUSE III De la perception
UNIVERSITE TOULOUSE III – PAUL SABATIER
UFR SVT – Science de la Vie et de la Terre
THESE
Pour obtenir le grade de
DOCTEUR DE L’UNIVERSITE TOULOUSE III
Discipline : Neurosciences
Présentée et soutenue
Le 26 mars 2007
par
Marianne Latinus
Titre
De la perception unimodale à la perception bimodale des visages
Corrélats électrophysiologiques et interactions entre traitements des visages et des voix
JURY
Pr Pier-Giorgi Zanone – LAPMA – U. Paul Sabatier, Toulouse
Pr Pascal Belin – Voice Neurocognition Laboratory – U. of Glasgow, Glasgow
Dr Bruno Rossion – CODE – U.Catholique de Louvain, Louvain-la-neuve
Dr Margot Taylor – Diagnostic Imaging – Hospital for Sick Children, Toronto
Dr Rufin VanRullen – CERCO – U. Paul Sabatier, Toulouse
Centre de Recherche Cerveau et Cognition (CerCo)
UMR 5549 Université Toulouse 3-CNRS
Faculté de Médecine de Rangueil
31062 Toulouse Cedex 9
Président
Rapporteur
Rapporteur
Examinateur
Directeur de thèse
à mes parents,
à Jean-Marc.
PUBLICATIONS
Articles publiés
Latinus, M., Taylor, M.J. (2006). Face processing stages: impact of difficulty and the
separation of effects. Brain Research. 1123(1):179-87.
Itier, R.J., Latinus, M. and Taylor, M.J. (2006). Face, eye and object early processing: What
is the face specificity? Neuroimage. 29(2), 667-676.
Latinus, M., Taylor, M.J. (2005). Holistic processing of faces; learning effects with Mooney
faces. Journal of Cognitive Neuroscience. 17(8), 1316-1327.
Articles soumis
Latinus, M., Bayle D., Bohler, K. Deltheil, T. & Taylor M.J. Early processing differences
between learned and famous faces. Brain and Cognition.
Latinus, M., Taylor, M.J. Faces are easier: Gender Categorisation of faces and voices.
European Journal of Neuroscience.
Article en préparation
Latinus, M., Taylor M.J. Top-down and bottom-up attentional modulation in processing
bimodal face/voice stimuli. Neuroimage.
Résumés de conférences publiés
Latinus, M. & Taylor, M.J. Different face processing. Journal of Cognitive Neuroscience
Supplement 2004, 81.
Latinus, M. & Taylor, M.J. Perceptual learning of faces. Journal of Psychophysiology (17)
supplement 2003, S53.
Itier, R.J., Latinus, M. & Taylor, M.J. Effects of inversion, contrast-reversal and their
conjunction on face, eye and object processing: an ERP study. Journal of Cognitive
Neuroscience
AVANT-PROPOS…
11
PARTIE 1 : LES VISAGES…
17
1. Le cheminement de l’information visuelle
1.1. De la rétine au cortex inférotemporal
1.2. La catégorisation dans le cortex temporal
18
18
21
2. Les visages : une catégorie à part ?
2.1. Spécificité comportementale
Effet d’inversion, de visage chimérique et de négation
a.
Effet d’expertise et du niveau de traitement
b.
2.2. Corrélats neuronaux de la reconnaissance des visages
2.2.1. Enregistrements cellulaires chez le primate
2.2.2. Aires spécifiques des visages chez l’homme : localisation et fonctions
Localisation
a.
Etudes fonctionnelles des aires spécifiques des visages
b.
2.2.3. Décours temporel du traitement des visages
Enregistrements intracrâniens : N200
a.
EEG, MEG : N170, VPP & M170
b.
EEG, MEG : autres composantes
c.
2.3. Théories
2.3.1. Modèle fonctionnel de la reconnaissance des visages (Bruce & Young, 1986)
2.3.2. Une histoire d’expertise…
2.3.3. Une histoire de traitement…
Configuration de premier ordre
a.
Traitement holistique
b.
Configuration de second ordre
c.
24
25
26
31
34
35
36
36
39
47
47
50
60
62
62
65
66
67
69
70
3. Travail expérimental : de la détection à l’identification des visages
3.1. D’où vient la spécificité du visage ?
3.2. Traitement holistique des visages : les Mooney Faces
3.3. Les trois étapes du traitement des visages et leur corrélat neurophysiologiques
3.4. Discrimination du genre
3.5. Identification du visage
75
77
89
103
115
117
4. Discussion
4.1. En Résumé
4.2. Le traitement du visage : de la détection à la reconnaissance
L’extraction de la configuration générique du visage débute à 100 ms
La construction du gestalt commence à la N170
Le traitement analytique comme aide à la détection et à l’identification
Traitement analytique : traitement des yeux ?
Catégorisation du genre
Traitement de l’identité à partir de 220 ms ?
Conclusion
147
147
148
149
151
153
154
154
155
156
PARTIE 2 : VOIX ET INTERACTIONS BIMODALES
161
A. Les Voix et le Système auditif
162
1. Le système auditif
1.1. De la cochlée au cortex auditif primaire
1.1.1. Anatomie et fonctionnement de la cochlée
1.1.2. De la cochlée au cortex auditif primaire
1.2. A1 et les aires auditives associatives
1.2.1. Chez le primate
1.2.2. Chez l’homme
163
163
163
165
166
166
168
7
1.3. Décours temporel du traitement auditif : potentiels évoqués
171
2. La voix : de la production à l’écoute
2.1. Appareil phonatoire et structure de la voix
2.2. Ecouter la voix : langage et perception
2.2.1. Le langage : la communication verbale
Caractéristiques acoustiques du langage
a.
Structures cérébrales impliquées dans le langage
b.
2.2.2. Perception de la voix, informations paralinguistiques
Etudes comportementales
a.
Localisation cérébrale du traitement de la voix
b.
Décours temporel
c.
Modèle de la perception des voix
d.
174
175
176
177
177
178
180
181
187
193
198
3. Travail expérimental : la perception du genre de la voix
203
4. Discussion
Perception du genre de la voix
Comparaison entre le genre du visage et le genre de la voix
235
235
237
B. Interactions bimodales
239
1. La preuve par les illusions
1.1. L’effet McGurk
1.2. Ventriloquie : illusion spatiale et temporelle
1.3. Flashs illusoires
1.4. Un cas particulier d’interaction intermodale : La synesthésie
239
240
241
242
243
2. Etudes comportementales des interactions multimodales
2.1. Facilitation intersensorielle
2.2. Effet de redondance
2.3. Règles de synchronies
2.4. Modèles expliquant les interactions multimodales
2.4.1. Modèles expliquant la facilitation
2.4.2. Hypothèses sur la dominance sensorielle
245
246
247
250
250
251
252
3. Corrélats neuronaux des interactions multimodales
3.1. Localisation de cibles bimodales
3.1.1. Localisation cérébrale
3.1.2. Décours temporel
3.2. La perception des objets, du langage, des visages et des voix
3.2.1. Localisation cérébrale
3.2.2. Décours temporel
Activité précoce
a.
P1 visuelle et N1 auditive
b.
Activité plus tardive
c.
Effets liés à la dominance sensorielle des sujets
d.
3.3. Conclusions
254
256
256
258
259
259
262
263
264
265
266
267
4. Travail expérimental
273
5. Discussion
315
APRES-PROPOS
319
REFERENCES
329
8
9
10
Avant-propos…
L’homme dispose de cinq modalités sensorielles bien connues : le toucher, la vision,
l’odorat, le goût et l’audition. A ces différents sens s’ajoute la proprioception, considérée
comme le «sixième sens». Les informations sensorielles, quelle que soit la modalité de
provenance, transitent toutes par le thalamus avant d’être transmises aux cortex sensoriels
primaires, puis dans les aires sensorielles associatives où s’effectue l’intégration des
informations. Les informations sensorielles sont traitées de manière indépendante, mais elles
sont également combinées de façon à construire un percept unifié de notre environnement.
Par exemple, afin de lire cet avant-propos, vous vous asseyez sur une chaise, vos
récepteurs proprioceptifs sont stimulés et vous signalent votre position assise, les récepteurs
somesthésiques s’éveillent et vont, par exemple, vous informer du confort de votre posture.
Vos yeux parcourent la feuille, les informations visuelles permettent de distinguer des mots
qui en un lieu cérébral différent trouvent leur signification sémantique ; le contenu du texte
est alors accessible. Simultanément, les récepteurs olfactifs sont actifs et l’entrée d’une
personne portant du parfum va suffire à vous faire lever la tête, peut-être même la
reconnaîtrez-vous. Au moment où vous levez la tête, son visage stimulera le système visuel et
vous donnera des informations sur cette personne. Lorsqu’elle se mettra à parler, l’audition
entrera en jeu, et vous aurez accès à d’autres informations redondantes ou non avec celles déjà
reçues. Ces différentes informations seront intégrées pour permettre une perception globale de
ce nouveau venu ainsi que sa reconnaissance. Nos sens sont en perpétuel éveil et nous
donnent en permanence des informations sur notre environnement nous permettant de
reconstruire un percept cohérent du monde qui nous entoure. En reprenant l’exemple de la
personne entrant dans le bureau, les informations visuelles et auditives s’associent pour
reconstruire une perception globale permettant un accès à l’identité de cette personne;
l’information olfactive facilite probablement la reconnaissance.
Ainsi, dans notre vie quotidienne, la multisensorialité est la règle plutôt que
l’exception, puisqu’à chaque instant tous nos sens sont en éveil. Dans un contexte social
extrêmement important pour l’espèce humaine, la perception multisensorielle de l’autre
repose en premier lieu sur sa voix et son visage. C’est donc ce qui fera l’objet de cette thèse.
S’il faut parler de la perception multisensorielle de l’autre par sa voix et son visage, qui
révèlent plus que tout autres informations les éléments du soi, tant au niveau ethnique et
11
social que culturel, ne faut-il pas commencer par s’intéresser à la perception isolée des visages
et des voix ? Comment parler de l’intégration d’informations provenant de deux de nos sens,
si nous ne connaissons pas le traitement de cette même information individuellement dans
chacun de ces deux sens ?
Plan
Dans une première partie constituée par cinq études, j’aborderai la perception des
visages. A travers une revue de la littérature, nous verrons que la singularité des visages n’est
plus à démontrer tant de nombreux indices aussi bien comportementaux que
neurophysiologiques l’ont mise en évidence ces dernières années. Plusieurs hypothèses
tentent d’expliquer cette particularité ; elles seront abordées à la fin de la première partie,
juste avant la présentation des travaux expérimentaux réalisés au cours de ma thèse. Parmi ces
hypothèses, deux théories principales se dégagent. La première de ces théories explique la
spécificité des visages par l’existence de processus particuliers qui seraient orientés, de
manière innée, vers la reconnaissance des visages. La seconde explique que les visages ne
sont pas « spéciaux » en tant que tels mais qu’ils bénéficient de l’expertise que nous en
avons ; c’est cette expertise qui conduit à l’utilisation de processus particuliers. Les
différentes expériences de ma thèse mettent en évidence les corrélats neuronaux sous-tendant
la perception du visage, de sa détection à sa reconnaissance, c’est à dire l’identification du
visage. Ma première étude compare les mécanismes cérébraux mis en jeu par les visages à
ceux mis en jeu par une variété d’objets. Dans les deux études suivantes, je me suis intéressée
aux différentes étapes du traitement des visages et à leur contribution aux modulations des
potentiels évoqués observées dans certaines conditions expérimentales. Ces différentes études
mettent en évidence les processus sous-tendant la détection du visage. Les deux dernières
études ont porté sur un niveau inférieur de catégorisation : dans la première, j’ai étudié les
corrélats de la perception du genre de l’individu puis, dans la seconde, nous avons exploré la
reconnaissance des visages au niveau individuel afin de comprendre l’implication des
différents types de traitements dans l’encodage et la reconnaissance des visages.
Dans la seconde partie de ma thèse, j’aborderai la perception bimodale des visages.
J’entends par perception bimodale des visages l’intégration visuo-auditive d’informations
provenant des visages et des voix. La voix est un « visage auditif » car, comme le visage, elle
véhicule des informations paralinguistiques renseignant sur l’identité, le genre, ou l’état
émotionnel d’un individu. Avant d’étudier les interactions bimodales, j’ai logiquement
exploré la perception de la voix, A travers une revue de la littérature, nous verrons que la
12
perception des informations paralinguistiques dépend en premier lieu des informations
spectrales, en particulier de la fréquence fondamentale, de la voix ; elle dépend également
d’autres facteurs comme la dynamique spectrale de la voix, c’est à dire les variations de
fréquences au cours du temps. La perception des voix a été moins étudiée que celle des
visages ; néanmoins, les voix sont des stimuli auditifs spéciaux ne serait-ce que parce qu’elles
sont le support du langage.Cette spécificité des voix est également démontrée par l’existence
de régions répondant spécifiquement aux stimuli vocaux. Du fait de cette spécificité, il a été
proposé un modèle de reconnaissance des voix similaire à celui de la reconnaissance des
visages ; ce modèle de la perception des voix sera présenté à la fin du chapitre A de la
seconde partie. Dans mon travail expérimental, j’ai étudié la perception de la voix via la
discrimination du genre ; deux expériences, qui font l’objet d’un seul article, ont été réalisées
au cours de ma thèse. Dans la première expérience, j’ai exploré la perception du genre de la
voix sur des voix normales ; dans la deuxième étude, j’ai investigué le rôle de la fréquence
fondamentale dans la reconnaissance du genre.
Dans le chapitre B de la seconde partie, nous aborderons les interactions
multimodales. Les recherches sur ce sujet sont assez récentes ; différentes approches ont été
utilisées conduisant à une multitude de résultats pas toujours cohérents. Un schéma semble
néanmoins se distinguer ; il apparaît que les interactions multimodales mettent en jeu non
seulement les aires hétéromodales (recevant des entrées de plusieurs systèmes sensoriels),
mais également les aires unimodales. Mes études sur la perception « bimodale » des visages
ont porté sur la reconnaissance du genre sur des stimuli bimodaux : un visage présenté
simultanément à une voix. En utilisant 3 tâches avec différentes instructions attentionnelles,
j’ai étudié l’influence de l’attention sur le traitement des informations bimodales, plus
particulièrement sur les informations portées par les visages et les voix.
Un mot sur la méthode
La technique d’imagerie utilisée au cours de ma thèse est la technique des potentiels
évoqués. Les potentiels évoqués représentent l’activité cérébrale évoquée par une stimulation
sensorielle. L’activité électrique est enregistrée à la surface du scalp via un certain nombre
d’électrodes posées en des endroits particuliers du scalp ; dans mes études, les EEG
(ElectroEncéphaloGramme) sont enregistrés grâce à 64 électrodes, excepté dans les études 11
et 32 où 32 électrodes ont été utilisées. L’enregistrement de l’activité cérébrale se fait en
1
2
(Itier, Latinus et al., 2006)
(Latinus & Taylor, 2006)
13
continu ; après l’enregistrement, l’EEG continu est découpé en morceaux (« les époques »).
Les époques sont ensuite moyennées en prenant comme référence temporelle la présentation
du stimulus ; on obtient ainsi les potentiels évoqués. Cette technique permet d’isoler le
décours temporel des traitements cérébraux dans différentes conditions expérimentales.
Un potentiel évoqué (PE) visuel classique est triphasique ; dans certains cas, une
première composante est enregistrée 50 ms après la stimulation : la C1. La C1 est suivie d’une
onde positive vers 100 ms après la présentation du stimulus (la P1), suivie d’une déflexion
négative, la N1 ou N170, puis à nouveau une composante positive, la P2 (Figure 1). Ces
différentes composantes des PE reflètent différentes étapes du traitement visuel. La P1 et la
P2 sont en général observées sur les électrodes occipitales, et occipito-pariétales ; la N170 est
enregistrée sur les électrodes temporales. Ce sont ces trois composantes que j’ai mesurées
dans mes différentes expériences sur les visages (Figure 1).
Un potentiel évoqué auditif classique a également plusieurs composantes. Une
composante est enregistrée 50 ms après la stimulation, la Pa ou P50 ou encore P1. Cette
première onde est suivie de la N1 auditive, onde négative apparaissant 120 ms après le début
de la stimulation, puis de la P2 auditive apparaissant autour de 200 ms après la stimulation.
Les composantes auditives sont mesurées sur les électrodes fronto-centrales. Ces notions,
illustrées par la figure 1, nous serons utiles par la suite pour l’interprétation des résultats
expérimentaux présentés dans cette thèse.
Figure 1. Potentiels évoqués par les visages (a), les voix (b).
14
« Partie antérieure de la tête de l’homme…»
« Figure, face considérée comme…»
« Aspect d’une chose »
15
16
Partie 1 : Les visages…
La vision est l’un des cinq sens de l’homme. Il s’agit du sens le plus développé (30 à
40% du cortex cérébral est consacré à l’analyse du monde visuel). Les stimuli s’adressant au
système visuel sont multiples et variés – objets statiques, dynamiques, texture etc. Parmi ces
différents stimuli, les visages sont probablement les plus courants. Les visages ont acquis une
importance capitale au cours de l’évolution parce qu’ils véhiculent des informations
essentielles à la vie en société telles que l’appartenance ethnique, l’âge, le sexe, l’état
émotionnel ou encore l’identité. Ils sont une véritable signature de l’individu.
L’étude des mouvements oculaires permet de mettre en évidence le centre d’intérêt
visuel ; en effet, la direction du regard est fonction de l’information recherchée. Les patterns
d’exploration de scènes visuelles décrits par Yarbus (1967) témoignent du rôle fondamental
des visages dans la recherche d’informations sociales telles que l’âge ou l’émotion (Figure 2)
(Yarbus, 1967).
Figure 2. Visualisation des saccades
oculaires enregistrées par Yarbus (1967) sur
la peinture originale ("Unexpected Return"
Illya Repin). L'exploration libre de la scène se
fait via un grand nombre de saccades dirigées
vers les visages. L'estimation de l'âge ou de la
durée de la séparation (notifiée par les
expressions
faciales
des
différents
personnages) se fait essentiellement par
l'exploration du visage. Issu de la thèse de
M.A. Lipps (2002)3.
3
http://www.cis.rit.edu/vpl/publications/Lipps_MS_Thesis_full.pdf
17
Au sein même du visage, les yeux et la bouche sont les principaux lieux d’exploration
visuelle, témoignant certainement qu’ils révèlent plus que toute autre partie les informations
inhérentes à la personne (Yarbus, 1961). Pendant une conversation, les yeux se fixent
essentiellement sur la bouche, la lecture labiale favorisant la compréhension du discours.
Ainsi les visages portent un certain nombre d’informations impliquées dans la communication
verbale, via la lecture labiale, et non-verbale, via les yeux et les expressions faciales.
L’importance des visages dans les interactions sociales explique l’engouement des
scientifiques pour l’étude des mécanismes cérébraux impliqués dans leur perception. La
première partie a pour but d’exposer les connaissances acquises sur les mécanismes cérébraux
sous-tendant la perception des visages via une revue de la littérature et de 5 expériences
réalisées au cours de ma thèse.
La perception d’un visage commence, comme celle de tout autre stimulus visuel, par
l’activation des photorécepteurs de la rétine qui assurent la transduction de l’information
lumineuse en messages nerveux. Les potentiels d’action, générés au niveau des cellules
ganglionnaires, convergent vers le cortex visuel primaire via le thalamus puis dans les aires
visuelles associatives jusqu’au cortex inférotemporal et au gyrus fusiforme.
1. Le cheminement de l’information visuelle
1.1. De la rétine au cortex inférotemporal
Tout commence à l’ouverture des yeux. Les photons viennent à la rencontre de la
rétine après avoir traversé la cornée, l’humeur aqueuse, le cristallin puis l’humeur vitrée. Ils
agissent dans le segment terminal des photorécepteurs où ils modifient la conformation de la
rhodopsine – protéine photosensible – induisant alors une cascade de réactions qui entraînent
la génération d’un potentiel d’action au niveau des cellules ganglionnaires. Le traitement
visuel commence dès la rétine, lieu de compactage de l’image : plusieurs millions de
photorécepteurs reçoivent le signal visuel mais, seulement 1,5 million de cellules
ganglionnaires transmettent ce signal vers les aires visuelles. Les axones des cellules
ganglionnaires, constituant le nerf optique, projettent sur l’aire visuelle primaire via le corps
genouillé latéral (CGL), noyau du thalamus, avec une grande précision topographique ; on
parle de rétinotopie. Entre la rétine et le CGL, il y a une décussation partielle des fibres
sensorielles au niveau du chiasma optique. A partir de cet instant, les informations provenant
de l’hémichamp droit – recueillies par la rétine temporale de l’œil gauche et la rétine nasale
de l’œil droit – sont envoyées vers le cortex visuel gauche et vice versa. Dès les cellules
18
ganglionnaires l’image est «segmentée», les différentes informations de la scène visuelle
(mouvement, contraste, couleur) sont envoyées par vagues successives indépendantes jusqu’à
l’aire visuelle primaire. Ces trois vagues d’informations, canal magnocellulaire, canal
parvocellulaire et canal koniocellulaire, aboutissent sur des régions différentes du CGL puis
dans différentes couches du cortex visuel primaire, aire 17 selon l’architecture cérébrale
décrite par Brodmann, également appelée V1.
A partir de V1, les informations visuelles sont envoyées vers une mosaïque d’aires
visuelles associatives interconnectées ; il en fut d’abord rapporté 32 chez le macaque (Van
Essen et al., 1992), mais ce nombre augmente régulièrement avec l’approfondissement des
recherches. Dans chacune de ces aires, les caractéristiques de la scène visuelle vont être
analysées ; à chaque étape, différents indices sont extraits, de l’orientation dans V1 à la forme
dans le cortex inférotemporal (IT). Après V1, le flux d’informations est divisé en deux et
emprunte deux voies distinctes mais connectées : la voie occipito-temporale ou voie ventrale
et la voie occipito-pariétale ou voie dorsale. Les aires V2, V4 et IT constituent la voie ventrale
et jouent un rôle essentiel dans la perception des formes et des couleurs d’où son autre nom :
voie du « quoi » (Figure 3c). Le mouvement, la position dans l’espace etc. sont analysés au
niveau des aires pariétales – MT (cortex temporal médian), MST, LIP (lobule pariétal
inférieur), lobule pariétal supérieur (Aire 7) – qui forment la voie dorsale : voie du « où »
(Figure 3c). Cette dissociation voie ventrale/voie dorsale a également été décrite chez
l’homme, grâce aux études lésionnelles ou à l’imagerie cérébrale chez les sujets sains (Figure
3a, b) (Haxby et al., 1991; Haxby et al., 1994).
19
Figure 3. Voie Ventrale et Voie Dorsale chez l'homme (a, b) et chez le macaque (c). (a) Voie
ventrale et Voie dorsale chez l'homme. Les aires visuelles 17 et 18 selon la nomenclature de
Brodmann sont communes aux deux voies. La voie ventrale (en vert) est la voie occipitotemporale, elle se termine dans le cortex temporal inférieur. La voie dorsale (en mauve) se termine
dans le lobule pariétal supérieur4. (b) Adapté de Haxby et al. (1991). En violet, zones cérébrales
activées par une tâche de localisation spatiale; en vert, zones cérébrales activées par une tâche
d'appariement de visages. (c) Voie Ventrale et Dorsale chez le macaque. Issu de Haxby et al.
(1991), voir aussi Desimone et Ungerleider (1990).
Dès la première aire visuelle, les propriétés bas niveau de l’image sont analysées. La
progression le long des aires de la voie ventrale est associée à une complexification des
informations extraites de la scène visuelle. Les neurones de V4 présentent une sélectivité à
des formes simples, couleurs ou textures. C’est dans le cortex inférotemporal (IT) que les
premiers neurones répondant à des formes complexes ou à des catégories de stimuli sont
enregistrés. Le cortex inférotemporal projette en partie sur le sulcus temporal supérieur (STS),
qui est une aire hétéromodale puiqu’il reçoit également des projections en provenance des
aires auditives et somesthésiques (Allison et al., 2000).
4
Adapté de http://dr-lozanov.dir.bg/book/25pa.htm
20
1.2. La catégorisation dans le cortex temporal
Le cortex inférotemporal est considéré comme étant la dernière aire purement visuelle
puisque 85% des neurones de IT répondent exclusivement à des stimuli visuels (Desimone et
al., 1984 ; Logothetis et al., 1995). Chez le singe, le cortex inférotemporal est subdivisé en
TEO dans sa partie postérieure et TE dans sa partie la plus antérieure (Figure 3c) ; TEO est
activé par des formes simples (type barre ou disque) tandis que les neurones de TE répondent
à des formes plus complexes (Fujita et al., 1992; Tanaka et al., 1991 ). On trouve dans IT des
neurones répondant à une grande variété de stimuli (Logothetis et al., 1995 ; Lueschow et al.,
1994). Des populations de neurones répondant de manière sélective aux visages ont été mises
en évidence dans IT et les régions avoisinantes, la majorité se trouvant dans le STS
(Desimone et al., 1984; Gross et al., 1972 ; Perrett et al., 1992 ; Tsao et al., 2006). Outre les
visages, les neurones du cortex inférotemporal répondent, par exemple, à des images de
papillon (Sheinberg & Logothetis, 1997), des formes générées par ordinateur ressemblant à
des amibes (Logothetis et al., 1995), des images d’objets naturels complexes allant des fruits
à des parties du corps etc. (Figure 4) (Hung et al., 2005; Tamura & Tanaka, 2001 ).
Figure 4. Enregistrements multiunitaires chez le
macaque sur 3 sites différents pour 5 objets.
Adapté de Hung et al. (2005). Les neurones
déchargent de manière préférentielle pour certains
objets.
Un grand nombre d’études montrent que les neurones d’IT répondent à des formes
complexes ; leurs taux de décharge semblent d’ailleurs supérieurs pour les images d’objets
complexes que pour des formes géométriques en 2 dimensions (Tamura & Tanaka, 2001). La
sélectivité des neurones d’IT est parfois décrite comme étant invariante à la taille ou à la
position rétinotopique, mais sensible à l’orientation ou à l’angle de vue de l’objet (Ito et al.,
1995; Logothetis et al., 1995; Lueschow et al., 1994) ; il semble cependant que cette
sélectivité dépende des sites d’enregistrements (Gochin, 1996). Suite à ces observations, il a
été proposé que la représentation cérébrale des objets passe par une population de cellules
dédiée à chaque catégorie et pour chaque angle de vue ; cette hypothèse est toutefois peu
probable. Tanaka et collaborateurs ont exploré la réponse des neurones de IT en enlevant peu
à peu les éléments constituant l’image ; ils ont ainsi montré que certains éléments de l’image
étaient plus à même que d’autres de générer la réponse maximale du neurone (Fujita et al.,
1992; Kobatake & Tanaka, 1994; Tanaka, 1992, 1993; Tanaka et al., 1991). L’organisation
21
des cellules de la partie antérieure d’IT paraît donc semblable à celle de V1, à savoir une
organisation en colonnes. Chaque colonne est constituée de cellules présentant une sélectivité
similaire mais légèrement différente à des éléments visuels complexes (Fujita et al., 1992;
Tanaka, 1992) ; la reconnaissance d’un objet se ferait par l’activation de différentes cellules
dans chaque colonne (Tanaka, 1996).
Chez l’homme, les techniques de neuroimagerie cérébrale ont mis en évidence des
zones cérébrales spécifiquement dédiées à la perception de certaines catégories d’objets. Les
électrodes placées à la surface du cortex chez les patients épileptiques ont permis d’enregistrer
une onde négative 200 ms après le début de la stimulation, la N200. La N200 semble être
spécifique de certaines catégories puisque son lieu d’émergence dépend de la stimulation
(Allison et al., 1994; Allison et al., 1999; McCarthy et al., 1999). Ainsi, les N200 évoquées
par différents objets complexes, ainsi que par des lettres ou des nombres, proviennent d’une
région s’étendant du gyrus lingual inférieur au gyrus occipital médian (Figure 5a) (Allison et
al., 1999). D’autres études ont révélé l’existence de régions impliquées dans la représentation
de l’environnement visuel, c’est à dire activées par différents types de repères visuels tels que
les scènes visuelles (Epstein et al., 1999; Epstein & Kanwisher, 1998 ), les bâtiments (Aguirre
et al., 1998 ) ou les maisons (Figure 5d) (Ishai et al., 1999). Ces régions sont localisées dans
la partie postérieure du lobe temporal, allant du gyrus lingual (Aguirre et al., 1998 ) au cortex
parahippocampique (Epstein et al., 1999; Epstein & Kanwisher, 1998 ), en passant par le
gyrus fusiforme médian (Figure 5a, c) (Ishai et al., 1999). Les enregistrements intracrâniens
ont révélé l’existence, dans l’hippocampe, de neurones répondant spécifiquement à des items
particuliers d’une catégorie, par exemple l’opéra de Sydney ; ces neurones répondent
également à la présentation écrite du nom (Figure 5b) (Quiroga et al., 2005). Les
enregistrements multiunitaires chez l’homme ont également révélé la présence, dans le cortex
entorhinal, de neurones déchargeant de façon préférentielle pour les images d’animaux, sans
distinction au sein de la catégorie (Kreiman et al., 2000). D’autres catégories de stimuli non
visage ont fait l’objet d’études ; il en ressort en général une activité plus ou moins étendue
dans le gyrus temporal inférieur ou dans le gyrus fusiforme médian (Figure 5c) (Ishai et al.,
1999). Cependant, bien que de nombreuses études semblent démontrer un corrélat neuronal à
la catégorisation dans le lobe temporal, l’existence de modules spécifiques de chaque
catégorie d’objets est peu probable ; « il y a simplement trop de catégories et trop peu de
cortex » (Ishai et al., 1999). Certains auteurs proposent donc que la représentation des
catégories dans IT soit en fait largement distribuée dans le cortex temporal et que les
22
catégories soient codées en terme d’un pattern d’activation des différentes régions répondant
aux différents objets (Haxby et al., 2001; Ishai et al., 2000 ; Ishai et al., 1999 ). Ces différents
patterns d’activités permettent de coder un nombre illimité de catégories (Haxby et al., 2001;
Ishai et al., 1999 ). Cette hypothèse est appuyée par des études montrant des recouvrements
entre les zones cérébrales répondant spécifiquement à certaines catégories (Allison et al.,
1994). Ainsi, les zones répondant aux maisons ne sont pas inactives lors de la présentation de
chaises, elles sont seulement moins actives, le contraire est également vérifié (Ishai et al.,
1999). Parallèlement à l’étude des catégories non visage, de nombreuses études se sont
intéressées à la perception des visages, leurs résultats seront détaillés au cours du prochain
chapitre. En résumé, elles s’accordent toutes sur l’activation d’un locus particulier dans le
gyrus fusiforme latéral et des régions du gyrus temporal inférieur par les visages (Allison et
al., 1999 ; Ishai et al., 1999; Kanwisher et al., 1997 ). Néanmoins, il semble de plus que la
représentation des visages dans le cortex soit plus restreinte que celle des objets car, bien que
le gyrus fusiforme latéral ne réponde pas exclusivement aux visages, les visages n’activent
que très peu les zones répondant aux autres objets (Ishai et al., 2000; Ishai et al., 1999 ).
Figure 5. Catégorisation dans le lobe temporal humain. (a) Visualisation schématique des aires
cérébrales répondant de façon maximale à certaines catégories d'objets. Le gyrus lingual est situé
entre la fissure calcarine et la fissure collatérale, en avant on trouve le gyrus parahippocampique;
aires impliquées dans le traitement des scènes visuelles. Adapté de Gray's Anatomy Human body
(via Wikipédia). (b) Enregistrements multiunitaires chez l'homme dans l'hippocampe antérieur
droit. La décharge des neurones est généralisée à différentes vues de l'opéra de Sydney. Adapté de
23
Quiroga et al. (2005). (c) Visualisation des aires montrant des réponses maximales aux maisons
(vert), visages (rouge) et chaises (bleu foncé) sur une vue latérale (en haut) et ventrale (en bas) de
l'hémisphère droit. A: cortex occipital dorsal, B: STS, C: gyrus occipital médian, D: gyrus
occipital inférieur, E: gyrus temporal inférieur, F: gyrus fusiforme latéral, G: gyrus fusiforme
postérieur, H: gyrus fusiforme médian. Adapté de Ischaï et al. (2000). (d) IRM fonctionnelle
montrant les zones cérébrales majoritairement activées par les maisons (vert), les visages (rouge)
et les chaises (bleu foncé). Issu de Ishaï et al. (1999).
Chez l’homme, comme chez le singe, les différentes catégories visuelles sous-tendent
une représentation corticale particulière dans le lobe temporal, soit au sein de régions
discrètes, soit via des patterns d’activation distincts. Parmi toutes ces catégories, la
représentation corticale de la catégorie «visage» semble se distinguer. Dans le chapitre
suivant, nous allons voir que les visages diffèrent des autres objets tant au niveau
comportemental qu’au niveau neuronal. Les différentes hypothèses qui expliquent la
spécificité de la catégorie « visage » seront également décrites.
2. Les visages : une catégorie à part ?
La reconnaissance des visages humains a été explorée chez de nombreuses espèces
animales, en particulier chez l’homme et le singe mais, de façon plus surprenante, elle a
également été étudiée chez le pigeon (Troje et al., 1999) ou l’abeille (Dyer et al., 2005).
L’étude de la perception des visages chez les pigeons a permis de mettre en évidence le rôle
des informations texturales dans les mécanismes de discrimination des formes complexes ; les
pigeons sont capables de discriminer deux visages humains en fonction du genre mais
seulement en présence d’informations texturales (Huber et al., 2000; Troje et al., 1999).
Quant à l’étude de la reconnaissance des visages par les abeilles, il en ressort que les abeilles
utilisent les informations configurales5 pour distinguer deux visages, et que ces informations
ne sont plus disponibles lorsque le visage est inversé (Dyer et al., 2005). Ces quelques études
prouvent l’importance de l’étude des visages chez les animaux car ils sont des stimuli
complexes partageant une configuration précise reproductible d’un stimulus à l’autre ; cette
configuration est la signature de la catégorie. Ce n’est que chez l’homme que les visages
acquièrent une dimension sociale leur conférant un rôle de première importance, d’où de
nombreuses études sur le sujet.
Des cas de patients présentant une agnosie spécifique des visages furent pour la
première fois rapportés au 19ème siècle (Quaglino, 1867; Wigan, 1844); en 1947, cette
5
Sauf précision et jusqu’à une définition plus précise dans la partie « théories », le terme configural est utilisé de
manière générique comme synonyme de traitement relationnel, c’est à dire le traitement des relations entre les
traits.
24
pathologie fut nommée prosopagnosie par Joachim Bodamer (Bodamer, 1947). Plusieurs cas
furent publiés par la suite. La prosopagnosie se définit comme un trouble de la perception6 des
visages dans lequel la reconnaissance de ces derniers est fortement altérée, sans impact sur
celle des objets (Farah, Levinson et al., 1995). Ainsi, la prosopagnosie peut résulter soit une
incapacité à détecter un visage soit en une incapacité à le reconnaître ; certains auteurs
considèrent néanmoins que la prosopagnosie touche exclusivement la reconnaissance du
visage. Il existe plusieurs prosopagnosies ; les mêmes déficits comportementaux, à savoir
perte du sentiment de familiarité et de la capacité à identifier, peuvent résulter de
dysfonctionnements à différents niveaux du traitement des visages. On observe, en effet, des
prosopagnosies liées à des troubles de la perception, à des troubles du traitement configural
ou à des déficits dans l’association entre le visage perçu et les informations biographiques
stockées en mémoire (Sergent & Signoret, 1992b). La prosopagnosie a pour cause des lésions
occipito-temporales bilatérales, bien que des lésions de l’hémisphère droit suffisent à la
provoquer (Michel et al., 1989). Chaque type de prosopagnosie correspond toutefois à
l’atteinte de régions distinctes de la voie occipito-temporale (Sergent & Signoret, 1992a, b).
L’existence de lésions touchant spécifiquement la perception des visages suggère une
dissociation fonctionnelle entre traitements des visages et traitements des objets, justifiant de
l’intérêt de la recherche pour le sujet. Il a également été rapporté des cas de patients
présentant une agnosie visuelle sans atteinte de la reconnaissance des visages (Moscovitch et
al., 1997). Il existe donc une double dissociation entre le traitement des visages et celui des
objets.
Par la suite, chez les sujets sains, l’utilisation d’une grande variété de protocoles
comportementaux a permis d’asseoir définitivement la catégorie « visage » en révélant des
différences dans les processus engagés par les visages et les objets (Diamond & Carey, 1986;
Farah, 1996; Itier & Taylor, 2004a; Valentine, 1988; Yin, 1969).
2.1. Spécificité comportementale
Considérer la perception des visages comme étant distincte de celle des objets est une
évidence au vu du nombre de données comportementales et neurophysiologiques recueillies
depuis plusieurs années.
6
Le terme « perception » regroupe tous les processus de haut niveau effectués sur les visages, de la détection à
l’extraction des informations sur l’identité (reconnaissance du visage), le genre, les humeurs etc. tel qu’il est
défini par Kanwisher et al. (1997). Les termes « reconnaissance » ou « identification » référent, quant à eux, à
des tâches requérant une discrimination du visage à un niveau individuel.
25
D’une part, les études développementales montrent une préférence pour les visages
dès l’enfance ; dès la première heure de vie, les nouveau-nés suivent plus facilement du
regard un visage en mouvement qu’un stimulus non visage (Goren et al., 1975; Johnson et al.,
1991). Cependant, les attributs conférant cette préférence pourraient être relativement simples.
Certaines études montrent en effet que les enfants préfèrent des formes complexes colorées et
en mouvement (Fantz & Miranda, 1975; Miranda & Fantz, 1973), ces divers paramètres se
retrouvant dans le visage humain. Un autre étude révèle que la préférence des nouveaux-nés
pour les visages dépend d’une asymétrie entre la partie haute et la partie basse d’un stimulus ;
ils préfèrent un stimulus, visage ou non, constitué de deux éléments dans sa partie haute et
d’un seul dans sa partie basse (Turati et al., 2002). Ces résultats sont en défaveur d’une
spécificité des visages ; néanmoins, la préférence pour les stimuli présentant une asymétrie
verticale pourrait découler de l’expérience que les nouveaux-nés ont des visages (Turati et al.,
2002). Ainsi, bien que certains auteurs proposent que la spécificité des visages existent dès la
naissance, d’autres études présentent des arguments forts s’opposant à cette hypothèse.
D’autre part, chez l’adulte,la perception des visages est affectée par différentes
manipulations expérimentales qui n’affectent pas, ou peu, la perception des objets, suggérant
ainsi que les visages sont des stimuli spéciaux.
a. Effet d’inversion, de visage chimérique et de négation
Un élément essentiel ayant permis de montrer la spécificité des visages est la
sensibilité du traitement des visages à l’inversion. Non seulement la reconnaissance des
visages est meilleure que celle des objets (Yin, 1969), mais l’inversion la diminue de manière
drastique et a moins d’impact sur la reconnaissance des objets (Valentine, 1988; Yin, 1969 ).
Cette perturbation se traduit par une diminution des performances et une augmentation des
temps de réaction ; c’est ce que l’on appelle l’effet d’inversion du visage (« Face Inversion
Effect »). Les observations comportementales rapportées par Yin (1969) ont été reproduites
maintes fois par la suite dans des tâches d’identification de visages familiers (Valentine &
Bruce, 1986), d’appariements de visages non familiers (Diamond & Carey, 1986 ; Farah,
Tanaka et al., 1995; Itier & Taylor, 2002 ; 2004a ; Leder & Carbon, 2006 ; Rhodes et al.,
1993 ; Rossion, Delvenne et al., 1999) mais également dans de simples tâches de détection du
visage (Purcell & Stewart, 1988). Chez un patient prosopagnosique, il est rapporté un effet
d’inversion anormal ; l’inversion améliore la reconnaissance du visage (effet d’inversion
26
inversé) (Farah, Wilson et al., 1995)7. Les traitements engagés par les visages à l’endroit et à
l’envers paraissent donc différents. Par ailleurs, ce patient s’étant révélé incapable de
généraliser les traitements qu’il utilise pour reconnaître les visages à l’envers à la
reconnaissance des visages à l’endroit, les auteurs proposent que le traitement des visages à
l’endroit serait automatique chez le sujet sain (Farah, Wilson et al., 1995).
La reconnaissance des visages n’est pas restreinte au seul domaine visuel puisque les
sujets aveugles peuvent reconnaître un visage par le toucher (Pietrini et al., 2004) ; cette
reconnaissance tactile du visage existe également chez les sujets sains (Kilgour & Lederman,
2002). La reconnaissance tactile des visages est perturbée par l’inversion, qui n’a cependant
pas d’influence sur la reconnaissance tactile des objets (e.g. théières) (Kilgour & Lederman,
2006) ; le patient prosopagnosique, décrit ci-dessus, présente également un effet d’inversion
anormal pour la reconnaissance tactile de visage (Kilgour et al., 2004). Ceci suggère que la
reconnaissance d’un visage n’est pas unimodale mais multimodale. La collaboration entre
différentes modalités sensorielles sera abordée au cours de la deuxième partie.
Comprendre pourquoi l’effet d’inversion est limité à la reconnaissance des visages a
donné lieu à de nombreuses études. L’une des premières manipulations ayant expliqué l’effet
d’inversion est l’illusion de Thatcher (Figure 6 – image du milieu) (Thompson, 1980). Dans
cette manipulation du visage, les éléments internes sont inversés ; le visage paraît alors
saugrenu à l’endroit mais normal lorsqu’il est inversé (Figure 6 – image du milieu).
L’illusion de Thatcher révèle que l’inversion perturbe le traitement configural du visage
(Bartlett & Searcy, 1993; Boutsen & Humphreys, 2003). Il a été démontré par la suite que la
négation (l’inversion de contraste) avait également un impact sur la configuration du visage ;
un visage en négatif dont les traits internes sont inversés n’est pas non plus considéré comme
grotesque (Figure 6 – image de droite) (Lewis & Johnston, 1997).
7
Il faut noter que de nombreux patients prosopagnosiques ne présentent pas le profil décrit par Farah et al.
(1995) (commentaire de Bruno Rossion, 2007).
27
Figure 6. Illusion de "Thatcher". Cette illusion est ainsi nommée car une photo de Margaret
Thatcher fut utilisée la première fois par Thompson(1980). Elle est, ici, adaptée avec une autre
photographie. Des rectangles contenant les yeux et la bouche ont été coupés puis inversés, et
replacés au sein du visage. Lorsque l'image ainsi transformée est présentée à l'envers ou en négatif,
l'inversion des éléments n'est pas perçue, mais lorsqu'elle est présentée à l'endroit, le visage paraît
hideux.
Plusieurs études se sont ensuite intéressées aux effets d’inversion sur le traitement de
la configuration du visage ou des éléments le constituant (yeux, bouche, nez etc.) ; il en
résulte que l’inversion affecte principalement le traitement de la configuration (Bartlett et al.,
2003; Freire et al., 2000; Leder & Bruce, 2000 ; Rhodes et al., 1993; Tanaka & Farah, 2003 ).
Searcy et Bartlett (1996), dans une tâche où les sujets évaluent la bizarrerie d’un visage, ont
montré que seule celle liée à une modification des éléments (par exemple, les dents coloriées
en noir) persiste après inversion ; les visages dont les relations spatiales entre les éléments
sont modifiées ne sont plus considérés comme bizarres lorsqu’ils sont inversés (Searcy &
Bartlett, 1996). De la même façon, Freire et al. (2000) ont montré que l’inversion diminue la
capacité à discriminer deux visages différant par les relations spatiales entre les traits, alors
qu’elle n’a pas d’effet si les modifications concernent les traits internes du visage (Freire et
al., 2000 ; Tanaka & Farah, 1993). L’évaluation de la distance entre les éléments du visage
dépend aussi de la configuration puisqu’elle est perturbée par l’inversion (Leder et al., 2001).
L’utilisation de visages chimériques – visages composés de deux moitiés appartenant
à deux individus (Figure 7) – confirme l’importance de la configuration dans la
reconnaissance des visages. Young et al. (1987) démontre que l’identification des moitiés de
deux visages connus constituant un visage chimérique est difficile à l’endroit : le visage
chimérique est considéré comme nouveau et non familier (Young, Hellawell et al., 1987). Cet
effet est appelé l’effet composite du visage, et est observé pour des visages familiers ou non
familiers (pour exemple, Figure 7) (Hole, 1994; Young, Hellawell et al., 1987). L’effet
composite du visage est annihilé par l’inversion et le non-alignement des moitiés supérieure et
inférieure du visage (Figure 7) (Schiltz & Rossion, 2006; Young, Hellawell et al., 1987).
28
Figure 7. Exemples de visages composites. Première ligne: moitié inférieure du visage identique.
Seconde ligne: moitié inférieure du visage différente. Les moitiés peuvent être alignées, à l'endroit
(première colonne) ou à l'envers (dernière colonne). Les moitiés peuvent également être non
alignées (colonne du milieu). La reconnaissance de la moitié supérieure du visage n'est perturbée
que dans la condition moitiés alignées à l'endroit. Adapté de Schiltz et Rossion (2006).
D’autres paradigmes expérimentaux révèlent le rôle important à la configuration dans
la perception du visage. Ainsi, dans une tâche de choix forcé (discrimination entre deux
items), il a été montré que la reconnaissance d’un élément du visage (par exemple, le nez) est
plus facile lorsqu’il est présenté au sein du visage initial que lorsqu’il est présenté seul. Cette
facilitation s’observe mais de façon moindre lorsque l’élément à reconnaître est présenté au
sein d’une nouvelle configuration (Tanaka & Farah, 1993). A contrario, la reconnaissance
d’un élément d’un objet ( par exemple, une fenêtre) n’est pas facilitée par sa présentation dans
une vue globale de l’objet (Tanaka & Sengco, 1997; Tanaka, 1993). Par la suite, ces auteurs
ont montré que modifier la position spatiale d’un élément perturbait non seulement la
reconnaissance de cet élément, mais également celle des autres éléments du visage (Tanaka &
Sengco, 1997). Dans la même veine, une étude de Rhodes et collaborateurs (1993) montre
qu’un changement sur un élément isolé est difficilement détecté lorsqu’il est présenté au sein
du visage, démontrant ainsi que les différents éléments du visage ne sont pas traités de
manière indépendante (Rhodes et al., 1993). Ces données prêchent en faveur d’un traitement
holistique du visage ; les informations sur les éléments et la configuration étant réunies au
sein d’un « gestalt8 » (Farah et al., 1998; Tanaka & Farah, 2003; Tanaka & Sengco, 1997;
Tanaka, 1993). Le traitement holistique des visages est supporté en grande partie par les
basses fréquences spatiales comme le montre la persitance de l’effet composite du visage9 en
présence des seules basses fréquences spatiales et son absence lorsque seules les hautes
8
« Gestalt » vient de l’allemand et signifie forme ; il est utilisé dans de nombreuses langues sous sa forme
générique. Il est surtout connu par la théorie de la forme (« gestalt theory »), théorie de l’esprit qui propose que,
dans le cerveau, les opérations sont effectuées en parallèle, de manière holistique et répétitive avec des tendances
à l’auto-organisation. Une des règles de la théorie de la forme est que le tout vaut plus que la somme des parties.
Dans la reconnaissance des objets et des visages, cela signifie que toutes les informations sont réunies dans une
forme globale indivisible, ne permettant pas de définir les différents éléments qui la compose.
9
L’effet composite du visage est un indice du traitement holistique du visage (Goffaux & Rossion, 2006; Maurer
et al., 2002).
29
fréquences spatiales sont présentes dans l’image (Goffaux et al., 2005; Goffaux & Rossion,
2006). Cependant, dans une autre étude utilisant des visages chimériques à l’endroit, à
l’envers ou en négatif (Figure 8a, b), Hole et collaborateurs (1999) montrent que
l’identification d’une moitié d’un visage composite est facilitée non seulement par l’inversion
quel que soit le contraste, mais également par la négation (Figure 8c). Après examen des
stimuli, les auteurs ont constaté que la négation mettait en saillance des éléments de l’image
tels que la limite peau/cheveux pouvant servir d’indice à la reconnaissance. En conséquence
de quoi, ils ont reproduit l’expérience ((Hole et al., 1999) – expérience 2) en utilisant des
visages présentés sous différents angles de vue (1 photo ¾ versus 1 photo de face) afin
d’empêcher la reconnaissance basée sur des éléments locaux. Les résultats de cette deuxième
expérience sont similaires quel que soit le contraste : l’inversion améliore la reconnaissance et
la négation n’a plus d’effet facilitateur sur l’identification (Figure 8d). Ces résultats suggèrent
qu’une partie des informations relationnelles persistent après la négation. Or, nous avons vu
précédemment que la négation perturbait l’extraction de la configuration (preuve en est
l’illusion de Thatcher qui est présente pour les visages en négatif) (Lewis & Johnston, 1997).
Il apparaît ainsi que la négation et l’inversion perturbent les différents traitements relationnels
du visage (Kemp et al., 1990). Plus particulièrement, Hole et al. (1999) distinguent
traitements holistique et configural ; le traitement holistique se réfère à la représentation du
visage dans un gestalt, alors que le traitement configural signifie le traitement des relations
spatiales entre les traits (définition de Searcy et Bartlett, 1996). Selon Hole et al. (1999),
l’inversion perturberait tout type de traitements relationnels (holistique et configural), alors
que la négation n’aurait un effet que sur le traitement configural.
30
Figure 8. Visages composites. Tâche de discrimination entre la moitié haute de deux visages en
choix forcé. Les sujets répondent "pareil" si le haut du visage provient d'un même individu ou
"différent" dans le cas inverse. (a, b) Exemples de visages chimériques dont la moitié haute est
identique (a) ou différente (b), à l'endroit, à l'envers ou en négatif. (c) Expérience 1: Temps de
réaction pour les différentes conditions lorsque la moitié haute est identique (histogramme de
gauche) ou différente (histogramme de droite). L'inversion et la négation facilitent la
reconnaissance du visage (TR plus courts). (d) Expérience 2: Temps de réaction lorsque les
visages d'une paire sont présentés sous différents angles de vue lorsque la moitié haute est
identique (histogramme de gauche) ou différente (histogramme de droite). La moitié haute des
visages en négatif est aussi difficile à identifier que dans les visages normaux, l'effet d'inversion
persiste néanmoins.. Adapté de Hole et al. (1999).
Toutes ces études tendent à démontrer que la reconnaissance du visage requiert une
configuration intacte ; toute modification entraînant une altération des relations entre les traits
telle que l’inversion ou la négation (Itier & Taylor, 2004a ; Lewis & Johnston, 1997) se
traduit par des troubles de la reconnaissance, et ce dès l’enfance (Itier & Taylor, 2004b). Ces
différents résultats suggèrent une dissociation fonctionnelle entre visages et objets due à la
mise en jeu de processus différents. Les visages seraient reconnus grâce à l’extraction de leur
configuration, alors que les objets seraient traités élément par élément afin d’être reconnus.
b. Effet d’expertise et du niveau de traitement
Parallèlement à ces études explorant la spécificité des visages du point de vue des
processus mis en jeu, d’autres auteurs montrent que l’effet d’inversion peut être reproduit
avec des objets non visage dans certaines conditions. Diamond et Carey (1986) ont ainsi
montré que l’effet d’inversion n’est pas cantonné à la seule catégorie « visage ». En utilisant
plusieurs catégories de stimuli (paysages, chiens, visages), ils ont montré que l’inversion d’un
31
stimulus non visage entraîne également un déficit dans la reconnaissance seulement si les
sujets sont experts en cette catégorie (Diamond & Carey, 1986; Gauthier, Skudlarski et al.,
2000). Une étude récente remet, cependant, en cause ces résultats ; en appliquant différents
paradigmes comportementaux ayant permis de mettre en évidence la spécificité des visages, à
la reconnaissance des chiens par des sujets experts, Robbins et McKone (2007) ne sont pas
parvenus à révéler un comportement similaire pour les visages et les objets (Robbins &
McKone, 2007).
Figure 9. Rencontre avec les «greebles». (a) Exemple de «greebles» : 5 familles, 2 genres. Une
famille est définie par la forme de la partie centrale, le genre est défini par l'orientation des
excroissances relativement à la partie centrale ("plok": vers le bas). L'unicité d'un individu est
révélée par les relations spatiales entre les parties. (b) Résultats comportementaux observés lors
d'une tâche d'identification d'un élément d'un Greeble soit présenté seul (isolated part - noir), soit
présenté dans la configuration générale du Greeble (gris). La tâche est une tâche de
discrimination, en choix forcé, entre deux images présentées en même temps à l'endroit ou à
l'envers. A gauche: performance, à droite: temps de réaction pour des sujets novices ou experts.
Issu de Gauthier et Tarr (1997). NB: Les pourcentages de réponses correctes augmentent lorsque
l'élément est présenté dans sa configuration originale, les TR sont néanmoins plus court pour la
reconnaissance de l'élément isolé.
L’importance de la configuration dans la reconnaissance des objets pour lesquels les
sujets sont experts a également été démontrée via l’utilisation de stimuli nouveaux n’ayant
aucune signification biologique («greebles») mais qui partagent une même configuration
générale (Figure 9a) ; les différences entre les individus reposent sur la position relative des
éléments (Figure 9a). En appliquant le paradigme de Tanaka et Sengco (1997) aux
« greebles », à savoir un tâche requérant la reconnaissance d’un élément lorsqu’il est présenté
32
seul, dans le visage d’origine ou dans un nouveau visage, Gauthier & Tarr (1997) montrent,
que la présentation de l’élément au sein de sa configuration originale facilite sa
reconnaissance quel que soit le niveau d’expertise des sujets (Figure 9b, c). Rappelons que
dans le cadre de la perception du visage, la présentation d’un élément dans une nouvelle
configuration diminue sa reconnaissance ; dans l’étude de Gauthier et Tarr, la diminution de
la reconnaissance lorsque l’élément est présenté dans une nouvelle configuration n’a lieu que
chez les sujets experts (Gauthier & Tarr, 1997).
D’autres études s’intéressant à la relation entre expertise et spécificité des visages
montrent que visages et objets se distinguent également par le niveau auquel ils sont
catégorisés. Tous les objets peuvent être reconnus à différents niveaux d’abstraction ; les
objets sont regroupés dans des catégories sur la base du partage de certaines caractéristiques.
Les différents niveaux d’abstraction sont hiérarchisés ; du niveau le plus général au niveau le
plus spécifique, on parle de niveau super-ordonné (par exemple, animal), de niveau de base
(par exemple, singe), puis de niveau subordonné (par exemple, macaque) (Mervis & Rosch,
1981). Dans cette hiérarchie, le niveau de base a un statut particulier puisqu’il correspond au
niveau d’entrée, c’est le niveau auquel les objets sont le plus souvent reconnus (Rosch et al.,
1976), excepté pour les objets atypiques dont le niveau d’entrée est subordonné par rapport au
niveau de base (par exemple, les pingouins) (Jolicoeur et al., 1984). Les visages sont des
« objets » particuliers puisqu’ils sont généralement reconnus au niveau subordonné (genre),
voire même, lorsque l’information est disponible, au niveau individuel (identité) (Tanaka,
2001). Tanaka (2001) a aussi montré que les temps de réaction des sujets ne varient pas en
fonction du niveau d’abstraction de la reconnaissance des visages tandis que les chiens sont
plus rapidement reconnus au niveau de base. De plus, il montre que la reconnaissance des
visages à un niveau identitaire ne requiert pas de traitements perceptuels additionnels ; au
contraire, la reconnaissance des objets au niveau subordonné requiert, elle, des traitements
additionnels puisqu’elle est affectée par des temps courts de présentation des images.
Bien que l’approche de ces dernières études soit différente de celles citées
précédemment, elles mettent également en évidence la singularité des visages. Ces derniers
sont traités à un niveau subordonné par rapport aux objets, le déplacement du niveau de
reconnaissance vers des niveaux plus spécifiques semble lié à l’expertise (Gauthier & Tarr,
1997). Cette hypothèse est soutenue par des études montrant que la faculté de discriminer
deux visages est restreinte à notre propre ethnie du moins après la première année de la vie
(Pascalis et al., 2002) ; l’expertise dans une ethnie particulière conduirait à une spécialisation
33
des traitements. Cette faculté à accéder à l’identité d’un visage quasi instantanément montre
bien une particularité des visages par rapport aux autres objets.
En résumé, il est montré que les visages sont en général traités à un niveau plus
spécifique que les objets : le niveau subordonné. A niveau d’abstraction égal, ils sont donc
plus rapidement traités que les objets (Tanaka, 2001). En outre, la sensibilité à l’inversion
pour les visages et les objets diffère. La reconnaissance des visages est plus affectée par
l’inversion que celle des autres objets. De plus, la reconnaissance des éléments du visage est
favorisée par leur présentation au sein de la configuration du visage ; cela n’avantage pas la
reconnaissance d’un élément d’un objet. Quelle qu’en soit la raison, les visages semblent
entraîner des réponses comportementales différentes de celles engendrées par la
reconnaissance des objets. Les corrélats neuronaux de cette spécificité ont été explorés grâce à
l’utilisation de nombreuses techniques d’imagerie cérébrale allant de l’IRMf à l’EEG.
2.2. Corrélats neuronaux de la reconnaissance des visages
Les corrélats neuronaux de la perception des visages ont été explorés aussi bien chez
l’homme que chez le primate. Les différentes techniques utilisées apportent des informations
différentes mais complémentaires sur la localisation cérébrale et le décours temporel du
traitement des visages. Les enregistrements cellulaires chez le primate informent sur ces deux
aspects des traitements cérébraux. Chez l’homme, l’avènement des techniques de
neuroimagerie et l’amélioration des résolutions spatiale et temporelle de ces dernières ont
permis d’examiner les processus sous-tendant la reconnaissance des visages. Elles ont révélé
l’existence de modules spécifiques dédiés aux visages.
L’IRM10 et la TEP11 renseignent sur les variations du débit sanguin et du métabolisme
cérébral – témoins indirects de l’activité cérébrale – dans certaines régions cérébrales et ainsi,
informent sur la localisation spatiale des processus de traitement des visages. Ces deux
techniques disposent d’une faible résolution temporelle, elles ne peuvent donc nous
renseigner sur les décours temporels de ces processus. Cependant, l’IRMf est aujourd’hui
utilisée dans des paradigmes de type évènementiel ce qui améliore sa résolution temporelle et
permet de suivre le décours temporel des activations des différentes aires corticales (Thierry
et al., 1999). La résolution temporelle de l’IRMf reste, néanmoins, nettement inférieure à
celle des techniques d’enregistrements de l’activité électromagnétique à la surface du scalp.
10
11
Imagerie par Résonnance Magnétique, IRMf : IRM fonctionnelle.
Tomographie par Emission de Positron
34
L’EEG12 et la MEG13, quant à elles, sont des techniques basées sur les variations de
l’activité électromagnétique et ont, aujourd’hui, une résolution temporelle de l’ordre de la
milliseconde. Associées à certains logiciels d’analyse de source (Loreta, Laura, Besa etc.),
elles permettent également de recueillir des renseignements sur la localisation des sources
cérébrales des signaux enregistrés en surface, mais ces informations sont nettement moins
précises que l’IRMf ou la TEP.
2.2.1. Enregistrements cellulaires chez le primate
Chez le macaque, la perception des visages a été étudiée via des visages humains ou
simiens ; certaines études n’ont utilisé que des visages simiens, d’autres ont regroupé les
visages humains et simiens dans la catégorie « visage » (Perrett et al., 1982; Rolls, 1992). Les
enregistrements cellulaires chez le macaque ont mis en évidence la présence de cellules
répondant de manière spécifique aux visages dans le cortex inférotemporal et dans le sulcus
temporal supérieur (Desimone et al., 1984; Gross et al., 1972 ; Perrett et al., 1992 ; Rolls,
1992; Tovee et al., 1996). Les réponses des neurones du STS sont relativement constantes
malgré des modifications de différents paramètres tels que la couleur, l’orientation (Rolls,
1992). Il a été mis en évidence des cellules répondant préférentiellement à la configuration
(Perrett et al., 1992) tandis que d’autres populations de neurones déchargent de manière
sélective pour certains traits du visage (Perrett et al., 1982; Rolls, 1992). La majorité des
cellules enregistrées dans le cortex temporal présentent une invariance à la rotation, à la
position dans l’espace ou à la taille du stimulus (Logothetis et al., 1995; Perrett et al., 1982 ).
Il semble que le codage du visage ne soit pas indépendant de la vue ; certains neurones
répondent préférentiellement à certaines vue d’un visage (Perrett et al., 1982; Rolls, 1992).
Par ailleurs, certaines études montrent que les neurones de la partie latérale d’IT déchargent
préférentiellement pour les visages à l’endroit (Tanaka et al., 1991), alors que dans d’autres
études les neurones répondant aux visages à l’endroit répondent également aux visages
inversés, mais avec un délai (Perrett et al., 1988). Les latences des réponses des neurones aux
stimuli de type visages varient entre 80 et 160 ms poststimulus (Oram & Perrett, 1992; Perrett
et al., 1982 ), mais la présentation d’un visage dans une orientation non canonique (autre qu’à
l’endroit) peut entraîner un délai dans les réponses du neurone. Par ailleurs, il apparaît que des
neurones du STS sensibles aux informations sur la couleur ont des réponses plus précoces
(autour de 66 ms après le début de la stimulation) que les neurones « achromatiques »
12
13
ElectroEncéphaloGraphie
MagnétoEncéphaloGraphie
35
(Edwards et al., 2003). En combinant IRMf et enregistrements cellulaires, il a été démontré
que 97% des cellules de certaines zones cérébrales dites spécifiques des visages sont activées
par la présentation de visage (Tsao et al., 2006) ; ceci pourrait refléter un artefact dans la
sélection des clusters spécifiques des visages. En effet, dans les zones cérébrales spécifiques
des visages, il a été prouvé que des clusters répondant uniquement aux visages co-existent
avec des clusters non spécifiques des visages (Grill-Spector et al., 2006); dans l’étude de Tsao
et collaborateurs, les mesures peuvent avoir été faites sur les clusters répondant uniquement
aux visages.
2.2.2. Aires spécifiques des visages chez l’homme : localisation et
fonctions
a. Localisation
Comme nous l’avons vu dans le paragraphe 1.2, le lobe temporal est spécialisé dans la
reconnaissance des formes. L’IRM et la TEP ont permis de mettre en évidence une région du
gyrus fusiforme plus activée par la présentation de visage que par celle de stimuli non visage
(Figure 10) (Clark et al., 1996; Gauthier et al., 1999 ; Haxby et al., 1991 ; Haxby et al., 1994;
Kanwisher et al., 1997 ; Kanwisher et al., 1999 ; Puce et al., 1996 ; Puce et al., 1995 ; Sergent
et al., 1992 ). Dans une étude en TEP, chez des sujets sains, Sergent et Signoret (1992) ont
rapporté que le gyrus lingual et le gyrus fusiforme étaient impliqués dans les opérations
perceptuelles permettant l’extraction de la configuration du visage et des invariants
caractérisant l’individu ; le gyrus parahippocampique, quant à lui, serait engagé dans
l’association entre la représentation configurale extraite et la mémoire sémantique (Sergent &
Signoret, 1992a). Par ailleurs, les études lésionnelles ont montré qu’une lésion du lobe
temporal droit suffit à provoquer une prosopagnosie. En comparant l’activité cérébrale dans
une tâche de classification d’objets à celle observé dans une tâche d’identification du visage,
Sergent et Signoret (1992) confirment l’importance du gyrus fusiforme droit dans le
traitement du visage. Seule l’activité de l’hémisphère droit est spécifique des visages ; la
classification d’objets, elle, active essentiellement des régions de l’hémisphère gauche dont le
gyrus temporal médian.
36
Figure 10. Localisations des aires cérébrales répondant
spécifiquement aux visages dans 5 études en
neuroimagerie fonctionnelle. L'étude en TEP par Haxby et
al. (1994) et celle en IRMf par Clark et al. (1996) mettent
en évidence les régions activées lors de vue passive de
visages. L'étude en TEP de Sergent et al. (1992) montre
l'activité cérébrale liée à la discrimination de l'identité.
Dans les études de McCarthy et al. (1997) et Kanwisher et
al. (1997) la réponse du gyrus fusiforme est obtenue en
soustrayant l'activité induite par les objets de celle induite
par les visages. NB: Dans l'étude de Kanwisher, il y a
aussi une activation dans le gyrus occipital inférieur. Issu
de Haxby et al. (2000).
En 1997, Kanwisher et collaborateurs
présentent une série d’expériences dans lesquelles ils testent l’activation du gyrus fusiforme
dans plusieurs situations expérimentales, permettant ainsi de révéler que le gyrus fusiforme
latéral droit est supérieurement activé par les visages ; les auteurs en concluent que le gyrus
fusiforme présente une activité sélective des visages (Kanwisher et al., 1997; Kanwisher et
al., 1999). En conséquence de quoi, cette région fut baptisée « aire fusiforme des visages »
(Fusiform Face Area – FFA) (Kanwisher et al., 1997; Kanwisher et al., 1999 ; Kanwisher et
al., 1998; Yovel & Kanwisher, 2004). L’aire fusiforme des visages décrite par Kanwisher est
localisée dans une région focalisée du gyrus fusiforme latérale similaire aux régions décrites
précédemment14 (Figure 10). Cette étude révèle également que l’activation de cette zone est
relativement constante chez un individu, mais également que le locus d’activation varie peu
entre les individus, du moins lorsqu’il est identifié (i.e. 75% des gens – (Kanwisher et al.,
1998)). La sélectivité des réponses de la FFA est mise en évidence par différentes
manipulations. La FFA est plus activée par des visages que par les mêmes images morcelées
et réarrangées (« scrambled faces ») ; la réponse de la FFA est donc indépendante de certaines
caractéristiques de bas niveau (Allison et al., 1999; Kanwisher et al., 1997; Puce et al., 1995).
Par ailleurs, il a été montré que, non seulement la FFA est plus activée par les visages que par
une grande variété d’objets, mais également que cette activation ne reflète pas une
discrimination entre les items d’une même catégorie (distinguer deux maisons par exemple)
(Allison et al., 1994 ; Ishai et al., 1999; Kanwisher et al., 1997 ; Puce et al., 1996). Par
ailleurs, la réponse de la FFA aux visages n’est pas fonction du côté « vivant », biologique du
14
Par souci de simplicité, dans la suite de la thèse, l’utilisation du terme « FFA » fera référence à la région
focalisée du gyrus fusiforme latéral spécifique des visages, sans parti pris.
37
visage puisqu’elle n’est pas activée pour des stimuli tels que les mains (Kanwisher et al.,
1997), les animaux (Kanwisher et al., 1999) etc. Ce dernier résultat est toutefois contesté par
une autre étude montrant une activation pour les images d’animaux avec ou sans visages
(Chao et al., 1999). La sélectivité des réponses de la FFA est également assise par une étude
montrant que cette région focalisée du gyrus fusiforme est spécifiquement active pour les
visages présentés dans une séquence dynamique d’images d’objets non visage ; l'utilisation
d’une séquence dynamique permet d’activer en permanence les régions répondant aux objets,
et donc d’isoler la réponse spécifique des visages (McCarthy et al., 1997). Un grand nombre
d’études prouvent donc que la FFA est principalement activée par les visages démontrant
ainsi sa sensibilité, voire sa sélectivité aux visages (Kanwisher et al., 1997; Kanwisher et al.,
1999; Kanwisher & Yovel, 2006).
Outre la FFA, deux autres régions du lobe temporal présentent une sensibilité aux
visages : le gyrus occipital inférieur (Figure 10) dans la partie ventrale du complexe latéral
occipital (LOC) (Occipital Face Area – OFA) (Dubois et al., 1999 ; Gauthier, Tarr et al.,
2000 ; Halgren et al., 1999; Haxby et al., 1999; Rossion, Dricot et al., 2000) ainsi qu’une
région dans le STS postérieur (Haxby et al., 2000; Haxby et al., 1999; Kanwisher et al., 1997;
Puce et al., 1998; Yovel & Kanwisher, 2005) (Figure 11). Le complexe occipital latéral
(LOC) est impliqué dans la perception des objets puisqu’il est plus activé par des images
d’objets que par les mêmes images morcelées et réarrangées (« scrambled objects ») ou que
par des stimuli de type textures (Grill-Spector et al., 1999; Malach et al., 1995 ) ; l’activation
de LOC est, cependant, similaire pour différents objets. La région du STS spécifique des
visages paraît impliquée dans les aspects changeant du visage (direction du regard,
mouvement des lèvres etc. – (Hoffman & Haxby, 2000; Puce et al., 1998)) alors que la FFA
et le gyrus occipital inférieur semblent impliqués dans l’extraction des invariants du visage et
la reconnaissance de l’identité (Hoffman & Haxby, 2000; Sergent et al., 1992).
38
Figure 11. Activations spécifiques des visages. (a) Sur un cerveau gonflé d'un sujet en vue
latérale et ventrale. Issu de Kanwisher & Yovel (2006). (b) En rouge activation supérieure pour les
visages, en bleu régions répondant aux lettres (LA: Letter Area). Issu de Gauthier et al. (2000).
b. Etudes fonctionnelles des aires spécifiques des visages
Afin de comprendre quelles caractéristiques de la spécificité des visages conduisent à
l’activation des différentes zones cérébrales spécifiques des visages, de nombreuses études se
sont intéressées aux corrélats neuronaux des observations comportementales décrites
précédemment. En conséquence, plusieurs paradigmes expérimentaux ont été utilisés pour
explorer les activations de la FFA et du gyrus occipital inférieur.
Effets d’inversion
L’effet de l’inversion des visages sur l’activité de la FFA n’a pas été clairement
démontré. En effet, certaines études révèlent une absence d’effet (Aguirre et al., 1999; Epstein
et al., 2006; Haxby et al., 1999), d’autres une faible diminution de l’activité de la FFA,
reproductible mais pas toujours significative, suite à l’inversion (Gauthier et al., 1999;
Kanwisher et al., 1998 ; Schiltz & Rossion, 2006). Récemment, deux études ont montré une
diminution significative de l’activité de la FFA pour les visages à l’envers (Figure 12b)
(Yovel & Kanwisher, 2004, 2005). Yovel et Kanwisher (2005) suggèrent que l’absence ou la
faiblesse de l’effet d’inversion sur l’activité de la FFA dans certaines études peut être le reflet
d’un faible effet d’inversion au niveau comportemental. Une diminution de l’activité dans la
FFA suite à l’inversion du visage a été mise en évidence pour un type particulier de visages :
les Mooney Faces15. La présentation de Mooney Faces à l’endroit conduit à une activation de
la FFA similaire à celle observée pour les visages normaux. L’inversion des Mooney Faces,
15
Les Mooney Faces sont des visages en noir et blanc photographiés dans un environnement très contrasté. La
lumière est dirigée sur le visage de façon à l’éclairer en biais. Jouer avec le s seuils de luminosité permet de ne
révéler que les ombres. Cette transformation rend difficile la détection, effet exagéré par l’inversion. Les Mooney
Faces ont été utilisés par C.Mooney (1957) pour l’étude du développement de la capacité à lier les éléments d’un
même ensemble. (Mooney, 1957).
39
qui entraîne une chute considérable des performances dans la détection du visage, est associée
à une très forte diminution de l’activité dans la FFA ; elle reste toutefois supérieure à la
réponse observée pour les objets (Kanwisher et al., 1998). Ces données ont conduit les
auteurs à conclure que la FFA est impliquée dans la détection des visages et non dans leur
reconnaissance (Kanwisher et al., 1998). Cependant, comme le font remarquer Gauthier et al.
(1999, 2000), si le visage n’est pas détecté, sa reconnaissance est alors fortement compromise.
Les résultats de Kanwisher et collaborateurs n’attestent donc pas, de façon sûre, de
l’implication de la FFA dans la reconnaissance ou la détection du visage.
Figure 12. Réponse des aires spécifiques des visages et des objets dans un tâche de détection de
la répétition. (a) Design expérimental. Des visages à l'endroit et à l'envers sont présentés aux
sujets; le sujet répond "pareil" si les deux visages sont identiques ou "différent" si ils sont
différents. (b) Réponse de la FFA (au dessus) et de la OFA (dessous) pour les stimui répétés
("same") ou différents. Une activité plus forte pour les visages différents que pour les visages
répétés montre une discrimination entre les deux visages. NB: la FFA et la OFA semble
discriminer les visages au niveau individel; ces effets peuvent néanmoins refléter une adaptation
sensorielle, le visage répété étant identique au premier visage présenté. (c) Réponse dans le
complexe occipital latéral. NB: les visages inversés augmentent l'activité dans LOC. Adapté de
Yovel & Kanwisher (2005).
40
L’influence de l’inversion du visage sur le gyrus occipital inférieur n’est pas non plus
évidente. Certaines études montrent une activité similaire du gyrus occipital inférieur pour les
visages à l’endroit et les visages à l’envers (Yovel & Kanwisher, 2005), mais une étude
montre une augmentation du signal BOLD pour les visages à l’envers (Haxby et al., 1999).
Parallèlement à la diminution de l’activité de la FFA ou du gyrus occipital inférieur
pour les visages inversés, il est rapporté une augmentation de l’activité dans les régions
répondant aux objets (LOC ou la région sélective des maisons) (Figure 12c) (Aguirre et al.,
1999; Epstein et al., 2006; Gauthier et al., 1999; Haxby et al., 1999; Yovel & Kanwisher,
2005 ). A contrario, l’inversion d’un objet n’entraîne pas d’augmentation de l’activité dans la
FFA ni dans les régions spécifiques des objets ((Haxby et al., 1999) mais voir (Epstein et al.,
2006)). L’augmentation de l’activité dans les systèmes dédiés à la perception des objets pour
les visages à l’envers tend à confirmer que le traitement des visages à l’envers est distinct de
celui des visages à l’endroit. Les visages à l’envers utiliseraient le système de traitement des
objets parce que l’extraction de la configuration est rendue difficile par l’inversion (Aguirre et
al., 1999; Haxby et al., 1999). Ainsi, il est proposé que l’augmentation de l’activité dans les
régions impliquées dans le traitement des objets soit le reflet de l’effet d’inversion
comportemental (Haxby et al., 1999). Cependant, Yovel et Kanwisher (2005), par une étude
corrélative entre la baisse des performances observée après inversion du visage et la
diminution/augmentation des activités dans la FFA et LOC, montrent que seule la baisse
d’activité dans la FFA est corrélée à l’effet d’inversion comportemental (Yovel & Kanwisher,
2005). En conséquence de quoi, ils suggèrent que l’effet d’inversion comportemental ne
résulte pas de l’augmentation de l’activité de LOC pour les visages à l’envers, mais de la
diminution de l’activité de la FFA (Yovel & Kanwisher, 2005).
Effets de négation
Au niveau comportemental, il a été démontré que l’inversion de contraste (ou
négation) affecte le traitement de la configuration du visage, et donc sa reconnaissance. De la
même façon, il semble que la négation a un impact sur l’activité cérébrale puisqu’une
diminution de l’activité dans la FFA a été rapportée pour les visages en négatifs (George et
al., 1999). Cette diminution pourrait refléter la non-reconnaissance du visage puisqu’elle n’est
plus observée lorsque le visage en négatif est reconnu, grâce à la présentation d’une amorce
(« priming ») en contraste positif (George et al., 1999).
41
Effets de visage composite
L’effet composite du visage traduit le recrutement du traitement holistique par les
visages à l’endroit. L’utilisation de visages chimériques dans une tâche de répétition a révélé
que la FFA et le gyrus occipital inférieur sont impliqués dans le traitement holistique du
visage. De manière générale, la répétition d’un stimulus entraîne une adaptation, se traduisant
par une diminution de l’activité cérébrale (Grill-Spector et al., 1999; Henson et al., 2000) ; or,
les visages chimériques (dont une moitié est répétée) provoquent une adaptation seulement si
les visages sont inversés ou les moitiés non alignées. Les visages à l’endroit, perçus comme
différents, n’entraînent pas d’adaptation des réponses de la FFA et du gyrus occipital
inférieur ; l’effet de visage composite est plus fort dans la FFA que dans le gyrus occipital
inférieur (Schiltz & Rossion, 2006).
Ainsi, les différentes aires cérébrales spécifiques des visages sont sensibles à
différentes manipulations expérimentales. Toute perturbation de la configuration du visage
(inversion, négation etc.) conduit à une diminution de l’activité dans la FFA, qui peut être
associée à une augmentation de l’activité dans les zones spécifiques des objets non visage et
dans le gyrus occipital inférieur.
Détection & reconnaissance
La FFA et le gyrus occipital inférieur sont donc impliqués à la fois dans la détection et
la reconnaissance du visage (Grill-Spector et al., 2004; Kanwisher & Yovel, 2006). La FFA et
le gyrus occipital inférieur sont sensibles à la configuration du visage, suggérant que les
traitements effectués par ces régions sont de type relationnels, holistique ou configural. Le
gyrus occipital inférieur pourrait cependant, accomplir un traitement plus décomposé du
visage (Schiltz & Rossion, 2006).
L’implication de la FFA dans la reconnaissance du visage au niveau individuel est
confirmée par des études montrant une modulation de l’activité dans la FFA et dans le gyrus
occipital inférieur par la familiarité (Gobbini & Haxby, 2006; Rossion, Schiltz et al., 2003;
Rossion et al., 2001). L’utilisation de visages familiers (appris) et de visages non familiers a
montré que l’activité de la FFA décroit pour les visages familiers (Gobbini & Haxby, 2006;
Rossion, Schiltz et al., 2003; Rossion et al., 2001). La diminution de l’activité est en général
rapportée dans des tâches ne requérant pas une reconnaissance explicite du visage (Dubois et
al., 1999; Henson et al., 2000). A l’opposé, une augmentation de l’activité dans des régions
plus antérieures du lobe temporal a été rapportée dans des études utilisant des visages connus
42
(visages familiers associés à des informations sémantiques) ou requérant un traitement
explicite de l’identité (George et al., 1999; Ishai & Yago, 2006; Leveroni et al., 2000). Les
régions les plus antérieures du lobe temporal seraient donc impliquées dans l’association entre
visage perçu et information sémantique (Sergent & Signoret, 1992a).
Le gyrus occipital inférieur paraît, quant à lui, jouer un rôle dans la détection de la
configuration générique des visages, ainsi que dans l’extraction d’informations sur le genre ou
l’âge ne nécessitant pas un traitement identitaire (Bruce & Young, 1986; Dubois et al., 1999;
Haxby et al., 2000; Haxby et al., 1999; Sergent & Signoret, 1992a ). L’implication du gyrus
occipital inférieur dans la détection plutôt que dans l’identification du visage est également
démontrée par une étude utilisant un continuum16 de visages allant d’un individu A à celle un
individu B (Figure 13a) ; l’utilisation de trois images, choisies en des points précis du
continuum permet de distinguer l’activité reflétant le traitement des différences physiques
entre les stimuli, de celle liée aux processus catégoriels (Figure 13a, b). Le gyrus occipital
inférieur (OFA) est activé par des stimuli présentant une différence physique quelle que soit
l’identité perçue par les sujets (Figure 13c). Au contraire, la FFA n’est active que lorsque la
différence physique entre les images fait passer la perception d’un individu à l’autre (Figure
13d) (de l’individu A à l’individu B) (Haxby et al., 2000; Rotshtein et al., 2005 ). L’étude de
Yovel & Kanwisher (2005) semble montrer que le gyrus occipital inférieur et la FFA sont
également impliqués dans la discrimination entre deux visages ; leurs réponses étant
inférieures dans la condition où les visages sont répétés (Figure 12b). Néanmoins, comme je
le mentionne dans la légende de la figure 12, dans la condition « pareil » les visages sont
identiques ; la diminution d’activité peut donc probablement refléter une adaptation des
réponses de la FFA et du gyrus occipital inférieur. De plus, en ce qui concerne l’activité du
gyrus occipital inférieur en particulier, la différence entre les conditions « pareil » et
« différent » disparaît lorsque les seuls essais corrects sont pris en compte dans l’analyse du
signal BOLD (voir matériel supplémentaire de Yovel & Kanwisher, 2005). Cette observation
confirmerait l’implication du gyrus occipital inférieur dans la détection du visage ; elle révèle
également que l’expérience perceptuelle des sujets et l’activité cérébrale sont étroitement liées
(Grill-Spector et al., 2004; Yovel & Kanwisher, 2005).
16
La technique du « morphing » permet de créer un continuum de stimuli entre deux extrema. Chaque extrême
du continuum est constitué d’une image normale (ex : photo de Marylin Monroe), puis par la modification de
points cruciaux pour l’identité du visage, des visages comportant 90% puis 80% etc. d’informations provenant
de Marylin Monroe sont créés, les informations restantes proviennent de l’individu situé à l’autre extrême du
continuum. Cette technique permet de distinguer les effets liés aux différences physiques des processus
catégoriels.
43
Figure 13. Morphing & IRMf. Adapté de Rotshtein et al., 2005 (a) Résultats de la tâche de
classification en fonction de l'identité (% de réponse Marylin Monroe) pour 11 niveaux d'un
continuum allant de Margaret Thatcher à Marylin Monroe. La reconnaissance de l'identité est un
phénomène catégoriel (rupture dans la courbe autour du visage contenant 50% de MM et 50% de
MT). (b) Exemples de paires de stimuli utilisées dans une tâche d'appariement. "within" = "dans",
les deux images sont catégorisées de la même façon (MT) mais elles présentent une différence
physique de 30%. "identical" = les deux images sont identiques. "between" = "entre", les deux
images présentent une différence physique de 30% (comme la paire "dans") mais sont perçues
comme différentes. (c) Réponse du gyrus occipital inférieur (IOG) aux différences physiques.
("identique" moins "entre" + "dans" ). (d) Réponse de la FFA (FFG) à l'identité. (comparaison
"entre" versus "identique"+"dans"). (e) Réponse dans le gyrus occipital inférieur (à gauche) et la
FFA (à droite), prélocalisées, pour les différentes conditions. NB: la FFA est supérieurement
activée lorsque les deux images à apparier traversent la région de rupture ("entre"); le gyrus
occipital inférieur est, lui, supérieurement activé lorsque les deux images sont physiquement
différentes.
Pour résumer, la familiarité des visages entraîne une diminution d’activité dans la
FFA, et une augmentation dans les zones plus antérieures. Il est donc possible que l’activité
de la FFA soit corrélée à l’encodage perceptuel des visages. Les visages familiers déjà
encodés ne nécessiteraient pas un traitement approfondi au niveau de la FFA, mais, les
visages familiers, associés à des informations stockées en mémoire, activeraient des régions
plus antérieures liées au recouvrement d’informations sémantiques. La détection du visage se
ferait au niveau du gyrus occipital inférieur.
44
Effet de niveau de catégorisation & expertise
Au niveau comportemental, l’effet d’inversion du visage a été reproduit, chez des
sujets experts, pour certaines catégories non visage suggérant que l’effet d’inversion dépend
du niveau d’abstraction dans la reconnaissance des objets. Les études en neuroimagerie ont
cherché les corrélats de cette expertise dans les aires cérébrales spécifiques des visages. Ainsi,
il a été montré que le niveau de catégorisation influence l’activation de la FFA ; la
catégorisation à un niveau subordonné augmente l’activité dans la FFA mais elle est sans effet
sur l’activité du gyrus occipital inférieur (Gauthier et al., 1997; Gauthier, Skudlarski et al.,
2000). L’apprentissage perceptif d’un stimulus module également l’activité de la FFA ; la
levée de l’ambiguïté d’une image par la présentation d’une amorce non ambiguë entraîne une
augmentation de l’activité dans la FFA (Dolan et al., 1997; George et al., 1999).
Outre ces effets d’apprentissage et de niveau de catégorisation, il est également montré
un effet de l’expertise sur l’activité de la FFA et du gyrus occipital inférieur dans
l’hémisphère droit ; l’activité est augmentée, chez les sujets experts, lors de la présentation
d’objets de leur domaine d’expertise (Gauthier, Skudlarski et al., 2000; Tarr & Gauthier,
2000; Xu, 2005). Par ailleurs, en utilisant les «greebles», Gauthier et collaborateurs ont
prouvé que l’activité dans la FFA droite augmente de façon corrélée avec l’expertise (Figure
14) (Gauthier et al., 1999; Tarr & Gauthier, 2000). Dans les deux premiers blocs de leur
expérience, l’activité de la FFA pour les visages est supérieure à celle induite par les
«greebles» ; cet effet s’amenuise avec la familiarisation des sujets avec les «greebles»
(Gauthier et al., 1999). Le recrutement de la FFA chez les sujets experts est observé que ce
soit dans une tâche d’appariement ou lors de la perception passive de «greebles». Comme cela
a été montré pour les visages, l’inversion des «greebles» entraîne une augmentation de
l’activité dans le complexe occipital latéral seulement chez les experts (Gauthier et al., 1999).
Par ailleurs, l’utilisation de «greebles» chimériques, révélant l’utilisation du traitement
holistique sous l’effet de l’expertise, tend à confirmer l’implication de la FFA dans le
traitement holistique des stimuli (Gauthier & Tarr, 2002). Cependant, une autre étude montre
que l’activation de la FFA ne dépend pas des processus mis en jeu mais bien de la catégorie :
la FFA est activée par les visages mais pas par les maisons, que les stimuli diffèrent au niveau
de leur configuration ou des traits internes (Yovel & Kanwisher, 2004). Néanmoins, bien que
la tâche est réalisée soit sur les informations locales soit sur les informations configurales, il
n’est pas dit que les sujets n’utilisent pas automatiquement des informations holistiques pour
45
traiter les visages, d’autant que la modification des traits internes du visage perturbe
également la configuration du visage.
Figure 14. Carte d'activation pour 3
sujets novices et 3 experts dans une tâche
passive, pour les visages et les «greebles».
Carré blanc: milieu du gyrus fusiforme,
flèche: sulcus occipital latéral pour un
expert. Issu de Gauthier et al. 1999.
D’autres études, qui ont investigué l’effet d’expertise et du niveau de catégorisation,
ne parviennent pas à mettre en évidence une quelconque modulation de l’activité de la FFA
(Grill-Spector et al., 2004; Rhodes et al., 2004). Notamment en comparant l’activation de la
FFA pour les visages et les lépidoptères (insectes), dans des tâches passives ou requérant un
traitement à un niveau individuel, Rhodes et al. (2004) montrent que la FFA, à proprement
parler, ne s’active que pour les visages. Une zone adjacente du gyrus fusiforme s’active pour
la reconnaissance à un niveau individuel des lépidoptères chez les novices comme chez les
experts (Rhodes et al., 2004). De la même façon, Grill-Spector et al. (2004) montrent que
l’activation de la FFA n’est pas liée à la catégorisation de n’importe quelle classe d’objet à un
niveau subordonné, que ce soit pour les sujets novices ou experts (Grill-Spector et al., 2004).
Les résultats de ces deux dernières études sont en faveur de l’hypothèse selon laquelle la FFA
est spécifiquement impliquée dans la catégorisation des visages.
La disparité des résultats observés en IRMf pourrait venir des différents critères
sélectionnés pour définir la FFA, par exemple le seuil de significativité utilisé pour asseoir sa
sélectivité. Dans leur expérience avec les experts en reconnaissance d’oiseaux et de voitures,
Gauthier et al. (1999) ont comparé les effets d’expertise en appliquant différents critères de
significativité lors de la sélection des régions d’intérêt (voir matériel supplémentaire). Cette
comparaison révèle que l’effet d’expertise est toujours présent mais n’a pas la même
amplitude. Cette étude révèle également que, plus que le seuil de significativité, c’est la
sélection des sujets qui est le facteur limitant. En effet, la technique utilisée par Kanwisher,
46
plus restrictive, a pour conséquence la sélection de sujets présentant une très forte activation
pour les visages ; technique qui pourrait masquer les variations de l’activité dans d’autres cas,
comme l’expertise.
En résumé, les différentes techniques de neuroimagerie ont donc permis de mettre en
évidence un large réseau d’aires cérébrales impliquées dans la perception des visages. En
outre, il apparait que ce même réseau est impliqué dans la détection et dans la reconnaissance
du visage. Les différences entre détection et reconnaissance pourraient être d’ordre temporel ;
cette hypothèse ne peut pas être explorée avec l’IRMf et la TEP. Nous allons donc voir
maintenant les études révélant les latences des différentes étapes de la perception du visage.
2.2.3. Décours temporel du traitement des visages
Les potentiels évoqués par un stimulus visuel sont en général triphasique. Ils sont
formés d’une première onde positive apparaissant une centaine de millisecondes après la
stimulation, la P1 ou M100/M90 (P120 en enregistrement intracranien), suivie d’une
déflection négative à 170 ms, la N170 ou M170, dont la N200 pourrait être l’équivalent en
enregistrements intracrâniens. La N170 est suivie d’un pic positif autour de 200 ms après la
stimulation : la P2. Les enregistrements intracrâniens, la MEG et l’EEG, ont permis de mettre
en évidence la latence des différentes étapes du traitement des visages, allant du moment où il
se différencie de celui des objets à la reconnaissance du visage au niveau individuel. Ces trois
techniques mettent en évidence une activité sensible aux visages apparaissant entre 150 (en
EEG et MEG) et 200 ms (enregistrements intracrâniens) après le début de la stimulation
(Allison et al., 1994; Bentin et al., 1996; Liu et al., 2000).
a. Enregistrements intracrâniens : N200
Les enregistrements intracrâniens17 permettent de donner une latence à des
évènements localisés. Les électrodes placées en surface de certaines zones corticales révèlent
la latence des traitements ayant lieu dans cette zone. Une activité spécifique des visages est
enregistrée 200 ms après la présentation du visage dans le gyrus fusiforme latéral (Allison et
al., 1994; Allison et al., 1999). La N200 enregistrée sur le gyrus fusiforme latéral est plus
ample pour les visages que pour différentes catégories de stimuli non visage (Figure 15a) ;
17
Les enregistrements intracrâniens permettent d’enregistrer l’activité cérébrale à la surface du cortex. Il s’agit
d’une technique d’imagerie invasive qui ne peut être utilisée que dans les cas cliniques, notamment chez les
patients épileptiques résistants aux traitements médicamentaux. Des électrodes sont implantées à la surface, ou
dans, le cerveau afin de localiser le foyer épileptique. Une fois les électrodes implantées, il est possible de faire
passer des expériences aux patients et ainsi, d’enregistrer les PE directement à la surface corticale. L’utilisation
de cette technique est assez restreinte du fait des problèmes éthiques qu’elle soulève.
47
l’amplitude de la N200 spécifique des visages est similaire pour différents types de stimuli
non visage.
Figure 15. Exemples de N200 spécifiques
des visages enregistrées dans différentes
conditions expérimentales. (a) La N200 est
spécifique des visages. (b) La N200 est
retardée et moins ample pour les images ne
contenant que les hautes fréquences
spatiales. (c) La N200 est sensible à la
configuration du visage, pas à des traits en
particulier. (d) La N200 n'est pas modulée
par la familiarité (à gauche, Ronald Reagan).
(e) Effet d'inversion. La N200 est plus
tardive et plus petite pour les visages à
l'envers. Extraits de la série de papiers de
Allison (a), Mc Carthy (b,c, e) et Puce (d)
(1999).
En 1999, Allison, Puce et McCarthy rapportent, dans 3 articles distincts, la sensibilité
de la N200 à différentes caractéristiques du traitement des visages (Allison et al., 1999;
McCarthy et al., 1999; Puce et al., 1999). La N200 est sensible au traitement configural du
visage ; son amplitude et sa latence sont affectées par diverses manipulations du visage
perturbant l’extraction de sa configuration (Figure 15b, c, e). La N200 est retardée et
diminuée par la présentation des traits isolés du visage (Figure 15c) (McCarthy et al., 1999).
Par ailleurs, filtrer les images avec un filtre passe-bas ou passe-haut module différemment la
N200. Les images auxquelles ont été appliquées un filtre passe-bas – ne laissant dans l’image
que les basses fréquences spatiales – évoquent une N200 similaire à celle évoquée par les
images non filtrées ; un filtre passe-haut, qui ne laisse que les informations hautes fréquences,
entraîne un délai dans l’apparition de la N200, qui est également plus petite (Figure 15b)
(McCarthy et al., 1999). Or, il a été démontré que les informations configurales sont plutôt
portées par les basses fréquences spatiales, et que les hautes fréquences spatiales convoient
plutôt les informations sur les traits du visage (Goffaux et al., 2005). Comme nous l’avons vu
dans les parties précédentes, l’inversion du visage affecte sa catégorisation et entraîne une
48
diminution de l’activité de la FFA. La N200 est également affectée par l’inversion du visage :
elle est plus tardive pour les visages à l’envers (Figure 15e) (McCarthy et al., 1999). Chez le
singe, il a été proposé que les cellules qui répondent à la configuration du visage soient
activées par des afférences des niveaux inférieurs portant les informations sur les traits du
visage (Perrett et al., 1987; Tovée & Cohen-Tovée, 1993) ; la décomposition du visage
précèderait le traitement de la configuration. Chez l’homme, l’extraction de la configuration
du visage semble précèder le traitement des éléments (Goffaux & Rossion, 2006; McCarthy et
al., 1999). Ces résultats confirment donc la sensibilité de la N200 à la configuration du
visage.
Dans le dernier papier d’Allison, Puce et McCarthy, les effets des influences
descendantes (« top-down process») sont rapportées. En IRMf, l’activité de la FFA diminue
avec la répétition du stimulus, mettant en évidence une adaptation ; de la même façon, la
N200 décroit entre la première et la deuxième présentation d’un visage mais son amplitude
reste constante après la deuxième présentation du visage (Puce et al., 1999). En IRMf, il a été
montré que la FFA était impliquée aussi bien dans la détection du visage que dans sa
reconnaissance ; la N200 n’est, elle, pas influencée par la familiarité du visage (Figure 15d).
Les enregistrements intracrâniens ont aussi permis de démontrer que l’activation du gyrus
fusiforme 200 ms après l’apparition du stimulus est liée à la détection du visage. L’encodage
et l’identification arrivent plus tardivement, à la latence de la P290 et de la N700 (ondes
enregistrées dans les sites spécifiques des visages, respectivement, onde positive 290 ms après
le début de la présentation du stimulus, et onde négative 700 ms après le début de la
stimulation) (Puce et al., 1999). Les expériences de Puce et al. (1999) n’ont cependant pas
permis de mettre en évidence une composante sensible au « sentiment de familiarité », même
dans les conditions où cette information est nécessaire à la réalisation de la tâche
(familier/non familier). La N200 spécifique des visages n’est pas non plus influencée par le
contenu émotionnel des images.
Toutes ces études prouvent que la N200 est une réponse spécifique des visages,
constante et automatique. Elle est observée dans des tâches passives, des tâches
d’identification, de reconnaissance et de détection. La N200 reflète l’encodage structurel du
visage : elle est plus précoce pour la configuration que pour les traits internes du visage ou le
visage à l’envers. Elle ne paraît pas sous-tendre les traitements requis pour la reconnaissance
du visage.
49
Les enregistrements intracrâniens apportent des informations sur la latence des
processus impliqués dans la perception des visages. L’inconvénient majeur de cette technique
est cependant qu’elle ne peut être utilisée que chez des patients épileptiques. L’EEG
enregistrée à la surface du scalp et la MEG sont des techniques non invasives permettant
l’enregistrement des activités électrique et magnétique en temps réel à la surface du scalp.
L’activité à la surface du scalp va être le reflet de l’activation de plusieurs sources cérébrales,
pouvant induire une modulation différente des potentiels évoqués par rapport aux potentiels
intracrâniens, dans différentes conditions expérimentales. En EEG et MEG, la technique des
potentiels évoqués a permis d’étudier le décours temporel du traitement des visages.
b. EEG, MEG : N170, VPP & M170
Sensibilité aux visages
La technique des potentiels évoqués (PE) a révélé l’existence d’une onde négative,
sensible aux visages, apparaissant 170 ms après le début de la stimulation : la N170 (Bentin et
al., 1996; George et al., 1996; George et al., 1997; Itier & Taylor, 2002; Rossion, Gauthier et
al., 2000; Taylor, Edmonds et al., 2001; Taylor, Itier et al., 2001). La N170 est classiquement
enregistrée au niveau des électrodes temporales postérieures ; son amplitude est plus grande
dans l’hémisphère droit que dans l’hémisphère gauche (Bentin et al., 1996), en accord avec
les nombreuses études en IRMf montrant une activation supérieure de la FFA droite pour les
visages (Gauthier et al., 1999; Kanwisher et al., 1997; Rossion, Joyce et al., 2003).
L’enregistrement de l’activité magnétique du cerveau révèle, quant à lui, l’existence
d’une composante sensible aux visages, la M170, qui, comme la N170, apparaît autour de 170
ms après le début de la présentation du stimulus (Halgren et al., 2000; Linkenkaer-Hansen et
al., 1998; Liu et al., 2000; Taylor, George et al., 2001). La M170 est une composante
enregistrée dans la région occipitotemporale ventrale de chaque hémisphère ; son origine
pourrait être le gyrus fusiforme ou les aires corticales avoisinantes (Taylor, George et al.,
2001). Elle est plus importante pour les visages que pour une variété d’objets non visage ou
pour les traits isolés du visage (Halgren et al., 2000; Liu et al., 2002; Liu et al., 2000; Taylor,
George et al., 2001). Les résultats observés sur la M170 sont similaires aux modulations
observées pour la N200, ce qui paraît logique puisqu’elles reflètent probablement l’activité
des mêmes sources cérébrales, sources différentes de celles enregistrées en EEG à la surface
du scalp.
50
La sensibilité de la N170 aux visages fut tout d’abord dévoilée par son amplitude plus
grande pour les visages que pour les mêmes images morcelées et réarrangées (« scrambled
faces »), révélant qu’elle n’est pas induite par les caractéristiques bas niveau des images
(Bentin et al., 1996). La N170 est sensiblement plus ample pour les visages que pour une
variété de stimuli non visage (Figure 16) (Bentin et al., 1996; Botzel et al., 1995; Caldara et
al., 2003; Carmel & Bentin, 2002; Itier & Taylor, 2004c, d; Jeffreys, 1993, 1996; Rossion,
Gauthier et al., 2000; Rossion, Joyce et al., 2003; Severac Cauquil et al., 2000).
Figure 16. Exemple de N170 enregistrées sur les électrodes P7/P8, où elle est en général la plus
ample, pour différentes catégories d'objets. NB: L'inversion du visage conduit à une N170 retardée
et plus ample. Issu de Itier & Taylor (2004c).
Dans les régions frontales, une onde positive est enregistrée à la même latence, la VPP
(Vertex Positive Potential), elle aussi sensible aux visages : elle est plus ample pour les
visages que pour des stimuli non visage (Botzel et al., 1995; Jeffreys, 1993, 1996; Rossion,
Campanella et al., 1999). La VPP est également affectée par la modification des visages
(inversion de contraste, inversion des visages etc. – (Botzel et al., 1995; Itier & Taylor, 2002;
Jeffreys, 1993, 1996; Rossion, Campanella et al., 1999)). Considérée comme étant la
contrepartie positive de la N170, la VPP reflète l’activité des mêmes sources que la N170
(Joyce & Rossion, 2005) ; certaines études montrent néanmoins des différences entre les
modulations de la N170 et de la VPP pour certaines manipulations expérimentales (George et
al., 1996). Cela pourrait être dû à des différences méthodologiques concernant, notamment,
l’électrode de référence (Jemel, Schuller et al., 2003; Joyce & Rossion, 2005; Rossion, Joyce
et al., 2003).
La N170 est observée non seulement lors de la présentation de visages
photographiques mais également pour d’autres types de visages tels que les visages
schématiques (Henderson et al., 2003; Sagiv & Bentin, 2001), les caricatures ou les Mooney
Faces (George et al., 2005; Jeffreys, 1996) du moins lorsque ces derniers sont perçus en tant
que visage (George et al., 2005). Une N170 est également décrite dans certaines conditions
51
expérimentales favorisant la détection du visage ; ainsi, lorsque les sujets réalisent une tâche
de détection de visage avec des Mooney Faces, une N170 est observée, bien que de moindre
amplitude, et ce, même lorsque les sujets ne perçoivent pas les visages (George et al., 2005).
Ceci suggère que la N170 indexe un certain traitement automatique inconscient du visage
(Furey et al., 2006), hypothèse en accord avec des études réalisées chez des patients héminégligents qui mettent en évidence une N170 alors même qu’ils rapportent ne pas avoir vu le
visage (Vuilleumier, 2000; Vuilleumier et al., 2001). Cette hypothèse justifierait également
l’absence de différences entre la N170 évoquée par des visages cibles ou non cible (Rossion,
Campanella et al., 1999; Severac Cauquil et al., 2000). Une deuxième hypothèse permettant
d’expliquer les résulats de George et collaborateurs (2005) est la modulation de la N170 par
les influences descendantes. Cette modulation est par exemple démontrée par l’utilisation de
visages schématiques dans lesquels la place des éléments est perturbée. En effet, pour de tels
visages, la N170 est plus petite que pour les visages présentant une configuration normale,
mais lorsque la perception des sujets est biaisée vers la perception d’un visage, via un
amorçage contextuel, la N170 devient aussi ample pour les visages (schématiques) normaux
que pour les visages dont la configuration est perturbée (Bentin & Golland, 2002).
Des études rapportent que la N170 évoquée par les visages humains est plus ample
que celle évoquée par les visages d’animaux démontrant sa spécificité pour les visages
humains (Bentin et al., 1996). Toutefois, d’autres études montrent une augmentation de la
latence de la N170 évoquée par les visages d’animaux, son amplitude étant similaire pour tous
les types de visages (humain ou animal) ((Carmel & Bentin, 2002; Rousselet et al., 2004b), en
MEG (Liu et al., 2000)). Ce manque de cohérence est similaire à celui observé dans les
résultats des études en IRMf sur l’activation de la FFA par les visages d’animaux ; certaines
études démontrent une activation de la FFA pour les animaux (Chao et al., 1999) tandis que
d’autres ne parviennent pas à la révéler (Kanwisher et al., 1999). Les différences observées
entre les 3 études en potentiels évoqués pourraient refléter l’influence de processus
descendants (« top-down »), les tâches réalisées par les sujets n’étant pas les mêmes. La
diminution de l’amplitude de la N170 pour les visages d’animaux est observée dans le cas où
les sujets regardent passivement des visages d’animaux ou d’humains (Bentin et al., 1996) ;
l’amplitude de la N170 est similaire quel que soit le visage lorsque l’attention des sujets est
orientée vers les visages, humains ou animaux (Carmel & Bentin, 2002; Rousselet et al.,
2004b). Ainsi, il apparaît que la N170 est automatiquement générée par les visages humains
alors qu’elle n’est évoquée par les visages d’animaux que lorsque l’attention est explicitement
52
dirigée vers le visage (humain ou animal). La N170 reflète donc un traitement automatique du
visage humain. Cette hypothèse est également soutenue par les études montrant une
diminution de la N170 lorsque deux visages sont en compétition pour les ressources
sensorielles des sujets (via par exemple, l’utilisation de paradigme « d’encombrement »
(« crowding »)) (Jacques & Rossion, 2004, 2006b).
La N170 est, donc, non seulement générée automatiquement par les visages à
l’endroit, reflétant ainsi l’automaticité des processus ascendants, mais elle est également
modulée par des influences descendantes (Bentin & Golland, 2002; George et al., 2005;
Jemel, Pisani et al., 2003).
Sensibilité à la configuration et effet d’inversion
La présentation d’un élément du visage provoque une augmentation de la latence et
une diminution de l’amplitude de la N200 (McCarthy et al., 1999). La N170 est, elle, retardée
et plus ample pour des yeux présentés seuls ; cet effet n’est pas reproduit pour la présentation
d’autres éléments du visage tels que la bouche ou le nez (Bentin et al., 1996; Jemel et al.,
1999; Severac Cauquil et al., 2000; Taylor, Edmonds et al., 2001). Parce que la N170 est plus
ample pour les yeux, Bentin et collaborateurs ont émis l’hypothèse que la N170 reflète
l’activité d’un détecteur d’yeux qui serait inhibé par la configuration du visage. Cette
hypothèse est appuyée par les études montrant que la N170 évoquée par des yeux situés à une
position inhabituelle (par exemple, au niveau du nez) est similaire à celle évoquée par les
yeux seuls (Bentin et al., 1996; George et al., 1996). D’autres études contestent néanmoins
cette hypothèse, notamment en révélant que l’amplitude de la N170 reste inchangée en
l’absence des yeux (Eimer, 1998; Zion-Golumbic & Bentin, 2006), même si elle est retardée
pour des yeux absents (Eimer, 1998) ou fermés (Taylor, Itier et al., 2001). La N170 semble
donc refléter l’activité d’un détecteur de la configuration générique du visage ; elle est
retardée et/ou augmentée lorsque l’intégrité de la configuration est modifiée (yeux seuls ou
contour sans les yeux) (Eimer, 1998, 2000a, b; Zion-Golumbic & Bentin, 2006). Cependant,
étirer les traits du visage de 20 à 30%, bien que provoquant la sensation d’un visage atypique,
n’induit aucune modification de la N170 (Halit et al., 2000). Cela montre que la N170 est
uniquement sensible à des modifications majeures de la configuration du visage comme le
déplacement des éléments. La M170 est, elle aussi, influencée par la configuration du visage ;
comme la N200, elle est réduite lorsque la configuration du visage est perturbée (Liu et al.,
2002).
53
Les études en potentiels évoqués ont également exploré l’effet d’inversion du visage,
et celui de la négation, sur la N170. Un nombre considérable d’études a montré une
modulation de la N170 par l’inversion du visage : elle est retardée et/ou plus ample pour les
visages à l’envers (Figure 16) (Bentin et al., 1996; Eimer, 2000a; Goffaux, Gauthier et al.,
2003; Itier & Taylor, 2002; Jeffreys, 1993; Jeffreys, ; Linkenkaer-Hansen et al., 1998; Liu et
al., 2000; Rossion, Delvenne et al., 1999; Rossion et al., 2002; Rossion, Gauthier et al., 2000;
Rousselet et al., 2004a). La M170, quant à elle, est retardée, mais son amplitude n’est pas
affectée par l’inversion du visage (Itier, Herdman et al., 2006; Liu et al., 2000).
Le retard de latence observé après inversion ne semble pas spécifique de la catégorie
« visage ». Certaines études ne révèlent pas de retard de latence suite à l’inversion de stimuli
non visage (Bentin et al., 1996; Eimer, 2000a; Rebai et al., 2001; Rossion, Gauthier et al.,
2000), alors que d’autres études le mettent en évidence (Rossion et al., 2002; Rossion, Joyce
et al., 2003; Rousselet et al., 2004a). L’effet d’inversion pourrait traduire la perturbation de
l’orientation canonique du stimulus. Ainsi, Rossion et collaborateurs, en 2000, montrent que
la N170 évoquée par des images inversées de voitures en vue de face n’est pas retardée, mais,
en 2003, ils observent un retard de la N170 pour des images inversées de voiture en vue de ¾
(vue canonique) (Figure 17) (Rossion, Joyce et al., 2003).
Figure 17. Vue canonique et Inversion. (a) Visage, (b) Voiture en vue canonique. (a) et (b) noir:
stimuli à l'endroit, bleu: stimuli inversés. Issu de Rossion et al. (2003). (c) Voiture, vue de face.
trait épais: à l'endroit, fin: à l'envers. Issu de Rossion et al (2000) sauf la photo de voiture. NB:
Décalage de latence pour les voitures inversées en (b) mais pas en (c).
L’augmentation d’amplitude de la N170 n’est pas non plus systématiquement
observée. Certaines études révèlent que la N170 est augmentée pour les visages à l’envers
(Eimer, 2000a; Itier & Taylor, 2002, 2004c; Linkenkaer-Hansen et al., 1998; Rossion,
Delvenne et al., 1999; Rossion et al., 2002; Rossion, Gauthier et al., 2000; Rousselet et al.,
54
2004a; Sagiv & Bentin, 2001; Taylor, Edmonds et al., 2001), d’autres montrent que
l’inversion du visage n’affecte pas l’amplitude de la N170 (Bentin et al., 1996; Rossion,
Joyce et al., 2003). L’inversion des objets non visage n’est pas associée à une augmentation
de l’amplitude de la N170 dans une majorité d’études (Bentin et al., 1996; Itier & Taylor,
2004c; Rossion, Gauthier et al., 2000; Rossion, Joyce et al., 2003; Rousselet et al., 2004a),
De son côté, Eimer (2000) enregistre une augmentation de la N170 pour les maisons à
l’envers plutôt qu’une augmentation de la latence ; il propose donc que l’indice de la
spécificité des visages soit le retard de latence de la N170 après l’inversion. L’augmentation
observée dans l’étude de Eimer est surprenante au vu des nombreuses études montrant un
effet d’inversion sur la latence, et non sur l’amplitude, pour diverses catégories d’objets. Cette
différence pourrait s’expliquer par la méthode utilisée pour mesurer les pics. Eimer (2000) a
évalué l’amplitude de la N170 par l’amplitude moyenne entre 150 et 200 ms ; or, il est
préconisé d’utiliser l’amplitude maximale du pic ; les études utilisant cette technique ne
montrent pas d’augmentation de l’amplitude après inversion de stimuli non visage (Picton et
al., 2000). L’indice de la spécificité des visages paraît donc résider dans l’augmentation de
l’amplitude suite à l’inversion, et non dans l’augmentation de la latence (Rousselet et al.,
2004a). Cette deuxième hypothèse a l’avantage d’être en accord avec les expériences en IRMf
montrant une activation dans les aires répondant spécifiquement aux objets après inversion du
visage (Aguirre et al., 1999; Haxby et al., 1999). Les potentiels évoqués enregistrés en
surface peuvent en effet résulter de l’activation de plusieurs sources cérébrales au même
moment. Ainsi, l’augmentation de la N170 pour les visages inversés pourrait traduire
l’activation des zones impliquées dans le traitement des objets qui s’ajouterait à celle de la
FFA afin de faciliter les traitements ultérieurs (Rossion, Delvenne et al., 1999; Rossion &
Gauthier, 2002 ; Sagiv & Bentin, 2001). Les études utilisant des visages comme les Mooney
Faces ou les visages schématiques abondent également dans ce sens. L’inversion des Mooney
Faces ou des visages schématiques n’entraîne pas d’augmentation de l’amplitude de la N170 ;
le recrutement des zones impliquées dans la reconnaissance des objets paraît n’être effectif
que lorsque le visage est le support d’informations identitaires (Sagiv & Bentin, 2001).
Par ailleurs, il a été montré que la N170 est retardée pour les visages « Thatchérisés »
à l’endroit comparé aux visages normaux ; l’inversion d’un visage « Thatchérisés » entraîne
une N170 similaire à celle évoquée par les visages normaux à l’envers (Boutsen et al., 2006).
Ces résultats indiquent que la N170 indexe le traitement global du visage, et que
l’augmentation de la latence est liée à une perturbation de la configuration qui, dans le cas des
55
visages « Thatchérisés », est plus forte dans les visages à l’endroit. Comme nous l’avons vu
précédemment, la négation perturbe la reconnaissance des visages (George et al., 1999; Itier
& Taylor, 2002), supposément parce qu’elle modifie les informations relationnelles entre les
traits du visage (Hole et al., 1999). Parallèlement, il a été démontré une modulation de la
N170 par l’inversion de contraste similaire à celle observée après rotation du visage à savoir
une N170 retardée et plus ample (Itier & Taylor, 2002, 2004a).
Une autre preuve de la sensibilité de la N170 à la configuration du visage est apportée
par l’étude de l’influence des fréquences spatiales sur la N170. Rappelons que les
informations configurales sont portées par les basses fréquences spatiales, alors que les
informations sur les traits du visage sont révélées par les hautes fréquences spatiales (Goffaux
et al., 2005; Goffaux & Rossion, 2006). La N170 évoquée par des visages représentés par les
informations basses fréquences est similaire à celle évoquée par les visages normaux mais,
lorsque seules les informations liées aux hautes fréquences spatiales sont disponibles, la N170
est plus petite, similaire à celle évoquée par les objets (Figure 18a) (Goffaux, Gauthier et al.,
2003). En outre, l’effet d’inversion sur la N170 n’est présent que pour les images complètes
ou ne contenant que les informations basses fréquences (Figure 18b). La modification des
fréquences spatiales n’a pas d’impact sur la N170 évoquée par les objets (Goffaux, Gauthier
et al., 2003). Cependant, en accord avec les études montrant une influence des processus
descendants sur l’amplitude de la N170 (Bentin & Golland, 2002; George et al., 2005; Jemel,
Pisani et al., 2003), l’influence des fréquences spatiales sur la N170 dépend de la tâche
réalisée par les sujets. Lorsque les sujets doivent juger de la familiarité d’un visage appris, la
N170 n’est plus modulée par les fréquences spatiales contenues dans l’image (Goffaux, Jemel
et al., 2003). Ceci implique également qu’une part de la reconnaissance d’un visage appris
artificiellement dépend de la disponibilité des informations portées par les traits du visage.
56
Figure 18. N170 & Fréquence spatiale. (a) Comparaison des N170 évoquées par les visages (en
gras) et les voitures (traits fins) à différentes fréquences spatiales (FS). Broad pass: toutes les FS.
LSF: basses FS. HSF: hautes FS. (b) Effet d'inversion et fréquence spatiale sur les visages. Trait
large: à l'endroit, trait fin: à l'envers. Issu de Goffaux et al. (2003).
Détection ou reconnaissance ?
Les études précédentes indiquent que la latence et l’amplitude de la N170 sont
modulées par différentes manipulations du visage amenant une rupture de sa configuration. Il
est donc proposé que la N170 reflète l’encodage structurel du visage sous-tendant sa
détection, sa catégorisation en tant que visage (Bentin et al., 1996; Eimer, 1998, 2000c; Sagiv
& Bentin, 2001; Tanaka et al., 2006). L’implication de la N170 dans la détection du visage et
non dans sa reconnaissance est confirmée par l’absence de différence entre la N170 évoquée
par les visages familiers – visages célèbres ou appris – et non familiers (Bentin & Deouell,
2000; Eimer, 2000a, b; Itier & Taylor, 2002, 2004a; Jemel, Pisani et al., 2003; Rossion,
Campanella et al., 1999; Zion-Golumbic & Bentin, 2006). La reconnaissance du visage
apparaît plus tardivement que sa détection. Des modulations des potentiels évoqués par la
familiarité sont rapportées sur les ondes cérébrales apparaissant après 200 ms, sur la P2 (210 à
57
250 ms après la présentation du stimulus – (Caharel et al., 2002)) et la N250 (250 ms après la
présentation du stimulus – (Itier & Taylor, 2004a; Tanaka et al., 2006)), voire plus
tardivement, autour de 400 ms (Eimer, 2000a, b; Itier & Taylor, 2004a). Cependant, certaines
études montrent une modulation de la N170 par la familiarité du visage, indiquant qu’elle
pourrait être impliquée dans la discrimination de l’identité du visage (Caharel et al., 2005;
Caharel et al., 2006; Caharel et al., 2002; Jacques & Rossion, 2006a). En utilisant 3 visages
extraits d’un continuum entre deux identités, Jacques & Rossion (2006) ont montré une
diminution de la N170 lorsque la séquence d’images était constituée de visages situés d’un
même côté du continuum, mais pas lorsque les deux visages de la séquence étaient
catégorisés, au niveau comportemental, comme différents (Jacques & Rossion, 2006a). Les
auteurs suggèrent que la N170 indexe la discrimination entre deux visages appartenant à des
individus distincts (Campanella et al., 2000; Jacques & Rossion, 2006a). Cependant, du fait
de l’organisation de l’expérience en blocs d’images (c’est à dire un bloc avec la paire de
stimuli du même individu et un bloc avec une paire composée de visages d’individus
différents), l’effet observé dans cette étude pourrait représenter un effet de répétition
perceptuelle liée à l’influence de processus descendant (Campanella et al., 2002; Itier &
Taylor, 2002, 2004a). L’influence des processus descendants sur l’amplitude de la N170 est
également démontré dans une étude révélant une diminution de l’amplitude de la N170
évoquée par des Mooney Faces, seulement si leur présentation est précédée de la présentation
d’un visage familier ayant le rôle d’amorce (Jemel, Pisani et al., 2003). Les auteurs suggèrent
que la diminution de la N170 reflète sa sensibilité aux influences descendantes ; la
présentation d’un visage familier préactive le système de reconnaissance et, ainsi, facilite le
traitement du visage, résultant en une N170 diminuée (Jemel, Pisani et al., 2003). Ainsi, sous
l’influence de processus descendants, la N170 pourrait être modulée par la familiarité du
visage (Campanella et al., 2000; Jemel, Pisani et al., 2003) mais, les seules informations
portées par les stimuli ne sont pas suffisantes.
Expertise et N170
La N170 est également sensible au niveau de traitement des objets. Il a été démontré
que la catégorisation des objets à un niveau subordonné entraîne une augmentation de la N170
par rapport à la catégorisation à un niveau superordonné (Tanaka et al., 1999). Par ailleurs,
l’expertise dans une catégorie entraîne une augmentation de l’amplitude de la N170 pour les
objets de cette même catégorie par rapport aux objets situés en dehors de la catégorie ; ainsi,
la N170 est augmentée pour les oiseaux chez les sujets experts, alors qu’elle ne différencie
58
pas les autres objets (Gauthier et al., 2003; Tanaka & Curran, 2001). En MEG, l’expertise
n’entraîne toutefois pas d’augmentation de l’amplitude de la M170 ce qui peut refléter le fait
que la N170 et la M170 n’ont pas la même origine cérébrale ; l’augmentation de l’amplitude
de la N170 pour les sujets experts serait liée au recrutement d’une autre source cérébrale qui
ne pourrait pas être enregistrée en MEG (Xu et al., 2005).
L’utilisation de «greebles» a permis de mettre en évidence un effet d’inversion sur la
N170 pour des stimuli non visage. Avant un entraînement à la reconnaissance des «greebles»,
la N170 pour les visages était plus large et plus précoce que celle évoquée par les «greebles» ;
l’effet d’inversion, à savoir retard et augmentation d’amplitude de la N170, n’etait visible que
pour les visages (Rossion et al., 2002). Après l’apprentissage, la N170 évoquée par les
«greebles» à l’endroit est similaire à celle évoquée par les visages à l’endroit, et l’inversion
des «greebles» provoque un retard de latence plus marqué dans l’hémisphère gauche, et une
augmentation d’amplitude restreinte à l’hémisphère gauche (Rossion et al., 2002). L’effet de
l’expertise étant visible en priorité sur la latence (qui est augmentée), cela confirmerait que,
dans le cadre de l’inversion des visages, l’augmentation d’amplitude de la N170 soit
spécifique des visages (voir p45). L’effet de l’inversion des « greebles » sur la latence
pourrait simplement refléter le développement d’une orientation canonique sous l’effet de
l’apprentissage ; en effet, précédemment, nous avons vu que l’effet d’inversion sur la latence
est trouvé sur des objets non visages, et chez des sujets non experts, dans le cas de stimuli
présentés dans leur orientation canonique (Rossion, Joyce et al., 2003; Rousselet et al.,
2004a). Une seconde différence, importante elle aussi, entre les effets de l’inversion des
visages et des stimuli bénificiant d’une expertise est la latéralisation des effets ; l’effet
d’inversion pour les visages est en général trouvé bilatéralement ou dans l’hémisphère droit,
alors que, pour les «greebles», il est rapporté principalement à gauche. Il se pourrait donc que
la bilatéralisation (avec une prédominance de l’hémisphère droit) des effets observés sur la
N170 soit spécifique des visages, les mêmes régions à gauche étant impliquées dans
n’importe quel traitement approfondi de type configural.
Un effet de l’expertise a également été mis en évidence en étudiant les interférences
dans les traitements mis en jeu par les visages et ceux mis en jeu par les objets soumis à une
expertise. Ainsi, lorsque des sujets experts doivent prêter attention à la fois à une répétition
d’un objet dans leur domaine d’expertise et à celle d’un visage, la N170 pour les visages est
diminuée; cet effet n’est pas reproduit chez les sujets novices (Gauthier et al., 2003). Par
ailleurs, nous avons vu précédemment que lorsque deux visages étaient en compétition pour
59
les ressources sensorielles allouées à chaque visage, la N170 était diminuée (Jacques &
Rossion, 2004, 2006b). Le même paradigme a été utilisé pour observer les effets d’une
compétition entre les visages et les «greebles» en fonction de l’expertise (Rossion et al.,
2004). Cette étude montre, que après l’entraînement conférant l’expertise, la N170 pour les
visages situés en périphérie est réduite seulement lorsque le stimulus central est un «greebles»
(Rossion et al., 2004). Ainsi, sous l’effet de l’expertise, les sujets tendent à traiter les stimuli
non visage comme les visages, ce qui entraîne une compétition entre les traitements recrutés
automatiquement par chaque stimulus. Ces études suggèrent donc que la N170 sous-tend le
recrutement de traitements configuraux dépendant de l’expertise des sujets et non spécifiques
des visages (Diamond & Carey, 1986; Gauthier et al., 2003; Rossion et al., 2002; Rossion et
al., 2004; Tanaka & Curran, 2001).
Au vu du nombre et de la variabilité des données enregistrées grâce aux potentiels
évoqués, il est difficile de dire si la spécificité des visages est assise par l’augmentation de la
latence, ou par l’augmentation de l’amplitude de la N170 pour les visages inversés. Il semble
que le retard observé après l’inversion résulte de la perturbation de l’orientation canonique, et
qu’il n’est donc pas spécifique des visages. L’augmentation d’amplitude de la N170 est
rarement observée pour les objets inversés et, peut être mise en relation avec les données en
IRMf montrant le recrutement des régions spécifiques des objets par les visages à l’envers.
Ainsi, le meilleur indice de la spécificité de la N170 pour les visages paraît être
l’augmentation de son amplitude pour les visages à l’envers. En ce qui concerne l’implication
de la N170 dans la détection ou la reconnaissance du visage, il semble qu’elle reflète
essentiellement la détection du visage, mais que, dans certains conditions expérimentales, elle
puisse subir l’influence de processus descendants, et être modulée par la familiarité du visage.
c.
EEG, MEG : autres composantes
La P1, onde positive apparaissant 100 ms après le début de la présentation du
stimulus, montre une sensibilité aux visages mais ces résultats sont controversés. La P1 paraît
provenir des régions striées et extrastriées (Hillyard & Anllo-Vento, 1998; Itier & Taylor,
2002; Rossion, Campanella et al., 1999) ; l’équivalent de la P1 en MEG est la M100 ou M90
(Liu et al., 2002). Certaines études montrent une modulation de la P1 par l’inversion du
visage ; elle est en général plus tardive pour les visages à l’envers (Itier & Taylor, 2002,
2004a; Linkenkaer-Hansen et al., 1998). Ces résultats seraient en faveur d’une sensibilité de
la P1 aux visages. De plus, l’inversion de contraste n’affecte pas la latence de la P1 ; or, elle
60
préserve la configuration générique du visage, mais pas les informations relationnelles entre
les traits. Ces différentes données suggèrent que la P1 indexe le traitement de la configuration
générique du visage, et sous-tend la détection du visage, en accord avec une étude en MEG
sur la M100 (Liu et al., 2002).
De nombreuses études n’ont pas réussi à montrer une modulation de la P1 par
l’inversion du visage, et proposent que la P1 reflète le traitement des informations bas niveau
(Halit et al., 2000; Rossion, Delvenne et al., 1999). La P1 est également modulée par les
processus attentionnels, tant au niveau de l’attention spatiale que de l’attention pour certaines
caractéristiques (Halit et al., 2000; Hillyard & Anllo-Vento, 1998; Rossion, Campanella et al.,
1999; Taylor, 2002). Les effets attentionnels, notamment lorsque l’attention est explicitement
dirigée vers le visage, peuvent masquer les évènements arrivant à la latence de la P1, ce qui
pourrait expliquer les observations assez disparates rapportées dans la littérature (Holmes et
al., 2003).
La troisième composante d’un potentiel évoqué visuel est la P2. Elle apparaît 220 ms
après la stimulation, et est maximale sur les électrodes occipito-pariétales. La P2 n’est pas
systématiquement mesurée dans les études sur la perception des visages. Elle paraît pourtant
être modulée par la familiarité du visage. Une étude montre en effet que l’amplitude de la P2
diminue à l’inverse de la familiarité : plus le visage est familier, plus la P2 est petite (Caharel
et al., 2002). De façon plus générale, il a été montré une sensibilité de la P2 à la familiarité du
stimulus, visage ou non. Plus un stimulus est familier, plus la P2 sera précoce (Pernet et al.,
2003).
Tant au niveau comportemental que neuronal, diverses études montrent une spécificité
des visages due à leur configuration particulière reproductible d’un stimulus à l’autre et
requérant des traitements relationnels. Ces différentes études révèlent qu’un réseau d’aires
cérébrales est spécifiquement impliqué dans les différentes étapes de la perception du visage
allant de sa détection à sa reconnaissance, puis à son identification (Grill-Spector et al., 2004;
Kanwisher & Yovel, 2006; Rossion, Schiltz et al., 2003). Les aires de ce réseau s’activent à
différentes latences en fonction des informations à extraire. La première activation semble
avoir lieu 170 ms après le début de la stimulation, peut-être plus précocement à la latence de
la P1, et paraît liée à la détection du visage (Carmel & Bentin, 2002; Curran et al., 2002). La
reconnaissance du visage et son identification nécessitent l’activation des mêmes aires
61
cérébrales (Grill-Spector et al., 2004; Rossion, Schiltz et al., 2003), mais celle-ci est plus
tardive, entre 250 ms et 400ms (Bentin & Deouell, 2000; Eimer, 2000a).
Cette revue de la littérature montre le volume des données enregistrées dans le
domaine de la perception des visages. Le nombre de données n’a d’égal que leur disparité ;
quelle que soit la technique utilisée, l’activité cérébrale enregistrée est sensible à la tâche
réalisée par les sujets, aux stimuli, aux paradigmes etc. Cette grande variabilité des résultats
amène une importante confusion dans la littérature. Différents modèles tentent d’expliquer un
maximum de résultats observés, et de les regrouper de manière cohérente, c’est ce que nous
allons voir maintenant. La spécificité des visages semble, en premier lieu, liée à l’utilisation
de traitements particuliers pour leur reconnaissance. Toutes les études précitées tendent à
démontrer que l’altération de la configuration du visage induit systématiquement une
perturbation du traitement des visages, aussi bien au niveau comportemental qu’au niveau
neuronal ; cet effet n’est pas systématiquement reproduit pour les stimuli non visage. La
question de savoir pourquoi le traitement des visages est « global » alors que celui des objets
semble plutôt « local » n’a toujours pas trouvé de réponse. Certains chercheurs proposent que
cela reflète un comportement inné, démontrant une préférence pour les visages. D’autres en
déduisent que le traitement global du visage est lié à l’expertise que nous en avons, et résulte
d’un comportement acquis, généralisable à d’autres catégories suite à un apprentissage.
2.3. Théories
Dans cette section, je présenterai un modèle fonctionnel de la reconnaissance des
visages et quelques théories sur la perception des visages. La reconnaissance des visages a été
expliquée par plusieurs modèles cognitifs ; j’ai choisi de présenter ici celui de Bruce & Young
(1986) qui a beaucoup influencé la littérature sur les visages. Ce modèle s’intéresse à la
reconnaissance du visage jusqu’à la dénomination, l’accès au nom.
2.3.1. Modèle fonctionnel de la reconnaissance des visages (Bruce &
Young, 1986)
Le modèle de Bruce & Young (1986) est plus adapté à la perception des visages
familiers qu’à celle des visages non familiers, pour lesquels les informations sémantiques ne
sont pas disponibles ; la dénomination ne peut donc avoir lieu.
62
Ce modèle s’appuie sur l’existence de trois voies de traitement parallèles et
indépendantes mises en route à la présentation d’un visage ; ces trois voies de traitement
partagent la première étape consistant à l’extraction d’une représentation dépendante de
l’angle de vue (Figure 19). Une de ces voies est impliquée dans le décodage du discours
facial, afin de faciliter la compréhension du discours sous certaines conditions ambigües (e.g.
environnement bruité). La deuxième voie indépendante permet l’accès aux informations
émotionnelles portées par le visage. La troisième, qui fut décrite en détail par Bruce & Young,
est celle impliquée dans la reconnaissance des visages.
Figure 19. Modèle de Bruce & Young (1986). Ce
modèle explique les mécanismes de reconnaissance du
visage. Par la suite les auteurs ont proposé que
l'extraction des informations sémantiques dérivées des
informations visuelles (informations sur le genre, l'âge,
etc.) ait lieu en parallèle de l'encodage structurel
(Bruce et al. 1993; Bruce et al. 1987). Les différentes
informations extraites pourraient emprunter des routes
différentes, par exemple, une route pour l'âge et le
genre, une route pour les qualités "morales" etc.
La perception du visage commence par l’encodage des informations structurelles, ces
dernières permettant la création d’une représentation du visage ; cette étape est celle de
détection du visage. Le pattern du visage perçu est ensuite comparé aux représentations
stockées en mémoire dans des modules de reconnaissance du visage (« Face recognition
unit ») (Figure 19). La force du signal envoyé depuis les modules de reconnaissance du
visage vers les aires de plus haut niveau (cognitive system) dépend du résultat de la
comparaison entre le code extrait du visage perçu et les codes stockés. Si la comparaison se
révèle positive (sentiment de familiarité), les informations seront alors envoyées dans le
module où est représentée l’identité d’une personne (« person identity nodes »). La
représentation extraite sera alors associée aux informations sémantiques sur l’individu et
63
rendra ainsi possible l’accès au nom de la personne. Les modules de reconnaissance des
visages sont spécifiques d’une modalité ; les informations en provenance d’autres modalités
sensorielles convergent vers le module de l’identité (« person identity nodes ») et peuvent
ainsi faciliter la reconnaissance. La reconnaissance d’une image ambiguë (Mooney Faces,
etc.) est facilitée par une amorce non ambiguë (George et al., 1999; Jemel, Pisani et al.,
2003), cela suggère que le module de l’identité peut avoir une influence descendante sur les
modules de reconnaissance des visages.
Ce modèle découle d’un certain nombre d’observations comportementales et
cliniques. Par exemple, il a été montré que l’accès au nom d’un individu prend plus de temps
que la reconnaissance, et est parfois extrêmement difficile bien que d’autres informations
soient connues telles que le genre, l’âge (« visually derived semantic information ») ou autres
données biographiques (Figure 19) (Young, Flude et al., 1987). Le genre de la personne est
d’ailleurs perçu en en même temps que le visage (Bacon-Macé, 2006).
Ceci implique trois choses i) l’accès aux informations sémantiques est indépendant de
l’accès au nom, ii) il précède forcément l’accès au nom révélant un traitement sériel de ces
informations, iii) la perception du genre est indépendante de la familiarité ; le genre serait
traité en parallèle de la familiarité, et son extraction pourrait être très précoce, au moment de
l’encodage structurel, voire avant (Bruce et al., 1993; Bruce et al., 1987; Bruce & Young,
1986; Mouchetant-Rostaing et al., 2000 ). Toutefois, une autre étude montre une interaction
entre familiarité et traitement du genre, ce dernier étant facilité sur les visages familiers
(Dubois et al., 1999). Ceci laisse penser que le traitement du genre n’est pas totalement
indépendant de celui de la familiarité et qu’il pourrait y avoir une influence des modules de
reconnaissance du visage, ou des modules de l’identité, sur l’extraction des informations
sémantiques dérivées du traitement visuel (« visually derived semantic information »).
Parallèlement à ce modèle de reconnaissance des visages, les auteurs proposent après
revue de la littérature sur la perception des objets, un modèle similaire pour la reconnaissance
des objets. Cependant, parce que les niveaux de reconnaissance ne sont pas les mêmes, le
module de reconnaissance des objets serait impliqué dans des traitements différents du
module de reconnaissance du visage ; un visage est catégorisé au niveau individuel alors que
les objets sont catégorisés à un niveau de base, hiérarchiquement supérieur au niveau
individuel (Rosch et al., 1976).
64
Ce modèle ne permet pas de répondre à la question de la spécificité des visages, et les
auteurs se sont abstenus d’en faire mention. Cependant, dans le même temps de nombreuses
études ont cherché à identifier le pourquoi de la spécificité des visages.
2.3.2. Une histoire d’expertise…
La perception des visages, contrairement aux stimuli non visage, parait reposer
essentiellement sur des traitements de types relationnels. Le débat aujourd’hui se situe au
niveau du pourquoi de cette différence entre les traitements recrutés par les visages et les non
visages. Certains chercheurs pensent que le traitement configural (au sens général du terme)
est spécifique des visages, d’autres considèrent qu’il peut être utilisé pour d’autres catégories
d’objet, partageant une même configuration de premier ordre, suite au développement d’une
expertise. La première hypothèse propose que la spécificité du visage vient d’un système inné
de reconnaissance, mis en place du fait du rôle des visages dans les interactions sociales.
Ainsi, un système serait spécifiquement dédié au traitement des visages, et assurerait un
traitement configural du visage. Cette hypothèse trouve des soutiens dans les études chez les
enfants qui montrent une préférence pour les visages dès les premiers jours suivant la
naissance (Johnson et al., 1991). Néanmoins, comme nous l’avons vu au cours de la partie
précédente, la préférence des nouveaux-nés pour les visages pourrait être due à des processus
de plus bas niveaux (Turati et al., 2002). La preuve de l’existence de régions cérébrales
répondant de manière spécifique aux visages, ajoutée au fait que ces régions sont moins
distribuées que celles spécifiques des objets (Ishai et al., 1999), prêche également en faveur
de l’existence d’un système spécifiquement consacré à la perception des visages.
La deuxième hypothèse propose que la spécificité des visages n’est pas liée
intrinsèquement aux visages mais à l’expertise que nous avons de cette catégorie (Diamond &
Carey, 1986). Sous l’effet de l’expertise dans une catégorie particulière, le traitement de
l’objet qui, au départ, est plutôt analytique, deviendrait de plus en plus dépendant des
informations relationnelles afin d’optimiser la reconnaissance. Cette théorie est appuyée par
les études qui explorent les effets d’inversion, ou de stimuli chimériques, chez des sujets
experts (Gauthier et al., 2003; Gauthier & Tarr, 1997; Gauthier et al., 1999). Par ailleurs,
l’expertise semble recruter les mêmes traitements que ceux mis en jeu par les visages, comme
le montre l’existence d’une compétition fonctionnelle entre les stimuli pour lesquels les sujets
sont experts et les visages (Gauthier et al., 2003). Cette hypothèse est soutenue par la
65
démonstration de l’activation des zones cérébrales dites spécifiques des visages, lors de la
reconnaissance de stimuli non visage seulement chez les experts.
2.3.3. Une histoire de traitement…
Que la spécificité des visages puisse être « innée » ou « acquise », spécifique ou
généralisable à d’autres catégories, elle repose toujours sur le recrutement de processus
particuliers par les visages. Dans la littérature, il est régulièrement admis que la
reconnaissance du visage repose majoritairement sur l’extraction d’informations relationnelles
entre les traits du visage, elle nécessite également la présence de certains traits
caractéristiques tels que les yeux ou les sourcils (Sadr et al., 2003; Schyns et al., 2002).
L’évidence d’un traitement relationnel impliqué dans la reconnaissance des visages vient des
nombreuses études révélant un avantage de la configuration, par rapport aux éléments isolés,
pour la reconnaissance du visage ; par ailleurs, les études en électrophysiologie, montrant que
l’extraction de la configuration précède le traitement des traits, sont également en accord avec
l’hypothèse d’un traitement configural du visage (McCarthy et al., 1999). Les effets
d’inversion, de négation et de visage composite confirment le rôle des informations
configurales dans la perception des visages normaux à l’endroit.
Pour décrire le traitement configural des visages, les termes configural et holistique
sont aléatoirement employés sans qu’aucun consensus n’ait été défini. Ils font en fait allusion
à l’un et/ou à l’autre des 3 types de traitements relationnels généralement observés (Figure
20) : le traitement des relations de premier ordre, le traitement holistique et le traitement des
relations de second ordre (Maurer et al., 2002).
66
Figure 20. Les traitements du visage. A partir d'un visage, on observe soit un traitement
holistique (Farah et al. (1998)), soit l'extraction de la configuration de premier ordre qui permet la
détection du visage (Diamond & Carey, 1986; Maurer et al. (2002)). En vert: selon Farah et al.
(1998), le visage est encodé, mémorisé et reconnu sous la forme d'un gestalt. En bleu: Diamond &
Carey proposent que la configuration de second ordre, qui succède à l'extraction de la
configuration de premier ordre, révèle les informations propres à l'individu et permet de distinguer
les différents items d'une même catégorie partageant tous la même configuration de premier ordre.
En violet: selon Maurer et al. (2002), la configuration de premier ordre permet la détection du
visage, puis les éléments sont réunis au sein d'un gestalt, d'où les informations sur les relations
entre les traits (configuration de second ordre) seront extraites. L'inversion (en rouge) du visage
perturbe tous les types de traitement, la négation (en rose) ne perturbe pas la détection du visage
mais peut avoir un effet sur le traitement holistique, ou sur l'extraction de la configuration de
second ordre. En noir, à droite: les objets sont traités de façon analytique, c'est à dire éléments par
éléments. Il s'agit bien sûr d'une version simplifiée du traitement des objets; il est fort probable que
des traitements globaux soient également mis en jeu par les objets. Les données recueillies dans la
littérature semblent montrer que la perception des objets diffère de celle des visages; cette
différence repose probablement sur le recours aux informations relationnelles.
a. Configuration de premier ordre
Le premier de ces traitements désigne l’extraction de la configuration de premier ordre
qui englobe la position des éléments du visage les uns par rapport aux autres : les yeux sont au
67
dessus du nez lui-même situé au dessus de la bouche (Figure 20). La configuration de premier
ordre est la configuration générique du visage. Partagée par tous les items de la catégorie, elle
ne permet pas la discrimination entre deux visages, mais elle pourrait sous-tendre la détection
du visage (Diamond & Carey, 1986; Haxby et al., 1999; Maurer et al., 2002). La
configuration de premier ordre est celle qui conduit de façon automatique à percevoir un
visage dans n’importe quel stimulus dont les éléments présentent un arrangement spatial de
type visage (Figure 21a). L’inversion d’un tel stimulus annihile la perception du
visage (Moscovitch et al., 1997) démontrant ainsi que que l’inversion perturbe le traitement
configural de premier ordre. Les marqueurs neuronaux du traitement des visages sont
sensibles à l’inversion du visage : diminution de l’activité dans la FFA (Gauthier et al., 1999;
Yovel & Kanwisher, 2005), augmentation dans le gyrus occipital inférieur (Haxby et al.,
1999) et, augmentation et/ou retard de la N170 (Bentin et al., 1996; Rossion, Gauthier et al.,
2000; Taylor, Edmonds et al., 2001). L’extraction de la configuration de premier ordre
pourrait donc avoir lieu au niveau du gyrus occipital inférieur et peut-être de la FFA à la
latence de la N170 (Bentin et al., 1996; Eimer, 2000a, b, c; Haxby et al., 1999; Kanwisher et
al., 1997; Rossion, Gauthier et al., 2000; Rotshtein et al., 2005). La détection du visage
pourrait nénamoins débuter plus tôt (à 100 ms – P1), puisque certaines études montrent une
sensibilité de la P1 à l’inversion du visage mais pas à la négation, qui préserve la
configuration de premier ordre (Itier & Taylor, 2002, 2004a; Linkenkaer-Hansen et al., 1998),
et ce même chez les jeunes enfants (Taylor, Edmonds et al., 2001),. Par ailleurs, certaines
études montrent une modulation de la N170 par la familiarité du visage dans certaines
conditions expérimentales (Campanella et al., 2000; Jacques & Rossion, 2006a; Jemel, Pisani
et al., 2003). La N170 pourrait donc également refléter la mise en jeu de traitements plus
spécifiques tels que les traitements holistique et configural de second ordre.
68
Figure 21. Les différents aspects du traitement configural des
visages. (a) Sensibilité aux relations de premier ordre. Peinture
d'Archimbalo. Le visage est perçu à l'endroit mais pas à l'envers. (b)
Illustration du traitement holistique. Visage chimérique Al Gore/Bill
Clinton. L'espace interne du visage d'Al Gore est remplacé par celui
de Bill Clinton. Les sujets ne percçoivent pas que les espaces internes
sont identiques sur les visages à l'endroit.(c) Séparation des
traitements analytiques et des relations de second ordre. Dans la
première rangée, les visages diffèrent par les relations spatiales entre
les éléments; l'inversion diminue les performances des sujets dans la
discrimination entre deux visages. Dans la deuxième rangée, les
différences touchent les traits du visage; elles sont perçues même
lorsque le visage est inversé. Issu de Maurer et al. 2002.
b. Traitement holistique
Le traitement holistique correspond au traitement du visage comme un tout,
conduisant à la génération d’un gestalt (Figure 20) (Farah, 1996; Farah, Tanaka et al., 1995;
Farah et al., 1998; Maurer et al., 2002). Le traitement holistique permet la création d’une
représentation 2D contenant toutes les informations utiles à la reconnaissance, allant des traits
faciaux aux informations relationnelles, en passant par les informations perceptuelles telles
que le contraste, l’orientation, la luminance etc. Ce gestalt serait construit après de
nombreuses présentations d’un visage et serait donc dépendant de l’orientation et de la
polarité de contraste (George et al., 1999; Sinha & Poggio, 1996) ; ainsi, l’inversion et la
négation du visage pourrait perturber la reconnaissance du visage à partir du traitement
holistique (George et al., 1999; Hole et al., 1999; Lewis & Johnston, 1997). Cependant,
certaines études affirment que l’utilisation de visage en négatif ne perturbe pas le traitement
holistique, la configuration générique du visage étant préservée ; mais, comme nous l’avons
vu, ceci fait plutôt référence à la configuration de premier ordre (Hole et al., 1999; Kemp et
al., 1990). L’existence d’un traitement holistique des visages à l’endroit est montrée par
l’utilisation de visages chimériques dont, soit les moitiés inférieure et supérieure, soit l’espace
interne et le contour appartiennent à deux individus distincts ; les visages composites sont
perçus comme totalement différents à l’endroit (Figure 21b) (Hole, 1994; Hole et al., 1999;
Schiltz & Rossion, 2006; Young, Hellawell et al., 1987). L’effet composite du visage
disparaît après l’inversion du visage ou le non alignement des deux moitiés (Schiltz &
69
Rossion, 2006), confirmant que l’inversion perturbe le traitement holistique. L’hypothèse
d’un traitement holistique est appuyée par les études montrant la faible capacité des sujets à
discriminer les éléments internes du visage (Farah et al., 1998; Tanaka & Sengco, 1997;
Tanaka, 1993). Ces études démontrent que la construction d’un gestalt empêche la
dissociation des différents éléments, et donc perturbe leur reconnaissance. En utilisant des
visages chimériques, il a été montré une sensibilité de la FFA et du gyrus occipital inférieur
au traitement holistique, bien qu’elle soit moindre dans le cas du gyrus occipital inférieur.
Ainsi, il semble que le traitement holistique du visage fait également intervenir ces deux
régions cérébrales.
c.
Configuration de second ordre
Tous les visages partagent la même configuration de premier ordre ; la reconnaissance
d’un visage unique dépend donc de variations subtiles dans les formes et/ou les espacements
des traits (Figure 20) (Diamond & Carey, 1986; Maurer et al., 2002). Ces informations sont
encodées dans la configuration de second ordre ; il s’agit par exemple, de la forme des yeux,
de la distance interoculaire, distance entre la bouche et le nez, distance entre la structure
interne et le contour etc. Pour tester la mise en jeu des relations de second ordre dans la
reconnaissance, des visages identiques variant seulement sur la base de certaines informations
relationnelles sont utilisés (Figure 21c) (Freire et al., 2000; Leder & Bruce, 2000; Leder et
al., 2001; Tanaka & Farah, 1993). Ces études révèlent que l’inversion perturbe la
discrimination entre deux visages différant par les relations spatiales entre les éléments, mais
pas lorsque les modifications touchent les éléments du visage eux-mêmes (Barton et al., 2001;
Freire et al., 2000; Le Grand et al., 2001; Leder & Bruce, 2000). La négation perturbe
également le traitement de la configuration de second ordre. Les études en IRMf tendent à
démontrer que l’extraction de la configuration de second ordre pourrait avoir lieu au niveau
de la FFA (Dubois et al., 1999; Gobbini & Haxby, 2006; Henson et al., 2000; Rossion,
Schiltz et al., 2003; Rossion et al., 2001; Rotshtein et al., 2005; Yovel & Kanwisher, 2005).
L’association entre la représentation du visage et les informations sémantiques aurait lieu
dans des régions plus antérieures du gyrus fusiforme (George et al., 1999).
Ce sont donc les traitements holistiques et les traitements configuraux de second ordre
qui révèlent les informations propres à l’individu et permettent ainsi l’identification. Ces
traitements de types relationnels souvent attribués aux visages s’opposent aux traitements dits
analytiques utilisés dans la reconnaissance d’objets. Le traitement analytique fait référence à
un traitement élément par élément (« part-based processing », « piecemeal processing »)
70
(Figure 20 – en noir). Un élément est défini selon trois critères, il doit i) pouvoir être mesuré
ou décrit, ii) provoquer une discontinuité dans le visage, iii) être local, c'est à dire ne
contenant pas d’informations spatiales (Bartlett et al., 2003). Bien que la reconnaissance des
objets parait dépendre d’informations plus locales, il est clair que certaines informations
relationnelles entrent également en jeu, en particulier pour les objets de la vie quotidienne.
Selon Maurer et al. (2002), les 3 traitements configuraux sont recrutés les uns après
les autres dans le sens décrit ci-dessus, à savoir, détection de la configuration de premier
ordre, qui est nécessaire à la mise en jeu du traitement holistique et à la construction du
gestalt, puis détection des relations de second ordre (Figure 20 – en violet) (Maurer et al.,
2002).
L’inversion du visage semble perturber tous les types de traitement configural
puisqu’on a vu qu’à chaque traitement correspond son « effet d’inversion ». Une hypothèse
propose que les visages à l’envers, dans lesquels les informations configurales sont
perturbées, soient également traités de manière analytique – trait par trait – et ce, afin de
faciliter leur reconnaissance. Les études en IRMf soutiennent cette hypothèse, puisque les
régions cérébrales plus spécifiquement impliquées dans la reconnaissance des objets sont
activés par les visages à l’envers (Aguirre et al., 1999; Haxby et al., 1999; Yovel &
Kanwisher, 2005). De la même façon en EEG, l’inversion du visage provoque une
augmentation de la N170 seulement lorsque les informations portées par les traits du visage
sont utiles à la reconnaissance (Sagiv & Bentin, 2001). La négation du visage ne paraît pas
perturber l’extraction de la configuration de premier ordre, mais altère certainement
l’extraction de la configuration de second ordre, son effet sur le traitement holistique du
visage n’est pas évident.
Quelles que soient les hypothèses proposées, il n’en demeure pas moins que les
visages restent des stimuli singuliers. Que cette singularité soit liée à l’expertise ou qu’elle
soit innée, elle reste cependant évidente. J’ai, dans ma thèse, exploré la perception des visages
du point de vue des traitements mis en jeu, et cherché à mettre en évidence les corrélats
neuronaux des différentes étapes du traitement des visages décrites par Maurer et al. (2002).
71
72
73
74
3. Travail expérimental : de la détection à l’identification des visages
Quelles que soient les raisons qui conduisent à la spécificité des visages, ils n’en
demeurent pas moins une catégorie à part. En effet, aux niveaux comportemental et neuronal,
ils engagent des traitements spécifiques mettant en jeu des aires cérébrales distinctes. Dans les
différentes expériences de ma thèse, je me suis intéressée à l’implication des différents types
de traitements décrits par Maurer et al (2002) dans la perception des visages, et leur
contribution aux patterns des potentiels évoqués usuellement décrits. Les corrélats des
différents traitements mis en jeu par les visages ont été explorés au travers de plusieurs types
de stimuli et tâches allant de la détection à l’identification.
Précédemment, nous avons vu que deux types de manipulation affectaient
particulièrement la perception des visages : la rotation de 180° ou l’inversion de contraste.
Dans la première étude, nous avons donc comparé les effets de la rotation et de l’inversion de
contraste sur la N170 évoquée par 6 catégories de stimuli dans une tâche de jugement de
l’orientation (Itier, Latinus et al., 2006).
Nous avons également noté que l’utilisation de certains types de visage permettait de
séparer les processus engagés par les visages normaux : notamment, les Mooney Faces dans
lesquels les traits internes ne sont pas dissociables permettant ainsi d’identifier la contribution
du traitement holistique au pattern de la N170. Ainsi, dans une seconde étude, j’ai examiné les
corrélats neuronaux de la détection des Mooney Face,s avant et après un apprentissage ayant
permis de l’améliorer (Latinus & Taylor, 2005). A la suite de cette étude, j’ai voulu
investiguer la modulation des potentiels évoqués par les différents types de traitements
relationnels engagés par les visages, via l’utilisation de visages schématiques, de
photographies et de Mooney Faces, à l’endroit et à l’envers (Latinus & Taylor, 2006).
Les deux dernières études ont exploré la modulation des potentiels évoqués par
différents niveaux de catégorisation des visages. Selon le modèle de Bruce & Young (1986),
la détection du genre aurait lieu en même temps que l’encodage du visage. J’ai donc étudié les
corrélats neuronaux de la catégorisation du genre afin de voir si les potentiels évoqués
précoces étaient modulés par le genre (Latinus & Taylor, submitted). Puis, comme nous avons
vu dans la partie introductive une modulation de l’activité de la FFA par le type de familiarité,
nous avons étudié l’effet du niveau de familiarité sur les processus recrutés par les visages.
Ainsi, nous avons analysé les potentiels évoqués par des visages connus (personnes célèbres),
appris (familiers) ou non familiers (Bayle et al., Soumis).
75
76
3.1. D’où vient la spécificité du visage ?
Objectifs & Méthodes
Dans cette étude, nous avons exploré l’impact de la rotation et de l’inversion de
contraste sur différentes catégories d’objets en potentiels évoqués. Seules les variations du
pattern de la N170 sont rapportées. Les sujets réalisaient une tâche de discrimination de
l’orientation sur 6 catégories d’objets en contraste positif et négatif, à l’envers et à l’endroit.
Outre des visages humains, les stimuli consistaient en des visages de singe afin de tester la
spécificité des réponses de la N170 pour le visage humain, des yeux pour tester l’hypothèse
selon laquelle la N170 est un détecteur d’yeux. En addition, 3 catégories d’objets (maisons,
chaises, voitures) servaient de stimuli contrôles.
Résultats & Conclusions
L’inversion entraîne une diminution des performances et une augmentation des temps
de réaction seulement pour les visages humains. Les images en négatif augmentent les temps
de réaction pour tous les stimuli sauf les visages humains.
Pour les visages à l’endroit en contraste positif, la latence de la N170 est la plus
précoce pour les visages humains ; son amplitude est la plus grande pour les yeux, les visages
humains arrivant deuxième, suivis par les visages de singe.
L’inversion affecte la latence de la N170 pour toutes les catégories, l’augmentation la
plus importante étant observée pour les visages humains. L’augmentation de l’amplitude n’est
visible que pour les visages humains, elle rejoint la N170 évoquée par les yeux. Le même
pattern est observé pour les visages à l’endroit en contraste négatif, N170 retardée pour tous
les stimuli mais également augmentation de la N170, seulement pour les visages humains. Le
cumul de la rotation du visage et de la négation entraîne un effet additif sur la N170 ; elle est
alors la plus tardive.
Ces résultats révèlent que 1) l’augmentation d’amplitude de la N170 pour les visages
inversés et en négatifs semble être spécifique des visages, 2) les effets d’inversion et de
négation observés sur la N170 sont amenés par les yeux, puisque la N170 après inversion ou
négation est similaire à celle évoquée par les yeux, 3) la N170 discrimine entre visage humain
et visage non humain, qui sont traités comme des objets, 4) un effet additif de l’inversion et
de la négation est démontré sur la latence de la N170, ce qui suggère que ces deux
manipulations affectent différents étapes/types de traitement.
77
78
Rapid Communication
www.elsevier.com/locate/ynimg
NeuroImage 29 (2006) 667 – 676
Face, eye and object early processing: What is the face specificity?
Roxane J. Itier,a,* Marianne Latinus, c and Margot J. Taylor b,c
a
The Rotman Research Institute, Baycrest Centre for Geriatric Care, 3560 Bathurst Street, Toronto, Ontario, Canada M6A 2E1
Diagnostic Imaging, The Hospital for Sick Children, Toronto, Canada
c
CerCo-CNRS, Université Paul Sabatier, Toulouse, France
b
Received 3 June 2005; revised 22 July 2005; accepted 27 July 2005
Available online 19 September 2005
We investigated the human face specificity by comparing the effects of
inversion and contrast reversal, two manipulations known to disrupt
configural face processing, on human and ape faces, isolated eyes and
objects, using event-related potentials. The face sensitive marker, N170,
was shortest to human faces and delayed by inversion and contrast
reversal for all categories and not only for human faces. Most
importantly, N170 to inverted or contrast-reversed faces was not
different from N170 to eyes that did not differ across manipulations.
This suggests the disruption of facial configuration by these manipulations isolates the eye region from the face context, to which eye
neurons respond. Our data suggest that (i) the inversion and contrast
reversal effects on N170 latency are not specific to human faces and (ii)
the similar increase of N170 amplitude by inversion and contrast
reversal is unique to human faces and is driven by the eye region. Thus,
while inversion and contrast reversal effects on N170 latency are not
category-specific, their effects on amplitude are face-specific and reflect
mainly the contribution of the eye region.
D 2005 Elsevier Inc. All rights reserved.
Introduction
The processing specificity of faces compared to other objects
has been a major debate in visual cognitive neurosciences over the
past years. One aspect of this specificity is the configural
processing of faces, the unique relationships among facial features
that define individual identity, not seen in objects that are
processed analytically (Bartlett and Searcy, 1993; Rhodes et al.,
1993). The impairment in recognition of upside-down faces is
disproportionate compared to that of inverted objects (Yin, 1969),
and converging behavioral data suggest that this ‘‘face inversion
effect’’ is due to the disruption of configural processing during face
encoding and is unique to the face category (Rossion and Gauthier,
2002). Scalp electrophysiological studies of face processing,
* Corresponding author. Fax: +1 416 785 2862.
E-mail address: [email protected] (R.J. Itier).
Available online on ScienceDirect (www.sciencedirect.com).
1053-8119/$ - see front matter D 2005 Elsevier Inc. All rights reserved.
doi:10.1016/j.neuroimage.2005.07.041
providing excellent temporal resolution of neural events, have
focused mainly on a negative event-related potential (ERP)
component occurring between 140 and 200 ms after stimulus
onset at occipito-temporal electrodes. This N170 (Bentin et al.,
1996) component is reliably larger to faces than to any object
category tested (Bentin et al., 1996; Carmel and Bentin, 2002;
Eimer, 2000b; Itier and Taylor, 2004d) and has become a marker
for early face processing. Although its exact neural generators are
still debated (Bentin et al., 1996; Itier and Taylor, 2004e; Rossion
et al., 2003a; Watanabe et al., 2003), this component is thought to
reflect structural encoding (Eimer, 2000b; Rossion et al., 1999), i.e.
the extraction of a perceptual representation of the face, in occipitotemporal areas. It is delayed and enhanced by face inversion
(Bentin et al., 1996; de Haan et al., 2002; Eimer, 2000a; Itier and
Taylor, 2002, 2004b,d; Rossion et al., 1999, 2000; Sagiv and
Bentin, 2001; Taylor et al., 2001c), an effect not reported with
objects (Bentin et al., 1996; Rebai et al., 2001; Rossion et al.,
2000). This neurophysiological face inversion effect, particularly
on N170 latency, is considered by some researchers as the earliest
consistent electrophysiological difference between face and object
processing (Rossion and Gauthier, 2002; Rossion et al., 1999) and
could reflect the early processing specificity for faces. In this paper,
we show that inversion actually delays the N170 for all categories,
and not only human faces.
Another manipulation that impairs face recognition is contrast
reversal or photo-negative (Galper, 1970; Kemp et al., 1990) that
also disrupts configural processing (Kemp et al., 1990; Lewis and
Johnston, 1997) but, unlike inversion, preserves the general face
organization (eyes above nose above mouth). We have shown that
contrast reversal alters N170 in a similar way as does inversion
(Itier and Taylor, 2002, 2004a,b,c), suggesting configural disruption by both manipulations at the structural encoding stage of
face processing. However, this effect of photo-negative on the
N170 to objects has not been tested, preventing any conclusion as
to whether it is particular to the face category or general to visual
stimuli.
In this electrophysiological experiment, we further characterized what makes the human face specific by comparing inversion
and contrast reversal effects on early visual processing between
668
R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676
object and face categories. We used a simple orientation detection
task used previously (Rossion et al., 2000), in which 19 subjects
discriminated upright from inverted stimuli (regardless of their
contrast). By focusing attention on each stimulus, this task
minimizes attentional bias to human faces (Vuilleumier, 2000) or
level of categorization effects (Tanaka and Curran, 2001) that
could impact on face – object differences. Its simplicity also
minimizes category differences that could result from short-term
memory difficulties. Finally, using the same task as previously
used in the literature, and some of the same object categories,
precluded task-related effects to be a reason for possible different
results. We compared the effects of orientation (upright or
inverted) and contrast (positive or negative) on the face marker
N170 component recorded to objects (cars, chairs, houses) and
faces. Ape faces were included to test the species specificity of
N170. It has been shown that, although N170 to ape faces can be
as large as that to human faces (Carmel and Bentin, 2002; de Haan
et al., 2002), inverting ape faces does not affect N170 (de Haan et
al., 2002), suggesting that these faces are processed like objects
and N170 is sensitive to the human aspect of face stimuli (de Haan
et al., 2002). We wished to extend this finding by comparing the
effects of contrast reversal on N170 to both species. If N170
reflected processes of a broad-based face category and not
processes particular to the human face, then inversion and contrast
reversal should have the same effects for both ape and human
faces. Finally, we explored the relations between face and eye
processing by including isolated eyes as it has been suggested that
N170, which is delayed and usually larger to isolated eye stimuli
than to full faces (Bentin et al., 1996; Jemel et al., 1999; Taylor et
al., 2001a,c), could reflect the activity of an eye detector (Bentin et
al., 1996; Eimer, 1998). Our results show that N170 for upright
faces does not reflect the activity of an eye detector, as suggested
by some previous studies (Eimer, 1998), but that inversion and
contrast reversal effects on that component are driven, to a large
extent, by the eye region.
Methods
Subjects
Nineteen healthy adults (9 females, mean age 26.6 years, 3 lefthanded) participated in the experiment which was approved by the
French Comité Opérationnel pour l’Ethique dans les Sciences de la
vie du CNRS. All subjects had normal or corrected-to-normal
vision and signed informed written consent.
1300 ms) during which a centered white fixation cross appeared.
Stimuli were randomly intermixed, and the block order was
counterbalanced across subjects. In this orientation judgment task,
subjects had to press the left control key for all upright stimuli and
the right control key for all inverted stimuli, regardless of category
or contrast, as rapidly and accurately as possible. Buttons were
reversed for half of the subjects. Accuracy and reaction times were
recorded.
Electrophysiological recordings and measures
ERPs were recorded (NeuroScan 4.2) via 31 electrodes
mounted on a cap (Easycap) according to the 10/10 system. Three
additional ocular electrodes monitored vertical and horizontal eye
movements from the outer canthi and the left supraorbital ridge.
Electrode impedances were kept under 5 KV. The sampling
acquisition rate was 500 Hz. EEG was amplified using a SynAmps
system. Cz was the reference lead during acquisition; an average
reference was calculated off-line. EEG was epoched in 1-s sweeps
with a 100 ms pre-stimulus baseline. Trials contaminated with eye
movements and other artifacts (T100 AV) were rejected.
Accepted trials were averaged according to categories and format
and digitally filtered (0.1 – 30 Hz). The N170 ERP component was
measured at four posterior sites on each hemisphere (TP9/TP10,
P7/P8, PO9/PO10, O1/O2) within a T30-ms window around the
maximum of the grand-average means. For each subject, the
latency of each component was taken at the electrode where the
amplitude was maximal over each hemisphere, and the amplitude
was measured at the other electrodes over that hemisphere at that
latency (Picton et al., 2000). As most studies measured the N170
only at P7/P8 (or T5/T6) sites and this measurement difference
could be the cause of discrepant results, we also analyzed the data
from only these two electrodes.
Data analyses
Repeated measures analyses of variance (ANOVA) were
conducted using Greenhouse – Geisser adjusted degrees of freedom; post-hoc t tests used Bonferroni corrections for multiple
comparisons. Within-subject factors included contrast (2), orientation (2) and category (6) for hits and RTs. Additional factors
(hemisphere (2) and electrode (4)) were used for peak latencies and
amplitudes. Analyses were also performed for each format
(Table 1) and each category separately, using all four electrodes
pairs and P7/8 only (Table 2).
Stimuli and experimental design
Results
Fifty grayscale pictures of six object categories including
human faces (Fig. 2) were used. Ape faces, chairs, cars and eyes
stimuli are taken from Carmel and Bentin (2002), but ape faces
were restricted to great apes for which clear human-like facial
features were visible. The Victorian houses were from a Corel
Draw CD-ROM. All pictures (5 5- visual angle) were centered
on a black screen and presented in upright, inverted, negative
(contrast-reversed) and inverted – negative formats (total = 50 6 4 = 1200 trials). Inverted stimuli were obtained by rotating
upright pictures by 180- and photo-negatives by inverting contrasts
(Photoshop 5.0). Ten blocks of 120 stimuli (5 per category per
format) were presented for 250 ms with a randomized ISI (1000 –
Behavioral performances
Performances on this orientation discrimination task were very
good (¨95% on average across categories and formats). As seen in
Fig. 1, inversion decreased accuracy and increased reaction times
only for human faces [orientation category, F(2.8,50.9) = 4.71,
P < 0.006 and F(3,54.7) = 4.85, P < 0.004 respectively]. Contrast
reversal, however, decreased accuracy for houses, chairs and eyes
[ F(4.1,73.2) = 4.67, P < 0.002] and increased RTs for all
categories except human faces and chairs [ F(3,53.6) = 16.8, P <
0.0001]. Thus, the human face category was the only one affected
by inversion and was not affected by contrast reversal. Human
R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676
669
Table 1
Effects of category on the N170 component
Categories are in ascending order of latency and amplitude. Significant pair-wise comparisons are reported at the various possible P values (¨means the
difference between two adjacent categories is not significantly different).
* 0.01 < P < 0.05.
** 0.005 < P < 0.01.
*** 0.001 < P < 0.005.
**** 0.0001 < P < 0.001.
***** P < 0.0001.
faces elicited overall faster reaction times than the other categories
[ F(2.6,46.6) = 46.13, P < 0.0001], especially in upright positive
[ F(2.8,51) = 8.62, P < 0.0001] and negative [ F(2.7,48.8) = 52.15,
P < 0.0001] formats. This suggests a faster processing of human
faces compared to other objects when presented in the usual
canonical orientation.
Table 2
Summary of the effects of inversion and contrast reversal on the N170 component for each category analyzed separately
Effect of orientation
(inversion)
Latency
(at P7/8 only)
Amplitude
(at P7/8 only)
Effect of contrast
reversal (photo-negative)
Latency
(at P7/8 only)
Amplitude
(at P7/8 only)
Cars
Houses
Human faces
Ape faces
Chairs
Eyes
F = 16.1****
inv > up
( F = 24.4*****)
F = 21.12*****
inv > up
( F = 33.4*****)
F = 102.89*****
inv > up
( F = 102.8*****)
F = 19.55*****
inv > up
( F = 7.1*)
F = 13.22***
inv > up
( F = 7.8*)
F = 43.43*****
inv > up
( F = 29.4*****)
_1
F = 7.06*
inv > up
( F = 15.23***)
F = 8.08*
inv < up
(–)
_
( F = 10.32**)
(–)
***
F = 10.89
neg > pos
( F = 8.6**)
_
(–)
F = 6.28*
neg > pos
(–)
***
F = 11.29
neg < pos
( F = 13.76*)
*****
F = 138.86
neg > pos
( F = 143.6*****)
****
F = 16.21
neg > pos
( F = 6.94*)
_
(–)
*****
F = 50.34
neg > pos
( F = 19.2*****)
*****
F = 43.02
neg < pos
( F = 83.84*****)
_
(–)
F = 55.83****
neg > pos
( F = 47.45*****)
F = 6.93*
inv < up
( F = 7.56*)
F = 22.8*****
neg > pos
( F = 26.5*****)
_
(–)
inv = inverted; up = upright; neg = negative; pos = positive. 1Larger N1 amplitude for inverted than upright houses at parietal sites only (orientation electrode, F(2.1, 38.4) = 8.26, P < 0.001) in agreement with the orientation effect at P7/8 sites.
* 0.01 < P < 0.05.
** 0.005 < P < 0.01.
*** 0.001 < P < 0.005.
**** 0.0001 < P < 0.001.
***** P < 0.0001.
670
R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676
Fig. 1. Percentage hits and mean reaction times displayed for all categories in each format.
Neurophysiological measures—the N170 component
Effects of category
Compared to all categories, human faces elicited the shortest
N170s (Figs. 2, 3A) in positive contrasts (upright and inverted) and
in upright negative formats (Table 1). Ape faces, in contrast,
elicited the longest N170 latencies, especially in negative formats.
Along with the faster reaction time measures, this earlier N170
shows that human faces are processed faster than objects.
Across formats, the largest N170 amplitudes were seen for
human faces and eyes (Figs. 2 and 3B). For upright stimuli
(positive contrast), the largest amplitudes were found for eyes
(Table 1, Fig. 3B) followed by human and ape faces that did not
differ but were significantly larger than the other categories.
Upright houses, cars and chairs all elicited smaller N170s. In
inverted – positive and upright negative formats, N170 amplitudes
to human faces and eyes no longer differed (Fig. 4) and were
larger than all other categories followed by ape faces, also larger
than all the rest. The same pattern was also found in the inverted –
negative format, except that N170 was slightly larger to human
faces than to eyes. Thus, we reproduced a larger and delayed
N170 for eye stimuli compared to whole faces seen upright
(Bentin et al., 1996; Jemel et al., 1999; Taylor et al., 2001c).
However, the N170 amplitude for inverted and negative human
faces was no longer different from that to eyes (Fig. 4). Although
N170 latency was still faster for faces than for eyes in these
inverted and negative formats, this result suggests that what drives
the face N170 increase in amplitude with inversion and contrast
reversal is the eye region. This conclusion was confirmed by the
absence of a category effect when we ran a separate ANOVA on
the N170 amplitude including only human faces and eyes
[ F(1,18) = 0.25, P = 0.625], the differences being found in
category by orientation and category by contrast interactions only.
The category effect was not significant in a post-hoc ANOVA
including only inverted faces and eyes [ F(1,18) = 3.77, P < 0.07]
and was borderline significant for negative faces and eyes tested
separately [ F(1,18) = 4.59, P = 0.046]. When we only included
electrodes P7/8 in the analyses, where N170 is maximal, the
category effect was again not significant for either inverted face
and eye ( P = 0.239) or negative face and eye ( P = 0.773)
analyses.
Effects of inversion and contrast reversal
Inversion increased N170 latencies [ F(1,18) = 104.2, P <
0.0001] for all categories (Table 2, Fig. 3A), with the largest impact
on human faces [ F(3.5, 62.6) = 6.23, P < 0.001]. As this result is in
contrast to previous studies, analyses were redone using only P7/P8
sites. Again, an inversion effect was found for each category (Table
2), albeit of smaller size for ape faces and chairs. At these lateral
parietal electrodes, the difference between positive upright and
positive inverted items was ¨10 ms for human faces and houses, ¨8
ms for cars and ¨5 ms for the other categories. For amplitudes,
inversion had an effect only for human faces, ape faces and eyes
[ F(3.5,62.5) = 5.27, P < 0.002]. When only P7/8 sites were used, a
small inversion effect was found for houses. Eyes also presented an
inversion effect that was due to contrast-reversed categories: when
only positive upright eyes were compared to positive inverted eyes,
no inversion effect was found ( P = 0.61) (Fig. 5). While N170 was
increased for inverted human faces, it was slightly decreased for
inverted eyes and ape faces (Fig. 3B). For eyes, this amplitude
decrease occurred only at occipital sites for positive contrast pictures
[contrast inversion electrode interaction, F(1.8,33.2) = 14.4,
P < 0.0001]. For apes, the inversion effect was seen at parietooccipital and temporo-parietal sites only [ F(1.8,31.8) = 3.88, P < 0.05].
Contrast reversal also increased latencies for all categories
[ F(1,18) = 96.6, P < 0.0001] except chairs, with a larger impact
on human and ape faces [ F(3.2,57.4) = 9.57, P < 0.0001]. When
only P7/8 electrodes were used, the effect disappeared for houses
but remained for all the other categories (Table 2). Contrast
reversal increased amplitudes for human faces and chairs, while it
decreased N170 for houses and ape faces [ F(2.9,51.5) = 32.54,
P < 0.0001]. The same effects were found at P7/8 sites. The fact
that inversion and contrast reversal had different effects on human
and ape faces demonstrates that the N170 is sensitive to the
species of the face.
Except for faces, N170 latencies were shorter for upright
positive pictures but not significantly different among the other
three formats [ F(1,18) = 68.4, P < 0.0001] (Fig. 3A). For ape
faces, however, N170s were significantly longer to negative ( P <
0.007) and inverted – negative ( P < 0.001) than to inverted –
positive pictures, reflecting a greater disruption of contrast reversal
than inversion for apes. For human faces, N170 latencies to
inverted and to negative images did not differ significantly, but
R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676
Fig. 2. For each of the upright, inverted, negative and inverted – negative formats, the N1/N170 is displayed at P8 and PO10 electrodes for all categories. Topographies of each category were taken at the latency of
maximum N170 amplitude. Human faces, ape faces and eyes showed the same topographies that were not seen for the objects. The N170s to human faces and eyes are different in upright format but become very
similar in the other formats. Note the large reduction in amplitude for negative ape faces.
671
672
R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676
Fig. 3. The N170 component (A) latency and (B) amplitude, displayed for all categories and formats, measured across TP9/10, P7/8, PO9/10 and O1/2
electrodes. The amplitude represents the mean across all electrodes measured. Human faces elicited the fastest N170 in upright and inverted formats. The
additive effect of inversion and contrast reversal on latency is seen only for human faces. The N170 amplitude to transformed human faces is very similar to
that for isolated eyes, while no such effect is seen for ape faces. Note the differential impact of inversion and contrast reversal on N170 amplitude for human
and ape faces, suggesting species sensitivity early in the visual processing stream.
both were shorter than to inverted – negative faces ( P < 0.0001).
This reflected an additive effect of orientation and contrast that was
unique to the human face category.
Discussion
In this paper, we addressed the issue of early face specificity by
comparing the effects of inversion and contrast reversal on the
early-face-sensitive ERP component N170 recorded to human and
ape faces, isolated eyes and various object categories. Firstly, we
found that human faces were processed faster than all the other
visual categories, including other face types like ape faces (Carmel
and Bentin, 2002). This was evident in the systematically earlier
N170 latency in all pair-wise comparisons and shorter reaction
times. This faster processing for human faces was even found in
the inverted format for N170 measures, despite inversion causing
the greatest N170 delay for faces. Although reported previously
(Carmel and Bentin, 2002; Itier and Taylor, 2004d), this faster
processing has been controversial (Rossion and Gauthier, 2002;
Rossion et al., 2000). We believe it is an important characteristic of
human face processing.
Secondly, we found that the N170, reflecting structural
encoding of faces, was delayed by inversion for all categories
tested, and not only for human faces. This result contrasts with
previous studies finding no inversion effects for the objects tested
(e.g. cars, mugs, shoes, houses or chairs; Bentin et al., 1996; Eimer,
2000a; Rebai et al., 2001; Rossion et al., 2000; Stekelenburg and
de Gelder, 2004). Only two recent studies reported a delay of N170
with inversion of cars (Rossion et al., 2003b) and animal faces
Fig. 4. The N170 at P8 electrode for face and eye stimuli seen in all formats. While N170 to upright human faces is faster and smaller than to upright eyes, the
signal is no longer significantly different between the two categories when faces are inverted or in photo-negative, suggesting that what drives the increase in
the face N170 to inversion and contrast reversal is the eye region as a pair of eyes is still processed as a pair of eyes regardless of inversion or contrast.
R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676
673
Fig. 5. For each category, the N170 is displayed at electrode P8 in the four formats. Note the unique pattern of increased latency and amplitude of N170 for
human faces with inversion, contrast reversal and their conjunction. The fact that the same manipulations produced different results on N170 to faces and
objects demonstrates, along with the topographies seen in Fig. 2, the involvement of different neuronal generators for these categories. This is true for ape faces
as well, as shown by a very different effect of contrast reversal on N170 for that category compared to human face.
(Rousselet et al., 2004), but they tested only one category at a time.
Here, inversion delayed N170 for all six categories, including ape
faces and isolated eyes. Although the magnitude of this effect was
largest for human faces, this result demonstrates that the latency
delay by inversion is not specific to the human face category as
previously thought (Rossion and Gauthier, 2002; Rossion et al.,
2000) but rather reflects a disruption of the processing for noncanonical views of objects. This orientation effect cannot be due to
task-related attention as Rossion et al. (2000) did not find any such
delays for five categories using exactly the same task. The
discrepancy cannot either be due to the measurement difference
between studies (restricted to T5/6 or P7/8 sites in most cases while
analyzed across eight occipito-temporal sites here) as a clear
inversion effect was found for all categories when only P7 and P8
electrodes were used in the analyses. The absence of inversion
effects for object categories in previous studies remains unclear,
but the finding is an important argument against the view that the
inversion effect on N170 latency is the only one that systematically
differentiates between faces and other objects (Rossion and
Gauthier, 2002; Rossion et al., 2000). Similarly, a delay in the
N170 response with contrast reversal was observed for most
categories and not just human faces. These manipulations thus
seem to delay early processing of any visual category, which
suggests the visual system is trained by experience to respond
optimally to positive contrast and to canonical upright orientation.
However, the inversion effect was far larger for human faces than
any other category, and inversion and contrast reversal had additive
effects only for human faces, shown by a larger delay of N170 for
inverted – negative faces compared to inverted or negative faces
alone (Fig. 3A). This parallels the additive effects found
behaviorally in some studies (Bruce and Langton, 1994; Kemp et
al., 1990; Lewis and Johnston, 1997) and suggests that these
manipulations affect different processes operating in normal face
perception. Exactly what is disrupted by inversion and contrast
reversal is still debated. Inversion disrupts the general prototypical
spatial layout of the face (i.e. eyes above nose above mouth) that is
preserved in photo-negatives. Both manipulations seem to change
the specific featural relationships that are specific to an individual
face. Contrast reversal does so in a more subtle way compared to
inversion as the spatial relationships among features are preserved
but appear different because of the light and shading variations and
the pigmentation/texture cues that are dramatically changed (Kemp
et al., 1990, 1996; Lewis and Johnston, 1997). The fact that the
N170 latency is even more delayed when the face is both upsidedown and in photo-negative suggests that both the prototypical
layout of the face and the pigmentation/texture cues are processed
at the structural encoding stage for human faces.
Inversion and contrast reversal both increased N170 amplitude
for human faces as shown previously (Bentin et al., 1996; de Haan
et al., 2002; Eimer, 2000a; Itier and Taylor, 2002, 2004a,b,c,d;
Rossion et al., 1999, 2000; Sagiv and Bentin, 2001; Taylor et al.,
2001c), a pattern that was not found for the other categories. Chairs
presented an increase of amplitude with contrast reversal but no
effect of inversion. No effect of inversion was seen for the other
objects, except for houses when only P7/8 sites were used,
confirming a previous report (Eimer, 2000a). Ape faces and eyes
presented a very small inversion effect but in the opposite
direction, i.e. a reduced N170, that was larger over occipital and
parieto-occipital sites, while the face inversion effect was maximal
at lateral parietal electrodes. Eyes presented an inversion effect at
P7/8 sites, but this was due to negative contrast pictures as the
effect disappeared when only positive upright and inverted eyes
674
R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676
were compared. Fig. 4 clearly shows no inversion effects at parietal
sites for apes, in agreement with a previous report (de Haan et al.,
2002), nor for eyes. Ape faces also presented a clear reduction of
amplitude with contrast reversal, i.e. the opposite of human faces.
Thus, ape faces presented very different effects of inversion and
contrast reversal compared to human faces, suggesting the N170
does not merely reflect processes associated with any type of face
but processes particular to the human face.
Although systematically found in ERP studies, the increase in
N170 amplitude with inversion and contrast reversal for human
faces is at odds with other findings in the literature. Single cell
recordings in monkeys have shown that, compared to upright faces,
the response of face-selective cells to inverted faces is delayed
(Perrett et al., 1988) and slightly decreased (Hasselmo et al., 1989;
Perrett et al., 1988), like that to contrast-reversed faces (Ito et al.,
1994; Perrett et al., 1984). Similarly, intracranial studies in humans
have shown that the face-specific N200 component recorded
directly from the cortical surface is delayed by inversion and of
smaller amplitude for inverted than upright faces, especially in the
right hemisphere (McCarthy et al., 1999). fMRI studies in humans
have found an area of the fusiform gyrus implicated in face
perception that responds more to faces than to objects (Kanwisher
et al., 1997; McCarthy et al., 1997; Puce et al., 1995). That area has
been reported to respond similarly for upright and inverted faces
(Aguirre et al., 1999; Haxby et al., 1999), or less for inverted faces
(Kanwisher et al., 1998; Yovel and Kanwisher, 2004), as seen with
contrast-reversed faces (George et al., 1999). From this literature,
we would expect a decrease of the human face N170 amplitude
with inversion and contrast reversal rather than an increase. How
can this increase be accounted for? One fMRI study reported an
increase in activation for inverted faces in cortical areas adjacent to
the fusiform gyrus and known to be activated by objects (Haxby et
al., 1999). This was the basis for the hypothesis that objectselective neurons would be recruited in addition to face-selective
neurons to produce the larger N170 amplitude for inverted human
faces (Rossion et al., 2000). The recruitment of object-selective
neurons would be due to the disruption of the face configuration by
inversion and contrast reversal. In contrast, our data suggest that
the larger N170 seen for human faces is due to a recruitment of
neurons responding to the eye region of the face. Indeed, the N170
recorded for isolated eyes did not vary with the manipulations,
suggesting that photo-negative or inverted eyes are processed like
normal upright eyes. The N170 to human faces, however, which
was very different from that to eyes in the upright positive format,
increased in amplitude with inversion and contrast reversal and was
no longer significantly different from N170 to eyes (Figs. 3 and 4).
Given the distribution of the N170 recorded to objects, the
contribution of neurons from object-selective areas should change
the shape and distribution of the N170 which is not the case here.
In contrast, inverted faces seem to activate the same areas as
upright faces, as suggested by source modeling of the N170 (Itier
and Taylor, 2004e; Watanabe et al., 2003), with no evidence of
additional object cortical recruitment.
Our hypothesis that the eye region drives this increase in N170
with inversion and contrast reversal fits well with the monkey
literature and human intracranial recordings. In the monkey cortex,
some cells are selective to eyes and some to whole faces, with the
response of eye-selective neurons being modulated by the face
context (Perrett et al., 1988). In humans, the intracranial N200 was
larger to faces than to isolated eyes at ventral sites (fusiform gyrus)
but larger to eyes than to faces at lateral sites (middle temporal
gyrus; McCarthy et al., 1999), suggesting eye-selective N200s over
lateral temporal cortices. Neuromagnetic recordings have also
shown separable localization for faces and eyes in the fusiform
regions (Taylor et al., 2001b). Thus, several sources such as the
fusiform and the inferior occipital gyri likely interact to generate
the N170; their different contributions depending on the task could
explain the various N170 modulations with experimental conditions. The N200 findings concord with recent source localizations of N170 to the superior temporal sulcus region (superior
temporal and middle temporal gyri; Itier and Taylor, 2004e;
Watanabe et al., 2003). This is further corroborated by neuropsychological cases of prosopagnosic patients showing clear
N170s despite fusiform gyrus damage (Rossion et al., 2003a). It
thus seems that, in the human lateral temporal cortex, faceselective and eye-selective neurons coexist, and their activity is a
major contribution in generating the scalp N170. In the normal
upright face, features are perceived in relation to each other to
create a global face percept to which face-selective neurons
respond. Eye-selective neurons would not be responding to the
eyes of the upright face, possibly by an inhibition mechanism from
face cells such as the one proposed by Allison et al. (2002). This
hypothesis is supported by the finding that the N170 is of
equivalent size for intact upright faces and upright faces without
eyes (Eimer, 1998). Although in inverted and contrast-reversed
faces, configuration is altered, albeit differently, the eyes are still
clearly seen. At the neuronal level, disrupting the facial configuration would impair the inhibition mechanism from face cells,
allowing eye-selective neurons to respond to the eye region, hence
enhancing the N170 amplitude and latency. It is thus possible that
the N170 for inverted and negative faces reflects eye-selective
neurons rather than face-selective neurons or both cell types. The
shorter latency of N170 to inverted and negative faces than to eyes
could still be explained by the earlier firing of face-selective
neurons, despite the latency delay of face neurons induced by
inversion. Alternatively, it is possible that the presence of eyes
within the face context actually speeds up face processing,
shortening N170 latency even when the face is upside-down or
in photo-negative. This could explain why, for intact upright faces,
N170 is shorter than for faces without eyes, although the amplitude
does not vary (Eimer, 1998). This hypothesis of the eye region
driving the N170 increase in amplitude for inverted and negative
human face photographs is also in agreement with the absence of
such inversion effects for Mooney (Latinus and Taylor, 2005) and
schematic (Henderson et al., 2003; Sagiv and Bentin, 2001) faces.
In these faces, no clear eye features can be seen and the N170
actually decreases (Henderson et al., 2003; Latinus and Taylor,
2005; Sagiv and Bentin, 2001) due to the decrease in response
magnitude of face-sensitive neurons with inversion (Hasselmo et
al., 1989; McCarthy et al., 1999; Perrett et al., 1988). The fact that
eyes can be seen in ape faces yet inverted (and negative) ape faces
did not yield increased N170 amplitudes suggests that the
selectivity of neurons to eyes is specific to the human species.
This species selectivity agrees with an adaptive role of eye
morphology for gaze processing through evolution, given that
humans are the only primate species with white sclera and have the
largest index of exposed sclera size (Kobayashi and Kohshima,
1997). This allows the use of eye direction as a cue of active
communication, a fundamental aspect of human social cognition.
In conclusion, our data show that the specificity of the human
face is reflected in its unique pattern of N170 latency and
amplitude changes to both inversion and contrast reversal that
R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676
was not seen with the other categories. The amplitude increase of
the N170 seen only for inverted and contrast-reversed human faces
likely reflects the activation of neurons responding to the eye
region of the face. The face inversion and contrast reversal effects
on the face N170 thus seem mainly driven by the eye region.
Acknowledgments
We thank Dr. Shlomo Bentin for stimulus sets. This work was
supported by a grant from the French Fondation pour la Recherche
Médicale to R.J.I. now funded by a CIHR postdoctoral fellowship.
References
Aguirre, G.K., Singh, R., D’Esposito, M., 1999. Stimulus inversion and the
responses of face and object-sensitive cortical areas. NeuroReport 10,
189 – 194.
Allison, T., Puce, A., McCarthy, G., 2002. Category-sensitive excitatory
and inhibitory processes in human extrastriate cortex. J. Neurophysiol.
88, 2864 – 2868.
Bartlett, J.C., Searcy, J., 1993. Inversion and configuration of faces. Cogn.
Psychol. 25, 281 – 316.
Bentin, S., Allison, T., Puce, A., Perez, E., McCarthy, G., 1996. Electrophysiological studies of face perception in humans. J. Cogn. Neurosci.
8, 551 – 565.
Bruce, V., Langton, S., 1994. The use of pigmentation and shading
information in recognising the sex and identities of faces. Perception
23, 803 – 822.
Carmel, D., Bentin, S., 2002. Domain specificity versus expertise: factors
influencing distinct processing of faces. Cognition 83, 1 – 29.
de Haan, M., Pascalis, O., Johnson, M.H., 2002. Specialization of neural
mechanisms underlying face recognition in human infants. J. Cogn.
Neurosci. 14, 1 – 11.
Eimer, M., 1998. Does the face-specific N170 component reflect the
activity of a specialized eye processor? NeuroReport 9, 2945 – 2948.
Eimer, M., 2000a. Effects of face inversion on the structural encoding and
recognition of faces. Evidence from event-related brain potentials.
Cogn. Brain Res. 10, 145 – 158.
Eimer, M., 2000b. The face-specific N170 component reflects late stages in
the structural encoding of faces. NeuroReport 11, 2319 – 2324.
Galper, R.E., 1970. Recognition of faces in photographic negative.
Psychon. Sci. 19, 207 – 208.
George, N., Dolan, R.J., Fink, G.R., Baylis, G., Russell, C., Driver, J.,
1999. Contrast polarity and face recognition in the human fusiform
gyrus. Nat. Neurosci. 2, 574 – 580.
Hasselmo, M.E., Rolls, E.T., Baylis, G.C., 1989. The role of expression and
identity in the face-selective responses of neurons in the temporal visual
cortex of the monkey. Behav. Brain Res. 32, 203 – 218.
Haxby, J.V., Ungerleider, L.G., Clark, V.P., Schouten, J.L., Hoffman, E.A.,
Martin, A., 1999. The effect of face inversion on activity in human
neural systems for face and object perception. Neuron 22, 189 – 199.
Henderson, R.M., McCulloch, D.L., Herbert, A.M., 2003. Event-related
potentials (ERPs) to schematic faces in adults and children. Int. J.
Psychophysiol. 51, 59 – 67.
Itier, R.J., Taylor, M.J., 2002. Inversion and contrast polarity reversal affect
both encoding and recognition processes of unfamiliar faces: a
repetition study using ERPs. NeuroImage 15, 353 – 372.
Itier, R.J., Taylor, M.J., 2004a. Effects of repetition and configural changes
on the development of face recognition processes. Dev. Sci. 7, 469 – 487.
Itier, R.J., Taylor, M.J., 2004b. Effects of repetition learning on upright,
inverted and contrast-reversed face processing using ERPs. NeuroImage
21, 1518 – 1532.
Itier, R.J., Taylor, M.J., 2004c. Face recognition memory and configural
675
processing: a developmental ERP study using upright, inverted, and
contrast-reversed faces. J. Cogn. Neurosci. 16, 487 – 502.
Itier, R.J., Taylor, M.J., 2004d. N170 or N1? Spatiotemporal differences
between object and face processing using ERPs. Cereb. Cortex 14,
132 – 142.
Itier, R.J., Taylor, M.J., 2004e. Source analysis of the N170 to faces and
objects. NeuroReport 15, 1261 – 1265.
Ito, M., Fujita, I., Tamura, H., Tanaka, K., 1994. Processing of contrast
polarity of visual images in inferotemporal cortex of the macaque
monkey. Cereb. Cortex 4, 499 – 508.
Jemel, B., George, N., Chaby, L., Fiori, N., Renault, B., 1999. Differential
processing of part-to-whole and part-to-part face priming: an ERP study.
NeuroReport 10, 1069 – 1075.
Kanwisher, N., McDermott, J., Chun, M.M., 1997. The fusiform face
area: a module in human extrastriate cortex specialized for face
perception. J. Neurosci. 17, 4302 – 4311.
Kanwisher, N., Tong, F., Nakayama, K., 1998. The effect of face inversion
on the human fusiform face area. Cognition 68, 1 – 11.
Kemp, R., McManus, C., Pigott, T., 1990. Sensitivity to the displacement
of facial features in negative and inverted images. Perception 19,
531 – 543.
Kemp, R., Pike, G., White, P., Musselman, A., 1996. Perception and
recognition of normal and negative faces: the role of shape from
shading and pigmentation cues. Perception 25, 37 – 52.
Kobayashi, H., Kohshima, S., 1997. Unique morphology of the human eye.
Nature 387, 767 – 768.
Latinus, M., Taylor, M.J., 2005. Holistic processing of faces: learning
effects with Mooney faces. J. Cogn. Neurosci. 17 (8), 1316 – 1327.
Lewis, M.B., Johnston, R.A., 1997. The Thatcher illusion as a test of
configural disruption. Perception 26, 225 – 227.
McCarthy, G., Puce, A., Gore, J.C., Allison, T., 1997. Face-specific
processing in the human fusiform gyrus. J. Cogn. Neurosci. 9, 605 – 610.
McCarthy, G., Puce, A., Belger, A., Allison, T., 1999. Electrophysiological studies of human face perception: II. Response properties of face-specific potentials generated in occipitotemporal cortex. Cereb. Cortex 9, 431 – 444.
Perrett, D.I., Smith, P.A.J., Potter, D.D., Mistlin, A.J., Head, A.S., Milner,
A.D., Jeeves, M.A., 1984. Neurones responsive to faces in the temporal
cortex: studies of functional organization, sensitivity to identity and
relation to perception. Hum. Neurobiol. 3, 197 – 208.
Perrett, D.I., Mistlin, A.J., Chitty, A.J., Smith, P.A.J., Potter, D.D.,
Broeniman, R., Harries, M., 1988. Specialized face processing and
hemispheric asymmetry in man and monkey: evidence from single unit
and reaction time studies. Behav. Brain Res. 29, 245 – 258.
Picton, T.W., Bentin, S., Berg, P., Donchin, E., Hillyard, S.A., Johnson Jr.,
R., Miller, G.A., Ritter, W., Ruchkin, D.S., Rugg, M.D., Taylor, M.J.,
2000. Guidelines for using human event-related potentials to study
cognition: recording standards and publication criteria. Psychophysiology 37, 127 – 152.
Puce, A., Allison, T., Gore, J.C., McCarthy, G., 1995. Face-sensitive regions
in human extrastriate cortex studied by functional MRI. J. Neurophysiol.
74, 1192 – 1199.
Rebai, M., Poiroux, S., Bernard, C., Lalonde, R., 2001. Event-related
potentials for category-specific information during passive viewing of
faces and objects. Int. J. Neurosci. 106, 209 – 226.
Rhodes, G., Brake, S., Atkinson, A.P., 1993. What’s lost in inverted faces?
Cognition 47, 25 – 57.
Rossion, B., Gauthier, I., 2002. How does the brain process upright and
inverted faces? Behav. Cogn. Neurosci. Rev. 1, 62 – 74.
Rossion, B., Delvenne, J.F., Debatisse, D., Goffaux, V., Bruyer, R.,
Crommelinck, M., Guerit, J.M., 1999. Spatio-temporal localization of
the face inversion effect: an event-related potentials study. Biol.
Psychol. 50, 173 – 189.
Rossion, B., Gauthier, I., Tarr, M.J., Despland, P., Bruyer, R., Linotte, S.,
Crommelinck, M., 2000. The N170 occipito-temporal component is
delayed and enhanced to inverted faces but not to inverted objects: an
electrophysiological account of face-specific processes in the human
brain. NeuroReport 11, 69 – 74.
676
R.J. Itier et al. / NeuroImage 29 (2006) 667 – 676
Rossion, B., Caldara, R., Seghier, M., Schuller, A.M., Lazeyras, F., Mayer,
E., 2003a. A network of occipito-temporal face-sensitive areas besides
the right middle fusiform gyrus is necessary for normal face processing.
Brain 126, 2381 – 2395.
Rossion, B., Joyce, C.A., Cottrell, G.W., Tarr, M.J., 2003b. Early
lateralization and orientation tuning for face, word, and object
processing in the visual cortex. NeuroImage 20, 1609 – 1624.
Rousselet, G.A., Mace, M.J., Fabre-Thorpe, M., 2004. Animal and human
faces in natural scenes: how specific to human faces is the N170 ERP
component? J. Vis. 4, 13 – 21.
Sagiv, N., Bentin, S., 2001. Structural encoding of human and
schematic faces: holistic and part-based processes. J. Cogn. Neurosci.
13, 937 – 951.
Stekelenburg, J.J., de Gelder, B., 2004. The neural correlates of perceiving
human bodies: an ERP study on the body-inversion effect. NeuroReport
15, 777 – 780.
Tanaka, J.W., Curran, T., 2001. A neural basis for expert object recognition.
Psychol. Sci. 12, 43 – 47.
Taylor, M.J., Edmonds, G.E., McCarthy, G., Allison, T., 2001a. Eyes first!
Eye processing develops before face processing in children. NeuroReport 12, 1671 – 1676.
Taylor, M.J., George, N., Ducorps, A., 2001b. Magnetoencephalographic
evidence of early processing of direction of gaze in humans. Neurosci.
Lett. 316, 173 – 177.
Taylor, M.J., Itier, R.J., Allison, T., Edmonds, G.E., 2001c. Direction of gaze
effects on early face processing: eyes-only versus full faces. Brain Res.
Cogn. Brain Res. 10, 333 – 340.
Vuilleumier, P., 2000. Faces call for attention: evidence from patients with
visual extinction. Neuropsychologia 38, 693 – 700.
Watanabe, S., Kakigi, R., Puce, A., 2003. The spatiotemporal dynamics of
the face inversion effect: a magneto- and electro-encephalographic
study. Neuroscience 116, 879 – 895.
Yin, R.K., 1969. Looking at upside-down faces. J. Exp. Psychol. Gen.
81, 141 – 145.
Yovel, G., Kanwisher, N., 2004. Face perception: domain specific, not
process specific. Neuron 44, 889 – 898.
3.2. Traitement holistique des visages : les Mooney Faces
Objectifs & Méthodes
Dans cette étude, l’utilisation de Mooney faces – stimuli en noir et blanc ne mettant en
évidence que les ombres du visage – m’a permis d’étudier le corrélat du traitement holistique
du visage. Parce que les traits du visage ne sont pas distincts dans un Mooney Faces, les
traitements configuraux de 1er et 2nd ordre, ainsi que les traitements analytiques, sont
difficilement mis en œuvre ; la perception d’un visage dépend donc forcément de la mise en
jeu du traitement holistique. La détection d’un visage dans les Mooney Faces est difficile, et
elle est fortement compromise par l’inversion. Deux groupes de 13 sujets ont participé à
l’expérience, un des groupes (groupe expérimental) a effectué un apprentissage consistant à la
présentation de 20 Mooney Faces nouveaux jusqu’à ce que le visage soit perçu dans ces
stimuli aussi bien à l’envers qu’à l’endroit, le deuxième groupe servait de contrôle. Des
stimuli non visages, issus d’une transformation des Mooney Faces, étaient inclus dans
l’expérience. La tâche était une tâche de détection des visages.
Résultats et Conclusions
Les Mooney Faces évoquent une N170, à environ 180 ms. Elle est plus petite pour les
non visages, et intermédiaire pour les visages à l’envers ; la perception du visage dans un
Mooney Faces à l’envers conduit à une N170 légèrement plus ample. Ces résultats révèlent
que 1) les Mooney Faces évoquent une N170, 2) l’amplitude de la N170 est modulée par la
perception du sujet, 3) la N170 n’infère pas un traitement des caractéristiques de bas niveau
puisque elle est plus ample pour les visages, alors que les informations bas niveau sont les
mêmes dans toutes les conditions.
La détection du visage est améliorée par l’apprentissage. Après la tâche intermédiaire,
pour les deux groupes, la N170 était plus ample, indépendamment des conditions, elle était
retardée pour les visages à l’envers. Ainsi, une présentation répétée de stimuli peut provoquer
à elle seule le retard de latence observé après inversion.
Le pattern d’amplitude de la P2 est inverse à celui observé sur la N170, les non
visages et les Mooney Faces à l’envers non perçus évoquent une P2 plus ample que celle
évoquée par les Mooney Faces perçus. L’apprentissage diminue l’amplitude de la P2. Ces
résultats suggèrent que la P2 puisse être impliquée dans un traitement approfondi de stimuli
ambigus.
89
90
Holistic Processing of Faces: Learning Effects with
Mooney Faces
Marianne Latinus and Margot J. Taylor*
Abstract
& The specialness of faces is seen in the face inversion effect,
which disrupts the configural, but not the analytic, processing
of faces. Mooney faces, which are processed holistically, allowed us to determine the contribution of holistic processing
to the face inversion effect. As inverted Mooney faces are
difficult to recognize as faces, we also included an intermediary training period for Mooney face recognition for half of
the subjects. Early face-sensitive ERPs (N170 and P1) and P2
were measured.
Behavioral data showed an increase in correct responses to
inverted and upright Mooney faces after the learning phase for
the experimental group. No effects were seen on P1. N170
latency did not vary with stimulus type before the interme-
INTRODUCTION
Studies in several domains of the neurosciences have
investigated the question of the specialness of face
recognition, examining face versus nonface stimuli. Differences between face and object processing have been
explained by various theoretical models. One model
argues that differences occur at the level of recognition; that face and object detection depend on the level
of expertise. A second model has suggested that differences between face and object processing could
be explained by the existence of separable systems,
each preferentially involved in processing one or the
other category. These differences between face and
nonface stimuli could also be due to the processing itself differing; the primary processing of faces may be
configural and holistic and for objects analytical, which
could also have the corollary of implicating separable
structures.
According to the expertise model, faces and objects
are processed by the same system but differences arise
at the level of recognition. This theory proposes that
face processing is different from object processing because faces are generally recognized at the subordinate
(e.g., macaque) or identity (e.g., Suzy) level, whereas
objects are recognized at the superordinate (e.g., aniUniversité Paul Sabatier, Toulouse, France
*Now at The Hospital for Sick Children, Toronto, Canada
D 2005 Massachusetts Institute of Technology
diary phase, however, N170 amplitude was consistently larger
for upright than inverted Mooney faces. After the intermediary
exercise, N170 was delayed for inverted compared to upright
Mooney faces. In contrast, for both groups of subjects P2
amplitude was larger for nonface stimuli, and P2 amplitude
decreased after the intermediate task only for the subjects
trained to recognize Mooney faces.
As the usual inversion effect seen with photographic faces
(delayed and larger N170) was not seen with Mooney faces,
these data suggest that this effect on N170 is due to the
recruitment of analytic processing. P2 reflected learning and
a deeper processing of the stimuli that were not identifiable
as faces. &
mal) or basic (e.g., monkey) level. This was proposed by
Diamond and Carey (1986) as they found an inversion
effect for dogs only with dog experts. Expertise theory
for faces is based on the importance of faces in our
environment, and face expertise would be characteristic
of humans. Gauthier, Skudlarski, Gore, and Anderson
(2000) and Gauthier, Tarr, Anderson, Skudlarski, and
Gore (1999) showed that objects recognized at the
subordinate level can lead to similar responses as seen
to faces. For example, in an fMRI study, bird experts
recognizing birds at the subordinate level showed a
similar activation in the fusiform gyrus as seen in face
recognition tasks (Gauthier, Skudlarski, et al., 2000).
Moreover, Gauthier, Tarr, et al. (1999) showed that only
after acquiring expertise with novel objects was the
fusiform gyrus activated.
Several lines of neuroscience research have suggested,
however, that visual stimulus processing is modular
depending on the category to which stimuli belong.
Single-cell studies have provided evidence for this model
by showing the existence of face specific cells in the
inferotemporal cortex (IT) and superior temporal sulcus (Logothetis & Scheinberg, 1996; Perrett, Hietanen,
Oram, & Benson, 1992). Intracranial event-related potential (ERP) studies in humans have shown activity
specific to faces (the N200) in IT (Allison, Puce, Spencer,
& McCarthy, 1999; Allison, McCarthy, Nobre, Puce, &
Belger, 1994) with discrete localizations of N200 to
Journal of Cognitive Neuroscience 17:8, pp. 1316–1327
faces adjacent to areas that appeared sensitive only
to other categories (e.g., numbers or letter strings).
Scalp ERPs also have demonstrated a face-sensitive activity over temporo-occipital sites, the N170 component
(Bentin, Allison, Puce, Perez, & McCarthy, 1996; Bötzel,
Schulze, & Stodieck, 1995). N170 is consistently larger to
faces than to a range of nonface stimuli (Itier & Taylor,
2004; Itier, Latinus, & Taylor, 2003; Bentin, Alison, et al.,
1996) and discriminates among face stimuli (Sagiv &
Bentin, 2001; Taylor, Edmonds, McCarthy, & Allison,
2001; Bentin, Alison, et al., 1996; George, Evans, Fiori,
Davidoff, & Renault, 1996). Functional imaging has also
allowed visualization of brain regions that are involved
specifically in face detection (e.g., Haxby, Ungerleider,
Horwitz, et al., 1996; Sergent, Ohta, & MacDonald,
1992). Puce, Allison, Asgari, Gore, and McCarthy (1996)
were the first to show with fMRI that faces preferentially
activated regions of the fusiform gyrus, whereas adjacent
areas in the inferior and occipito-temporal cortices were
activated by nonface stimuli. Subsequent to this initial
study, fMRI has been used extensively to examine differences in the localization of activation to face and nonface stimuli (Haxby, Ungerleider, Clark, et al., 1999;
Kanwisher, Stanley, & Harris, 1999).
Finally, in the neuropsychological literature, there are
a number of case studies with impairment in object
(agnosia) (Moscovitch, Winocur, & Behrmann, 1997)
or face (prosopagnosia) recognition (Michel, Poncet, &
Signoret, 1989), which provide strong evidence of different neural networks involved in face and object
processing. In particular, Moscovitch et al. (1997) studied a patient (CK) with visual agnosia associated with
normal face recognition. They showed that CK had
difficulties only in recognizing faces with configural
disruptions, such as inverted faces. They suggested that
two recognition systems were involved in visual stimulus
detection. One system was involved in holistic processing, used by face detection. The other was involved in
analytic processing (part-based processing), used in the
recognition of objects and inverted faces.
Behavioral data have shown significant differences in
processing upright and inverted faces; face recognition
is poorer and reaction times are increased when faces
are inverted, called the face inversion effect (Farah,
Tanaka, & Drain, 1995; Rhodes, Brake, & Atkinson,
1993). Because inversion effects are much larger for faces
than for objects (Yin, 1969), processing differences between upright and inverted faces have been investigated in efforts to understand the specialness of faces.
Face inversion effects are seen in neuroimaging studies, as the fusiform gyrus is less activated by inverted
than upright faces (Kanwisher, Tong, & Nakayama,
1998) and face inversion increases the activation in
object-selective regions (Haxby, Ungerleider, Horwitz,
et al., 1999). Scalp ERP studies also provide neurophysiological evidence of the face inversion effect: N170 is
larger and later for inverted faces (Bentin, Alison, et al.,
1996; Rossion, Gauthier, et al., 2000; Taylor et al., 2001).
Evidence of the inversion effect on N170 suggests that
N170 reflects combined sources, which result in differential activation with inversion of two systems implicated in face processing, holistic plus analytic (Sagiv &
Bentin, 2001) consistent with the neuropsychological
literature (Moscovitch et al., 1997).
Although many neurophysiological face processing
studies have focused on N170, other ERP components
(P1 and P2) have been analyzed in some studies to have
a finer definition of the early processing of the visual
stimuli. Rossion, Delvenne, et al. (1999) argued that P1
reflects low-level feature processing, as they did not observe any inversion effect on P1. However, LinkenkaerHansen et al. (1998) found differences between upright
and inverted faces on P1 with stimuli that shared the
same low-level features. Moreover, they showed no face
inversion effect on P1 if the faces were degraded. Hence,
they suggested that mechanisms underlying P1 were not
sensitive enough to detect degraded faces. Face inversion effects on P1 have also been demonstrated from
young children to adults (Taylor et al., 2001) and in
adults with differing configural changes (Itier & Taylor,
2002; Halit, de Haan, & Johnson, 2000).
Several researchers have suggested that the predominant processing of upright faces is holistic (Moscovitch
et al., 1997; Tanaka & Farah, 1993) with analytic or
feature-based processing being involved with unusual
face stimuli or objects. Configural processing (the relations among facial features within a face), however, is
generally viewed as central to face processing. Maurer,
Le Grand, and Mondloch (2002) suggested an initial
configural processing stage that encodes the eyes above
the nose, which is above the mouth; a second, holistic
stage sees the face as a gestalt or whole; and a third,
configural stage is the more classic configural processing
of second-order relations (Rhodes, Brake, Taylor, & Tan,
1989; Diamond & Carey, 1986). The separation between
the first two of these proposed stages is fine, as it is
the perception of the facial features in the appropriate
arrangement that gives the gestalt of a face. Faces are
perceived more rapidly than objects (Purcell & Stewart,
1988), which relies on this early configural/holistic processing, whereas the second-order configural processing, which allows recognition of a specific face,
occurs subsequently. Configural processing is particularly disrupted with inversion, whereas featural and
holistic processing are not or less disrupted (e.g., Freire
et al., 2000; Leder & Bruce, 2000). This difficulty of processing inverted faces is indexed behaviorally by poorer
recognition and neurophysiologically by later and larger
N170s. Consistent with this are the results of Sagiv and
Bentin (2001) who found that inversion of schematic
faces (smiley faces) that contain no identity information
did not produce the usual N170 amplitude increase.
Mooney faces are black-and-white photographs of
faces taken in a dark-contrasted environment leading
Latinus and Taylor
1317
to incomplete representations of faces. They were first
used to study closure ability and its development
(Mooney, 1957), and have been used to assess holistic
processing of faces (Moscovitch et al., 1997). Using
Mooney faces where the first level of processing is
holistic (as there are no separable features to be identified, as eyes over nose, above mouth) would allow us
to better determine the contribution of holistic processing to facial recognition. Because of their incompleteness, analytical processing is not effective with Mooney
faces; they require holistic processing to be categorized whether presented upright or inverted. Once
recognized as faces, however, they could then be processed analytically, as the subject confirms the presence of a face. Kanwisher, Tong, et al. (1998) showed
that accuracy for the detection of Mooney faces was
inferior to the accuracy for the detection of regular
faces, and that detection was particularly disrupted for
inverted Mooney faces. They also found that inverted
Mooney faces did not activate the same area on the
fusiform gyrus as photographic faces, although it
was activated by upright Mooney faces. Rotations of
Mooney faces away from the vertical produced reduction both in perception of the faces and the amplitude of
the face-sensitive vertex-positive peak measured frontocentrally (Jeffreys, 1993, 1996). The inversion effect
of Mooney faces has not been studied with posteriotemporal ERPs, which would help separate holistic and
analytic contributions to the early ERPs (P1, N170, P2),
and provide temporal measures of these processes.
This was one of the purposes of the present study; we
wished to determine whether there were differences in
the processing of upright and inverted Mooney faces;
that is, if the Mooney face inversion effect is similar to
the one found for photographic faces—delayed latencies and increased amplitudes of early face-sensitive
components.
Moreover, as Mooney faces are much more difficult to
see as faces when presented upside-down, we also
trained our subjects in Mooney face recognition to see
if training would have an impact on accuracy, and to see
if increasing accuracy was correlated with neurophysiological changes. In order to separate repetition and
learning effects, we performed a random division of
subjects into two groups (experimental group and control group). The experimental group underwent an
interactive training period on Mooney face recognition
and the control group completed an unrelated visual
categorization task. As repetition or learning could lead
to the development of an expertise or improved face
detection for these stimuli, we compared the ERPs
before and after the learning/control task between upright and inverted Mooney faces to reveal neurophysiological correlates of learning.
Thus, the aims of the present study were to determine
the contribution of holistic processing to face recognition and how this is reflected in face-sensitive ERPs.
1318
Journal of Cognitive Neuroscience
Moreover, including a learning phase would provide
information on the neurophysiological correlates of
perceptual learning on early ERPs sensitive to faces.
RESULTS
Behavioral Data
Subjects performed a face/nonface detection task using
Mooney faces presented upright and inverted, or scrambled Mooney faces (i.e., nonfaces; Figure 1). Subjects
were grouped according to the intermediary exercise,
and data were recorded before and after the learning/
control task. Mean accuracy and reaction times as a
function of stimulus type, group, and before/after the
learning/control task were analyzed. Data were collapsed
across groups before the learning/control task as statistical analyses showed no differences between the groups
at this stage. Accuracy differed with stimulus type
[F(1,22) = 27.652, p < .001]; upright Mooney faces
and nonfaces were better identified than inverted Mooney faces. Training had an effect on accuracy as hits
increased only for the experimental group, for both
upright faces and inverted faces (Figure 2A). Reaction
times (RTs) varied with stimulus type as upright faces
were recognized faster than inverted faces (Figure 2B).
RTs decreased after the learning/control task only for
control group.
Figure 1. Examples of stimuli used. (A) Upright Mooney face; (B)
Inverted Mooney face; (C, D) Nonfaces.
Volume 17, Number 8
Figure 2. Mean accuracy and
RTs as a function of stimulus
type. (A) Accuracy; (B) RTs.
Collapsed data for the two
groups before the intermediary
exercise (black bar). Data for
the experimental group after
the learning phase (gray bar).
Data for the control group
after the unrelated visual task
(white bar). The hit rate for
Mooney faces, upright and
inverted, improved only for the
group with learning. *p = .001
Electrophysiological Data
We measured the latencies and amplitudes of three visual ERP components over the parieto-occipito-temporal
cortices (P1, N170, and P2; Figure 3).
P1
There was no effect of stimulus type on P1 latency or
amplitude either before or after the learning/control
task, for either group of subjects. P1 was not affected
by the inversion of Mooney faces.
N170
Before the learning/control task, N170 latency showed
no effect of stimulus type. The learning/control task had
no overall effect on N170 latency for either the experimental or the control group, regardless of stimulus.
Figure 3. Scalp distribution of
the grand-averaged brain
activity at the mean latency of
each component for upright
Mooney faces and nonfaces,
using data of the experimental
group before the learning
phase.
Latinus and Taylor
1319
However, as our interest was in the inversion effect,
latency analyses comparing only upright and inverted
Mooney faces were completed, which showed that N170
was delayed for inverted compared with upright Mooney
faces only after the learning/control task [F(1,22) = 6.97,
p = .015].
N170 amplitude differed among the stimulus types
before the learning/control task; N170 was largest for
upright Mooney faces, smallest for nonface stimuli,
whereas inverted faces, perceived or not perceived as
faces, were intermediate [F(3,66) = 18.674, p < .001]
(Figure 4). There was a hemisphere effect on N170
amplitude [F(1,22) = 7.37, p = .01] due to upright
Mooney faces evoking a larger N170 over the right
hemisphere [Type Hemisphere: F(3,66) = 4.09, p =
.01].
Comparisons between before and after the learning/
control task showed the same pattern of effects of
stimulus type on N170 amplitude [F(2,44) = 61.13, p <
.001] as well as a lateralization of N170 only for upright
Mooney faces [Type Hemisphere: F(2,44) = 9.04, p =
.001]. After the learning/control task, N170 amplitude
increased for both groups of subjects [F(1,22) = 105.76,
p < .001] (Figure 5).
the experimental group [Training Group: F(1.22) =
7.24, p = .013] (Figure 7). As N170 effects could drive P2
effects, peak-to-peak analyses were conducted (P2 amplitude and latency minus N170 values); these analyses
showed that the effects seen on P2 were independent of
those seen on N170 as for both the amplitude and
latency, the effects remained for P2 when only the
N170–P2 differences were analyzed.
DISCUSSION
Our results showed a significant effect of training on
accuracy in the experimental group; accuracy was improved only after the learning task. N170 amplitude was
consistently larger for upright than for inverted Mooney
faces, whereas N170 latency was delayed for inverted
Mooney faces only after the learning/control task. P1 was
unaffected by either stimulus characteristics or learning.
Only P2 reflected learning; P2 amplitude decreased
markedly for the experimental group after the learning
task period. Whether before or after the learning/control
task, P2 amplitude was largest for nonsense stimuli (i.e.,
nonfaces and inverted faces not perceived as faces)
(Table 1).
P2
No effects were seen on P2 latency. P2 amplitude varied
according to stimulus type before the learning/control
task [F(3,66) = 27.03, p < .001] (Figure 6) and in the
before/after comparison [F(2,44) = 68.12, p < .001]. P2
was larger for nonfaces and inverted Mooney faces
perceived as nonfaces than for upright and inverted
Mooney faces correctly perceived.
Comparison between before and after the learning/
control task showed a difference between groups; P2
amplitude decreased after the intermediate task only for
Behavioral Data
We found that Mooney faces are less well perceived when
inverted, consistent with other studies (Kanwisher,
Tong, et al., 1998; George, Jemel, Fiori, & Renault, 1997;
Jeffreys, 1993). Learning had an effect on accuracy, as
increases in correct responses to upright and inverted
Mooney faces were only seen after learning for the
experimental group. However, differences between upright and inverted Mooney faces still remained after the
learning period, comparable to the face inversion effect
Figure 4. N170 elicited by
upright (red) and inverted
(blue) Mooney faces
perceived as faces, inverted
Mooney faces not perceived
as faces (turquoise), and
nonfaces (green). Notice
that N170 is largest for
upright Mooney faces and
smaller for nonfaces.
1320
Journal of Cognitive Neuroscience
Volume 17, Number 8
Figure 5. N170 elicited by upright (solid) and inverted (dotted) Mooney faces before the learning phase (black) and after the learning phase (gray)
for the experimental group. Notice the smaller amplitude but delayed latency for inverted Mooney faces after the learning phase (in the square).
generally observed with photographic faces, due to the
greater difficulty in recognizing inverted faces.
Subjects responded more rapidly for upright than for
inverted Mooney faces, in accordance with results obtained with photographic faces (e.g., Itier & Taylor,
2002; Rhodes et al., 1993; Valentine, 1988). Somewhat
surprisingly, learning had no effect on RTs in the experimental group, perhaps due to the difficulty of the task.
RTs decreased, however, for the control group, explained by the control task requiring rapid responses
to targets. The control group likely developed a pattern
of responding quickly, whereas the experimental group
learned to recognize Mooney faces without any emphasis on speeded responses.
Electrophysiological Data
P1
Our results showed no effects on P1 for face inversion or
for face versus nonface stimuli as shown by some
(Rossion, Delvenne, et al., 1999), although other studies
have demonstrated that face inversion affects P1 amplitude and latency (Itier & Taylor, 2002, 2004; Taylor
et al., 2001; Linkenkaer-Hansen et al., 1998). An explanation for the lack of P1 effects could be that Mooney
faces may be considered degraded faces, as they are
incomplete representations of faces. The first stage of
configural processing proposed by Maurer et al. (2002)
could not occur and the perception of a face would
proceed from the second holistic stage of processing.
Early neural mechanisms underlying P1, fine-tuned for
face detection, may not be sufficient to process these
faces adequately, as shown by Linkenkaer-Hansen et al.
(1998), who found no effects of inversion on P1 with
pointillized degraded faces. The inversion effect on P1
has been suggested to reflect early configural encoding
of faces. Halit et al. (2000) demonstrated that configural
disruptions other than inversion also led to variation in
amplitude and latency of P1 in passive viewing face tasks.
According to the above studies, an inversion effect
would not be expected here on the P1, as the first stage
of processing for Mooney faces is holistic rather than
configural.
Some authors suggested that P1 may also reflect
attentional modulations (Taylor, 2002; Halit et al.,
2000). The above studies that used a passive viewing
task (Taylor et al., 2001; Linkenkaer-Hansen et al., 1998)
found P1 sensitive to inversion. Rossion, Delvenne, et al.
(1999) used a priming recognition paradigm, during
which subjects had to pay attention to faces and to
second-order relations. Attention was directed to faces
and required holistic processing and they showed no
effect of inversion on P1. In a similar vein, Batty and
Taylor (2003) found P1 effects in an implicit face processing task, but not in an explicit version using the
same stimuli (Batty, Delaux, & Taylor, 2003). It appears
that some P1 inversion effects are task-dependent. The
present task required only detection, not recognition of
faces, which may contribute to the lack of inversion
effects on P1.
N170
N170 latency did not vary with face type before the
learning/control tasks, however, N170 was larger for
upright faces than for inverted faces and nonfaces.
Latinus and Taylor
1321
Figure 6. P2 amplitude for all
stimulus types before the
intermediary exercise. (A)
Collapsed data of the two
groups of subjects (*p .002).
(B) Grand-averaged ERP
waveforms for all stimulus
types for the experimental
group at the left parietal
electrodes. Upright (red) and
inverted (blue) Mooney faces
perceived as faces, inverted
Mooney faces not perceived as
faces (turquoise), and nonfaces
(green).
Hence, although inverting Mooney faces had an effect
on N170, this effect differed from the one usually
described for photographic faces: longer-latency and
larger-amplitude N170s for inverted photographic faces
(Taylor et al., 2001; Rossion, Gauthier, et al., 2000;
Bentin, Alison, et al., 1996). Mooney faces are two-tone
faces difficult to process either upright or inverted
because of the incomplete internal features, thus they
engage primarily holistic processing. Photographic faces,
on the other hand, engage primarily second-order configural processing as they convey physiognomic information carried by the relation among internal features of
the face, which provide identity information. Thus,
inversion effect differences between Mooney and photographic faces are likely due to the recruitment of
different levels of face processing. Consistent with this
hypothesis are the results of Sagiv and Bentin (2001)
that showed a delayed but smaller N170 inversion effect
for schematic faces. They suggested that this finding was
attributable to the involvement of different processes for
inverted schematic compared to photographic faces. As
1322
Journal of Cognitive Neuroscience
schematic faces did not carry physiognomic information,
inverting them did not involve analytic processing,
which is recruited for identification of inverted photographic faces. These results provide evidence for a
sensitivity of N170 to the several types of processing
invoked by faces. Photographic faces engage configural
processing when presented upright, plus analytic processing when presented inverted. Upright Mooney faces
engage holistic processing, as analytic processing is not
effective and most probably not engaged, so there is no
N170 amplitude increase when they are presented inverted. The N170 decrease in amplitude with inversion
of Mooney faces could be due to the difficulty in
engaging even holistic processing when these stimuli
are inverted.
The nonface stimuli evoked a smaller negative potential than faces at the N170 latency. Usually, scrambled
faces evoke little or no negativity (Taylor et al., 2001;
Bentin, Alison, et al., 1996). The negative potential
observed for nonface stimuli could be explained by
contextual priming. Subjects were searching for faces
Volume 17, Number 8
Figure 7. P2 amplitude for the two groups of subjects, across
stimuli, before (solid) and after (dashed) the intermediary exercise.
*p < .05.
and the nonfaces could elicit an N170 as they were
examined as possible faces in this face detection context.
This is in accordance with Bentin, Sagiv, et al. (2002),
who have shown an N170 for schematic nonfaces (schematic eyes) once the context of faces had been established. Inverted faces not perceived as faces evoked a
similar N170 as seen with inverted faces perceived as
faces. This suggests that N170 in this context of a difficult
face detection task reflects top-down modulation of
perceptual processing for faces, even if a face is not
always perceived.
However, after the learning/control task, there was an
inversion effect on N170 latency as inverted Mooney
faces evoked a longer-latency N170, although amplitudes were still larger for upright than for inverted
Mooney faces. This latency effect could be due to
repetition of the stimuli as it was observed for both
groups of subjects. Repetition could involve a modification of Mooney face perception, such that subjects
would try to process inverted Mooney faces analytically;
the fact that no amplitude effects were seen suggests
that this was not successful. Alternatively, the latency
effect with inversion could be explained by the development of an expertise in Mooney face recognition.
According to Gauthier, Skudlarski, et al. (2000) and
Gauthier, Tarr, et al. (1999) expertise accounts for the
inversion effect, although expertise would have had to
result from the repetition of stimuli for only 40 min. In
the study by Gauthier, Skudlarski, et al., the training that
led to expertise lasted 7 hours a day for 4 days. The
present experiment was likely too short to develop
expertise, except that the participants were already face
experts and they only had to learn to engage face
processing during the learning phase for Mooney faces.
Consequently, the repetition necessary for a change in
the level of expertise would be shorter for these stimuli.
Our results also showed an increase in N170 amplitude after the intermediary exercise for upright and
inverted Mooney faces. This is consistent with Tanaka
and Curran (2001), who found larger-amplitude N170s
to stimuli within subjects’ domains of expertise. We
would also suggest that with expertise, subjects build a
recognition pattern for stimuli within the domain of
expertise. The inversion of such stimuli, however, even
Table 1. Mean Latencies and Amplitudes for the Three Components by Condition
Before the Learning Phase
Inverted Mooney Faces
Upright
Mooney Faces
Correctly
Perceived
Not
Perceived
After the Learning/Test Phase
Nonfaces
Upright
Mooney Faces
Inverted
Mooney Faces
Nonfaces
P1
Latency (msec)
107.60
108.37
108.38
107.03
108.22
107.72
107.34
Amplitude (AV)
4.92
5.12
4.97
5.15
5.14
5.28
5.37
Latency (msec)
176.82
177.47
176.81
177.74
177.44
179.79
179.27
Amplitude (AV)
4.92
4.15
3.54
3.20
6.82
5.93
5.04
Latency (msec)
221.79
221.80
221.95
223.36
218.69
219.64
220.89
Amplitude (AV)
3.15
3.33
4.41
4.82
1.86
2.01
3.39
N170
P2
Note the amplitude increase for N170 after the learning phase but the decrease for P2 (in bold face).
Latinus and Taylor
1323
if only recently acquired, could disturb the usual perception and interfere with the automatic activation of
the recognition processes related to the expertise.
George, Jemel, et al. (1997) also showed an increase of
N170 amplitude with Mooney face repetition, and suggested that this increase ref lected a facilitation of
perception. In contrast, repetition effects with photographic faces show an N170 amplitude decrease (Itier &
Taylor, 2002), further demonstrating that Mooney faces
and photographic faces are not processed the same way,
although both types of faces show greater right-sided
amplitudes, unlike nonface stimuli. There was no differential effect of the intermediate task on the N170
amplitudes for the two groups of subjects. Learning
did not seem to have a neurophysiological correlate at
these early stages of processing, despite its large effect
on behavior. Nonetheless, we would speculate that
although the present learning was not sufficient to
induce changes in P1 or N170, a longer learning might
produce such effects.
The combination of the above results suggests that
upright photographic faces are processed holistically
and configurally and, when presented inverted, they
further recruit analytic processing, associated with processing nonface objects (Haxby, Ungerleider, Clark, et al.,
1999). Analytical processes implicated in face processing
may well be distinct from the routine object-related
analytical processes, as they appear to be recruited for
feature-based face analyses in the circumstances of attempting recognition under unusual conditions such as
inversion. We would suggest that becoming an expert
leads to the construction of patterns of recognition,
such that stimuli previously processed analytically or
by features would come to be processed automatically
(i.e., holistically). Inversion produces recognition disruption due to discordance between typical and inverted
stimuli, thus analytic processing would be invoked
(when it is permitted by characteristics of the stimulus)
for identity-level access. With Mooney faces this was not
feasible, as they require primarily holistic processing,
leading to the lack of amplitude effects when they are
presented inverted.
P2
Although less frequently measured than P1 and N170, P2
showed very interesting and task-specific effects in the
current study. P2 amplitude varied with stimulus type
before and after the learning/control task, being larger
for nonfaces and inverted Mooney faces not perceived as
faces, than for upright and inverted Mooney faces
correctly identified. This suggests that neuronal mechanisms underlying P2 might be involved in deeper or
more extensive processing of stimuli not yet identified.
Although P2 was not analyzed in the article of Sagiv and
Bentin (2001), the P2 seen in Figure 1 was larger for
scrambled faces than for faces or flowers, consistent
1324
Journal of Cognitive Neuroscience
with our results. After the learning period, we found P2
amplitude decreased only for the experimental group.
This amplitude decrease linked to accuracy suggests that
P2 may reflect a neurophysiological correlate of learning. Consistent with this reasoning, learning would lead
to a certainty of perception, such that deep processing
indexed by P2 was not as necessary.
Conclusions
Our results show that the learning effects seen behaviorally were not correlated with changes in neuronal
activity reflected in the early face-sensitive ERP components (N170 and P1). The intermediary exercise had an
effect on the latency and amplitude of N170 but this was
not only due to learning. However, training decreased
P2 amplitude; this would suggest that the learning
period led to increased certainty of perception, which
in turn led to decreased need for the in-depth stage of
processing reflected by P2. Our data argue that the
latency and amplitude effects seen on N170 with photographic face inversion are due primarily to the activation of feature-based analytic processing. The present
lack of comparable inversion effects on Mooney faces is
due to their recruiting primarily holistic processing.
METHODS
Subjects
Twenty-six adults (13 women) participated in the study
(mean age: 23.9 years); all but one were right handed;
the left-handed subject showed a very similar pattern of
ERPs, so data were collapsed. All subjects reported normal or corrected-to-normal vision and reported taking
no medication and had no history of neurological, ophthalmologic, or systemic disease. They gave informed
written consent. The experiment was approved by the
French Comité Opérationnel pour l’Ethique dans les
Sciences de la Vie du CNRS.
The subjects were placed into one of two groups in a
pseudorandom fashion (n = 13 in each). The first,
experimental group (7 women), had a learning period
for Mooney faces recognition; the second, control group
(6 women), performed an unrelated visual task.
Stimuli
There were 320 stimuli, 80 in each of four categories:
upright and inverted Mooney faces, and upright and
inverted nonfaces (see Figure 1). Forty of the Mooney
faces were those used by Craig Mooney (1957) in his
classic study. The 40 new Mooney faces were created at
our laboratory using Web Cam Go software to take
photographs in a dark room with a high luminosity
directed to the face of the person; it created shadows
on the face. The brightness of the photograph was then
Volume 17, Number 8
modified using Image J freeware; pixels were divided
into pixels either with high or low brightness which led
to black-and-white, high-contrast pictures. Inverted
Mooney faces were a vertical symmetry of upright Mooney faces. Nonfaces were a scrambled form of the pixels of
upright Mooney faces: Black-and-white patches of the
images were moved to create nonsense stimuli; inverted
nonfaces stimuli were a vertical symmetry of the upright
nonfaces.
Experimental Procedure
Subjects were seated in a comfortable chair in a dark
room. Stimuli were presented centrally on a screen
60 cm in front of the subjects. The stimuli subtended
108 118; they were presented in a random order using
Presentation 6.0 for 300 msec with an ISI between 1200
and 1600 msec. Subjects pressed a keyboard key for
faces with one hand and another key for nonfaces with
the other hand. The hand used to respond to faces
was counterbalanced across subjects. Four blocks of
80 stimuli (20 of each category) in random order were
presented, followed by the learning/control task, and
finally by a repetition of the four blocks. Presentation
order of blocks was randomized across subjects and
across before/after the learning/control task. Short
breaks were given to subjects between blocks.
The learning phase consisted of the presentation of
20 Mooney faces shown upright and inverted, which
were different from those faces used in the experiment.
Subjects had time to examine the stimuli and to try
to see the faces. The experimenter knew the stimuli well,
could see all the Mooney faces, and thus could distinguish separable features, helped the subjects perceive
the faces by ‘‘showing’’ them the features of the faces
when necessary. The control task was a categorization
task; subjects were presented with a series of 300 stimuli, 150 of which included animals, to which they were
to respond as quickly and accurately as possible.
were then averaged digitally as a function of stimulus
category and correct or incorrect responses, and filtered
at 0.1–30 Hz.
Peak analyses were completed on data recorded from
each subject. Only averages of more than 15 artifact-free
epochs were kept for analysis, such that only upright
Mooney faces identified as faces, inverted Mooney faces
identified as faces or not (only before the learning/
control task), and nonfaces correctly classified as nonface stimuli were analyzed. Peak latency and amplitude
were measured for three early components: P1 (maximal
around 110 msec, 90–140 msec), N170 (maximal around
175 msec, 140–210 msec), and P2 (maximal around
220 msec, 180–260 msec). Components were measured
at the electrodes where they were maximal over each
hemisphere in the grand averages, and at the electrodes
within the distribution of the component (see Figure 3
for the distribution of the activity for the three components). P1 was measured at parieto-occipital sites (P7, P8,
P5, P6, P3, P4, P1, P2, PO7, PO8, PO3, PO4, O1, and
O2), N170 at temporo-parieto-occipital sites (P9, P10,
P7, P8, PO9, PO7, PO10, PO8, O9, O10, O1, and O2), and
P2 at parieto-occipital sites (P5, P6, P3, P4, P1, P2, PO7,
PO8, PO3, PO4, O1, and O2). For each subject and
category, the peak was measured within ±30 msec of
the peak latency of the grand average. Latencies over
each hemisphere were taken where peak amplitude was
maximal (Picton et al., 2000).
Repeated-measures ANOVAs using SPSS were performed on individual data, p values reported here are
those obtained after Greenhouse–Geisser correction. Intersubject factor was group. Intrasubject factors, before
the learning/control task, were stimulus type (4 levels),
hemisphere (2 levels), and for amplitude, electrodes
(7 levels for P1 and 6 levels for N170 and P2). Before/
after the learning/control task comparisons were done
only for correctly perceived stimuli [stimulus type
(3 levels)]; intrasubject factors then also included
training (2 levels).
Data Recordings and Analysis
Behavioral performances, hits, and RTs were recorded
using Presentation 6.0.
Electrophysiological data were recorded using 64 electrodes in a cap (Easy Cap), including three ocular sites
to record eye movements. The electrodes were placed
according to the 10/10 system. FCz was the reference
during acquisition; an average reference was calculated
off-line. Impedances were kept under 5 k
. EEG was
recorded using Neuroscan 4.2, the signal was amplified
using Synamps system (gain: 500). Data were recorded
with a frequency of 1000 Hz through a band-pass of 0.1–
100 Hz. Continuous EEG was epoched into 800-msec
sweeps (including a 100-msec prestimulus baseline),
baseline corrected and trials with ocular artifact between
100 and 400 msec >100 AV were rejected. Epochs
Reprint requests should be sent to Marianne Latinus, Centre de
Recherche Cerveau & Cognition—UMR 5549, Faculté de
Médecine Rangueil, 133, route de Narbonne, 31062 Toulouse
Cedex 4, France, or via e-mail: [email protected].
REFERENCES
Allison, T., McCarthy, G., Nobre, A., Puce, A., & Belger, A.
(1994). Human extrastriate visual cortex and the perception
of faces, words, numbers, and colors. Cerebral Cortex, 5,
544–554.
Allison, T., Puce, A., Spencer, D. D., & McCarthy, G. (1999).
Electrophysiological studies of human face perception:
I. Potentials generated in occipitotemporal cortex by face
and non-face stimuli. Cerebral Cortex, 9, 415–430.
Batty, M., Delaux, S., & Taylor, M. J. (2003, March). Early
neurophysiological effects in the explicit and implicit
Latinus and Taylor
1325
processing of facial emotions. Paper presented at The Social
Brain, Göteberg, Sweden.
Batty, M., & Taylor, M. J. (2003). Early processing of the six
basic facial emotional expressions. Cognitive Brain
Research, 17, 613–620.
Bentin, S., Allison, T., Puce, A., Perez, E., & McCarthy, G.
(1996). Electrophysiological studies of face perception
in humans. Journal of Cognitive Neuroscience, 8,
551–565.
Bentin, S., Sagiv, N., Mecklinger, A., Friederici, A., & von
Cramon, Y. D. (2002). Priming visual face-processing
mechanisms: Electrophysiological evidence. Psychological
Science, 13, 190–193.
Bötzel, K., Schulze, S., & Stodieck, S. R. (1995). Scalp
topography and analysis of intracranial sources of
face-evoked potentials. Experimental Brain Research, 104,
135–143.
Diamond, R., & Carey, S. (1986). Why faces are and are not
special: An effect of expertise. Journal of Experimental
Psychology: General, 115, 107–117.
Farah, M. J., Tanaka, J. W., & Drain, H. M. (1995). What causes
the face inversion effect? Journal of Experimental
Psychology: Human Perception and Performance, 21,
628–634.
Freire, A., Lee, K., & Symons, L. A. (2000). The face-inversion
effect as a deficit in the encoding of configural information:
Direct evidence. Perception, 29, 159–170.
Gauthier, I., Skudlarski, P., Gore, J., & Anderson, A. (2000).
Expertise for cars and birds recruits brain areas involved in
face recognition. Nature Neuroscience, 3, 191–197.
Gauthier, I., Tarr, M. J., Anderson, A. W., Skudlarski, P., & Gore,
J. C. (1999). Activation of the middle fusiform ‘‘face area’’
increases with expertise in recognizing novel objects. Nature
Neuroscience, 2, 568–573.
George, N., Evans, J., Fiori, N., Davidoff, J., & Renault, B.
(1996). Brain events related to normal and moderately
scrambled faces. Cognitive Brain Research, 4, 65–76.
George, N., Jemel, B., Fiori, N., & Renault, B. (1997). Face and
shape repetitions effects in humans: A spatio-temporal ERP
study. NeuroReport, 8, 1417–1423.
Halit, H., de Haan, M., & Johnson, M. H. (2000). Modulation of
event-related potentials by prototypical and atypical faces.
NeuroReport, 11, 1871–1875.
Haxby, J. V., Ungerleider, L. G., Clark, V. P., Schouten, J. L.,
Hoffman, E. A., & Martin, A. (1999). The effect of face
inversion on activity in human neural systems for face and
object perception. Neuron, 22, 189–199.
Haxby, J. V., Ungerleider, L. G., Horwitz, B., Maisog, J. M.,
Rapoport, S. I., & Grady, C. L. (1996). Face encoding and
recognition in the human brain. Proceedings of the National
Academy of Sciences, U.S.A., 93, 922–927.
Itier, R. J., & Taylor, M. J. (2002). Inversion and contrast
polarity reversal affect both encoding and recognition
processes of unfamiliar faces: A repetition study using ERPs.
Neuroimage, 15, 353–372.
Itier, R. J., & Taylor, M. J. (2004). N170 or N1? Spatiotemporal
differences between object and face processing using ERPs.
Cerebral Cortex, 14, 132–142.
Itier, R. J., Latinus, M., & Taylor, M. J. (2003). Effects of
inversion, contrast-reversal and their conjunction on face,
eye and object processing: An ERP study. Journal of
Cognitive Neuroscience Supplement, D292, 154.
Jeffreys, D. A. (1993). The influence of stimulus orientation on
the vertex positive scalp potential evoked by faces.
Experimental Brain Research, 96, 163–172.
Jeffreys, D. A. (1996). Evoked potential studies of face and
object processing. Visual Cognition, 3, 1–38.
Kanwisher, N., Stanley, D., & Harris, A. (1999). The fusiform
1326
Journal of Cognitive Neuroscience
face area is selective for faces not animals. NeuroReport, 10,
183–187.
Kanwisher, N., Tong, F., & Nakayama, K. (1998). The effect of
face inversion on the human fusiform face area. Cognition,
68, B1–B11.
Leder, H., & Bruce, V. (2000). When inverted faces are
recognized: The role of configural information in face
recognition. Quarterly Journal of Experimental Psychology:
A, 53, 513–536.
Linkenkaer-Hansen, K., Palva, J. M., Sams, M., Hietanen, J. K.,
Aronen, H. J., & Ilmoniemi, R. J. (1998). Face-selective
processing in human extrastriate cortex around 120 msec
after stimulus onset revealed by magneto- and
electroencephalography. Neuroscience Letters, 253,
147–150.
Logothetis, N. K., & Sheinberg, D. L. (1996). Visual object
recognition. Annual Review of Neuroscience, 19,
577–621.
Maurer, D., Grand, R. L., & Mondloch, C. J. (2002). The many
faces of configural processing. Trends in Cognitive Sciences,
6, 255–260.
Michel, F., Poncet, M., & Signoret, J. L. (1989). [Are the lesions
responsible for prosopagnosia always bilateral?]. Revue de
Neurologie, 145, 764–770.
Mooney, C. M. (1957). Age in the development of closure
ability in children. Canadian Journal of Psychology, 11,
219–226.
Moscovitch, M., Winocur, G., & Behrmann, M. (1997). What
is special about face recognition? Nineteen experiments on a
person with visual agnosia and dyslexia but normal face
recognition. Journal of Cognitive Neuroscience, 9,
555–604.
Perrett, D. I., Hietanen, J. K., Oram, M. W., & Benson, P. J.
(1992). Organization and functions of cells responsive to
faces in the temporal cortex. Philosophical Transactions of
the Royal Society of London, B335, 23–30.
Picton, T. W., Bentin, S., Berg, P., Donchin, E., Hillyard, S. A.,
Johnson, J. R., Miller, G. A., Ritter, W., Ruchkin, D. S.,
Rugg, M. D., & Taylor, M. J. (2000). Guidelines for using
human event-related potentials to study cognition:
Recordings standards and publication criteria.
Psychophysiology, 37, 127–152.
Puce, A., Allison, T., Asgari, M., Gore, J. C., & McCarthy, G.
(1996). Differential sensitivity of human visual cortex to
faces, letter-strings, and textures: A functional magnetic
resonance imaging study. Journal of Neuroscience, 16,
5205–5215.
Purcell, D. G., & Stewart, A. L. (1988). The face-detection effect:
Configuration enhances detection. Perception &
Psychophysics, 43, 355–366.
Rhodes, G., Brake, S., & Atkinson, A. P. (1993). What’s lost in
inverted faces? Cognition, 47, 25–57.
Rhodes, G., Brake, S., Taylor, K., & Tan, S. (1989). Expertise
and configural coding in face recognition. British Journal
of Psychology, 80, 313–331.
Rossion, B., Delvenne, J. F., Debatisse, D., Goffaux, V.,
Bruyer, R., Crommelinck, M., & Guerit, J. M. (1999).
Spatio-temporal localization of the face inversion effect:
An event-related potentials study. Biological Psychology, 50,
173–189.
Rossion, B., Gauthier, I., Tarr, M. J., Despland, P., Bruyer, R.,
Linotte, S., & Crommelinck, M. (2000). The N170
occipito-temporal component is delayed and
enhanced to inverted faces but not to inverted
objects: An electrophysiological account of face-specific
processes in the human brain. NeuroReport,
11, 69–74.
Sagiv, N., & Bentin, S. (2001). Structural encoding of human
Volume 17, Number 8
and schematic faces: Holistic and part-based processes.
Journal of Cognitive Neuroscience, 13, 937–951.
Sergent, J., Ohta, S., & MacDonald, B. (1992). Functional
neuroanatomy of face and object processing. Brain, 115,
15–36.
Tanaka, J. W., & Curran, T. (2001). A neural basis for expert
object recognition. Psychological Science, 12, 43–47.
Tanaka, J. W., & Farah, M. J. (1993). Parts and wholes in face
recognition. Quarterly Journal of Experimental Psychology,
46, 225–245.
Taylor, M. J. (2002). Non-spatial attentional effects on P1.
Clinical Neurophysiology, 113, 1903–1908.
Taylor, M. J., Edmonds, G. E., McCarthy, G., & Allison, T.
(2001). Eyes first! Eye processing develops before face
processing in children. NeuroReport, 12, 1671–1676.
Valentine, T. (1988). Upside-down faces: A review of the effect
of inversion upon face recognition. British Journal of
Psychology, 79, 471–491.
Yin, R. K. (1969). Looking at upside-down faces. Journal of
Experimental Psychology, 81, 141–145.
Latinus and Taylor
1327
3.3. Les trois étapes du traitement des visages et leur corrélat
neurophysiologiques
Objectifs & Méthodes
Dans l’étude précédente, nous avons vu que l’effet d’inversion pour les Mooney Faces
était différent de celui classiquement décrit dans la littérature. L’interprétation des résultats de
l’étude était difficile du fait de l’utilisation de Mooney Faces uniquement. Dans l’article
suivant, nous rapportons les effets d’inversion sur 3 types de visages impliquant différents
traitements. Des photographies en niveau de gris ont été utilisées ; leur perception met en jeu
tous les traitement décrits par Maurer et al. (2002). Des visages schématiques (visages très
simplifiés), ne contenant pas d’informations sur l’identité, ont été inclus pour tester
l’influence du traitement des relations de second ordre sur la N170. Les Mooney Faces
permettent d’isoler la contribution du traitement holistique à la N170. Ainsi, en utilisant ces 3
types de visages à l’envers et à l’endroit, il nous est possible de mettre en évidence les
contributions respectives de chaque étape du traitement des visages à l’allure de la N170.
Résultats & Conclusions
A l’endroit, les photographies et les visages schématiques évoquent une N170
similaire ; par contre, la N170 est retardée et plus petite pour les Mooney Faces. Le retard de
la N170 pour les Mooney Faces est corrélé à la difficulté de la tâche (indexée par le d’) pour
les Mooney Faces ; il disparaît après correction de la latence par la difficulté. La N170 est
retardée pour les visages schématiques et les photographies à l’envers, mais pas pour les
Mooney Faces ; cet effet persiste après correction de la latence pour la difficulté de la tâche.
L’augmentation de l’amplitude de la N170 après inversion est spécifique des photographies.
Ces résultats révèlent que 1) la difficulté de la tâche est responsable du retard de
latence entre les différents visages à l’endroit mais pas de celui lié à l’inversion, 2) le
traitement de la configuration de second ordre, présente seulement dans les photographies,
n’intervient pas au niveau de la N170 évoquée par les visages à l’endroit, 3) l’augmentation
de l’amplitude pour les visages inversés traduit l’addition du traitement analytique afin de
faciliter l’identification. L’augmentation de la latence de la N170 pour les visages inversés
reflète soit l’inversion de la vue canonique des visages photographiques et schématiques, soit
le recrutement du traitement analytique, dont l’importance serait fonction de l’utilité ; dans les
visages schématiques il ne serait utilisé que pour faciliter la détection, induisant alors
seulement un retard de latence.
103
104
BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –1 87
a v a i l a b l e a t w w w. s c i e n c e d i r e c t . c o m
w w w. e l s e v i e r. c o m / l o c a t e / b r a i n r e s
Research Report
Face processing stages: Impact of difficulty and the
separation of effects
Marianne Latinusa,⁎, Margot J. Taylor b
a
Centre de recherche Cerveau et Cognition, CNRS-Université Paul Sabatier, UMR5549, Faculté de Médecine de Rangueil,
31062 Toulouse Cedex 9, France
b
Diagnostic Imaging and Research Institute, Hospital for Sick Children, 555 University Avenue, Toronto, ON, Canada M5G1X8
A R T I C LE I N FO
AB S T R A C T
Article history:
Cognitive models of face perception suggest parallel levels of processing yet there is little
Accepted 9 September 2006
evidence of these levels in studies of brain function. Series of faces that engage different
Available online 18 October 2006
processes ((photographs, schematic and Mooney faces (incomplete two-tone faces)) were
presented upright, inverted and scrambled; subjects performed a face/non-face
Keywords:
discrimination while event-related potentials (ERPs) were recorded. Different patterns in
Mooney face
N170 latency and amplitude provided evidence of multiple steps in face processing, which
Schematic face
can be seen at the ERP level. We showed that first-order configural and holistic processing
Photographic face
were evident at the N170. N170 latency indexed task difficulty for the upright faces, yet the
ERPs
face inversion effect was independent of difficulty. N170 amplitude inversion effect was
N170
unique to photographic faces. Separable ERP effects were found for the processing engaged
Source analyses
by the three face types, although the P1 and N170 sources did not differ. Thus, it appears that
common brain sources underlie the early processing stages for faces (reflected in the P1 and
N170), whereas the P2 showed activation of primary visual areas for the non-photographic
faces and reactivation of the same regions as the N170 for the photographic faces.
© 2006 Elsevier B.V. All rights reserved.
1.
Introduction
As proposed in the model of Bruce and Young, faces engage
multiple levels of processing, related to the type of information extracted from faces (Bruce and Young, 1986). Empirically
testing these levels or stages of processing has utilized various
types of face modifications in recognition protocols (e.g.,
scrambled, morphed, composite or inverted faces). The most
widely used is face inversion, as presenting faces upside down
affects the configural processing leading to decreases in
recognition accuracy, increases in reaction times and subjective reports of greater difficulty. This is referred to as the
face inversion effect (Yin, 1969). Maurer et al. (2002) proposed
that faces involve three separable levels of processing: first,
faces are processed as first-order relational configuration
(eyes above nose, above mouth), which leads to the holistic
perception of faces (i.e., a face versus a non-face), which is the
second level of processing. The third level is the second-order
relational configuration (spatial relations among facial features) that gives faces their individual distinctiveness and
allows identity recognition (Maurer et al., 2002). To determine
if these levels have distinct neural patterns, faces that
differentially invoke these levels of processing need to be
compared (Fig. 1).
Photographs of faces evoke event-related potentials (ERPs),
P1 and N170, sensitive to face inversion: these ERP peaks are
⁎ Corresponding author. Fax: +33562172809.
E-mail address: [email protected] (M. Latinus).
0006-8993/$ – see front matter © 2006 Elsevier B.V. All rights reserved.
doi:10.1016/j.brainres.2006.09.031
180
BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –18 7
levels of processing, as they contain no identity information
(Sagiv and Bentin, 2001), while photographic faces invoke all
three levels of processing. Differences among stimulus
categories can be amplified by increasing task difficulty; this
is effected for faces by presenting them upside down.
In order to elucidate neural activity underlying face
processing, the three face types were presented with upright,
inverted and scrambled (non-face/control) formats, while
ERPs were recorded. Subjects performed a face detection
task; ERP peak latencies and amplitudes were analyzed. Data
were further analyzed with Cartool analysis software, which
solves for the brain sources of ERP patterns (Michel et al., 2001).
As the three face types should engage different stages of face
processing, particularly when inverted, we could determine if
these levels of processing activated different brain regions by
comparing across face types.
2.
Fig. 1 – Examples of the upright, inverted and scrambled
faces used in the experiment. Top: Mooney faces, middle:
photographs, and bottom: schematic faces.
delayed and larger for inverted faces (Bentin et al., 1996; Itier
and Taylor, 2002, 2004; Rossion et al., 2000; Taylor et al., 2001).
Inverted schematic (smiley) faces, however, evoke a delayed
but not enhanced N170 (Henderson et al., 2003; Sagiv and
Bentin, 2001), while for inverted Mooney faces (incomplete
two-tone representation of faces (Mooney, 1957)) P1 and N170
are neither delayed nor enhanced (Latinus and Taylor, 2005).
The ERP inversion effect for photographic faces has been
argued to be due to difficulty (George et al., 1996; Rossion et al.,
1999), yet difficulty is greater for Mooney than photographic
faces (George et al., 1997, 2005; Kanwisher et al., 1998; Latinus
and Taylor, 2005), faces which do not show this ERP inversion
effect. How does inversion affect neural processing such that
this varies as a function of the type of face? These differences
in the neural signature, dependent on the type of face, provide
an opportunity to elucidate the underlying neural processing
for faces.
The three types of faces used in the present study involve
different levels of processing proposed in the above theoretical
model (Maurer et al., 2002). Mooney faces rely primarily on
holistic processing (Latinus and Taylor, 2005; Moscovitch et al.,
1997). As features are often not distinguishable in Mooney
faces, the first order configural stage cannot be completed;
moreover without clear features, the third stage also would
not be completed (George et al., 2005). Mooney faces of wellknown people can be recognized individually, particularly if
primed (Jemel et al., 2003) suggesting that holistic processing
may be sufficient for recognition of very well known faces. In
contrast, schematic faces engage only the first and second
Results
Photographic and schematic faces, whether upright, inverted
or scrambled, were better detected as faces than Mooney faces
(F2,26 = 96.11, p < 0.001); accuracy for inverted faces was lower
than for upright faces or scrambled faces (F 2,26 = 11.55,
p = 0.001) driven by inverted Mooney faces (type × subtype:
F4,52 = 18.72, p < 0.001) (see Table 1). Reaction times (RTs) were
the fastest to photographic faces and the slowest to Mooney
faces (F2,26 = 108.44, p < 0.001). A general effect of subtype was
observed (F2,26 = 37.72, p < 0.001) as non-faces (i.e. scrambled
faces) were the slowest categorized regardless of face type;
and as reaction times to inverted faces were slower than to
upright faces across face types (see Table 1), with the largest
difference seen for Mooney faces (type × subtype: F4,52 = 4.87,
p = 0.006).
As accuracy reached ceiling, d′, that saturates less than
accuracy, was calculated for upright faces and inverted faces
as a better index of task difficulty. No differences were seen
between d′ for photographic (d′ = 3.88) and schematic faces
(d′ = 3.61), but d′ for Mooney faces (d′ = 2.15) was significantly
Table 1 – Mean accuracy (correctly identifying the
stimulus as a face or not) and RTs to each face type
Photographic
Upright
Inverted
Scrambled
Mooney
Upright
Inverted
Scrambled
Schematic
Upright
Inverted
Scrambled
% Hits (±SEM)
RTs ms (±SEM)
98.52 (±0.51)
98.88 (± 0.37)
95.56 (± 0.92)
522.07 (± 18.03)
534.73 (± 17.86)
596.26 (± 13.58)
87.59 (± 1.47)
67.53 (± 3.54)
81.33 (± 2.14)
600.45 (± 17.35)
664.64 (± 21.58)
708.04 (± 15.10)
98.33 (± 1.52)
96.54 (± 1.05)
92.65 (± 0.50)
543.20 (± 19.23)
565.20 (± 21.06)
626.38 (± 14.14)
Note that inversion disrupted face detection as measured by RTs for
all three face types, and accuracy particularly for Mooney faces. RTs
to scrambled faces (i.e., saying that the stimulus was not a face)
were the longest.
BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –1 87
lower (F2,28 = 92.062, p < 0.001) reflecting greater difficulty in
the detection of Mooney faces. d′ was smaller to inverted
than upright faces (F1,14 = 19.349, p = 0.001), driven by the
Mooney faces (type × orientation: F2,28 = 23.173, p < 0.001),
which were particularly difficult to perceive as faces when
inverted (Table 1).
The ERP components were measured for the nine different
face types over posterior-temporal scalp, where they were the
largest. Significant effects of face type or orientation were not
seen on the P1, except for schematic faces evoking the
smallest P1 (F2,26 = 10.14, p = 0.001) (Table 2). N170 latency was
delayed for Mooney faces compared to photographic and
schematic faces (F2,26 = 30.48, p < 0.001). N170 latency did not
differ between upright photographic and schematic faces, but
was delayed when these faces were inverted or scrambled
(F2,26 = 12.83, p = 0.001), whereas N170 to Mooney faces was not
181
delayed whether Mooney faces were upright, inverted or
scrambled (type × subtype: F4,52 = 7.50, p = 0.001) (Fig. 2a).
As the N170 delay observed for inverted faces has been
explained to be due to increased difficulty (George et al., 1996;
Rossion et al., 1999), we determined whether this could
account for the delayed N170 to Mooney faces by correlating
d′ and N170. The correlation between d′ (index of task
difficulty) and N170 latency across face types (upright and
inverted) showed a linear relation (Fig. 2b)—greater difficulty
(lower d′) was correlated with longer N170 latencies (R2 = 0.37,
p < 0.0001). We then calculated new N170 latencies for the three
face types adding in, as an estimate of task difficulty, the slope
of the regression curves from these correlations. N170 latency
no longer varied with face type (F2,28 = 0.280, n.s.), but remained
delayed for inverted photographic and schematic faces (orientation, F1,14 = 40.67, p < 0.001; type × orientation: F2,28 = 12.85,
p < 0.001) (Fig. 2c). Difficulty accounted for N170 differences
among face types, but not the inversion effect. The remaining
inversion delay could reflect a ceiling effect. d′ saturation
depends on the number of trials (45 in the present case) leading
to a maximum d′ in our experiment of 4.57. Only 7 points were
at this level (Fig. 2b). To avoid the ceiling effect in d′, analyses
were also done without those 7 points. N170 latencies
calculated, taking into account the slope of this regression
curve, were again delayed for inverted photographic and
schematic faces but not for Mooney faces. We also ran
regressions on each face type separately and found that only
with schematic faces was there a significant correlation
(R2 = 0.3044, p < 0.001) between d′ and N170 latency. Thus, it is
particularly across face types that difficulty impacts N170
latency (Table 2).
N170 was larger to photographic and schematic than
Mooney faces (F2,26 = 5.32, p = 0.014). A general effect of subtype
(F2,26 = 53.0, p < 0.001) was seen on N170 amplitude due to
scrambled faces evoking the smallest N170 (Table 2). A face
type by subtype interaction (F4,52 = 13.98, p < 0.001) and posthoc tests revealed that (i) inversion of photographs led to an
enhanced N170 (p ≤ 0.004), while there was no difference with
Fig. 2 – N170 latency correlations with d V. (a) Mean N170
latency (± SEM) for each face type and for upright ( ) and
inverted ( ) versions. Note that N170 latency is delayed for
Mooney faces compared to schematic and photographic faces
(**p < 0.001), but the delayed N170 latency observed for
inverted faces (*p < 0.01) is only seen for schematic and
photographic faces. (b) Negative correlation between N170
latency (y axis) and d V (x-axis) (R2 = 0.37, p < 0.0001). Each
subject's data point is shown for each face type: photographic
faces (upright : ; inverted : □), schematic faces (upright : ♦;
inverted ⋄) and Mooney faces (upright :▵; inverted :▴). The
average for each face type and format are shown with the
same symbols but in gray. (c) N170 latency (± SEM) after
including the slope of the regression curves (i.e. − 6.1313);
legend is the same as for panel a. Note that N170 latency is no
longer delayed for Mooney faces compared to photographic
and schematic faces, unlike N170 for their inverted formats
which remain delayed. NB: taking account of the task
difficulty (i.e. including the slope of the regression curves)
increased N170 latency as it is an inverse correlation.
▪
182
BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –18 7
Table 2 – Mean latencies and amplitudes for the three ERP components by condition
P1
N170
P2
Latency
(ms) ± SEM
Amplitude
(μV) ± SEM
Latency
(ms) ± SEM
Amplitude
(μV) ± SEM
Latency
(ms) ± SEM
Amplitude
(μV) ± SEM
Photographic
Upright
Inverted
Scrambled
108.02 ± 2.58
108.27 ± 2.40
107.72 ± 3.12
5.85 ± 0.74
6.29 ± 0.83
5.50 ± 0.90
161.03 ± 1.67
167.48 ± 1.30
173.72 ± 2.97
− 7.21 ± 0.94
− 8.83 ± 1.08
− 2.54 ± 0.73
227.56 ± 4.23
231.56 ± 3.55
226.45 ± 2.72
4.60 ± 1.38
4.24 ± 1.25
4.70 ± 1.12
Mooney
Upright
Inverted
Scrambled
110.03 ± 3.54
108.31 ± 3.86
109.10 ± 3.79
5.50 ± 0.63
6.03 ± 0.88
5.70 ± 0.71
177.66 ± 2.76
180.40 ± 3.23
179.49 ± 4.09
− 6.09 ± 0.90
− 5.52 ± 0.76
− 4.34 ± 0.79
234.89 ± 1.99
236.25 ± 4.34
234.02 ± 2.57
2.84 ± 1.07
3.00 ± 1.35
3.81 ± 1.07
Schematic
Upright
Inverted
Scrambled
105.71 ± 3.38
104.99 ± 3.46
107.87 ± 2.59
3.56 ± 0.58
4.53 ± 0.70
4.37 ± 0.61
163.92 ± 1.62
171.57 ± 2.07
168.54 ± 2.14
− 7.07 ± 0.83
− 6.74 ± 0.79
− 6.76 ± 0.82
226.50 ± 2.91
229.30 ± 3.04
227.39 ± 2.95
3.67 ± 1.11
3.19 ± 1.11
5.07 ± 1.15
inversion for the other two face types (p > 0.25) and (ii)
scrambled faces had smaller N170s for photographic
(p < 0.001) and Mooney (p ≤ 0.007) faces, but not schematic
faces (p > 0.89) (Fig. 3). In summary, N170 was larger for face
stimuli than non-face stimuli except for schematic faces and
the N170 amplitude inversion effect was unique to photographic faces.
P2, which is proposed to reflect deeper processing engaged
to help categorize ambiguous stimuli (Latinus and Taylor,
2005), was delayed for inverted faces compared to upright
faces and non face stimuli (F2,26 = 4.36, p = 0.024). P2 was also
delayed for Mooney faces compared to both other face types
(F2,26 = 5.96, p = 0.013). These effects were driven by the N170
latency delay, as peak to peak analyses (N170 to P2 latency)
were not significant. A general effect of face type was seen on
P2 amplitude (F2,26 = 8.96, p = 0.002) due to P2 being larger for
photographic than for Mooney faces; P2 amplitude for schematic faces was between that to photographic and Mooney
faces. P2 was sensitive to subtype as it was larger to scrambled
stimuli compared to faces (F2,26 = 8.15, p = 0.007).
Segmentation and source analyses were completed on
grand averaged ERPs for each face type by orientation (i.e. 6
conditions). Segmentation analyses determine time points
when ERP topography changes (Michel et al., 1999); source
analyses were performed on the relevant segments (Michel et
al., 2004) corresponding to the three peaks of interest.
Segmentation analyses revealed that 4 maps were sufficient
to explain differences among the six conditions. The topographic maps for P1 and N170 (map 1 and 4 respectively),
remained constant across the six conditions (Fig. 4a). Inverse
solutions were applied to these maps and brain sources are
illustrated (Fig. 4b). P1 showed bilateral medial distribution in
occipital and temporal regions; N170 showed activation of
both occipital and lateral temporal sources, with right hemisphere dominance for the ventral source. Brain topography
underlying P2 was the same to upright and inverted photographic faces (map 2), but the P2 for both Mooney faces and
schematic faces yielded a different map (map 3) (Fig. 4a), that
showed primarily left posterior activation in contrast to the
bilateral activation to photographic faces along the ventral
pathway. Thus, these analyses suggest that P2 to schematic
and Mooney faces arose from different brain areas than the P2
to photographic faces. The latter appeared to be a reactivation
of the ventral pathway active for the P1 and N170, implying
involvement of fewer brain regions in early processing of
photographic faces.
3.
Discussion
The manipulations of inversion and scrambling faces produced the classic effects of longer RTs and decreased
accuracy consistent with increased difficulty, across the
three face types. The effect of inversion was particularly
marked for Mooney faces, as reported in studies with these
two-tone stimuli (George et al., 2005; Jeffreys, 1993; Latinus
and Taylor, 2005). The present study also found a distinct
pattern of amplitude and latency effects on N170 for the three
types of faces. N170 was larger for face stimuli compared to
non-face (photographic and Mooney) stimuli concordant with
a host of studies showing that N170 reflects face processing.
This was not seen for schematic faces, which can be
accounted for by a context effect. It has been shown by
Bentin and Golland (2002) that scrambled schematic faces
evoke a large N170 during a face detection paradigm, but only
when they have been primed by non-scrambled versions
(Bentin and Golland, 2002).
Interestingly, the largest N170 amplitude differences
between face and non-face stimuli appear in paradigms
where attention is not directed towards the faces. When the
subject's task is face recognition or detection, the N170 to all
stimuli is larger whether they are faces or not (e.g. George et
al., 2005) as is the case in the present study. N170 latency was
the same for upright photographic and schematic faces, but
delayed for Mooney faces. Face inversion increased N170
latency only for photographic and schematic faces. N170
amplitude was smaller for Mooney faces compared to both
other face types; the N170 enhancement to inversion was seen
only for photographic faces. The model of Maurer et al. (2002)
proposes three separable levels for face processing (Maurer et
al., 2002). By directly comparing across different face types
with configural modifications, the present data argue that
BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –1 87
Fig. 3 – Grand average ERPs for each face type and formats.
( ) upright, ( ) inverted, ( ) and scrambled versions.
(a) N170 for photographic faces, (b) N170 for Mooney faces and
(c) N170 for schematic faces.
N170 is sensitive to these levels of face processing, plus a
further analytical process when faces are inverted.
Photographic and schematic upright faces initially engage
first-order relations processing, followed by holistic processing. In contrast, the first processing that would be reliably
invoked by Mooney faces is holistic (Latinus and Taylor, 2005);
Mooney faces often do not have identifiable features (two
eyes, over nose, over mouth) and are seen as a whole or gestalt
image. The delayed N170 observed for Mooney faces, compared to both other face types, was accounted for by increased
task difficulty, as when N170 latency was corrected for
difficulty – indexed by d′ – no differences were seen among
183
Mooney, schematic and photographic faces. Thus, the first
effect seen on N170 is the almost simultaneous recruitment of
first-order relations and holistic processing; recruitment of
the latter is modulated by difficulty. Mooney faces evoke a
smaller N170 as they recruit only holistic processing whereas,
holistic and first-order relations appeared additive for schematic and photographic faces leading to a larger N170 (see
model, Fig. 5a).
The face inversion effect on N170 differed across face types
as when inverted, schematic and photographic faces produced
delayed N170s, an effect not seen for Mooney faces. This
inversion effect on N170 latency remained even after correction for task difficulty. Hence, the N170 delay for inverted faces
does not appear to be due to difficulty as has been suggested in
the literature (George et al., 1996; Rossion et al., 1999). Instead
we suggest that the latency shift with inversion is due to a
further process being recruited or engaged by photographic
and schematic faces when these faces were upside down
(Sagiv and Bentin, 2001). We submit that analytic processing,
i.e. extraction of detailed information, which is invoked for
feature by feature analysis of stimuli within the context of
facial configuration, is the further process recruited by
photographic and schematic faces. Analytical processing is
used for objects (Haxby et al., 1999), which also show a delayed
N170 compared to faces (Itier and Taylor, 2004; Itier et al.,
2006). Thus, the involvement of additional analytic processing
for inverted photographic and schematic faces, which entails
slower, serial analysis of faces, would produce the delayed
N170s (Fig. 5b).
In contrast, Mooney faces would not typically engage
analytic processing as features are not readily distinguishable
in this face type. Whether upright or inverted Mooney faces
engage holistic processing; this could explain the latency
being the same for these faces despite orientation.
Photographic and schematic faces evoked a similar N170
when upright; however, the face inversion effect differed
between these two face types, as only photographic faces
showed an amplitude enhancement when inverted. The same
N170 for upright photographic and schematic faces could
suggest that second-order relations are not processed at the
N170 stage, as this processing is argued to be recruited only for
photographs (Sagiv and Bentin, 2001). This would be consistent with studies showing that N170 is not sensitive to
familiarity (Eimer, 2000a,b; Rossion et al., 1999) which requires
second-order configuration processing.
Differences in N170 amplitude when schematic and
photographic faces were inverted could be due to the way
they use analytic processing. Inverted photographic faces
would engage additional analytical processing to aid in face
identification, producing the larger N170. In contrast, inverted
schematic faces would recruit analytic processing to improve
face detection not face identification, leading to a delayed but
not enhanced N170 (Sagiv and Bentin, 2001). This is also
supported by behavioural results as inversion reduced accuracy somewhat and increased RTs for photographic and
schematic faces, whereas for Mooney faces dramatic effects
were seen on accuracy and RTs, as only holistic processing is
not sufficient for face detection of these inverted faces.
An alternative explanation for the face inversion effect on
the N170 is that second-order configural processing is evoked
184
BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –18 7
Fig. 4 – Segmentation and source analyses on grand averages for upright and inverted version of each face type. (a)
Segmentation analysis: GFP function over time (0–300 ms). Note that the 4 maps that are sufficient to explain all of the data in
this time window, correspond to time intervals around each peak measured. (b) Source analysis on the different segments
underlying P1 (z = − 4 mm), N170 (z = − 2 mm) and P2 (for Mooney and schematic faces: z = − 10 mm and for photographic faces
(z = − 4 mm), showing the brain areas activated for these processing stages; only P2 shows a face-type effect.
for upright faces automatically, whether photographic, schematic or Mooney. When inversion disrupts this processing, no
further configural processing continues for the schematic
faces, as they do not contain identity information (Sagiv and
Bentin, 2001), nor for the Mooney faces, as recognizing identity
in inverted Mooney faces was not possible in the present task.
With this model, N170 would index the spatial/relational
configural processing of faces (Bentin et al., 1996; Eimer, 1998;
Itier and Taylor, 2004). For inverted photographic faces only,
analytical processing would be superimposed on the three
standard stages of face processing, the addition of which
would yield the larger, later N170 peak.
Source analyses showed that regardless of the face type or
orientation, the same brain areas seemed activated for N170.
In other words, although one can differentiate the stages of
face processing with N170 latency and amplitude patterns,
these stages nevertheless appear to engage the same neural
generators. In contrast, neural mechanisms underlying P2,
proposed to reflect deeper processing of stimuli, showed face
type differences in localisation. P2 was larger to scrambled
faces than upright and inverted faces, in accordance with
previous results with Mooney faces (Latinus and Taylor, 2005).
The P2 showed a bilateral reactivation of the ventral visual
pathway for photographic faces but activation in the left
occipito-temporal brain regions for Mooney and schematic
faces. These data suggest that P2 reflects a left-lateralised,
thus perhaps more analytical re-processing of the primary
visual features for these simplified or impoverished face
stimuli, whereas continued configural processing was seen
for photographic faces, likely to facilitate identification
(Caharel et al., 2002). It may be this activation associated
with P2, which differs for the atypical faces, that has led to the
suggestion in the fMRI literature of differing sources for
configurally different faces (Haxby et al., 1999). As fMRI is
BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –1 87
185
Fig. 5 – A model for face processing: in light grey, photographic faces; dark grey: schematic (smiley) faces and in black, Mooney
faces. (a) Model for upright faces. According to Bruce and Young (1986) face processing starts by general low-level features
analysis that may correspond to P1 in ERPs, followed by face structural analysis leading to face detection (Bruce and Young,
1986). Second-order processing builds on the first two stages and enables face recognition. We suggest that face detection is
based on first-order relational configuration, leading to holistic processing. As photographic and schematic faces have
distinguishable features they engage first-order configuration then holistic processes, face detection following holistic
processing. This may explain that N170 amplitude was similar for these two face types. In some conditions, holistic processing
could be the first step of face processing, as in the case of Mooney faces, as features are difficult to distinguish. Mooney
faces enter the model at the level of holistic processing leading to a slightly delayed and smaller N170. Photographic faces
automatically recruit second-order configural processing for face identification. Recruitment of second-order processing and
face recognition units may be task dependent for unusual face stimuli. Second-order information is available in schematic faces
but not processed as they do not contain physiognomic information and there was no task requirement for recognition.
In the same vein, identity can be processed in Mooney faces in some circumstances (Jemel et al., 2003) but this was not the case
for the present task (dashed arrows). (b) Model for inverted faces. As for upright faces, inverted face analysis starts with
low-level features processing and proceeds through the three stages. For photographic and schematic faces, inversion disrupts
face configuration, leading to a delayed N170 due to recruitment of analytic processing, as available. Analytic processing is
less implicated for schematic faces: delayed but not enhanced N170 (as shown by a thin arrow). Photographic faces recruit
analytic processing for face recognition leading to the enhanced N170, as observed. Inverted Mooney faces engage only holistic
processing but this is often inadequate to recognize the stimulus, as a face as seen by the frequent failure.
averaged across time, then for the photographic faces the
activation at the N170 and reactivation of the same areas at
the P2 latency would be seen as a single area of activation on
fMRI. With the schematic and Mooney faces, wider brain
regions would appear active on fMRI.
4.
amplitude and latency patterns of the N170 as a function of
the type of face and its orientation. This temporal–spatial
separation would be obscured by fMRI. We also show that
different face-related processes engage the same brain
sources for the P1 and N170 activation, but varied with face
type for the later P2. Finally, we suggest that difficulty does not
account for the neurophysiological face inversion effect.
Conclusions
The present study demonstrates that the ERP component
sensitive to faces (N170) reflects different levels of processing,
effectively representing the sum of up to four processing
stages, with their temporal incongruities yielding the distinct
5.
Experimental procedures
Fifteen young adults (6 men, mean age = 25.8 years) participated
in the study. All had normal or corrected-to-normal vision;
186
BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –18 7
three were left-handed. They reported taking no medication
and had no history of neurological, ophthalmological or
systemic disease. They gave informed written consent. The
experiment was approved by the French Comité Opérationnel
pour l'Ethique dans les Sciences de la Vie du CNRS.
Stimuli used in the experiment were grayscale photographic faces, schematic faces and Mooney faces as well as
scrambled, non-face stimuli made from the three types of
faces. Non-faces were scrambled versions of the upright faces:
for Mooney faces, black-and-white patches of the images were
moved to create nonsense stimuli; for schematic faces,
patches that contained parts of the features were moved and
the outlined broken; for photographic faces, square patches
were randomly moved in the pictures using a Photoshop
option. These different face types were presented in upright,
inverted or scrambled format. There were 45 different pictures
of these nine categories and, to prevent a repetition effect, no
pictures were presented both upright and inverted (see Fig. 1,
upright, inverted and scrambled faces).
Subjects sat in a darkened room in a comfortable chair.
Stimuli were presented centrally on a grey screen 60 cm in
front of the subjects. The stimuli subtended 10 × 11° of visual
angle: they were presented for 300 ms in random order using
Presentation 6.0, with an ISI between 1200 and 1600 ms.
Subjects fixated a small white cross that appeared centrally
on the screen between the pictures. They performed a face
versus non-face detection task; they pressed a keyboard key
for faces with one hand and another key for non-face stimuli
with the other hand. The hand used for faces was counterbalanced across subjects. Five blocks of 81 randomly ordered
stimuli (9 of each category) were presented in random order.
Short breaks were given to subjects between blocks.
Accuracy and reaction times were recorded using Presentation 6.0. Electrophysiological data were recorded using 32
electrodes inserted in a cap (Easy Cap) plus three ocular
electrodes to record eyes movements. The electrodes were
placed according to the 10/10 system. FCz was the reference
during acquisition, and an average reference montage was
calculated off-line. The ground was located at Fpz. Impedances were kept under 5kΩ. EEG was recorded using Neuroscan 4.2, the signal was amplified using Synamps system with a
500 gain. Data were recorded with a frequency of 1000 Hz
through a band pass of 0.1–100 Hz with a notch at 50 Hz.
Continuous data files were epoched into 800 ms (100 ms prestimulus, 700 ms post) epochs. After baseline correction, trials
with artifacts between − 100 and 500 ms, ± 100 μV were
rejected. Epochs were then averaged as a function of stimulus
subtype and response, i.e. only the trials with correct
behavioural responses were included, and filtered at 0.1–30 Hz.
We measured latencies (from stimuli onset) and amplitude
(from baseline) of three ERP components (P1, N170 and P2) over
parieto-occipito-temporal sites where they were maximal.
Peak analyses were performed on individual data for each
condition, within a 30 ms time-window centered at the peak in
the appropriate grand average. P1 was measured at electrodes
P7/P8 and O1/O2 in a 80–130 ms time-window, N170 was
measured at electrodes PO9/PO10 and P7/P8, in a 140–200 ms
time-window and P2 was measured between 200 and 260 ms
at P7/P8, O1/O2 and P3/P4 electrodes. The peak latencies and
amplitudes were submitted to repeated measures analysis of
variance, within subjects factors were face format (3 levels
(upright, inverted, scrambled) and face type (3 levels, photographic, Mooney, schematic), as well as hemisphere and
electrode (2 levels for P1 and N170, 3 levels for P2) for peak
amplitudes (Picton et al., 2000).
To investigate brain sources involved in the different
stages of face processing we performed a segmentation
analysis of the scalp activity into microstates preliminary to
source analysis using Cartool software (Denis Brunet, Functional Brain Mapping Laboratory, Geneva, Switzerland). Functional microstates reflect stable configurations or maps of
scalp electromagnetic activity over time intervals; variations
in signal stability are seen as changes in map configuration.
Segmentation is a spatio-temporal cluster-analysis that
determines the predominant configuration over time. The
cluster analysis defines the optimal numbers of maps that
describe the data (Michel et al., 2001). Segmentation maps are
represented in the global field power (GFP, equivalent to the
instantaneous standard deviation of the scalp potential
measurement) over the time period of interest, here between
0 and 300 ms (Fig. 4a). Source analyses were completed on the
appropriate segments using a distributed inverse solution
(LAURA) (Michel et al., 2001).
Acknowledgments
The first author was supported by La Fondation pour la
recherche médicale. We would like to thank Shlomo Bentin for
sharing his schematic face stimuli.
REFERENCES
Bentin, S., Golland, Y., 2002. Meaningful processing of meaningless
stimuli: the influence of perceptual experience on early visual
processing of faces. Cognition 86, B1–B14.
Bentin, S., Allison, T., Puce, A., Perez, E., Mccarthy, G., 1996.
Electrophysiological studies of face perception in humans.
J. Cogn. Neurosci. 8, 551–565.
Bruce, V., Young, A., 1986. Understanding face recognition.
Br. J. Psychol. 77 (Pt. 3), 305–327.
Caharel, S., Poiroux, S., Bernard, C., Thibaut, F., Lalonde, R.,
Rebai, M., 2002. ERPs associated with familiarity and degree of
familiarity during face recognition. Int. J. Neurosci. 112,
1499–1512.
Eimer, M., 1998. Does the face-specific N170 component reflect the
activity of a specialized eye processor? NeuroReport 9,
2945–2948.
Eimer, M., 2000a. The face-specific N170 component reflects late
stages in the structural encoding of faces. NeuroReport 11,
2319–2324.
Eimer, M., 2000b. Event-related brain potentials distinguish
processing stages involved in face perception and recognition.
Clin. Neurophysiol. 111, 694–705.
George, N., Evans, J., Fiori, N., Davidoff, J., Renault, B., 1996.
Brain events related to normal and moderately scrambled
faces. Cogn. Brain Res. 4, 65–76.
George, N., Jemel, B., Fiori, N., Renault, B., 1997. Face and shape
repetitions effects in humans: a spatio-temporal ERP study.
NeuroReport 8, 1417–1423.
George, N., Jemel, B., Fiori, N., Chaby, L., Renault, B., 2005.
Electrophysiological correlates of facial decision: insights from
BR A I N R ES E A RC H 1 1 2 3 ( 2 00 6 ) 1 7 9 –1 87
upright and upside-down Mooney-face perception. Brain Res.
Cogn. Brain Res. 24, 663–673.
Haxby, J.V., Ungerleider, L.G., Clark, V.P., Schouten, J.L.,
Hoffman, E.A., Martin, A., 1999. The effect of face inversion on
activity in human neural systems for face and object
perception. Neuron 22, 189–199.
Henderson, R.M., McCulloch, D.L., Herbert, A.M., 2003.
Event-related potentials (ERPs) to schematic faces in adults
and children. Int. J. Psychophysiol. 51, 59–67.
Itier, R.J., Taylor, M.J., 2002. Inversion and contrast polarity reversal
affect both encoding and recognition processes of unfamiliar
faces: a repetition study using ERPs. NeuroImage 15, 353–372.
Itier, R.J., Taylor, M.J., 2004. N170 or N1? Spatiotemporal differences between object and face processing using ERPs. Cereb.
Cortex 14, 132–142.
Itier, R.J., Latinus, M., Taylor, M.J., 2006. Face, eye and object early
processing: what is the face specificity? NeuroImage 29,
667–676.
Jeffreys, D.A., 1993. The influence of stimulus orientation on the
vertex positive scalp potential evoked by faces. Exp. Brain Res.
96, 163–172.
Jemel, B., Pisani, M., Calabria, M., Crommelinck, M., Bruyer, R.,
2003. Is the N170 for faces cognitively penetrable? Evidence
from repetition priming of Mooney faces of familiar and
unfamiliar persons. Brain Res. Cogn. Brain Res. 17, 431–446.
Kanwisher, N., Tong, F., Nakayama, K., 1998. The effect of face
inversion on the human fusiform face area. Cognition 68,
B1–B11.
Latinus, M., Taylor, M.J., 2005. Holistic processing of faces; learning
effects with Mooney faces. J. Cogn. Neurosci. 17, 1316–1327.
Maurer, D., Grand, R.L., Mondloch, C.J., 2002. The many faces of
configural processing. Trends Cogn. Sci. 6, 255–260.
Michel, C.M., Seeck, M., Landis, T., 1999. Spatiotemporal dynamics
of human cognition. News Physiol. Sci. 14, 206–214.
Michel, C.M., Thut, G., Morand, S., Khateb, A., Pegna, A.J.,
187
Grave de Peralta, R., Gonzalez, S., Seeck, M., Landis, T., 2001.
Electric source imaging of human brain functions. Brain Res.
Brain Res. Rev. 36, 108–118.
Michel, C.M., Murray, M.M., Lantz, G., Gonzalez, S., Spinelli, L.,
Grave de Peralta, R., 2004. EEG source imaging.
Clin. Neurophysiol. 115, 2195–2222.
Mooney, C.M., 1957. Age in the development of closure ability in
children. Can. J. Psychol. 11, 219–226.
Moscovitch, M., Winocur, G., Behrmann, M., 1997. What is special
about face recognition? Nineteen experiments on a person
with visual agnosia and dyslexia but normal face recognition.
J. Cogn. Neurosci. 9, 555–604.
Picton, T.W., Bentin, S., Berg, P., Donchin, E., Hillyard, S.A., Johnson
Jr., R., Miller, G.A., Ritter, W., Ruchkin, D.S., Rugg, M.D., Taylor,
M.J., 2000. Guidelines for using human event-related potentials
to study cognition: recording standards and publication
criteria. Psychophysiology 37, 127–152.
Rossion, B., Delvenne, J.F., Debatisse, D., Goffaux, V., Bruyer, R.,
Crommelinck, M., Guerit, J.M., 1999. Spatio-temporal
localization of the face inversion effect: an event-related
potentials study. Biol. Psychol. 50, 173–189.
Rossion, B., Gauthier, I., Tarr, M.J., Despland, P., Bruyer, R., Linotte,
S., Crommelinck, M., 2000. The N170 occipito-temporal
component is delayed and enhanced to inverted faces but not
to inverted objects: an electrophysiological account of
face-specific processes in the human brain. NeuroReport 11,
69–74.
Sagiv, N., Bentin, S., 2001. Structural encoding of human and
schematic faces: holistic and part-based processes. J. Cogn.
Neurosci. 13, 937–951.
Taylor, M.J., Edmonds, G.E., McCarthy, G., Allison, T., 2001. Eyes
first! Eye processing develops before face processing in
children. NeuroReport 12, 1671–1676.
Yin, R.K., 1969. Looking at upside-down faces. J. Exp. Psychol. 81,
141–145.
114
3.4. Discrimination du genre
Après avoir exploré les corrélats neuronaux des traitements du visage, nous nous
sommes intéressées à un niveau inférieur de catégorisation des visages : la catégorisation du
genre. Les données de cette expérience sont présentées dans un article inclus dans la
deuxième partie de ma thèse (partie 2, A.3), article dans lequel se trouvent également deux
expériences sur la catégorisation du genre de la voix.
Objectifs & Méthodes
Le modèle de Bruce & Young (1986) propose que la reconnaissance du genre soit
parallèle à la reconnaissance de l’identité, et qu’elle ait lieu au moment de l’encodage
structurel, tout en étant indépendante de celui-ci. Le genre du visage dépend essentiellement
d’informations de bas niveau telles que la texture, la forme du visage. Nous avons utilisé des
photographies de visages en niveaux de gris. Les sujets réalisaient une catégorisation du
genre. L’activité électrique était enregistrée pendant l’expérience, et les pics ainsi que les
topographies ont été analysés.
Résultats & Conclusions
Au niveau comportemental, les résultats montrent que cette tâche est réalisée
facilement et rapidement. Ni la P1 ni la N170 ne sont affectées par le genre du visage. Les
différences entre visages d’hommes et visages de femmes ne sont significatives que sur les
électrodes fronto-temporales gauches et pariétales entre 137 et 170 ms. Les visages d’hommes
évoquent une activité plus diffuse que les visages de femmes.
L’absence de modulation de la P1 peut traduire 1) une sensibilité de la P1 à des
éléments bas niveau tels que le contraste, la luminance, 2) un masquage du traitement des
éléments de bas niveau par les processus descendants, l’attention étant explicitement dirigée
vers le genre du visage (Batty et al., 2003; Holmes et al., 2003).
Ces résultats confirment que la N170 reflète l’étape d’encodage structurel du visage,
précédant son identification. Ils mettent également en évidence que le traitement du genre a
lieu en parallèle de celui de l’identité, et prend place au même moment que la détection du
visage. Ceci est en accord avec des études montrant, au niveau comportemental, une détection
simultanée du visage et du genre (Bacon-Macé, 2006).
115
116
3.5. Identification du visage
Objectifs et Méthodes
Dans cette étude, nous avons exploré les corrélats neuronaux de la reconnaissance des
visages, particulièrement sur la N170, dont la sensibilité à l’identité du visage est
controversée. Deux types de familiarité ont été étudiés. Dans un premier bloc (Bloc Célèbre),
les visages familiers étaient ceux de personnalités (visage de star, politicien etc.) – familiarité
acquise écologiquement suite à des présentations variées et répétées du visage ; des visages
inconnus appariés servaient de contrôle. Dans un deuxième bloc (Bloc Appris), les visages
familiers étaient des visages appris artificiellement – des photographies de visage en vue de
face étaient données aux sujets une semaine avant l’enregistrement des potentiels évoqués, les
sujets avaient pour consigne de se souvenir des visages ; des visages non familiers appariés
servaient de contrôle. Tous ces visages étaient présentés à l’envers et à l’endroit afin de
distinguer le rôle des traitements configuraux dans la reconnaissance du visage.
Résultats & Conclusions
Au niveau comportemental, les visages célèbres sont reconnus les plus rapidement.
L’effet d’inversion du visage, diminution des performances et augmentation des temps de
réaction, est observé pour tous les visages, il touche plus fortement la reconnaissance des
visages célèbres.
Dans le Bloc Célèbre, les visages connus évoquent une N170 plus petite que les
vissages inconnus. L’inversion augmente la latence et l’amplitude de la N170. Dans le Bloc
Appris, l’amplitude de la N170 ne discrimine pas entre les visages familiers (appris) ou non
familiers. L’effet d’inversion se traduit par une augmentation de l’amplitude de la N170, sans
augmentation de latence.
Ces résultats suggèrent que les visages de personnalités sont traités de manière
holistique. En effet, la N170 est plus petite pour les visages célèbres et leur inversion diminue
considérablement leur reconnaissance ; résultats similaires à ceux rapportés pour les Mooney
Faces. L’inversion entraîne le recrutement du traitement analytique pour faciliter
l’identification. Dans le bloc appris, l’absence de différence entre visages familiers et non
familiers suggère que la N170 n’est pas sensible à la familiarité, mais aux traitements mis en
jeu par les visages, qui sont probablement soumis à l’influence de processus descendants. Les
visages appris artificiellement sont probablement traités de manière plus analytique,
expliquant qu’il n’y ait pas d’augmentation de la N170 avec l’inversion du visage.
117
118
* Manuscript
Early processing differences between learned and famous faces.
Dimitri J. Baylea,b*, Marianne Latinus b, Thierry Deltheilb,c, Karl Bolherb, Margot J. Taylord
aINSERM Unité 821, Lyon, France.
bCerCo, UMR 5549, CNRS, Toulouse, France
cLaboratoire de Neuropharmacologie EA 3544 Univ Paris-Sud 92296 Châtenay-Malabry,
France
dDiagnostic Imaging, Research Institute, Hospital for Sick Children, Toronto, Canada
*Corresponding author:
Dimitri Bayle
INSERM Unité #821, Batiment 452
Centre hospitalier le Vinatier
95 Boulevard Pinel
69500 Bron, France
email: [email protected]
Tel : +33472138900
Fax : +33472138901
Bayle et al
2
ABSTRACT:
Face recognition is a core ability for social interaction, yet reliable neurophysiological
correlates of face familiarity have not been determined. Here we compared the effects of two
types of familiarity: recently-learned and well known (famous) faces. Subjects learned 40
otherwise unfamiliar faces over the period of one week prior to ERP testing. These faces
were presented intermixed with 40 new faces, in upright and inverted blocks of trials. A
second series of faces with the same paradigm consisted of 40 famous faces and 40 unknown
faces. ERPs were recorded during the tasks. As classically seen, inversion increased error
rates and reaction times. An effect of familiarity was found in the behaviour and the early
ERP components but only for famous faces. Famous faces were recognized faster than
unknown faces, and also yielded smaller N170 amplitudes and shorter P2 latencies than their
matched unknown faces. Thus, processing of famous faces differs from that of unknown as
well as recently learned faces. We suggest that face processing is modified with long-term
familiarity and results in a more holistic representation of faces.
Keywords: face processing, familiarity, event-related potentials, P1, N170, P2
2
Bayle et al
3
INTRODUCTION:
Many aspects of face processing have been studied over the last decades, with a particular
surge in neuroimaging investigations. Reports have shown behavioural and neural differences
between face and object perception, arguing for face specificity due to processes differing
between these two categories (Bentin, Allison, Puce, Perez, & McCarthy, 1996; Haxby et al.,
1999; Itier & Taylor, 2004a; Tanaka & Farah, 1993). In contrast to many other stimuli, faces
invoke configural processing which can be divided into three stages. Face detection implies
first-order relations (eyes above nose above mouth) that need to be processed initially, leading
to the second stage, holistic processing of the face. Finally, face identification involves
second-order relations processing, such as distance among features (Maurer, Grand, &
Mondloch, 2002). The involvement of these three stages of face processing differs however,
as a function of face type (photographic, schematic, or Mooney faces; (Latinus & Taylor,
2005; Sagiv & Bentin, 2001), configural disruption (inverted or negative faces compared to
upright faces (Farah, Tanaka, & Drain, 1995; Kemp, McManus, & Pigott, 1990; Rhodes,
Brake, & Atkinson, 1993; Yin, 1969) and context (Bruce, Dench, & Burton, 1993; Bruce &
Valentine, 1985; Ellis, Young, Flude, & Hay, 1987; Goshen-Gottstein & Ganel, 2000).
Event-related potentials (ERPs) are invaluable for the investigation of early stages of
processing due to their excellent temporal resolution. Faces evoke a posterior triphasic ERP;
the negative peak at 170ms (N170) is particularly face sensitive (Bentin et al., 1996; Botzel,
Schulze, & Stodieck, 1995; George, Evans, Fiori, Davidoff, & Renault, 1996), being smaller
or absent to non-face stimuli. Perturbation in face stimuli or the use of different face types that
affect processing are reflected in the N170 (Bentin et al., 1996; Eimer, 2000b; Taylor, Itier,
Allison, & Edmonds, 2001). For example, N170 to inverted faces has increased amplitude
and latency, due to the disturbance of configural face information and the recruitment of
3
Bayle et al
4
analytic processing (Latinus, 2006; Leder, Candrian, Huber, & Bruce, 2001; Rhodes et al.,
1993; Sagiv & Bentin, 2001).
The first peak of the triphasic ERP, P1, is largest over occipito-temporal brain regions. P1
is sensitive to configural changes of faces (Halit, de Haan, & Johnson, 2000; Itier & Taylor,
2004b; Linkenkaer-Hansen et al., 1998), although other studies have found a P1 sensitivity
only in low-level features (Rossion, Delvenne et al., 1999). It appears that P1 reflects an early
automatic processing of faces, and that attention to the faces can perturb this effect (Holmes,
Vuilleumier, & Eimer, 2003), producing the discrepant results in the literature. The third
component, P2, has been less studied, but is suggested to reflect deeper processing of face
stimuli, related to processing facial identity or to the difficulty of identification (Halit et al.,
2000; Latinus & Taylor, 2005), and is also sensitive to configural manipulation (Boutsen,
Humphreys, Praamstra, & Warbrick, 2006; Halit et al., 2000; Itier & Taylor, 2002).
Although N170 and P1 are variously affected by to disruptions of stimuli such as
inversion or contrast (Eimer, 2000a; Itier & Taylor, 2002), the sensitivity of these early ERPs
to familiarity and recognition remains controversial, as studies provide inconsistent results,
likely due to the variability in recognition paradigms. For investigations of familiarity
processing, studies have relied on two quite different types of protocols.
One group of protocols has addressed familiarity using learned faces, which requires the
learning previously unknown faces. For example, Paller et al. (1999) presented 40 unknown
faces of which 20 were to be memorized. They reported a more positive late ERP for
remembered faces between 300 and 900 ms. This difference was localized frontally between
300 and 600 ms, and parieto-occipitally between 600 and 900 ms. The same authors reported
a maximum enhancement of positivity for learned faces compared to new faces between 400
and 500 ms, in the left parietal region (Paller et al., 2003). Using learned faces, Rossion et al
(1999) found an effect of familiarity on a central N2 component (230ms; the polarity inversed
4
Bayle et al
5
aspect of the P2), but this was not specific to faces, as it was also reported with visual pattern
stimuli.
The second group of studies on familiarity has used photographs of famous people. Eimer
(2000a) and Bentin and Deouell (2000) found an effect on the N400 and P600 components,
which were enhanced to familiar faces. They argued that the N170 is insensitive to familiarity
because it reflects the structural encoding processes prior to face identification. However,
other studies have shown that the N170 can be modified by familiarity. Caharel et al. (2002)
compared ERPs to an unfamiliar face, famous face and one’s own face in a passive viewing
experiment. For the two familiar faces (own face and famous face), an increase in the N170
amplitude and a decrease of P2 were observed. The decrease of P2 amplitude was greater for
the subject’s own face than for a famous face. Thus, modifications induced by familiarity
were dependent on the level of familiarity. In a repetition paradigm, Jemel et al. (2003),
primed Mooney faces with photographs in four different conditions (same picture or not,
famous face or unfamiliar face). The N170 amplitude to the Mooney faces was reduced only
if it was a primed famous face. They concluded that the early perceptual stage of face
processing represented by the N170 is affected by familiarity. However, Mooney faces are
difficult to process except holistically. That these stimuli are sensitive to familiarity implies
that holistic information is sufficient for identification of famous faces.
As the above results differ as a function of the face stimuli used, the timing of face
identification is not resolved. Familiarity is studied across two types of faces: either learned
faces or famous faces, and typically authors use only one of the two types of faces to arrive at
general conclusions on the effect of familiarity. Although both categories of faces have
shown long latency effects, early effects are seen only with famous faces. The fact that the
findings differ between learned and famous implies different processing. The ease of face
recognition for famous faces is due to repeated presentations of a face, usually in various
5
Bayle et al
6
contexts with various view-points and with associated semantic information. Thus, it is
important to differentiate this from newly learned faces that are acquired in an experiment, in
shorter, non-ecologically valid setting and often without the usual semantic associations.
An fMRI study compared the brain activation to learned faces and famous faces, and
showed that the faces activate different brain regions probably due to greater involvement of
memory processing for the famous faces (Leveroni et al., 2000). However, this study did not
permit timing measures of the processing difference between famous and learned faces. We
wanted to determine the neurophysiological correlates associated with these two recognition
processes, using ERPs that are sensitive to face processing. As suggested in studies using
Mooney faces (Jemel et al., 2003), we hypothesized that famous faces are well enough
encoded in memory that holistic processing would be sufficient for identity recognition. If
this is the case, N170 to famous faces would be smaller than to unfamiliar faces, as for
Mooney faces compared to normal photographs (Latinus & Taylor, 2005). The inversion
effect could either be the same as for Mooney faces (i.e. a smaller N170 – Latinus and Taylor,
2005) associated with a decreased in recognition of inverted famous faces or later and larger
N170 as, contrarily to Mooney faces, featural and analytic processing could be involved with
famous faces. In contrast, learned faces would be encoded with strategies that would likely
engage all three configural processing described by Maurer et al. (2002) and analytical
processing when inverted.
We compare the ERPs associated with these two recognition processes, using learned and
famous faces presented upright and inverted in a known/unknown paradigm. The use of
inverted face stimuli increases difficulty, which should amplify processing differences
between the two categories of faces to better differentiate the processes used for face
identification.
6
Bayle et al
7
METHODS:
Subjects
Sixteen healthy young adults (8 females, mean age 23.4 years) participated in the study.
All had normal or corrected to normal vision, and gave informed, written consent. The
institutional (CNRS) ethics committee approved the procedure.
One week prior to the ERP recording session, the subjects received a set of 40 faces that
they were asked to study for 15 minutes each day; all reported being diligent in completing
this daily studying.
Stimuli and procedure
Stimuli were greyscale photographic faces. There were two sets of stimuli: the first was a
set of 80 pictures of unknown faces (40 of which were studied during the week before
testing). The second set included 40 famous faces (singers, actors, politicians) and 40
unfamiliar faces. As the famous faces were often ¾ view, the unfamiliar faces in this set were
matched for view. Thus, there were four groups of faces: faces learned by the subjects (the 40
given the week before), and their matched unknown faces, and the famous faces and their
matched unknown faces (Fig. 1 – first row). Each category contained 40 items (20 males/20
females), yielding two blocks of trials of 80 faces in random order. The 2 blocks were also
run with the faces inverted, in a different random order; whether the first pair of blocks was
upright or inverted was balanced across subjects. As photographs were different in the
blocks, we analyze the luminance between the unknown and their matched famous or learned
faces. The average luminance of the faces between the famous and learned and their matched
controls faces did not differ significantly, although there was more variability in the face
position in famous block (Error! Reference source not found. – second row).
7
Bayle et al
8
Pictures were presented in the centre of a black screen 80 cm in front of the subject;
pictures subtended a visual angle of 7.5 x 8.8°. The two tasks were to discriminate known
from unknown faces for both learned and famous blocks, whether presented upright or
inverted. Subjects responded 'yes' to known (recognised) and 'n o' to unknown faces by
pressing a right or left Ctrl key on the computer keyboard; the attribution of the response key
was randomised across subjects.
Pictures were presented for 300ms in random order, with an ISI varied between 1200 and
1600 ms using Presentation software. Behavioural data (RTs and hits) were recorded with
Presentation.
ERP recording
ERPs were recorded using a 35 electrode cap (EasyCap, 10/10 system) including three
ocular electrodes (at the outer canthi and on the left supra orbital ridge). During recording,
electrodes were referenced to Cz; an average reference was calculated off-line. Impedance
was kept under 5kΩ. Acquisition was at a rate of 1000 Hz rate using NeuroScan 4.2;
amplification was with SynAmps with a gain of 500. During the acquisition EEG was filtered
between 0.1 and 100 Hz including a notch filter at 50 Hz.
Continuous EEG was epoched: -100 to 700 ms, with stimulus onset at time 0. Epochs
containing artefacts (±100 µV, between –100 and 400ms) or incorrect behavioural responses
were rejected, and averages were digitally filtered (0.1-30 Hz). Peak analyses were completed
on individual averages for each of the eight stimulus types. Latency was measured where the
peak was maximal for each hemisphere; amplitudes were taken at that latency at the other
electrodes, consistent with Picton et al. (2000). P1 and P2 were measured at P3/P4, O1/O2,
and P7/P8. N170 was measured at P7/P8, PO9/PO10, and TP9/TP10 electrodes.
8
Bayle et al
9
Data were analysed using repeated measures ANOVAs with Greenhouse-Geisser
corrections. Intra-subject factors were tested at 4 levels: orientation (2 levels), knowledge (2
levels), hemisphere (2 levels) and for analyses of amplitude, electrodes also (3 levels).
RESULTS:
Learned faces block
Behaviour
The recent learning of faces had no impact on behavioural data, as reaction times (RTs)
(F(1,12) = 3.76; n.s.) and accuracy (F(1,12) = 0.73; n.s.) were the same for learned faces and
unknown faces. There was a significant effect of orientation regardless of familiarity as RTs
to inverted faces were on average 57 ms longer (F(1,12) = 24.45; p < 0.001) and accuracy
reduced by 15% (F(1,12) = 31.55; p < 0.001).
P1
Neither learning nor orientation affected P1 latency. P1 amplitude was sensitive to
inversion at occipital electrodes (F(1,12) = 6.06; p < 0.05), as shown by an electrode x
orientation interaction (F2.24 = 7.77; p = 0.005) (Fig. 2). Learning had no effect on P1
amplitude.
N170
N170 latency was not affected by orientation or learning. N170 was larger over the right
hemisphere (F(1,12) = 6.28; p < 0.05) driven by inverted faces evoking a larger N170 (F(1,12)
= 33.07; p < 0.001) particularly in the right hemisphere (hemisphere x orientation: F(1,12) =
11.56; p = 0.005). An electrode x orientation interaction showed that the inversion effect on
amplitude was largest at P7/P8 (F2.24 = 8.43; p < 0.005).
9
Bayle et al
10
P2
No effects on amplitude or latency were observed on the P2 in this task.
Famous faces block
Behaviour
Knowing the face modulated behaviour, as famous faces were detected 56 ms faster than
unknown faces (F(1,12) = 16.33; p < 0.005). Face inversion affected behaviour as above, i.e.
increased RTs (F(1,12) = 8.45; p < 0.05) and decreased accuracy (F(1,12) = 68.01; p < 0.001).
This effect was greater for famous faces, as their accuracy decreased more by inversion
compared to unknown faces, shown by an orientation x face interaction (F(1,12) = 5.6; p <
0.05) (Fig. 3).
P1
P1 latency was not affected by familiarity or orientation. P1 amplitude was lower for
famous faces compared to their matched unknown faces (F(1,12) = 7.03; p < 0.05) (Table 1).
N170
N170 was delayed (F(1,12) = 9.89; p < 0.01) and larger (F(1,12) = 37.97; p < 0.001) for
inverted compared to upright faces regardless of familiarity. As found with learned faces,
face processing was right-lateralised, leading to an enhanced N170 (F(1,12) = 4.76; p = 0.5)
and a larger inversion effect (orientation x hemisphere: F(1,12) = 6.11; p < 0.05) over the
right hemisphere. For upright faces, the N170 latency was shorter for the famous faces
(F(1,12) = 9.23; p = 0.01) (Table 1). Another familiarity effect was found: the N170
amplitude was smaller to the famous faces than the unknown faces (F(1,12) = 10.49; p < 0.01)
(Fig. 4).
10
Bayle et al
11
P2
Famous faces evoked an earlier P2 than unknown faces (F(1,12) = 11.96; p < 0.01). P2
latency was longer for inverted faces (F(1,12) = 7.36; p < 0.05), but this effect was driven by
delayed N170 to inverted faces as the interpeak latency difference between N170 and P2 was
not significant. Neither orientation nor familiarity affected P2 amplitude.
Comparison learned /famous faces:
Behaviour
The effect of inversion, on RTs and accuracy was present in both blocks. The behavioural
results showed an effect of familiarity only for the famous faces, not for the learned faces.
Although there was an overall effect of recognition on RTs (F (1,12) = 14.01; p < 0.005), this
effect was only significant for the famous faces, which were categorised as known more
quickly than the learned faces or either set of unknown faces.
P1
P1 latency was shorter in the learned faces than the famous faces block (F(1,12) = 9.04; p
< 0.05). P1 latency increased with inversion but only for the learned faces set (Fig. 2). There
was an effect of familiarity on the P1 amplitude (F(1,12) = 4.92; p < 0.05), which interacted
with set of photographs as only famous faces yielded a smaller P1 compared to the unknown
faces (Table 1).
N170
The latency of N170 was shorter in the learned faces block (F(1,12) = 17.84; p = 0.001).
The peak to peak latency analysis between P1 and N170 did not show any significant
differences between the two blocks (F(1,12) = 0.04; p = 0.83) suggesting that the difference in
11
Bayle et al
12
latency observed at N170 was a result of the difference in P1. The amplitude of N170 was
significantly larger for the learned faces condition (F(1,12) = 7.46; p < 0.05).
For both sets of photographs the classic N170 effects were observed: face inversion
increased the amplitude (F(1,12) = 53.62; p < 0.001) and N170 amplitude was greater over the
right hemisphere (F(1,12) = 5.76; p < 0.05). There was also an interaction between these
factors (F(1,12) = 18.13; p=0.001), due to greater amplitude increase over the right
hemisphere following an inversion of the faces.
The effects of familiarity were observed only for the famous faces. The learned faces
produced the same N170 amplitude and latency as their matched unknown faces, while N170
to famous faces was smaller and appeared earlier than to their matched unknown faces (Fig. 4
and Table 1).
P2
Inversion delayed the P2 (F(1,12) = 6.47; p < 0.05). There was an interaction between the
block and familiarity (F(1,12) = 6.08; p < 0.05), as mentioned above, there was no effect of
familiarity on the learned faces (F(1,12) = 0.02; p = 0.88); however, shorter latencies were
seen for famous faces compared to their matched unknown faces (F(1,12) = 11.96; p < 0.01).
In summary, familiarity had a significant effect on behaviour and the ERPs but only with
famous faces. In contrast to the learned faces, famous faces were recognised more quickly
than their matched unknown faces, and inversion disrupted recognition more for the famous
faces than the learned faces. Famous faces evoked smaller P1 and N170, and an earlier P2
compared to their matched unknown faces, an effect not observed for learned faces.
Behaviourally, inverting a face led to a significant reduction in recognition and longer RTs.
The inversion effect on ERPs was a larger P1 in the learned faces block of trials, an enhanced
12
Bayle et al
13
N170 for both blocks whether the face was known or not. The usual N170 delay with
inversion was seen only in the famous faces block.
DISCUSSION:
These data demonstrate significant processing differences between two categories of
familiar faces, learned faces and famous faces, starting at 100ms. Both sets of faces were
easily recognised and accuracy did not vary between the sets, but ERPs suggested significant
differences in processing that can be linked to the encoding and depth of knowledge of the
faces.
The category of face affected behavioural responses; famous faces were recognised faster
than their matched unknown faces, an effect not seen with the learned faces. Others have
found that familiar faces are processed faster than unfamiliar faces (Herzmann,
Schweinberger, Sommer, & Jentzsch, 2004; Rossion, Campanella et al., 1999). However, we
saw this effect only for famous faces despite the learned faces also being familiar; clearly the
level of familiarity is important. In a recognition task with famous faces, Konstantinou and
Gardiner (2005) supported a dual process model with remembering being slower, more
controlled while knowing (as seen with very familiar faces) being faster and more automatic.
The time a face has been known and the multiple types of exposure of the person’s face over
time (e.g., different angles, poses and situations) underlies the level of familiarity. With this
model, the current data demonstrates the famous faces appear to be known while the learned
faces were remembered.
Inversion affected behavioural performance in both tasks: lower accuracy and longer RTs,
consistent with the classical report of Yin (1969). This inversion effect was greater, however,
for famous faces, suggesting greater disruption in the processing used for very well known
faces. As for Mooney faces, inversion dramatically decreased accuracy of recognising famous
13
Bayle et al
14
face due to disruption of the processing (George et al., 1996), probably holistic processing
(Latinus & Taylor, 2005).
There was a familiarity effect on P1 in the famous block; it was smaller to famous than to
unknown faces. Low-level features may have contributed to this effect, as these stimuli were
more heterogeneous than in the learned faces block (Fig.1 bottom panels), which can explain
the shorter P1 latency for learned faces. However, as P1 indexes largely holistic, automatic
processing, this would argue that holistic face processing was more implicated for the famous
faces. In contrast, in the learned face block inversion enhanced P1 but there was no difference
between known and unknown faces. This is consistent with other face processing studies
showing an inversion effect at P1 (Itier & Taylor, 2002, 2004a; Linkenkaer-Hansen et al.,
1998; Taylor, Edmonds, McCarthy, & Allison, 2001), for unknown faces or in recognition
tasks. However, others have failed to show face sensitivity on P1. For example, Rossion et
al. (1999) found no inversion effect on P1 using drawings of faces, which although realistic,
did not have all the physical characteristic of a photograph of a face. Latinus and Taylor
(2006), using three different face types (Mooney, schematic and photographic faces) in a face
detection paradigm did not observe a P1 face inversion effect. Thus, P1 sensitivity to face
inversion seems dependant on experimental protocols, being most apparent in implicit
processing tasks.
The typical inversion effect on N170, a delayed and enhanced peak (Bentin et al., 1996;
Itier & Taylor, 2002; Rossion, Delvenne et al., 1999; Rossion et al., 2000), was seen only in
the famous faces task, regardless of face familiarity. The inversion effect on the N170 has
been described to reflect the recruitment of analytical processing by inverted faces to aid in
further identification processing (Latinus and Taylor 2006; Sagiv & Bentin, 2001). The
addition of analytic processing would lead to a larger, later N170 when identification was
14
Bayle et al
15
integral to the task. Schematic or ‘smiley’ faces show a delayed but not enhanced N170 with
inversion, explained by the lack of any identity being associated with these very simple
representations of faces (Sagiv & Bentin, 2001). In contrast the learned faces showed only an
amplitude increase with inversion. As these faces were studied to be remembered, subjects
may have already been using analytic processing, regardless of orientation. The inversion
effects seen were independent of whether the faces were known or not, suggesting that there
was top-down modulation of this processing that was task-specific. This is supported by the
N170 latency comparisons between known and unknown faces. This latency was the same
for the learned faces and their matched unknown faces, while N170 was shorter for famous
faces compared to their matched unknown faces. A shorter N170 latency can be the result of
holistic rather than configural processing (Latinus and Taylor, 2006).
Consistent with the literature, familiarity had no effect on the learned faces. N170
amplitude was modulated by familiarity only in the famous block, being smaller for the
famous than unknown faces.
The immediate repetition of the same face in a priming
experiment leads to a reduction of N170 amplitude (Itier & Taylor, 2004b), explained by the
short repetition lag and that cortical areas would activate less with the immediate repetition of
the same stimulus. With famous faces the N170 was reduced even though they were not
repeated. Thus, although priming and the familiarity of faces produce a similar effect, the
processing is unlikely to be the same. The priming effect is considered to be largely
perceptual, whereas for the famous faces, the subjects may never have seen the particular
exemplars of the famous faces, yet recognition was rapid and the N170 amplitude decreased.
A possible explanation of this smaller N170 to famous faces could be from top-down
activation of memory for the various faces that are familiar. Top-down regulation of the
N170 for familiar faces was proposed by Jemel et al. (2003) to explain the identity priming
effect caused only for the familiar faces in a repetition paradigm using Mooney faces of
15
Bayle et al
celebrities.
16
However, in the current study, the modulation on the early face sensitive
components occurred without identity priming. Thus, a more likely alternate explanation for
the lower amplitude N170 to famous faces could be decreased neural activation for face
identification. A well-known face may require only holistic processing whereas unknown
faces recruit all 3 levels of processing. Unknown or little known faces would be processed by
first-order configural processing, then holistically and then the second-order configural
information would be used to try to identify the faces (Maurer et al., 2002). Jemel et al.
(2003) found that Mooney faces of familiar and unknown faces showed N170 differences,
although Mooney faces do not contain the usual configural information. Thus, holistic
processing of faces is sufficient for identification of a face that is well known. The corollary
is that famous face recognition may require only the first two stages of face processing from
the model of Maurer et al (2002), which would implicate one fewer stages and hence, the
smaller amplitude N170. Also in concordance with this was the shorter N170 latency for the
famous faces compared to their matched unknown faces; the famous faces appeared to require
less processing.
This interpretation is consistent with the P2 latency effect, which was sensitive to
familiarity. P2 was earlier for famous faces compared to their matched unknown faces.
Pernet et al. (2003) found that shorter P2 latencies were seen with very familiar items,
suggesting that they required fewer resources for identification. The more a face is known,
the fewer attentional resources are necessary for recognition. Hence, the face processing of
well-known faces is facilitated and faster, explaining both the shorter P2 latency and the
shorter reaction times to famous faces.
The faces learned over the course of one week were well recognised and were clearly
stored in memory, yet we did not find the effects of familiarity that were present for the
famous faces. We suggest that this is due to different encoding. The learned faces were
16
Bayle et al
17
memorized explicitly by the subject, the training was active and the face was seen only in one
position. It is probable that the subject used analytic strategies and focused on featural as well
as configural information of the face while trying to retain it. Famous faces are learned in an
unintentional or implicit way, exposure to them being more sporadic, extended over time and
with the face seen under various conditions. This would allow time to form a global picture
of this face, in other words a "holistic" picture that is recognised more quickly. We speculate
that a few weeks after the experiment the subject may not be able to recognise the learned
faces, whereas this would not be the case for the famous faces.
We suggest that the
mnemonic trace of the intentionally learned faces is less well encoded and is reactivated only
with thorough analysis of the face, which corresponds to a recruitment of the three processing
stages, including the second order configural characteristics as well as analytic processes,
whether upright or inverted, consistent with the model of Latinus and Taylor (2006).
These data highlight that different processing is invoked according to whether a face is
unknown, is learned recently and remembered or is highly familiar and known.
The
processing of these three face categories differs from that of faces repeated in priming studies.
It is thus critical to differentiate the use of the term ‘familiarity’ between the repetitions of
face, newly learned and famous faces, as they elicit distinct neurophysiological phenomena.
Famous faces are distinguished as early as 100 ms after stimuli onset and more efficiently
than the other face stimuli. We suggest that they are retained in memory in a holistic form.
Recognition is made possible by accessing this holistic information, and may explain why
famous or very familiar faces can be easily and quickly found in a crowd.
17
Bayle et al
18
REFERENCES:
Bentin, S., Allison, T., Puce, A., Perez, E., & McCarthy, G. (1996). Electrophysiological studies of
face perception in humans. Journal of Cognitive Neuroscience, 8, 551-565.
Bentin, S., & Deouell, L. (2000). Structural encoding and identification in face processing: ERP
evidence for separate mechanisms. Cognitive Neuropsychology, 17, 35-54.
Botzel, K., Schulze, S., & Stodieck, S. R. (1995). Scalp topography and analysis of intracranial
sources of face-evoked potentials. Experimental Brain Research, 104(1), 135-143.
Boutsen, L., Humphreys, G. W., Praamstra, P., & Warbrick, T. (2006). Comparing neural correlates of
configural processing in faces and objects: An ERP study of the Thatcher illusion.
Neuroimage.
Bruce, V., Dench, N., & Burton, M. (1993). Effects of distinctiveness, repetition and semantic priming
on the recognition of face familiarity. Canadian Journal of Experimental Psychology, 47(1),
38-60.
Bruce, V., & Valentine, T. (1985). Identity priming in the recognition of familiar faces. British Journal
of Psychology, 76 (Pt 3), 373-383.
Caharel, S., Poiroux, S., Bernard, C., Thibaut, F., Lalonde, R., & Rebai, M. (2002). ERPs associated
with familiarity and degree of familiarity during face recognition. International Journal of
Neuroscience, 112(12), 1499-1512.
Eimer, M. (2000a). Effects of face inversion on the structural encoding and recognition of faces.
Evidence from event-related brain potentials. Cognitive Brain Research, 10(1-2), 145-158.
Eimer, M. (2000b). The face-specific N170 component reflects late stages in the structural encoding of
faces. Neuroreport, 11(10), 2319-2324.
Ellis, A. W., Young, A. W., Flude, B. M., & Hay, D. C. (1987). Repetition priming of face
recognition. Quarterly Journal of Experimental Psychology. A, 39(2), 193-210.
Farah, M. J., Tanaka, J. W., & Drain, H. M. (1995). What causes the face inversion effect? Journal of
Experimental Psychology: Human Perception & Performance, 21(3), 628-634.
George, N., Evans, J., Fiori, N., Davidoff, J., & Renault, B. (1996). Brain events related to normal and
moderately scrambled faces. Cognitive Brain Research, 4, 65-76.
18
Bayle et al
19
Goshen-Gottstein, Y., & Ganel, T. (2000). Repetition priming for familiar and unfamiliar faces in a
sex-judgment task: evidence for a common route for the processing of sex and identity.
Journal of Experimental Psychology: Learning, Memory, and Cognition, 26(5), 1198-1214.
Halit, H., de Haan, M., & Johnson, M. H. (2000). Modulation of event-related potentials by
prototypical and atypical faces. Neuroreport, 11(9), 1871-1875.
Haxby, J. V., Ungerleider, L. G., Clark, V. P., Schouten, J. L., Hoffman, E. A., & Martin, A. (1999).
The effect of face inversion on activity in human neural systems for face and object
perception. Neuron, 22(1), 189-199.
Herzmann, G., Schweinberger, S. R., Sommer, W., & Jentzsch, I. (2004). What's special about
personally familiar faces? A multimodal approach. Psychophysiology, 41(5), 688-701.
Holmes, A., Vuilleumier, P., & Eimer, M. (2003). The processing of emotional facial expression is
gated by spatial attention: evidence from event-related brain potentials. Cognitive Brain
Research, 16(2), 174-184.
Itier, R. J., & Taylor, M. J. (2002). Inversion and contrast polarity reversal affect both encoding and
recognition processes of unfamiliar faces: a repetition study using ERPs. Neuroimage, 15(2),
353-372.
Itier, R. J., & Taylor, M. J. (2004a). N170 or N1? Spatiotemporal differences between object and face
processing using ERPs. Cerebral Cortex, 14(2), 132-142.
Itier, R. J., & Taylor, M. J. (2004b). Effects of repetition and configural changes on the development
of face recognition processes. Developmental Science, 7(4), 469-487.
Jemel, B., Pisani, M., Calabria, M., Crommelinck, M., & Bruyer, R. (2003). Is the N170 for faces
cognitively penetrable? Evidence from repetition priming of Mooney faces of familiar and
unfamiliar persons. Cognitive Brain Research, 17(2), 431-446.
Kemp, R., McManus, C., & Pigott, T. (1990). Sensitivity to the displacement of facial features in
negative and inverted images. Perception, 19(4), 531-543.
Konstantinou, I., & Gardiner, J. M. (2005). Conscious control and memory awareness when
recognising famous faces. Memory, 13(5), 449-457.
19
Bayle et al
20
Latinus, M. (2006). Face processing stage: impact of difficulty and the separation of effects. Cognitive
Brain Research.
Latinus, M., & Taylor, M. J. (2005). Holistic processing of faces; learning effects with Mooney faces.
Journal of Cognitive Neuroscience, 17(8), 1316-1327.
Leder, H., Candrian, G., Huber, O., & Bruce, V. (2001). Configural features in the context of upright
and inverted faces. Perception, 30(1), 73-83.
Leveroni, C. L., Seidenberg, M., Mayer, A. R., Mead, L. A., Binder, J. R., & Rao, S. M. (2000).
Neural systems underlying the recognition of familiar and newly learned faces. Journal of
Neuroscience, 20(2), 878-886.
Linkenkaer-Hansen, K., Palva, J. M., Sams, M., Hietanen, J. K., Aronen, H. J., & Ilmoniemi, R. J.
(1998). Face-selective processing in human extrastriate cortex around 120 ms after stimulus
onset revealed by magneto- and electroencephalography. Neuroscience Letters, 253(3), 147150.
Maurer, D., Grand, R. L., & Mondloch, C. J. (2002). The many faces of configural processing. Trends
in Cognitive Sciences, 6(6), 255-260.
Paller, K. A., Bozic, V. S., Ranganath, C., Grabowecky, M., & Yamada, S. (1999). Brain waves
following remembered faces index conscious recollection. Cognitive Brain Research, 7(4),
519-531.
Paller, K. A., Ranganath, C., Gonsalves, B., LaBar, K. S., Parrish, T. B., Gitelman, D. R., Mesulam,
M. M., & Reber, P. J. (2003). Neural correlates of person recognition. Learning and Memory,
10(4), 253-260.
Pernet, C., Basan, S., Doyon, B., Cardebat, D., Demonet, J. F., & Celsis, P. (2003). Neural timing of
visual implicit categorization. Cognitive Brain Research, 17(2), 327-338.
Picton, T. W., Bentin, S., Berg, E., Donchin, S. A., Hillyard, R., Johnson, J. R., Miller, G. A., Ritter,
W., Ruchkin, D. S., Rugg, M. D., Taylor, M. J. (2000). Guidelines for using human eventrelated potentials to study cognition: Recording standards. Psychophysiology, 37, 127-152.
Rhodes, G., Brake, S., & Atkinson, A. P. (1993). What's lost in inverted faces? Cognition, 47(1), 2557.
20
Bayle et al
21
Rossion, B., Campanella, S., Gomez, C. M., Delinte, A., Debatisse, D., Liard, L., Dubois, S., Bruyer,
R., Crommelinck, M., & Guerit, J. M. (1999). Task modulation of brain activity related to
familiar and unfamiliar face processing: an ERP study. Clinical Neurophysiology, 110(3), 449462.
Rossion, B., Delvenne, J. F., Debatisse, D., Goffaux, V., Bruyer, R., Crommelinck, M., & Guerit, J. M.
(1999). Spatio-temporal localization of the face inversion effect: an event-related potentials
study. Biological Psychology, 50(3), 173-189.
Rossion, B., Gauthier, I., Tarr, M. J., Despland, P., Bruyer, R., Linotte, S., & Crommelinck, M. (2000).
The N170 occipito-temporal component is delayed and enhanced to inverted faces but not to
inverted objects: an electrophysiological account of face-specific processes in the human
brain. Neuroreport, 11(1), 69-74.
Sagiv, N., & Bentin, S. (2001). Structural encoding of human and schematic faces: holistic and partbased processes. Journal of Cognitive Neuroscience, 13, 937-951.
Tanaka, J. W., & Farah, M. J. (1993). Parts and wholes in face recognition. Quarterly Journal of
Experimental Psychology. A, 46(2), 225-245.
Taylor, M. J., Edmonds, G. E., McCarthy, G., & Allison, T. (2001). Eyes first! Eye processing
develops before face processing in children. Neuroreport, 12(8), 1671-1676.
Taylor, M. J., Itier, R. J., Allison, T., & Edmonds, G. E. (2001). Direction of gaze effects on early face
processing: eyes-only versus full faces. Cognitive Brain Research, 10(3), 333-340.
Yin, R. K. (1969). Looking at upside-down faces. Journal of Experimental Psychology, 81(1), 141145.
21
Bayle et al
22
FIGURE CAPTIONS:
Fig 1. Examples of stimuli used in the two blocks, and the averages of all stimuli within each
block.
Fig 2. Grand average ERPs for upright and inverted faces at O2 for the two blocks. Note that
inverted faces evoked enhanced P1 for the learned faces.
Fig 3. RTs for upright and inverted faces for the different faces blocks. Solid: upright faces,
striped: inverted faces.
Fig 4. Grand average ERPs for upright faces for known and unknown faces for the two blocks
at P8 electrode.
22
Tables
Table 1
Latencies of the three components measured for upright faces of each category. Famous faces evoked an
earlier N170 and P2 than unknown faces.
P1
N170
P2
Learned faces
105
159
220
Unknown faces
108
160
216
110
163
111
167
Learned block
Famous block
Famous faces
Unknown faces
(**=p<0.01)
**
217
231
**
Figure1
Click here to download high resolution image
Figure3
Click here to download high resolution image
Figure4
Click here to download high resolution image
Figure 2
Click here to download high resolution image
146
4. Discussion
4.1. En Résumé
Au cours de l’introduction, nous avons vu que les visages sont des stimuli particuliers.
Cette particularité est, entre autre, attribuée à la mise en jeu de traitements de type configural
par les visages, contrairement aux objets qui sont, eux, analysés de manière analytique, c’est à
dire traits par traits. La perception des visages tient compte de la position des traits du visage,
des distances les séparant, c’est à dire de la configuration du visage ; la présence de certains
traits faciaux est également importante pour la reconnaissance à un niveau individuel. Les
expériences réalisées au cours de ma thèse m’ont permis d’explorer le rôle des différents
traitements engagés par les visages et leurs impacts sur la latence et l’amplitude de la N170,
marqueur de la détection d’un visage.
La première étude révèle que la spécificité des visages s’exprime par une plus grande
rapidité de traitement et une sensibilité différente à l’inversion ; l’amplitude de la N170 est
augmentée suite à l’inversion seulement pour les visages. Cette étude confirme que la N170
n’est pas un détecteur d’yeux (Eimer, 1998) et suggère que la modulation de l’amplitude de la
N170 par l’inversion et la négation pourrait être induite par le traitement des yeux. Le retard
dans l’apparition de la N170 suite à l’inversion d’un stimulus est retrouvé pour toutes les
conditions, confirmant qu’il refléte probablement une perturbation de l’orientation canonique
des stimuli (Rossion, Joyce et al., 2003).
La deuxième étude montre que le traitement holistique est perturbé par l’inversion ;
cette perturbation se traduit par une diminution de la N170. Lorsque le visage ne peut être
traité que de manière holistique, la N170 n’est pas augmentée par l’inversion. De plus, la
familiarisation aves les Mooney Faces reproduit l’effet d’inversion sur la latence de la N170.
Ce retard peut s’expliquer soit par une volonté de traiter le visage de façon analytique suite à
l’acquisition d’une forme d’« expertise », soit par le développement d’une vue préférée du
stimulus, servant de référence, qui serait perturbée par l’inversion. Cette deuxième possibilité
est appuyée par le fait que le délai est observé dans les deux groupes de sujets.
La troisième étude dévoile la contribution des différentes étapes du traitement des
visages à la latence et à l’amplitude de la N170. Ainsi, la N170 est modulée par la
configuration de premier ordre et le traitement holistique, mais n’est pas sensible à la
configuration de second ordre, justifiant ainsi l’absence de modulation de la N170 par la
147
familiarité du visage (Eimer, 2000a, b; Jemel, Pisani et al., 2003; Zion-Golumbic & Bentin,
2006).
La quatrième étude témoigne d’un traitement parallèle du genre et de la configuration
du visage (Bruce et al., 1987). La perception du genre semble avoir lieu dans le même
intervalle de temps que l’encodage structurel du visage mais en des sites différents, dans les
régions fronto-temporales gauches.
La dernière étude met en évidence une modulation de la N170 par la familiarité du
visage mais seulement pour les visages de célébrités. Cette modulation semble refléter
l’utilisation du traitement holistique pour la reconnaissance des visages célèbres, ayant pour
conséquence une plus grande rapidité de traitement, un effet délétère de l’inversion sur la
reconnaissance et une N170 plus petite. Ainsi, l’influence de la familiarité sur la N170 semble
dépendre des traitements mis en jeu par les visages.
4.2. Le traitement du visage : de la détection à la reconnaissance
Essayons maintenant de résumer les résultats acquis dans un modèle du déroulement
de la perception des visages. L’encodage des visages normaux à l’endroit suit les trois étapes
décrites par Maurer et al. (2002). La détection du visage passe par l’extraction de la
configuration de premier ordre, bien que le traitement holistique seul puisse suffire. Dans les
expériences réalisées au cours de ma thèse, il est difficile de distinguer l’extraction de la
configuration de premier ordre du traitement holistique, si ce n’est grâce aux Mooney Faces.
Parce que la N170 est moins ample pour les Mooney Faces que pour les visages schématiques
et les photographies, je propose que le traitement de la configuration de premier ordre ait lieu
un peu avant ou simultanément au traitement holistique, et que ces deux traitements
contribuent à l’amplitude de la N170 (Figure 22).
148
Figure 22. Modèle de la reconnaissance des visages. J'ai utilisé ici une photographie de Brad Pitt
mais ce modèle (en bleu) s'applique aussi bien aux visages familiers qu'à la perception des visages
non familiers (en violet). L'inversion perturbe tous les traitements et recrute en plus le traitement
analytique des visages (en rouge), essentiellement par les yeux, conduisant à une N170 plus ample
et retardée.
L’extraction de la configuration générique du visage débute à 100 ms
Dans l’introduction, nous avons vu que la sensibilité de la P1 aux visages était
controversée, du fait d’un manque de consistance des résultats. Les résultats de certaines
études montrent une sensibilité de la P1 aux visages notamment parce qu’elle est retardée et
plus ample pour les visages à l’envers (Itier & Taylor, 2002, 2004a; Linkenkaer-Hansen et al.,
1998; Taylor, Edmonds et al., 2001). L’inversion de contraste provoque une diminution de
l’amplitude de la P1 (Itier & Taylor, 2002, 2004a). Par ailleurs, dans l’étude sur la familiarité,
la P1 évoquée par les visages de célébrités est plus petite que celle évoquée par les visages
149
inconnus. L’extraction de la configuration de premier ordre est perturbée par l’inversion mais,
elle est préservée dans les visages en négatif. De plus, la similarité de l’effet d’inversion sur
les performances comportementales des sujets entre la reconnaissance des visages célèbres et
la détection des Mooney Faces suggère que le traitement mis en jeu par les uns et les autres
puisse être le même, à savoir le traitement holistique. Ainsi, comme le montre la figure 22, le
traitement des visages célèbres ne semble pas nécessairement mettre en jeu le traitement
configural de premier ordre, conduisant ainsi à une P1 moins ample.
Ces résultats indiquent que l’extraction de la configuration de premier ordre pourrait
débuter à la latence de la P1. La perturbation du traitement configural de premier ordre suite à
l’inversion entraînerait un retard de latence et une augmentation d’amplitude de la P1. La
négation du visage n’aurait pas d’effet sur cette étape du traitement des visages ; la
diminution observée pour les visages en négatif pourrait être due à des différences bas niveau,
à savoir contraste et luminance, entre les images en contraste positif et négatif (Halit et al.,
2000; Rossion, Delvenne et al., 1999). L’hypothèse selon laquelle le traitement configural
commencerait dès la P1, ou la phase tardive de la P1, est appuyée par l’analyse des sources de
la P1 montrant qu’elle traduit l’activation d’une zone du gyrus occipital dont l’activité est
maintenue jusqu’à la phase précoce de la N170 (Di Russo et al., 2002). En IRMf, l’extraction
de la configuration de premier ordre pourrait être responsable de l’activation du gyrus
occipital inférieur, qui semble impliqué dans la détection du visage (Haxby et al., 2000;
Rotshtein et al., 2005). Ainsi, l’activité du gyrus occipital inférieur serait augmentée par
l’inversion du visage, mais la négation du visage n’aurait aucune influence ou provoquerait
une diminution d’activité (George et al., 1999).
L’absence de modulation de la latence et de l’amplitude de la P1 dans certaines études
pourrait traduire l’influence de processus attentionnels descendants (Latinus & Taylor, 2005,
2006; Rossion, Campanella et al., 1999). En effet, il a été montré que l’amplitude de la P1
était modulée par la tâche à réaliser ; elle est augmentée lorsque l’attention est focalisée vers
une certaine région du champ visuel, mais également quand l’attention est dirigée vers
certains attributs du stimulus visuel (Anllo-Vento et al., 1998; Hillyard & Anllo-Vento, 1998;
Rossion, Campanella et al., 1999; Taylor, 2002). Cette augmentation d’amplitude liée à
l’attention pourrait masquer les effets liés à d’autres processus ayant lieu au même moment
comme le traitement des informations bas niveau ou le traitement de la configuration de
premier ordre (Batty et al., 2003; Holmes et al., 2003).
150
La construction du gestalt commence à la N170
La N170 est plus ample pour les visages que pour les objets ; sa sensibilité à
l’inversion se traduit par une augmentation de la latence pour tous les stimuli, mais également
par une augmentation de son amplitude observée uniquement suite à l’inversion des visages
(Itier, Latinus et al., 2006; Itier & Taylor, 2002, 2004a; Linkenkaer-Hansen et al., 1998;
Rossion, Gauthier et al., 2000; Rousselet et al., 2004a). Les visages en négatif évoquent une
N170 similaire à celle enregistrée pour les visages inversés, suggérant que le traitement ayant
lieu à cette latence puisse être perturbé à la fois par l’inversion et la négation. Ce traitement ne
peut pas être le traitement configural de premier ordre, puisque celui-ci n’est pas altéré par la
négation. Par ailleurs, nous avons vu que les Mooney Faces évoquaient une N170 plus petite
et plus tardive que les visages normaux, et que l’inversion avait un effet uniquement sur
l’amplitude, effet se traduisant par une diminution. De plus, bien que les visages normaux,
mais pas les visages schématiques, engagent le traitement configural de second ordre (Latinus
& Taylor, 2006; Sagiv & Bentin, 2001), la N170 évoquée par ces deux types de visages à
l’endroit est similaire. Dans notre étude sur la reconnaissance des visages, la N170 évoquée
par les visages familiers appris ne diffère pas de celle évoquée par les visages non familiers.
Ces résultats suggèrent que la N170 sous-tend le traitement holistique du visage et
reflète la construction du gestalt à partir de la configuration de premier ordre, quand cette
dernière a pu être extraite. L’inversion et la négation semblent donc affecter le traitement
holistique, indiquant que le gestalt réunit non seulement des informations configurales (de
premier et de deuxième ordre) mais également des informations sur le contraste, les textures
etc. Ainsi, il apparaît que ces deux manipulations vont avoir une influence indépendante sur la
construction du gestalt, ce qui pourrait justifier l’observation d’effets additifs au niveau de la
N170 (Itier, Latinus et al., 2006).
Les visages célèbres, comme les Mooney Faces, évoquent une N170 plus petite que
les visages d’inconnus, révélant que les visages célèbres, encodés via une multitude de
présentations sous différents angles de vues, sont traités de manière holistique, et n’engagent
pas nécessairement les traitements configuraux de premier et second ordre. Cet effet peut être
particulièrement important dans notre étude (Bayle et al., Soumis) du fait de l’organisation en
bloc de l’expérience ; les sujets savaient que le bloc ne contenait que des visages de personnes
célèbres ou appris, ainsi le traitement holistique peut être suffisant pour détecter la familiarité.
Le traitement holistique du visage va permettre la construction d’un gestalt qui va ensuite être
comparé aux patterns stockés en mémoire, et la reconnaissance aura lieu (Figure 22).
151
L’appariement entre le visage perçu, ou plutôt le gestalt construit à partir de ce visage, et la
représentation mnésique pourrait avoir lieu au niveau de la FFA, l’association sémantique,
elle, prendrait place dans la partie antérieure du gyrus fusiforme. La reconnaissance du visage
peut également avoir lieu à partir de certains traits caractéristiques tels que les yeux ou les
sourcils ; une hypothèse pourrait être que, dans le domaine de la reconnaissance de visages
familiers, les représentations mnésiques globales puissent être activées par les traits faciaux
uniquement.
En l’absence d’influences descendantes favorisant le traitement holistique, pour les
visages non familiers ou nouvellement appris, la perception du visage passe par l’extraction
des relations de premier ordre, qui permettent la construction du gestalt, qui sera ensuite
comparé aux représentations stockées en mémoire ; ces différentes étapes conduisent à une
N170 plus ample. Si le gestalt construit ne correspond pas à une représentation stockée en
mémoire, il y aura, à une étape ultérieure, extraction des informations de second ordre pour
permettre l’encodage.
La familiarité du visage a un impact sur la N170, mais seulement sous certaines
conditions expérimentales : celles favorisant le traitement holistique du visage. L’effet
d’inversion sur le traitement holistique, entraînant une diminution dramatique des
performances dans la détection des visages, pour les Mooney Faces, et la reconnaissance des
visages, pour les visages célèbres, est un effet quantitatif ; il reflète un recrutement moindre
des aires sélectives des visages. Ainsi, le traitement holistique est impliqué dans la
construction du gestalt et met en jeu les aires sélectives des visages, dont la FFA (Schiltz &
Rossion, 2006). L’inversion, qui perturbe le traitement holistique, se traduit par une
diminution de l’activité dans la FFA pour les visages inversés (Kanwisher et al., 1998; Yovel
& Kanwisher, 2004, 2005) ; cette diminution est corrélée à l’effet d’inversion comportemental
(Yovel & Kanwisher, 2005). Cependant, il est rare d’observer un effet d’inversion aussi
important que celui observé pour les Mooney Faces ou pour les visages célèbres ; l’inversion
induit généralement une baisse de 10% dans les performances de détection ou de
reconnaissance. Ainsi, il est possible qu’un changement de stratégie ait lieu pour l’encodage
ou la reconnaissance de visages familiers, compensant la perturbation importante du
traitement holistique provoquée par l’inversion.
152
Le traitement analytique comme aide à la détection et à l’identification
Un mécanisme compensatoire est mis en jeu par les visages à l’envers afin de limiter
l’impact de l’inversion sur la reconnaissance. Ce mécanisme compensatoire pourrait être le
recrutement du traitement analytique, usuellement attribué à la perception des objets.
Le recrutement du traitement analytique peut expliquer non seulement l’augmentation
de l’amplitude de la N170, puisqu’il va s’ajouter aux autres traitements qui ont été abrogés,
mais également le retard de latence observé suite à l’inversion. La N170 est plus ample pour
les visages inversés que pour les visages à l’endroit ; cet effet n’est observé qu’avec les
visages normaux portant des informations sur l’identité (Latinus & Taylor, 2006; Sagiv &
Bentin, 2001). Ceci explique l’absence d’augmentation de l’amplitude de la N170 suite à
l’inversion des visages schématiques et des Mooney Faces. Dans les Mooney Faces les
éléments ne sont pas distincts, ce qui rend le traitement analytique impossible. Quant aux
visages schématiques, ils ne portent pas d’informations sur l’identité, le traitement analytique
est donc inutile pour ces visages. Le rôle du traitement analytique dans la perception des
visages à l’envers est confirmé par les études en IRMf montrant une activation des zones
répondant spécifiquement aux objets pour les visages à l’envers (Aguirre et al., 1999; Haxby
et al., 1999). L’étude d’un patient agnosique tend également à montrer une différence
fonctionnelle entre les traitements des visages à l’endroit et à l’envers. Ce patient a des
troubles de la reconnaissance d’objets associés à une reconnaissance des visages normale,
mais sa reconnaissance des visages à l’envers est altérée (Moscovitch et al., 1997). Les
visages à l’envers ou en négatif recruteraient donc les systèmes de traitement dédiés aux
objets afin de faciliter la reconnaissance et l’identification du visage. Dans le cas des visages
célèbres, il semble que le traitement analytique soit également recruté par les visages inversés,
la N170 étant augmentée ; cependant, l’addition du traitement analytique ne suffit pas à
faciliter la reconnaissance. L’absence de facilitation pour la reconnaissance des visages
célèbres pourrait sous-entendre un traitement automatique inconscient de l’identité pour les
visages très familiers ; le traitement holistique serait fortement perturbé par l’inversion, et le
recrutement du traitement analytique ne suffirait pas à compenser cette perturbation.
Le retard de latence de la N170 pour les visages inversés peut refléter la mise en jeu
du traitement analytique. En effet, le traitement analytique semble apparaître après le
traitement configural de premier ordre et le traitement holistique, les N170 enregistrées pour
des stimuli non visages étant en général retardées par rapport à celles évoquées par les
visages. Mais, cette explication ne permettrait pas de justifier le retard de latence observé pour
153
les stimuli non visage, qui semble être lié à la perturbation de l’orientation canonique de
l’objet.
Traitement analytique : traitement des yeux ?
Dans notre première étude, nous avons également montré que la N170 évoquée par les
visages à l’envers et en négatif était similaire à celle évoquée par les yeux (Itier, Latinus et al.,
2006). Ces données indiquent que le traitement analytique mis en jeu suite à l’inversion du
visage repose principalement sur la perception des yeux, les yeux étant les éléments les plus
distinctifs du visage. Si le traitement analytique passe par le traitement des yeux, cela peut
également expliquer l’absence d’une augmentation d’amplitude pour les visages schématiques
ou les Mooney Faces inversés, stimuli dans lesquels les yeux ne sont pas distincts.
Ainsi, il apparaît que l’altération de la configuration du visage a des conséquences
multiples au niveau cérébral, elle induit un retard dans l’extraction de la configuration de
premier ordre, une diminution de l’activité des zones spécifiques des visages et une
augmentation de l’activité dans les zones spécifiques des objets. L’effet d’inversion serait
donc double : une modification quantitative du traitement des visages, vue dans la diminution
des performances et de l’activité cérébrale spécifique des visages, et une modification
qualitative signifiant un changement de stratégie suite à l’inversion du visage, compensant la
perturbation causée par l’inversion et permettant la reconnaissance du visage à un niveau
supérieur à celui de la chance. Le traitement analytique du visage passe essentiellement par le
traitement des yeux.
Catégorisation du genre
Le modèle de Bruce & Young (1986) propose que le traitement du genre ait lieu en
parallèle du traitement de l’identité ; en effet, il n’est pas nécessaire de connaître quelqu’un
pour connaître son genre. Notre étude, en accord avec le modèle de Bruce & Young, montre
également que le traitement du genre s’effectue en parallèle et simultanément à l’extraction de
la configuration puisque la N170 n’est pas affectée par le genre du visage, mais qu’à la même
latence on observe des effets dans les régions fronto-temporales (Bruce et al., 1987;
Mouchetant-Rostaing et al., 2000). Pourtant, certaines études suggèrent que les informations
sur le genre de l’individu soient également portées par la configuration. En effet, des visages
154
composites constitués pour moitié d’un visage de femme et pour moitié d’un visage d’homme
rendent la catégorisation du genre de chaque moitié plus difficile ; de la même façon la
perception du genre est plus difficile sur les visages inversés (Baudouin & Humphreys, 2006;
Bruce et al., 1993; Bruce & Langton, 1994). Dans ces différentes études, les indices évidents
du genre sont masqués ; or, une grande partie de la perception du genre repose sur les traits du
visage, notamment les cheveux (Wright & Sladden, 2003), la forme des sourcils et le contour
du visage (Roberts & Bruce, 1988; Yamaguchi et al., 1995). Dans le cas où des informations
non configurales peuvent être utilisées, elles seront les premières traitées et sont suffisantes
pour réaliser une tâche de catégorisation du genre ; dans le cas où ces informations
élémentaires sont dissimulées alors le traitement du genre sera effectué sur des bases
configurales (Goshen-Gottstein & Ganel, 2000). De plus, il est possible que les informations
configurales utilisées dans les visages composites, dont l’extraction est perturbée par
l’inversion, soient des informations configurales de second-ordre, justifiant ainsi l’absence
d’effet au niveau de la N170. Par ailleurs, il a été montré en utilisant un continuum de visages
allant d’un visage féminin à un visage masculin, que la perception du genre en l’absence
d’indice de bas niveau était un phénomène catégoriel, mais la reconnaissance de visage non
familier n’est pas catégorielle (Campanella et al., 2001). Ces résultats suggèrent que les
visages non familiers ont une représentation mnésique sous forme de prototype du genre du
visage. L’absence de modulation de la N170 par le genre du visage confirme donc
l’implication de la N170 dans la détection de la configuration de premier ordre et non dans le
traitement des relations de second ordre.
Traitement de l’identité à partir de 220 ms ?
La P2 est un pic positif apparaissant 200 ms après le début de la stimulation
enregistrée sur les ondes occipito-pariétales. Il s’agit du dernier pic mesuré dans mes
différentes études. La P2 est modulée par l’apprentissage : son amplitude diminue en effet
après l’apprentissage de la reconnaissance des Mooney Faces, et ce, uniquement dans le
groupe expérimental. De plus, l’amplitude de la P2 indique la perception des sujets ; elle est,
en effet, plus ample pour les stimuli non visage et les visages non perçus que pour les Mooney
Faces à l’endroit ou à l’envers perçus (Latinus & Taylor, 2005). Dans l’étude utilisant les 3
types de visages, la P2 était toujours plus ample pour les non visages que pour les visages,
confirmant qu’elle sous-tend une activité impliquée dans le traitement de stimuli non
identifiés (les non visages étaient des images sans signification). De plus, elle était plus ample
155
pour les visages photographiques que pour les visages schématiques et les Mooney Faces.
Une analyse de source réalisée dans cette étude révèle que la P2 reflète l’activité de source
essentiellement occipitale pour les Mooney Faces et les visages schématiques, alors qu’elle
est liée à une réactivation de la voie ventrale pour les photographies (Latinus & Taylor, 2006).
Cette réactivation de la voie ventrale pourrait également refléter la sensibilité à la familiarité
de la N250, onde négative apparaissant 250 ms après le début de la stimulation enregistrée sur
les électrodes temporales (Itier & Taylor, 2004a; Tanaka et al., 2006). Cependant, dans notre
expérience avec les visages familiers, la familiarité du visage ne module que la latence de la
P2 qui est plus précoce pour les visages très familiers (visages célèbres) (Bayle et al.,
Soumis).
Ces différents résultats suggèrent que la P2 reflète une activité liée à la familiarité du
stimulus, traitement approfondi des stimuli non identifiés (Caharel et al., 2002). Un stimulus
détecté et non identifié, bien que pouvant l’être ( les photographies de visages), conduit à une
P2 plus ample que les stimuli ne portant pas d’informations identitaires (visages schématiques
et Mooney Faces). Par ailleurs, l’activation de la voie ventrale pour les seuls visages
photographiés suggère que la P2 observée pour ces visages peut refléter le traitement de la
configuration de second ordre, ou du moins un traitement lié à l’extraction de l’identité du
visage, montrant ainsi une réactivation des aires impliquées dans la détection des visages pour
leur reconnaissance. Ce résultat serait en accord avec l’hypothèse de Grill-Spector &
Kanwisher (2004) et celle de Rossion (2003) qui suggèrent que le même réseau d’aires
cérébrales s’activant à des latences différentes est mis en jeu pour la détection et la
reconnaissance des visages. Le traitement lié à l’identité du visage pourrait se poursuivre plus
longtemps puisque certaines études révèlent une modulation des ondes observées autour de
400 et 600 ms après la stimulation (Bentin & Deouell, 2000; Eimer, 2000b; Itier & Taylor,
2004a).
Conclusion
Ces différents résultats montrent que la spécificité du visage vient en partie de
traitements relationnels. La différence entre visages et objets pourrait commencer autour de
100 ms, par l’extraction de la configuration de premier ordre. Cette étape est suivie de la
construction d’un gestalt, via le traitement holistique, vers 170 ms. L’inversion perturbe aussi
bien la première que la deuxième étape, la négation du visage ne perturbe que le traitement
holistique. Il semble important de distinguer au moins deux types de familiarité : la familiarité
156
associée à un sentiment assez flou de « déjà vu », et la familiarité associée à une connaissance
sémantique de l’individu. Cette dernière s’acquiert après moult présentations du visage, sous
différents angles de vues, qui permettent la génération d’un gestalt contenant tous les
éléments nécessaires à la reconnaissance et ce, afin de l’accélérer. La familiarité étudiée en
général en laboratoire met en jeu des processus d’apprentissage du visage non écologiques ; la
reconnaissance de ces visages pourrait reposer sur des informations de type relationnel, voire
analytique, mais ne nécessite pas la construction d’un gestalt. L’encodage des visages non
familiers, via l’extraction de la configuration de second ordre, aurait lieu plus tardivement
autour de 250 ms après la présentation du stimulus, mais pourrait mettre en jeu les mêmes
aires cérébrales que celles impliquées dans la détection des visages et dans les premières
étapes de la reconnaissance des visages familiers (Grill-Spector et al., 2004; Kanwisher &
Yovel, 2006; Rossion, Schiltz et al., 2003).
Suite à ces études sur le traitement des visages, je me suis intéressée à une autre
modalité sensorielle : l’audition. La voix est le stimulus le plus proche du visage dans cette
modalité. Je me suis donc intéressée aux mécanismes cérébraux sous-tendant le traitement de
la voix, afin de voir si son traitement était similaire à celui des visages. J’ai ensuite voulu
comprendre comment ces traitements intéragissaient dans des situations bimodales.
157
158
Voix
« Ensemble des sons produits pas les humains…»
Interaction
« Influence réciproque de plusieurs entités…»
159
160
Partie 2 : Voix et interactions bimodales
La multimodalité est la règle plutôt que l’exception. Bien que l’essor des technologies
nous permette aujourd’hui d’avoir accès à une seule information sensorielle, la voix par le
téléphone, les visages via les photographies, il est plus courant de recevoir simultanément des
informations en provenance de différentes modalités sensorielles. Les informations
multisensorielles sont, entre autres choses, le support des interactions sociales qui ont lieu,
notamment, via les informations véhiculées par le visage et la voix. Ces informations sont en
général redondantes et facilitent la perception : qui n’a jamais entendu une voix sans
reconnaître le locuteur avant de voir son visage, l’inverse existe probablement mais il est
rarement observé. Cet exemple pourrait suggérer que le traitement du visage diffère du
traitement de la voix et que leur participation respective à l’intégration bimodale ne soit pas
symétrique ; c’est pourquoi avant d’étudier les intégrations multimodales, j’ai exploré le
traitement des voix.
L’intégration des informations apportées par le visage et la voix joue un rôle
fondamental, notamment dans la compréhension du discours. Ainsi, dans un environnement
bruyant, la perception du langage est facilitée par les informations apportées par le
mouvement articulatoire des lèvres (lecture labiale) (MacLeod & Summerfield, 1987). Il est
probable que les interactions entre plusieurs modalités sont sous le contrôle d’influences
attentionnelles. Par exemple, dans le cadre de la compréhension du discours en condition
normale, il est plus judicieux de porter son attention sur la voix que sur le visage : les
informations apportées par la voix sont plus faciles à décoder ; par contre, dans un
environnement bruyant il sera nécessaire d’augmenter l’attention dédiée aux visages afin de
recueillir les informations sur le mouvement des lèvres. J’ai donc dans un deuxième temps
exploré l’influence de l’attention sur les interactions entre deux modalités.
161
A. Les Voix et le Système auditif
Les sons sont les stimuli s’adressant au système auditif ; tout comme les stimuli
visuels, les sons sont multiples et variés. Ils peuvent avoir une origine humaine, animale,
mécanique etc. La voix humaine a acquis une importance capitale au cours de l’évolution,
parce qu’elle est le support du langage articulé. Son rôle dans la communication verbale a
tendance à nous faire oublier qu’elle véhicule également des informations primordiales à la
vie en société, comme l’âge, le genre, l’émotion, l’identité, lui conférant un rôle majeur dans
la communication non verbale.
Les sons sont la partie audible des vibrations acoustiques. Ils sont produits par des
variations perceptibles de la pression de l’air, conséquences du déplacement de l’air à la suite
de différents processus – déplacement d’un objet, vibration des cordes vocales etc. Ces
variations sont propagées sous forme d’onde sonore jusqu’à l’oreille (Figure 23). Cette onde
sonore représente l’alternance des phases de compression (augmentation de la pression) et de
détente de l’air. Un son est caractérisé par sa fréquence et son intensité. La fréquence du son
est déterminée par le nombre de cycles de compression/détente qui atteignent l’oreille en une
seconde ; un cycle correspond à la distance entre deux plages successives, par exemple de
compression de l’air (Figure 23). La fréquence définit la hauteur du son : plus le nombre de
cycles par seconde est important, plus le son est aigu. L’oreille humaine perçoit des sons
allant de 20 à 20 000 Hz (définissant la bande passante de l’oreille), en deçà ou au-delà on
parle d’infrason ou d’ultrason, respectivement. L’intensité du son est déterminée par
l’amplitude des vibrations sonores (Figure 23).
Figure 23. Illustration d'un son. Au dessus : phase
de compression et de détente de l'air. En dessous:
onde sinusoïdale correspondante.
Un son pur est caractérisé par une seule fréquence ; les sons purs ne sont que rarement
rencontrés. Les sons musicaux sont des sons complexes périodiques définis par une fréquence
caractéristique – la fréquence fondamentale (F0) – et des harmoniques – multiples de la
162
fréquence fondamentale. Certaines harmoniques sont renforcées dans les caisses de
résonnance des instruments ou de l’appareil phonatoire : ce sont les formants. L’amplitude
des formants définit le timbre d’un son (voix ou instrument de musique). Le bruit est un son
complexe non périodique, ne possédant donc pas de fréquence caractéristique ; il est constitué
d’ondes acoustiques de différentes fréquences. Le bruit blanc est un cas extrême de son
complexe où toutes les fréquences sont représentées en proportion égale. Le langage est
constitué de sons complexes périodiques et apériodiques.
La perception de la voix, comme celle de tout autre stimulus auditif, commence par
l’activation des récepteurs sensoriels de la cochlée, située dans l’oreille interne. Ces
récepteurs sont des cellules ciliées qui assurent la transduction du message acoustique en
message électrique ; un potentiel d’action généré dans les neurones du ganglion spiral est
propagé jusqu’au cortex auditif primaire via une multitude de structures sous-corticales. Le
dernier relais sous-cortical s’effectue dans le thalamus, l’information auditive est ensuite
transmise au cortex auditif primaire, localisé dans le lobe temporal, puis aux aires auditives
associatives.
1. Le système auditif
1.1. De la cochlée au cortex auditif primaire
1.1.1. Anatomie et fonctionnement de la cochlée
Le système visuel est sensible aux ondes électromagnétiques ; le système auditif,
quant à lui, est mis en œuvre par les variations de la pression environnante. Ces variations de
pression atteignent les cellules ciliées de la cochlée après avoir été canalisées dans l’oreille
interne via le pavillon, le conduit auditif externe, le tympan, et les osselets. Les osselets
communiquent avec la cochlée, située dans l’oreille interne, via une membrane qui recouvre
la fenêtre ovale. La cochlée est l’organe sensoriel de l’oreille ; elle contient les cellules ciliées
(Figure 24)18.
18
Ces deux images sont issues du site internet « Promenade autour de la cochlée ».
http://www.promenade_autour_de_la_cochlée
163
Figure 24. Anatomie de la cochlée: (a) Coupe transversale de la cochlée. (b) Coupe transversale
d'un tour de spire de la cochlée. La cochlée a la forme d’un escargot, elle est divisée en trois
compartiments. Les compartiments supérieur et inférieur sont la rampe vestibulaire (2) et la rampe
tympanique (3) ; le fluide circulant dans les rampes vestibulaire et tympanique est la périlymphe.
A l’apex de la cochlée, le canal cochléaire se referme et, les rampes vestibulaire et tympanique
communiquent via un trou à travers la membrane – l’hélicotrème. Le compartiment du milieu est
le canal cochléaire (1), empli d’endolymphe. Il est séparé de la rampe vestibulaire par la
membrane de Meissner (4), et de la rampe tympanique par la membrane basilaire (5). L’organe de
Corti, lieu de réception du signal auditif, se trouve dans le canal cochléaire; il repose sur la
membrane basilaire. L’organe de Corti est constitué par les cellules ciliées. Les stéréocils des
cellules ciliées baignent dans l’endolymphe et finissent dans la membrane tectoriale (6). Les
cellules ciliées forment des synapses sur les dendrites des neurones auditifs dont le corps cellulaire
se trouve dans le ganglion spiral (8), et dont les axones forment le nerf auditif (10).
Les variations de pression entraînent une vibration de la chaine des osselets, qui, à son
tour, provoque une vibration de la membrane recouvrant la fenêtre ovale. La vibration de cette
membrane induit un mouvement ondulatoire de la périlymphe circulant dans la rampe
vestibulaire (Figure 24a – flèche rouge), qui est ensuite transmis à la périlymphe de la rampe
tympanique via l’hélicotrème (Figure 24a – flèche bleue). Le déplacement de la périlymphe
est communiqué à l’endolymphe, du fait de la flexibilité de la membrane de Meissner. La
membrane basilaire ploie sous l’effet du mouvement de l’endolymphe. Une onde est ainsi
propagée jusqu’à l’apex. La distance parcourue par l’onde le long de la membrane basilaire
dépend de la fréquence du son : plus le son est grave, moins la membrane vibre, plus loin
l’onde se propage. La fréquence du son est encodée dès la cochlée ; les sons basses fréquences
activent les cellules ciliées situées à l’apex de la cochlée, les sons hautes fréquences activent
les cellules situées à la base de la cochlée : c’est la tonotopie passive.
Le mouvement de la membrane basilaire entraîne aussi un déplacement des structures
soutenant les cellules ciliées soit vers, soit en s’éloignant de la membrane tectoriale. Le
mouvement des structures supportant les cellules ciliées provoque une inclinaison des
stéréocils dans un sens ou dans l’autre. Ce mouvement des stéréocils déclenche l’ouverture de
canaux ioniques laissant ainsi passer des ions à travers la membrane. Ces mouvements
164
ioniques sont à l’origine de la naissance du potentiel récepteur dans les cellules ciliées. Le
potentiel récepteur est ensuite transmis aux cellules du ganglion spiral, lieu de génération du
potentiel d’action. Chaque neurone du ganglion spiral reçoit l’afférence d’une seule cellule
ciliée ; au contraire chaque cellule ciliée est en contact avec une dizaine de neurones du
ganglion spiral. Ainsi, contrairement à ce qui est observé dans le système visuel où les
informations recueillies par plusieurs photorécepteurs convergent vers une seule cellule
ganglionnaire, dans le système auditif une cellule ciliée est connectée à plusieurs neurones du
ganglion spiral : il s’agit d’une innervation dite divergente.
Les neurones du ganglion spiral reçoivent des informations sur la fréquence du son
révélée par la localisation de la cellule ciliée, et sur l’intensité du son. Les différentes
fréquences d’un son activent différentes zones de la cochlée, et donc différents neurones du
nerf cochléaire ; cette tonotopie est conservée jusqu’à l’aire auditive primaire. Il semble que la
tonotopie soit restreinte à la représentation des hautes fréquences. Le codage des informations
basses fréquences se fait essentiellement par corrélation de phase : le neurone décharge
toujours au même moment de l’onde sonore, la fréquence du son est équivalente à la
fréquence de décharge du neurone. L’intensité de la stimulation est codée par le nombre de
cellules ciliées activées, donc par le nombre de neurones du nerf cochléaire qui transmettent
l’information. A une fréquence donnée, l’augmentation de l’intensité de la stimulation
provoque une amplification du mouvement de la membrane basilaire activant ainsi un plus
grand nombre de cellules ciliées.
Après avoir subi un premier traitement, les informations auditives sont envoyées vers
le cortex auditif ; avant de le rejoindre, elles effectuent des relais au niveau de plusieurs
structures du tronc cérébral.
1.1.2. De la cochlée au cortex auditif primaire
Le message auditif est relayé par plusieurs structures sous-corticales avant d’atteindre
le cortex auditif primaire. Le premier relais s’effectue dans le tronc cérébral au niveau du
noyau cochléaire ipsilatéral qui présente une organisation tonotopique : les neurones
répondant aux sons basses fréquences sont en position antérieure, ventrale, ceux répondant
aux hautes fréquences sont situés dans sa partie postérieure, dorsale. Avant de rejoindre le
deuxième relais, il y a une décussation partielle des fibres en provenance du noyau cochléaire
au niveau des corps trapézoïdes.
165
Le second relais synaptique a lieu dans le complexe olivaire supérieur, ensemble de
noyaux situés dans la partie supérieure du pont. Dans la partie médiane du complexe olivaire,
les neurones répondent à des stimulations basse fréquence et sont sensibles au décalage de
phase entre les sons provenant des deux oreilles. Dans sa partie latérale, les neurones
déchargent pour des stimulations hautes fréquences ipsilatérales et sont sensibles aux délais
interauraux. Ainsi, le complexe olivaire supérieur est la première structure impliquée dans la
localisation spatiale des sons. Les fibres auditives empruntent ensuite le lemnisque médian
pour rejoindre le colliculus inférieur.
Les neurones du colliculus inférieur répondent à la fréquence du son, à son intensité,
et à sa localisation spatiale. La progression le long de la voie auditive sous-corticale est très
rapide : les informations atteignent le colliculus inférieur en 5,5 ms. Elle permet le décodage
de l’information auditive en terme de fréquence, d’intensité et de localisation. Après le
colliculus inférieur, les informations auditives, comme les informations visuelles, effectuent
un relais dans un noyau du thalamus : le corps genouillé médian (CGM) ; c’est le dernier
relais avant que l’information ne soit transmise au cortex.
Le cortex auditif est situé dans le lobe temporal. L’aire auditive primaire (A1 ou aire
41 selon Brodmann) se trouve en profondeur du lobe temporal, dans le gyrus transverse du
gyrus temporal supérieur (STG), également dénommé gyrus de Heschl. Dans le CGM et A1,
sont analysées les informations permettant la localisation et la reconnaissance du signal
sonore, déjà largement décodées par les structures sous-corticales. Dans le cortex auditif
primaire, la représentation du son est tonotopique ; les hautes fréquences activent les régions
postérieures médianes du gyrus de Heschl, les basses fréquences sont analysées dans sa partie
antérieure latérale (Langers et al., 2007; Luethke et al., 1989). Les informations auditives sont
alors transmises à plus d’une quinzaine d’aires corticales différentes localisées
essentiellement dans le STG (Hackett et al., 1998; Kaas & Hackett, 1998).
1.2. A1 et les aires auditives associatives
1.2.1. Chez le primate
Deux aires auditives ont été décrites comme recevant les afférences du CGM : A1 et
l’aire rostrolatérale (R) ; la limite entre ces deux aires se trouve au niveau des zones sensibles
aux basses fréquences. Ces aires définissent le cœur du cortex auditif, avec une troisième :
l’aire caudomédiale (CM) (Rauschecker, 1998). L’aire CM borde l’aire A1 dans sa région
166
répondant aux hautes fréquences (Figure 25a) (Kaas & Hackett, 1998; Rauschecker, 1998;
Rauschecker & Tian, 2000). L’aire CM ne reçoit cependant pas d’afférences directes du
CGM, puisqu’une lésion de A1 suffit à annuler ses réponses (Rauschecker & Tian, 2000). Ces
trois aires présentent une organisation tonotopique et répondent préférentiellement à des sons
purs.
La ceinture latérale du cortex auditif est constituée d’aires situées en surface du gyrus
temporal supérieur, adjacentes et parallèles aux aires R, A1 et CM : l’aire antérolatérale (AL),
l’aire médiolatérale (ML) et l’aire caudolatérale (CL), respectivement (Rauschecker, 1998;
Rauschecker & Tian, 2000). Les neurones de la ceinture latérale du cortex auditif (AL, ML et
CL) répondent aux sons complexes plus qu’aux sons purs, leur décharge est préférentielle
pour certaines valeurs de bande passante. De plus, ces neurones sont sensibles à la vitesse des
changements spectraux19 : la dynamique temporelle du son. Les neurones de la région
antérieure répondent à des variations lentes de fréquence alors que les neurones de la région
caudale répondent à des changements rapides (Rauschecker & Tian, 2000). Dans une dernière
étude, Rauschecker & Tian (2000) montrent une dissociation entre le traitement des
informations spatiales et des vocalises. Les neurones de AL répondent aux vocalises, alors
que les neurones de CL sont sélectifs de la localisation spatiale ; toutefois, les vocalises
activent également l’aire caudomédiale. Ces résultats sont à l’origine de l’hypothèse d’une
dissociation entre l’analyse des informations liées au « quoi » et celle des informations liées
au « où », similaire à celle décrite dans le système visuel (Figure 25a,b) (Kaas & Hackett,
1999; Rauschecker & Tian, 2000; Tian et al., 2001). Un troisième niveau d’organisation a été
décrit, il est constitué d’aires corticales périphériques (« parabelt areas ») situées en position
latérale et ventrale des aires de la ceinture latérale (Hackett et al., 1998). Ces aires corticales
semblent être impliquées dans des fonctions intégratives et associatives de plus haut niveau,
notamment dans la perception de la structure des stimuli auditifs et donc dans la
reconnaissance des objets (Kaas et al., 1999).
19
La dynamique temporelle fait référence aux changements de fréquence au cours du temps. Elle représente la
même chose que la dynamique spectrale.
167
Figure 25. Voie dorsale et voie ventrale, chez le primate (a, b) et chez l'homme (c, d, e). (a)
Adapté de Rauschecker & Tian (2000). La voie dorsale (en mauve) s'étend jusqu'aux aires
frontales supérieures. La voie ventrale se termine dans le gyrus frontal inférieur. (b) Projections
des voies auditives dans le cortex préfrontal selon Romanski et al. (1999). (c) Aires impliquées
dans la localisation du son, identifiées à partir d'une analyse de source sur des données MEG. Issu
de Brunetti et al. (2005). (d) Voie ventrale et dorsale chez l'homme. Les aires postérieures (en
bleu) sont activées par la tâche de localisation spatiale. En orange, sont représentées les aires
activées dans la tâche de jugement de la hauteur. Issu de Alain et al. (2001). (e) Représentation
schématique des voies dorsale (en violet) et ventrale (en vert ) chez l'homme. Les deux voies sont
représentées jusqu'au cortex frontal. En rose et rouge : aires classiquement associées à la
compréhension (aire de Wernicke, BA22) et la production (aire de Broca, BA 44/45) du langage
respectivement. BA: aire de Brodmann.
1.2.2. Chez l’homme
Les études chez l’homme révèlent également une hiérarchie des aires auditives
(Wessinger et al., 2001). Les aires auditives primaires, constituant le cœur du cortex auditif,
sont localisées dans la partie médiane postérieure du gyrus de Heschl (Figure 25c) (Hackett et
al., 2001; Liegeois-Chauvel et al., 1994; Liegeois-Chauvel et al., 1991; Sweet et al., 2005).
Les neurones des aires auditives primaires répondent principalement à des sons purs présentés
168
à l’oreille controlatérale avec des latences courtes, autour de 20 ms (Liegeois-Chauvel et al.,
1994; Liegeois-Chauvel et al., 1991; Wessinger et al., 2001). L’organisation de ces aires est
tonotopique : des basses vers les hautes fréquences selon un axe antérieur (latéral)-postérieur
(médian) (Langers et al., 2007; Liegeois-Chauvel et al., 1991; Wessinger et al., 1997;
Wessinger et al., 2001). La réponse des neurones du cortex auditif primaire est la même que
les stimuli auditifs consistent en du bruit ou du langage, révélant que l’aire auditive primaire
est impliquée dans l’analyse précoce des caractéristiques acoustiques des différents stimuli
auditifs (Zatorre et al., 1992). Une autre étude montre cependant une réponse amplifiée de A1
pour des stimuli linguistiques ; les auteurs proposent que cela reflète leur plus grande
complexité acoustique (Belin et al., 2002). L’organisation tonotopique est plus marquée dans
l’hémisphère droit que dans l’hémisphère gauche (Langers et al., 2007; Liegeois-Chauvel et
al., 2001). Il semble donc y avoir une latéralisation prononcée dans le système auditif. Les
aires auditives secondaires sont localisées sur les côtés postérieur et antérieur du gyrus de
Heschl et dans la partie postérieure – le planum temporale – et la partie antérieure – le planum
polare – du STG (Langers et al., 2007; Sweet et al., 2005). Dans les aires auditives
secondaires, les neurones ne montrent pas de préférence pour les stimulations controlatérales,
l’organisation tonotopique n’y est pas non plus évidente (Langers et al., 2007). Les aires
auditives secondaires sont activées par des stimuli auditifs complexes et ne répondent que très
peu à des sons purs (Wessinger et al., 2001). Les aires auditives secondaires paraissent donc
impliquées dans des traitements auditifs de plus haut niveau (Zatorre et al., 1992).
Il est également montré une dissociation anatomique et fonctionnelle entre l’analyse
de la localisation spatiale, par la voie dorsale, et l’analyse de la nature du son, par la voie
ventrale (Figure 25) (Alain et al., 2001; Barrett & Hall, 2006; Maeder et al., 2001). La
séparation des voies ventrale et dorsale aurait lieu dès le planum temporale. Les informations
sur la hauteur du son sont en effet traitées dans sa partie antérolatérale, alors que les
informations sur la localisation spatiale du son sont analysées dans sa partie postéromédiane ;
le planum temporale serait l’équivalent des zones de la ceinture du cortex auditif décrites chez
le singe (Warren & Griffiths, 2003). La localisation du son implique des aires situées dans les
régions cérébrales postérieures et dorsales, notamment la partie ventrale du lobule pariétal
inférieur et le précunéus (Figure 25c) (Brunetti et al., 2005; Zatorre, Bouffard et al., 2002).
La reconnaissance des sons met en jeu un réseau d’aires cérébrales situées dans la partie
antérieure du lobe temporal, notamment les gyri temporaux supérieur (STG) et moyen (MTG)
(Figure 25d,e) (Alain et al., 2001; Maeder et al., 2001). Cependant, la dissociation
169
anatomique entre voie dorsale et voie ventrale paraît également refléter une dissociation
fonctionnelle liée à l’analyse des informations temporelles des stimuli auditifs (Belin &
Zatorre, 2000). La voie dorsale serait en fait impliquée dans l’analyse de la dynamique
temporelle du son, hypothèse appuyée par les études montrant une activation des aires
postérieures par des stimuli présentant des variations spectrales (Thivard et al., 2000). La voie
dorsale serait donc la voie du « comment », comment évoluent les éléments spectraux au
cours du temps ; la fonction du « quoi » reste attribuée à la voie ventrale (Belin & Zatorre,
2000). La dynamique temporelle du son est un élément permettant le traitement des aspects
phonologiques de la parole (Zatorre, Belin et al., 2002) ; ainsi, la sensibilité de la voie dorsale
à la dynamique temporelle l’associerait à la compréhension du discours. Cette hypothèse est
également renforcée par la présence de l’aire de Wernicke dans la partie postérieure du STG,
aire impliquée dans la compréhension du langage (Figure 25e).
Par ailleurs, différentes études mettent en évidence une dissociation fonctionnelle
entre hémisphère droit et hémisphère gauche (Liegeois-Chauvel et al., 2001; Zatorre & Belin,
2001; Zatorre, Belin et al., 2002; Zatorre, Bouffard et al., 2002). La latéralisation des effets
observés en IRMf est dépendante de la rapidité des changements spectraux plus que du
contenu linguistique des stimuli. L’hémisphère gauche est activé par des changements rapides
de fréquence alors que l’hémisphère droit est plus activé par des stimuli statiques ou
changeant lentement (Belin et al., 1998; Husain, Fromm et al., 2006). Cette asymétrie
hémisphérique en fonction de la dynamique temporelle pourrait expliquer la latéralisation du
langage chez l’homme (Belin et al., 1998; Liegeois-Chauvel et al., 1999). Ainsi, l’hémisphère
gauche paraît impliqué dans l’analyse de la dynamique temporelle, et l’hémisphère droit dans
l’analyse spectrale des stimuli auditifs (Zatorre & Belin, 2001; Zatorre, Belin et al., 2002).
Compte tenu de la latéralisation des traitements auditifs, et des études montrant que la
localisation spatiale d’un son active les régions postérieures dorsales du cerveau, il est
possible que la voie dorsale dans l’hémisphère gauche soit impliquée dans l’analyse de la
dynamique temporelle des stimuli et qu’elle permette le décodage phonologique sous-tendant
la compréhension du discours ; dans l’hémisphère droit, la voie dorsale aura pour rôle
l’analyse de la localisation spatiale du son.
En résumé, comme observé dans le système visuel, deux voies distinctes partent des
aires auditives primaires vers les aires auditives associatives. Une de ces voies est impliquée
dans l’analyse des caractéristiques acoustiques du son, la voie ventrale ou voie du « quoi » ;
170
elle met en jeu des aires cérébrales localisées dans la partie antéro-ventrale du lobe temporal.
L’autre voie implique des aires corticales de la partie postéro-dorsale du cortex, c’est la voie
dorsale. Son rôle est encore débattu actuellement, elle pourrait être impliquée soit dans
l’analyse de la dynamique temporelle des stimuli auditifs (voie du « comment ») (Belin &
Zatorre, 2000; Zatorre & Belin, 2001), soit dans le traitement des informations nécessaires à
la localisation spatiale du son (voie du « où ») (Figure 25) (Alain et al., 2001; Brunetti et al.,
2005; Kaas & Hackett, 1999; Maeder et al., 2001; Rauschecker & Tian, 2000; Zatorre,
Bouffard et al., 2002). Ces deux voies distinctes convergent dans différentes régions du lobe
frontal (Alain et al., 2001; Brunetti et al., 2005; Romanski et al., 1999). La voie ventrale se
termine dans la partie ventrale du gyrus frontal inférieur alors que la voie dorsale se termine
dans la partie dorsale du cortex préfrontal (Figure 25a,b,e) (Alain et al., 2001; Husain,
McKinney et al., 2006; Rauschecker & Tian, 2000; Romanski et al., 1999). Ces deux aires
frontales ont, par ailleurs, été décrites comme étant le lieu de convergence respectivement des
informations visuelles liées à l’objet (catégorisation etc.) et celles liées à la localisation ou au
mouvement de l’objet. Ainsi, il apparaît que l’organisation corticale est dépendante des
informations extraites de différentes scènes sensorielles. Les informations concernant le
mouvement ou la localisation spatiale engagent un réseau d’aires localisées dans la partie
dorsale de l’encéphale, les informations liées à la nature des stimulations sont analysées via
les aires situées dans la partie ventrale du cortex.
1.3. Décours temporel du traitement auditif : potentiels évoqués
Les potentiels évoqués (PE) auditifs enregistrés en MEG ou en EEG traduisent le
décours temporel du traitement auditif en mettant en évidence plusieurs composantes.
Des réponses très précoces, entre 10 et 60 ms après le début de la stimulation, peuvent
être enregistrées sur les électrodes centrales. Ces ondes cérébrales sont en général de faible
amplitude et n’ont reçu que peu d’attention de la part des chercheurs. Durant ce laps de temps,
il peut être observé 6 pics d’activité ; les deux ondes les plus communément observées sont le
complexe Na/Pa (18 à 30 ms), suivi de l’onde P1 ou P50 (50 ms) (Figure 26a). La Pa,
enregistrée sur les électrodes frontocentrales, est une onde visible dans diverses conditions
expérimentales chez de nombreux sujets. Elle a pour origine une région médiane du gyrus de
Heschl (Liegeois-Chauvel et al., 1994; Pantev et al., 1995). La topographie de la Pa montre
une sensibilité à la fréquence du son. La positivité devient de plus en plus frontale à mesure
de l’augmentation de la fréquence, révélant un changement d’orientation du dipôle soustendant la Pa. Après la Pa, il est parfois observé une composante positive apparaissant 50 ms
171
après le début de la stimulation : la P50 ou P1. La P50 a pour origine les régions latérales de
l’aire auditive primaire (Liegeois-Chauvel et al., 1994). La P50 paraît être modulée par la
pertinence d’un stimulus ; son amplitude diminue pour les stimuli non pertinents.
Figure 26. Exemples de potentiels évoqués auditifs. (a) Illustration de PE auditifs précoces. La
Pa, la N1et la P2 sont visibles sur les électrodes centrales (Fz, Cz). Issu de Pantev et al. (1995). (b)
La N1 et la P2 sont visibles sur Fz et Cz. Les deux voyelles diffèrent au niveau phonologique, le
/a/ est une voyelle douce ("soft"), et le /A/ est une voyelle appuyée ("pressed"). La P2 est plus
ample pour les voyelles que pour les sons non vocaux ("tones", en pointillé). Issu de Tiitinen et al.
(1999).
La N1 auditive (en MEG, la M100 auditive) est une onde négative enregistrée sur les
électrodes frontocentrales ; elle commence environ 100 ms après le début du stimulus (Figure
26). La N1 est modulée par la fréquence des stimuli ; sa latence et son amplitude diminuent
avec l’augmentation de la fréquence (Crottaz-Herbette & Ragot, 2000; Jacobson et al., 1992;
Näätänen & Picton, 1987; Näätänen et al., 1988). L’utilisation de sons complexes a mis en
évidence une modulation de la topographie de la N1 par la fréquence des harmoniques : plus
la fréquence des formants augmente, plus le dipôle expliquant la N1 a une orientation frontale
(Crottaz-Herbette & Ragot, 2000; Pantev et al., 1995; Tiitinen et al., 1993). La N1 est
172
également sensible à la position du stimulus dans l’espace puisque la N1 diminue, révélant
une adaptation lorsque des stimuli spatialement proches sont présentés(Näätänen et al., 1988).
Au vu de la sensibilité de la N1 à la fréquence et à la localisation spatiale du son, la source
cérébrale de la N1 serait placée dans le cortex auditif en position plus superficielle et latérale
que la source de la Pa, au niveau de la partie supérieure du STG dans le planum temporale
(Liegeois-Chauvel et al., 1994; Lutkenhoner & Steinstrater, 1998; Pantev et al., 1995). Les
modifications de topographies seraient révélatrices de la tonotopie décrite dans le planum
temporale (Pantev et al., 1995). Par ailleurs, la modulation de la N1 par la fréquence du son
est indépendante des modulations liées au traitement de la localisation spatiale, suggérant une
dissociation anatomique et fonctionnelle entre le traitement des informations spatiales et
acoustiques, notamment au niveau du planum temporale en accord avec la dissociation
anatomique et fonctionnelle rapportée par les études en imagerie (Näätänen et al., 1988;
Warren & Griffiths, 2003). Il semble cependant, que plusieurs sources cérébrales contribuent
à la N1 enregistrée à la surface du scalp (Näätänen & Picton, 1987; Näätänen et al., 1988).
Les sources cérébrales proposées comme étant à l’origine de la N1 – celle que Näätänen &
Picton (1987) appellent la « vraie N1 » – sont au nombre de trois (Näätänen & Picton, 1987).
Une première source serait localisée dans le cortex auditif au niveau du planum temporale du
STG, une deuxième source dans les aires auditives secondaires en position latérale par rapport
au gyrus de Heschl (Liegeois-Chauvel et al., 1994; Lutkenhoner & Steinstrater, 1998;
Näätänen & Picton, 1987). La troisième composante est une composante frontale dont
l’origine parait être le cortex frontal, le cortex moteur ou le gyrus cingulaire (Giard et al.,
1994; Giard et al., 1988). La N1 est également modulée par les processus attentionnels : son
amplitude augmente lorsque l’attention des sujets est explicitement dirigée vers certaines
caractéristiques du son (Alho et al., 1986; Alho et al., 1994; Giard et al., 1988). Cette
augmentation d’amplitude pourrait refléter une augmentation de l’activité des sources à
l’origine de la N1, ou l’addition de l’activité d’une autre source se traduisant par une large
négativité (« processing negativity ») (Alho et al., 1994; Näätänen & Picton, 1987; Neelon et
al., 2006).
Après la N1, une onde positive est enregistrée au niveau du vertex entre 160 et 240 ms
après le début de la stimulation : la P2 (Figure 26) (Michalewski et al., 1986). La P2 n’a été
que peu étudiée ; son origine cérébrale paraît être une région antérieure au gyrus de Heschl et
à la source de la N1 (Lutkenhoner & Steinstrater, 1998; Tiitinen et al., 1999). L’amplitude de
la P2 est également modulée par la fréquence des stimuli : son amplitude diminue avec
173
l’augmentation de la fréquence (Verkindt et al., 1994). Durant l’intervalle de temps de la N1
et de la P2, il est possible de mettre en évidence une onde différentielle : la MMN
(« Mismatch negativity ») (Naatanen & Alho, 1995, 1997). La MMN est enregistrée sur les
électrodes frontocentrales entre 100 et 250 ms, et est obtenue après soustraction des PE
enregistrés pour des stimuli rares aux PE enregistrés pour des stimuli fréquents présentés au
sein d’une même séquence (Elangovan et al., 2005). Elle montre un autre aspect du traitement
auditif : elle reflète la détection automatique d’un changement, en terme de fréquence, de
durée, ou de contenu sémantique, entre deux stimuli auditifs (Naatanen & Alho, 1995; Roeber
et al., 2003; Tiitinen et al., 1993). Elle est également sensible à la discrimination entre deux
catégories de stimuli. Son amplitude est corrélée à la perception des sujets : plus les sujets
perçoivent de similarité entre deux stimuli, plus la MMN est petite (Naatanen, 2001). Puisque
la MMN est enregistrée simultanément à la N1 et la P2, il est probable que certaines
modulations de la MMN soient également présentes au niveau de ces deux composantes ;
elles sont, par exemple, toutes trois modulées par la fréquence des stimuli. Certains auteurs
proposent d’ailleurs que les différentes phases de la MMN (précoce et tardive) correspondent
successivement à la N1 et la P2 (Elangovan et al., 2005).
Les aires activées par les stimuli auditifs et le décours temporel de ces activations
dépendent fortement des caractéristiques physiques des stimuli mis en jeu. Dans ma thèse, je
me suis intéressée à un stimulus auditif spécifique du fait de son rôle social : la voix. Pour
bien appréhender le traitement de la voix, il est nécessaire de comprendre son mode de
production et ses caractéristiques acoustiques.
2. La voix : de la production à l’écoute
La voix, les vocalises ne sont pas l’apanage de l’espèce humaine. Bien avant que la
voix n’ait acquis l’importance qu’elle a dans l’espèce humaine, où elle véhicule le langage
articulé, les vocalises étaient le support de la communication orale chez de nombreuses
espèces animales. Les vocalises sont par exemple utilisées pour la reconnaissance des
individus d’une même famille chez les oiseaux (Jouventin et al., 1999; Price, 1999; Sharp et
al., 2005), les macaques, les grenouilles (Bee & Gerhardt, 2002), les dauphins (Barton, 2006)
etc. Les cris des animaux ont un rôle de première importance dans la survie des individus,
particulièrement pour les animaux vivant en groupe qui ont des codes vocaux spécifiques
pour alerter le groupe, notamment de la présence d’un danger (Ghazanfar et al., 2001). Dans
174
l’espèce humaine, la voix permet à la pensée de se muer en structures chantées ou parlées ;
elle est le support du langage articulé. Mais, outre son rôle dans la perception du discours, elle
porte également des informations paralinguistiques, importantes pour la reconnaissance de
l’individu et de son état émotionnel; elle peut être considérée comme le « visage auditif »
(Belin et al., 2004). Comme les visages, qui partagent une configuration générique et dont
l’identité est déterminée par des variations subtiles de la position des éléments, une voix est
caractérisée par un arrangement unique de différents paramètres acoustiques. Ces différents
paramètres dépendent de l’anatomie de l’appareil phonatoire propre à chaque individu. La
qualité de la voix est également influencée par d’autres facteurs, notamment par les facteurs
culturaux, les habitudes vocales etc.
Dans ma thèse, j’ai exploré l’extraction des informations paralinguistiques de la voix,
plus spécifiquement la reconnaissance du genre. Avant de rentrer dans le sujet de la
perception de la voix, je vais d’abord rappeler brièvement les mécanismes de production de la
voix, puis les mécanismes cérébraux sous-tendant la compréhension et la production du
langage. J’aborderai ensuite la perception des voix d’un point de vue extralinguistique.
2.1. Appareil phonatoire et structure de la voix
La voix désigne l’ensemble des sons produits par l’air qui sortent des poumons et du
larynx. La structure d’une voix est unique, elle dépend des différents organes de l’appareil
phonatoire (Figure 27). L’appareil vocal humain fonctionne de façon analogue à un
instrument de musique à vent et à corde. La voix est produite à partir d’une source d’air
provenant des poumons et d’un ensemble de muscles dont le rôle est d’acheminer l’air de la
trachée
vers
le
larynx
où
il
rencontre
les
cordes
vocales
(Figure
27).
Les cordes vocales sont des muscles qui, sous la commande d’influx nerveux, vont se
contracter ou se relâcher. La vibration des cordes vocales entraînent des mouvements
d’ouverture et de fermeture de la glotte, il y a ainsi une libération saccadée de l’air
emmagasiné dans les poumons. Le flux d’air sortant du larynx est ensuite amplifié via une
série de structures jouant le rôle de caisses de résonnance : le pharynx, la bouche et les fosses
nasales (Figure 27).
175
Figure 27. Appareil phonatoire humain.
La voix est une onde sonore complexe caractérisée par sa fréquence et son intensité.
La hauteur de la voix est liée à la fréquence de l’onde sonore issue des cordes vocales. Elle est
donc déterminée par la périodicité du cycle d’ouverture/fermeture de la glotte. La voix est
également caractérisée par les formants ; ces derniers résultent de l’amplification de certaines
fréquences dans les différentes caisses de résonance constituant un système acoustique. Dans
la voix, ils sont les fréquences amplifiées dans le conduit vocal, au niveau du pharynx et des
cavités nasales. L'intensité de la voix varie généralement, pour le langage parlé, entre 40 et 60
dB. Elle dépend de la pression sous-glottique.
La fréquence et l’intensité de la voix ne sont pas indépendantes. La fréquence
laryngienne (fréquence fondamentale) est le résultat de la tension des cordes vocales mais
également de la pression sous-glottique qui dépend de la forme des poumons, de la trachée et
de l’ensemble de l’appareil phonatoire ; ceci démontre bien une interaction entre intensité et
fréquence fondamentale. L’unicité de la voix et la variabilité intra-individuelle viennent de
l’interaction entre ces différents facteurs. La parole est le résultat d’une modification de la
fréquence de vibration des cordes vocales, qui permet de produire les vibrations acoustiques
caractéristiques des différents sons du langage. Les sons qui sortent des cordes vocales ne
sont que des mots en devenir. Le pharynx et les cavités avec lesquelles il est en contact
modulent l’amplitude de certaines fréquences ; la langue, les dents et le voile du palais
sculptent les sons. Après ces différentes modifications, les sons deviennent des mots.
2.2. Ecouter la voix : langage et perception
La perception des voix a été largement étudiée, du fait de son importance dans la
communication verbale par le langage. La voix véhicule également des informations
paralinguistiques importantes dans les interactions sociales et à la communication non
176
verbale. L’existence de lésions provoquant spécifiquement des troubles du langage (les
aphasies) ou des troubles de la perception de la voix (les phonagnosies) prouve que les
structures cérébrales impliquées dans ces deux fonctions sont distinctes. L’aphasie est un
trouble du langage affectant l’expression ou la compréhension du langage parlé ou écrit. Les
aphasies sont de plusieurs types. Les deux aphasies principales décrites sont l’aphasie de
Broca (1863) et l’aphasie de Wernicke (1874) ; elles sont la conséquence de lésions touchant
respectivement les aires de Broca et Wernicke (Figure 22e). La phonagnosie est un trouble de
la perception des voix allant de l’incapacité à discriminer deux voix non familières à
l’impossibilité de reconnaître une voix familière (Van Lancker et al., 1988).
2.2.1. Le langage : la communication verbale
Le langage est universel, toutes les tribus humaines ont développé un langage pour
communiquer. L’apprentissage du langage est le même dans toutes les populations, bien que
la syntaxe varie d’une langue à l’autre.
a. Caractéristiques acoustiques du langage
L’unité de base du langage est le phonème. Les phonèmes sont divisés en deux
catégories : les voyelles et les consonnes. Une voyelle est un son musical perceptible alors
que les consonnes sont des bruits n’ayant aucune signification si elles ne sont pas associées à
une voyelle. Les consonnes et les voyelles sont classées en plusieurs catégories en fonction du
lieu et du mode d’articulation. Le lieu d’articulation est le lieu de rétrécissement maximal de
l’appareil phonatoire, le mode d’articulation décrit la configuration générale des organes
articulatoires. Le mode d’articulation dépend de la voie empruntée par l’air en provenance des
poumons : si l’air passe uniquement par la voie buccale, les consonnes et voyelles sont dites
orales, si l’air emprunte les voies buccale et nasale, elles sont dites nasales.
Les voyelles sont, en général, des sons complexes périodiques produits par une
vibration des cordes vocales possédant une fréquence fondamentale et des harmoniques.
Certaines harmoniques sont amplifiées, rendant compte du timbre propre à chaque voyelle ;
ces fréquences renforcées sont les formants. Ces derniers, au nombre de 4 minimum, sont
essentiels à la perception des voyelles ; les deux premiers formants (f1 et f2, ceux de plus basse
fréquence) peuvent suffire à discriminer deux voyelles.
Une consonne est un son, non nécessairement accompagné d’une vibration des cordes
vocales, produit par l’obstruction du passage de l’air dans les cavités situées au dessus de la
177
glotte. En phonétique articulatoire, les consonnes sont classées en plusieurs catégories en
fonction des lieux et modes d’articulation. Le lieu d’articulation distingue les consonnes
labiales (/b/, /p/ etc.), des consonnes dentales (/d/, /t/, /n/), vélaires (/g/, /k/ etc.) etc. Le mode
d’articulation permet un classement des consonnes en fonction du voisement, c’est à dire la
mise en jeu des cordes vocales ; on distingue les consonnes voisées et les consonnes sourdes.
Les consonnes voisées, sonores, (/b/, /g/, /d/ etc.) sont produites par une vibration des cordes
vocales ; ce sont des sons complexes périodiques dont le spectre ressemble à celui d’une
voyelle. Les consonnes sourdes (/p/, /t/, /k/ etc.) sont des sons complexes apériodiques
produits sans vibration des cordes vocales, c’est la fermeture des cavités supra-glottiques qui
détermine le son. Le mode d’articulation indique également le degré de fermeture des cavités
supra-glottiques : consonnes fricatives ou occlusives. Les consonnes occlusives (/p/, /b/, /t/,
/d/ etc.) sont produites en obstruant totalement le passage de l’air dans le conduit vocal. Les
consonnes fricatives (/k/, /v/, /s/, etc.) résultent d’un resserrement du canal vocal n’allant pas
jusqu’à sa fermeture.
b. Structures cérébrales impliquées dans le langage
Les premières données sur les structures cérébrales impliquées dans la perception du
langage, de sa compréhension à sa production, ont été apportées par l’étude de patients
montrant des troubles du langage associés à des fonctions cognitives normales. Ces
pathologies sont les aphasies. Plusieurs types d’aphasie résultent de lésions cérébrales
différentes. Cette première constatation montre que le langage est un processus qui a lieu en
plusieurs étapes dans des structures cérébrales distinctes.
Les lésions du lobe frontal gauche, au niveau de l’aire de Broca, provoquent un
trouble de l’articulation des mots sans atteinte de la compréhension. Les troubles de la
production sont associées à des erreurs grammaticales et à une mauvaise utilisation de
certains mots. Ce type d’aphasie est nommée aphasie de Broca. Elle montre l’implication de
l’aire de Broca dans les contrôles moteurs à la base du langage articulé. L’aphasie de
Wernicke résulte de lésions postérieures de l’hémisphère gauche, au niveau de l’aire de
Wernicke. Elle se traduit par une perte de la compréhension associée à un langage fluide et
volubile mais incompréhensif. Ces données suggèrent que l’aire de Wernicke joue un rôle
dans la relation entre le décodage phonétique et le sens du mot. Cependant, le discours des
patients souffrant d’une aphasie de Wernicke est altéré, révélant une interaction entre les aires
de Broca et de Wernicke ; cette interaction est assurée via un faisceau de fibres nerveuses : le
faisceau arqué. L’aire de Broca reçoit des entrées en provenance de l’aire de Wernicke ; en
178
l’absence de ces entrées, elle n’a plus la possibilité de contrôler le contenu des mots produits.
Des lésions du faisceau arqué induisent un autre type d’aphasie : l’aphasie de conduction, qui.
est caractérisée par des troubles de la répétition et, une compréhension et une production du
langage préservées (Cohen, 2004).
L’aire de Wernicke est donc impliquée dans la compréhension du discours, plus
précisément dans la représentation des séquences phonétiques. Les gyri supramarginal et
angulaire semblent impliqués respectivement dans le traitement phonologique (Thierry et al.,
1999), et dans le traitement sémantique des mots. Le faisceau arqué transmet les informations
des aires postérieures aux aires antérieures dont l’aire de Broca, qui, elle, joue un rôle dans la
production du langage. La partie antérieure de l’aire de Broca (aire 45) serait impliquée dans
les aspects sémantiques de la production du langage ; sa partie postérieure (aire 44) serait
responsable de la production du langage à proprement parler, elle enverrait un programme
moteur au cortex moteur primaire. Les études lésionnelles ne sont pas très précises : il est rare
d’observer une lésion touchant spécifiquement une aire corticale. En conséquence de quoi, il
est probable que d’autres aires appartenant aux cortex temporal et frontal soient aussi
impliquées dans la compréhension et la production du langage.
De nouvelles données ont été apportées par les techniques de neuroimagerie ; elles
remettent en question cette organisation simple des processus linguistiques. Les études en
imagerie montrent en effet que la perception du langage met en jeu un réseau d’aires
cérébrales largement distribuées, localisées dans les cortex temporal, pariétal et frontal
essentiellement dans l’hémisphère gauche. Ces différentes aires cérébrales fonctionnent aussi
bien en parallèle que de manière hiérarchique (Binder et al., 1997; Binder et al., 1996; Scott
& Johnsrude, 2003). Les informations phonétiques, compréhensibles ou non, activent le gyrus
temporal supérieur (STG) gauche, dans une région latérale et antérieure au cortex auditif
primaire, et le sulcus temporal supérieur (STS) postérieur gauche. La partie antérolatérale du
STG serait impliquée dans un traitement phonétique pré-lexical, alors que l’activation du STS
postérieur refléterait la construction d’une représentation phonétique nécessaire à la répétition
des mots entendus, compris ou pas (Scott et al., 2000; Scott et al., 2006). A contrario, le STS
antérieur gauche est activé uniquement par les stimuli intelligibles (Scott et al., 2000). L’aire
de Wernicke, située dans la partie postérieure du STG, n’est donc pas la seule responsable de
la compréhension du langage ; elle n’est d’ailleurs pas activée dans l’étude de Scott et al.
(2000). Il semble qu’un grand nombre d’aires du lobe temporal gauche, incluant le STG, le
179
gyrus temporal médian et le gyrus angulaire, soient impliquées dans la compréhension du
langage (Binder et al., 1997; Spitsyna et al., 2006).
L’aire de Broca est également mise en jeu par le traitement des informations
sémantiques : elle est activée dans des tâches requérant un traitement sémantique sans
production de parole (Binder et al., 1997; Zatorre et al., 1992). Il est proposé que la
réalisation d’une tâche de décision phonétique mette en jeu l’aire de Broca car elle nécessite
l’accès à la représentation motrice du mot. L’accès au code moteur n’est cependant pas
nécessaire pour tout traitement sémantique puisque l’aire de Broca n’est pas activée lors d’une
écoute passive de mots, même s’ils sont compris par les sujets (Zatorre et al., 1992). L’aire de
Broca n’est pas non plus la seule aire frontale gauche activée dans la perception du discours.
En fait, une grande partie du cortex préfrontal gauche est activée par les stimuli contenant des
informations sémantiques ; seule une partie focalisée du gyrus frontal médian (aire 9) n’est
pas activée, révélant ainsi son rôle dans des fonctions distinctes (Binder et al., 1997). Le
langage met en jeu, en plus des aires corticales, des structures sous-corticales. Le cervelet
faciliterait les opérations cérébrales complexes ; le thalamus a été associé aux influences
attentionnelles dans la perception du langage. L’activation du cortex rétrosplénial pourrait
refléter l’implication des fonctions mnésiques dans les tâches de décision sémantique (Binder
et al., 1997; Thierry et al., 1999). La perception du langage semble donc engager de très
nombreuses aires corticales localisées essentiellement dans l’hémisphère gauche. Les
fonctions de ces différentes aires ne sont pas encore bien comprises.
La voix est également le support d’informations non langagières donnant un accès à
l’identité, à l’état émotionnel d’un individu. Bien que la voix soit le « visage auditif », ce
versant de la perception des voix a été nettement moins exploré que la perception du langage
ou que la perception des visages. Dans le domaine de la communication non verbale, la voix
présente des similitudes avec le visage : elle est un stimulus complexe que nous sommes
pourtant à même de décoder rapidement, et dont nous extrayons une multitude
d’informations. Ces similitudes entre voix et visage m’ont conduit à l’étude de la voix durant
ma thèse. Dans le paragraphe suivant, je vais détailler les études ayant porté sur la perception
de la voix, afin de voir en quoi elle se différencie ou non de celle des visages.
2.2.2. Perception de la voix, informations paralinguistiques
Même en l’absence de langage, l’être humain est capable de percevoir l’identité et
l’état émotionnel d’un individu, d’après son rire, ses cris etc. Cette capacité est loin d’être
180
spécifique à l’espèce humaine ; elle est apparue bien avant le langage dans l’évolution.
Quelques études seulement ont exploré la perception des informations paralinguistiques de la
voix, au niveau comportemental et cérébral. Les études en neuroimagerie fonctionnelle
tendent à démontrer que la voix est un stimulus auditif spécial, notamment en révélant
l’existence d’aires cérébrales spécifiquement activées par les voix.
a. Etudes comportementales
Une voix est caractérisée par un ensemble d’éléments physiques, qui peuvent être
statiques – fréquence fondamentale, formants – ou dynamiques, rythme de la parole, accents
etc. La combinaison de ces différents paramètres rend chaque voix unique (Figure 28). La
reconnaissance d’une personne à partir de sa voix va donc dépendre de ces différents
éléments, que ce soit la reconnaissance de son identité, de son genre ou de son état émotionnel
(Belin et al., 2004). Chez le macaque, il a été montré un effet de l’inversion temporelle des
vocalises sur la reconnaissance des congénères ; les vocalises sont identifiés comme étant
celles d’un congénère lorsqu’elles sont à l’endroit, i.e. dans le bon ordre temporel, mais pas
après inversion temporelle (Ghazanfar et al., 2001). La dynamique temporelle de la voix est
donc impliquée dans l’identification des individus appartenant à la même espèce.
Chez l’homme, la reconnaissance de l’identité et la perception du genre du locuteur
ont été investiguées ; elles semblent mettre en jeu à la fois les informations statiques et
dynamiques.
Figure 28. Illustration de 3 voix différentes. Le même mot ("lit") est prononcé par 3 personnes
différentes (en colonne). Deux premières colonnes: voix de femmes. Colonne 3: voix d’hommes.
Première ligne: amplitude du signal en fonction du temps. Deuxième ligne: spectrogrammes,
fréquence du signal en fonction du temps. En violet: fréquence fondamentale de chaque voix. NB:
la durée du mot varie en fonction du locuteur, elle est plus grande lorsque le locuteur est une
femme (Andrews & Schmidt, 1997). L'énergie dans chaque bande de fréquence est également
différente.
181
Perception du genre
L’identification du genre d’un locuteur dépend en premier lieu de la hauteur de la
voix, indicée par la fréquence fondamentale. Les voix masculines s’étendent sur une gamme
de fréquence allant de 80 à 160 Hz ; la fréquence des voix féminines varie, elle, entre 150 et
300 Hz. Les voix féminines sont donc, en général plus aiguës que les voix masculines, même
s’il existe un recouvrement partiel entre les deux gammes de fréquence (Figure 28) (Andrews
& Schmidt, 1997; Mullennix et al., 1995; Murry & Singh, 1980; Whiteside, 1998). Le genre
d’un individu est également indiqué par la fréquence des formants qui est généralement
supérieure chez les femmes (Whiteside, 1998). Une étude montre cependant que c’est la
combinaison des informations portées par la fréquence fondamentale et par les formants qui
est importante (Mullennix et al., 1995). Dans cette étude, les stimuli utilisés étaient un
continuum de voix synthétiques, allant d’une voix d’homme à une voix de femme ; les sujets
jugeaient le genre du locuteur. Les auteurs ont testé l’effet de plusieurs adaptateurs sur
l’évaluation par les sujets de la qualité de la voix en terme de genre. Un adaptateur est un
stimulus répété présenté entre les différentes séquences de stimuli à identifier ; dans cette
étude, l’adaptateur était soit une voix synthétique située à l’extrémité du continuum, soit une
voix naturelle, soit une voix dont la fréquence fondamentale ou les formants étaient modifiés
(Mullennix et al., 1995). L’adaptation n’a lieu que si l’adaptateur a la même fréquence
fondamentale et la même fréquence formantique qu’un des extremas du continuum ; si
seulement l’un ou l’autre est apparié, il n’y a pas d’adaptation. Par ailleurs, l’utilisation de
voix non synthétiques (différant de quelques pourcents des voix synthétiques) suffit à
annihiler l’adaptation (Mullennix et al., 1995). Les auteurs concluent de leurs résultats que la
perception du genre dépend d’une représentation de la voix dérivée des informations
auditives, et non d’une représentation abstraite stockée en mémoire ; en effet, si la
représentation du genre était une représentation abstraite, l’adaptation aurait dû avoir lieu
aussi bien avec la voix synthétique que la voix naturelle (Mullennix et al., 1995). Ces
différentes expériences dévoilent également une différence entre la perception des voix
d’hommes et celle des voix de femmes, bien qu’elles ne permettent pas de l’expliquer. Des
différences entre le traitement des voix de femmes et d’hommes sont aussi rapportées par
d’autres études (Fecteau et al., 2004b; Murry & Singh, 1980). Murry et Singh (1980)
montrent que l’identification de la voix est basée sur des facteurs différents en fonction du
sexe du locuteur. En utilisant un paradigme d’amorçage, il est montré un effet plus important
de l’amorçage sur la catégorisation des voix de femmes que sur celle des voix d’hommes
182
(Fecteau et al., 2004b). La différence principale entre perception des voix d’hommes et de
femmes semblent être le recours aux informations temporelles ; les voix de femmes ont
tendance à être reconnues sur la base des informations temporelles de la voix (Murry &
Singh, 1980). De la même façon, il est rapporté que les voix rythmées, présentant une grande
variabilité de fréquence en fonction du temps, sont considérées comme féminines alors que
les voix plus monotones sont considérées comme masculines (Andrews & Schmidt, 1997).
Ainsi, il apparaît que les informations portées par la dynamique temporelle de la voix sont
impliquées dans la reconnaissance du genre du locuteur, particulièrement lorsque les
informations spectrales ne suffisent pas (Andrews & Schmidt, 1997; Fu et al., 2004).
L’inversion de la voix démontre également le rôle des informations dynamiques et statiques
dans la reconnaissance du genre du locuteur. L’inversion du signal, que ce soit dans le
domaine fréquentiel ou dans le domaine temporel, perturbe la perception du genre du
locuteur ; l’inversion fréquentielle a toutefois plus d’impact suggérant un rôle prépondérant
des informations spectrales dans la perception du genre (Bedard & Belin, 2004). Ainsi, les
informations spectrales et temporelles jouent un rôle dans la perception du genre.
Ces études ne permettent cependant pas de savoir si ces informations sont combinées
dans un prototype (équivalent au gestalt, dans la perception des visages). D’un côté, Mullenix
et collaborateurs (1995) suggèrent que la perception du genre de la voix ne repose pas sur
l’existence de prototype (voir ci-dessus). Ils montrent également que la perception du genre
de la voix n’est pas catégorielle (il n’y a pas de discontinuité dans l’identification des voix du
continuum) ; ce résultat va également dans le sens d’une représentation du genre dérivée des
informations auditives (Figure 29a). Les résultats de cette étude sont néanmoins à prendre
avec précaution, non seulement parce que les auteurs utilisent un continuum de voix
synthétiques, mais également parce que la perception des sujets est évaluée sur une échelle
allant de 1 à 6 (voix homme à voix femme). Ce type d’évaluation peut empêcher l’apparition
d’une discontinuité : une voix qui, dans une tâche de choix forcé, serait systématiquement
catégorisée comme masculine, pourrait être estimée avec le chiffre 3 indiquant une incertitude
quant au choix de la réponse. L’absence de discontinuité peut donc simplement révéler
l’incertitude des sujets pour déterminer le genre des voix intermédiaires, incertitude se
reflétant par l’utilisation des chiffres 3 et 4 de l’échelle d’évaluation. D’un autre côté, des
études mettent en évidence, en utilisant un continuum de voix naturelles, une discontinuité
dans les réponses des sujets qui réalisent une tâche de choix forcé (femme ou homme
uniquement), (Figure 29b) (Belin et al., 2006; Charest et al., 2005; Chartrand et al., 2005).
183
Les réponses des sujets présentant une discontinuité, le genre de la voix parait être représenté
sous forme de prototypes stockés en mémoire. Ce résultat ne permet pas d’attester de façon
sure de l’aspect catégoriel de la perception du genre. Pour pouvoir assurer qu’un processus est
catégoriel, il faut en effet observer une discontinuité dans les réponses des sujets mais il est
également nécessaire de prouver que la discrimination entre deux items se situant d’un même
côté de la discontinuité est plus difficile que celle entre deux items situés de part et d’autre de
la discontinuité. Ce deuxième résultat, nécessaire pour prouver que la perception du genre est
catégoriel, n’a pas été trouvé dans les études s’interessant à la perception du genre de la voix
(Communication personnelle de Pascal Belin). Les prototypes du genre contiendraient des
informations temporelles et spectrales.
Figure 29. Comportement observé dans deux études explorant la catégorisation du genre de
la voix. (a) trait plein: évaluation de la qualité masculine ou féminine de voix synthétiques sur une
échelle allant de 1 à 6 (ordonnées de gauche). Les traits en pointillés représentent les performances
(ordonnées de droite) des sujets dans une tâche de discrimination entre deux voix (croix). Le trait
avec les points représente les performances prédites à partir des réponses des sujets dans la tâche
d'identification. L'absence d'un pic de discrimination dans la zone intermédiaire du continuum
(autour des stimuli 5, 6, 7) suggère que la perception du genre n'est pas catégorielle. Issu de
Mullennix et al. (1995). (b) Catégorisation du genre des voix d'un continuum de voix naturelles.
Les résultats sont présentés en pourcentage de réponse "femme". Issu de Chartrand et al. (2005).
Perception de l’identité
La voix est caractérisée par un arrangement unique de différents éléments physiques
qui dépend de la configuration de l’appareil phonatoire propre à chaque individu (Figure 30)
(Lavner et al., 2000). La reconnaissance d’un individu repose sur la fréquence fondamentale
de la voix et sur la fréquence des 3ème et 4ème formants, particulièrement lorsqu’elle est
effectuée sur des voyelles (Lavner et al., 2000; Murry & Singh, 1980). Une modification
même légère de la fréquence des 3ème et 4ème formants peut entraîner une diminution drastique
de la reconnaissance de certains individus ; elle n’altère pourtant pas la reconnaissance de
tous les individus (Lavner et al., 2000). Ces résultats confirment que l’identification d’une
voix ne dépend pas d’un élément unique mais bien de la combinaison de différents éléments
184
(Lavner et al., 2000). Portée par les éléments statiques de la voix, l’identité d’un individu
repose également sur les informations dynamiques telles qu’un accent, le rythme de la parole
etc. (Belin et al., 2004). L’importance relative des informations spectrales et temporelles dans
la reconnaissance d’une voix paraît dépendre du sexe de la personne à reconnaître et de la
durée du stimulus (Murry & Singh, 1980; Schweinberger et al., 1997). Les voix d’hommes
sont reconnues en majorité sur la base d’informations statiques, dépendant de l’anatomie du
conduit vocal (comme la fréquence formantique ou le côté rauque d’une voix masculine)
quelle que soit la durée du stimulus. Les voix féminines sont reconnues par les informations
spectrales et dynamiques résultant de l’organisation globale de l’appareil phonatoire ; la
reconnaissance des voix féminines est améliorée sur de longs échantillons de voix (Murry &
Singh, 1980). La reconnaissance des voix, contrairement à celles des visages, semble donc
dépendre du sexe du locuteur, en ce sens que ce dernier détermine le type d’informations
permettant l’identification.
Figure 30. Illustration de différentes voix. En haut:
spectrogrammes (0-5kHz) générés d'après des
échantillons de voix d'un même locuteur disant
différents mots monosyllabiques. Noter que pour un
même locuteur, il y a une régularité dans les
caractéristiques
acoustiques.
Par
exemple
l'espacement entre les bandes claires révélant les
harmoniques ou la bande noire apparaissant autour
de 3kHz. En bas: spectrogrammes (0-5kHz) générés
d'après des échantillons de voix de différents locuteurs
disant le même mot (en bas). Lorsque plusieurs
locuteurs disent le même mot, la régularité est
observée au niveau de la trajectoire des bandes
claires (formants). Au milieu: décours temporel du
signal BOLD enregistré dans un voxel du cortex
auditif primaire chez un sujet. Gris foncé: bloc de
stimuli contenant différents mots prononcés par le
même locuteur. Gris clair: bloc de stimuli contenant le
même mot prononcé par différent locuteurs. En blanc:
périodes de repos. Issu de Belin & Zatorre (2003).
L’inversion de la voix a également un impact sur la reconnaissance du locuteur. Dans
une tâche de discrimination entre deux locuteurs non familiers, il a été montré que la
reconnaissance de la voix est perturbée suite à l’inversion fréquentielle du stimulus,
l’inversion dans le domaine temporel n’ayant aucun effet (Bedard & Belin, 2004). Ces
données montrent que, comme pour la reconnaissance du genre, les informations statiques
sont primordiales pour l’identification. Cependant, la reconnaissance de voix familières (de
185
personnes célèbres) est fortement perturbée par l’inversion temporelle du stimulus ; les
performances des sujets ne dépassent pas le niveau de la chance (Schweinberger, 2001).
L’étude de Schweinberger s’intéresse aussi à l’effet d’amorçage sur la reconnaissance
des voix ; les voix familières et non familières sont présentées une première fois (amorce),
elles sont ensuite présentées une deuxième fois aux sujets : si l’amorce est efficace, les
performances doivent être meilleures à la deuxième présentation. Les voix inversées, bien que
moins bien reconnues que les voix à l’endroit, gardent un potentiel d’amorce : la
reconnaissance de la voix est améliorée lorsque l’amorce est une voix inversée. Ceci suggère
que les informations temporelles jouent un rôle important dans la reconnaissance des voix
familières, mais que l’activation des représentations mnésiques (par l’amorce) passe
essentiellement par les informations spectrales, conservées suite à l’inversion temporelle de la
voix (Schweinberger, 2001). L’influence de l’amorçage dans la reconnaissance de la voix
suppose l’existence d’une représentation mnésique de la voix d’un individu. Des auteurs
proposent donc que le traitement de la voix met en jeu la construction d’un prototype (Lattner
et al., 2003), et que la reconnaissance d’une voix se fait par l’analyse des écarts de cette voix
par rapport au prototype (Papcun et al., 1989).
La reconnaissance d’une voix est un processus relativement facile20, et cette facilité
persiste au-delà d’un certain temps après la première confrontation à la voix (Papcun et al.,
1989). Des voix ont d’abord été classées en fonction de la difficulté à les retenir par un
premier groupe de sujets, 3 types de voix sont ainsi mis en évidence : des voix faciles,
difficiles ou moyennement faciles à retenir (Papcun et al., 1989). Trois groupes de sujets ont
ensuite appris une voix de chaque catégorie ; chaque groupe était divisé en 3 sous-groupes en
fonction du moment (une semaine, deux semaines ou 4 semaines après l’apprentissage) où les
sujets venaient passer la deuxième partie de l’expérience : la reconnaissance de la voix
apprise. Le temps passé entre l’apprentissage et la reconnaissance d’une voix influence
essentiellement le nombre de mauvaises identifications, c’est à dire la reconnaissance de voix
inconnues comme étant des voix connues ; cet effet est particulièrement important pour la
reconnaissance de voix jugées faciles (Papcun et al., 1989). Ces données ont conduit les
auteurs à proposer un modèle de la reconnaissance des voix dans lequel une voix serait
représentée en mémoire sous la forme d’un prototype et des écarts de cette voix par rapport au
prototype ; les informations sur les écarts seraient perdues avec le temps. Dans leur étude, le
20
La reconnaissance des voix est dite facile. Néanmoins, comparé à la reconnaissance des visages, la
reconnaissance de la voix est difficile. Les performances des sujets se situent autour de 60-70%, le niveau de la
chance étant à 50%, dans les études de Schweinberger (2001) et de Bédard & Belin (2004).
186
prototype est construit à partir des voix considérées comme difficiles à reconnaître. Ainsi,
pour les voix faciles le prototype n’est pas assez détaillé induisant une mauvaise identification
des voix difficiles lorsque la voix apprise est une voix considérée comme facile (Papcun et
al., 1989).
Un stimulus auditif spécial ?
L’effet d’inversion est un des facteurs ayant permis de démontrer la spécificité des
visages par rapport aux autres stimuli visuels ; il est en effet spécifique des visages. Dans le
domaine de la voix, l’inversion fréquentielle du stimulus induit une baisse de la
discrimination entre deux voix non familières ; cette baisse des performances est également
décrite suite à l’inversion fréquentielle et temporelle de stimuli musicaux (produits par des
instruments de musique (Bedard & Belin, 2004). Ces observations ne permettent pas
d’attester de l’existence d’un effet d’inversion spécifique de la voix. De plus, la
discrimination entre les sons provenant de deux instruments est plus facile que la
discrimination entre deux voix ; ceci rend la comparaison entre les deux conditions (inversion
de la voix, et inversion d’un son musical) peu fiable (Bedard & Belin, 2004). Ces données
pourraient suggérer que la voix n’est pas un stimulus spécial, qu’elle ne se distingue pas des
autres stimuli auditifs. Les résultats des études en neuroimagerie infirment cette hypothèse
puisqu’elles mettent en évidence des régions cérébrales s’activant spécifiquement pour les
voix, notamment dans les gyrus et sulcus temporaux supérieurs. L’existence de régions
cérébrales répondant de façon maximale à des stimuli vocaux soutiendrait l’hypothèse selon
laquelle la voix est un stimulus auditif « à part ».
b. Localisation cérébrale du traitement de la voix
Les études cliniques ont dévoilé l’existence de structures cérébrales semblant
spécifiquement impliquées dans la perception des voix, des lésions de ces régions provoquant
des troubles de la reconnaissance des voix, familières ou non, sans atteinte de la
reconnaissance des sons environnementaux (Neuner & Schweinberger, 2000). Ces données
montrent une dissociation entre les traitements permettant la reconnaissance d’une personne
et ceux permettant la reconnaissance des objets ; cependant, il n’a pas été décrit de cas de
patients présentant des déficits spécifiques de la reconnaissance des sons environnementaux
(Neuner & Schweinberger, 2000). Ces résultats ne permettent dont pas d’attester de
l’existence d’une double dissociation anatomique et fonctionnelle, ce qui aurait confirmé la
187
mise en jeu de traitements différents dans la reconnaissance des voix et des stimuli non voix
(Neuner & Schweinberger, 2000). Les études cliniques ont également révélé une dissociation
entre la reconnaissance des voix familières et celle des voix non familières. Un déficit de la
reconnaissance des voix familières n’est pas toujours accompagné d’un trouble de la
discrimination entre deux voix non familières (Neuner & Schweinberger, 2000; Van Lancker
et al., 1989). La reconnaissance des voix familières semble mettre en jeu le cortex pariétal
inférieur droit, alors que la discrimination entre deux voix non familières paraît impliquer le
lobe temporal de chaque hémisphère (Van Lancker et al., 1988; Van Lancker et al., 1989).
Reste que les déficits dans la reconnaissance des voix, familières ou non, apparaissent en
général suite à des lésions de l’hémisphère droit. Par la suite, les techniques de neuroimagerie
telles que la TEP ou l’IRMf ont permis de mettre en évidence des zones corticales activées
spécifiquement lors de la perception des voix.
Identification des régions sensibles à la voix
De nombreuses régions corticales sont sensiblement plus activées par des stimuli
vocaux qu’ils portent ou non des informations linguistiques. Ces régions sont localisées dans
les deux hémisphères le long du STS et dans le STG postérieur ; l’activité de ces régions tend
à être plus grande dans l’hémisphère droit que dans l’hémisphère gauche (Figure 31a) (Belin
et al., 2002; Belin et al., 2000). Ces régions sont non seulement sensibles mais aussi
sélectives des stimuli vocaux comme l’atteste la comparaison des réponses observées pour les
voix à une variété de stimuli auditifs (Belin et al., 2000). En appliquant aux voix les
paradigmes développés pour montrer la sélectivité des réponses de la FFA aux visages, Belin
et al. (2000) montrent que ces régions ne sont impliquées ni dans le traitement de tous les
stimuli auditifs d’origine humaine, ni dans la discrimination entre des items d’une même
catégorie. Ces régions sont par ailleurs plus actives pour les voix humaines que pour les
vocalises animales ; ces dernières induisent toutefois une activité supérieure aux stimuli non
voix dans une région restreinte du STS antérieur gauche (Fecteau et al., 2004a). L’activation
des régions localisées le long du STS dépend des informations spectrales du stimulus ; la
combinaison des basses et hautes fréquences est même nécessaire à l’activation de ces régions
(Belin et al., 2000). Parmi ces différentes régions, seule la partie antérieure du STS présente
une activité plus grande pour les voix que pour des stimuli réarrangés (« scrambled vocal
sounds »), et ce même en l’absence d’informations linguistiques (Figure 31b,c) (Belin et al.,
2002; von Kriegstein et al., 2003). Cette région est activée uniquement lorsque l’attention des
sujets est dirigée vers les informations paralinguistiques (von Kriegstein et al., 2003). Les
188
auteurs en déduisent que le traitement des informations sémantiques pourrait inhiber le
traitement des informations paralinguistiques. Belin et al. (2002) montrent, eux, que lors
d’une écoute passive, cette région est quand même plus activée par les voix portant des
informations linguistiques. Les différences entre ces deux études suggèrent que les
informations paralinguistiques sont traitées automatiquement en l’absence de consigne
attentionnelle. Cependant, les stimuli utilisés par Belin et collaborateurs (2002) sont des
stimuli présentant une organisation phonétique mais n’induisant pas forcément de traitement
sémantique, certains mots étant dans des langues étrangères. Ainsi, dans cette étude, le
traitement des informations paralinguistiques serait privilégié même pour les stimuli à
contenu sémantique, qui sont par ailleurs plus complexes et entraineraient donc une plus forte
acitivité cérébrale. A part cette partie du pole temporal, toutes les régions sensibles aux voix
présentent une activité spécifique des voix seulement lorsque ces dernières ont un contenu
sémantique ; cette activation supérieure pour les stimuli linguistiques est observée dès l’aire
auditive primaire (Figure 31c) (Belin et al., 2002).
Ces études révèlent donc une dissociation entre les fonctions des hémisphères droit et
gauche. Le STS antérieur gauche pourrait être impliqué dans le traitement phonologique des
voix (Scott et al., 2000; von Kriegstein et al., 2003). La même région dans l’hémisphère droit
effectuerait le traitement des informations paralinguistiques de la voix (Belin et al., 2002;
Imaizumi et al., 1997; Lattner et al., 2005; von Kriegstein et al., 2003; Warren et al., 2006).
Ces différentes études suggèrent que cette région focalisée du STS antérieur serait l’aire
cérébrale impliquée sélectivement dans le traitement des informations paralinguistiques de la
voix ; elle pourrait donc être l’aire auditive équivalente de la FFA. Par ailleurs, la partie
antérieure du lobe temporal – le pole temporal – est également activée lors de la
reconnaissance d’une voix, confirmant son rôle dans le traitement des signaux vocaux
humains (Imaizumi et al., 1997; Nakamura et al., 2001). L’activité du STS antérieur droit est
d’ailleurs corrélée aux performances des sujets dans une tâche de reconnaissance. La
sensibilité de la partie antérieure du STS à l’identité de la voix est également démontrée par sa
sensibilité à l’adaptation. La présentation de différents stimuli linguistiques prononcés par le
même locuteur entraîne une diminution de la réponse de cette région, diminution qui
refléterait l’adaptation à certaines caractéristiques acoustiques de la voix du locuteur (Belin &
Zatorre, 2003). Ces différentes études révèlent donc qu’une région du STS antérieur est
sélectivement activée par les stimuli vocaux quel que soit leur contenu sémantique ; cette
région semble par ailleurs également mise en jeu lors de la reconnaissance des voix à un
189
niveau individuel. Cette région paraît donc être une bonne candidate pour être considérée
comme la « FFA » auditive (Belin & Zatorre, 2003).
Figure 31. Aires corticales sélectives des voix. (a) Régions répondant de façon maximale aux
stimuli vocaux (moyenne de tous les sujets). L'hémisphère gauche est représenté à gauche. Notez 3
régions localisées le long du STS répondant préférentiellement aux voix. Issu de Belin et al.
(2000). (b) Aires cérébrales impliquées dans la reconnaissance du contenu verbal (première ligne).
Aires cérébrales impliquées dans la reconnaissance de l'identité du locuteur (deuxième ligne) Issu
de Von Kriegstein et al. (2003). (c) Réponse moyenne dans les régions spécifiques des voix pour
différents stimuli : stimuli vocaux sans contenu linguistique, les mêmes stimuli réarrangés
("scrambled stimuli"), stimuli vocaux avec contenu linguistique, et les mêmes stimuli réarrangés.
Les histogrammes montrent la réponse des différentes régions pour ces différentes stimuli (dans le
même ordre de gauche à droite). L'hémisphère gauche est représenté à gauche. Issu de Belin et al.
(2002). NB: Les régions sensibles à la voix répondent préférentiellement au contenu sémantique
de la voix. Seule la partie antérieure du STS droit répond plus aux voix qu'aux non voix.
D’autres régions cérébrales sont activées lors de la perception des voix. Des régions
du cortex préfrontal, plus particulièrement la partie postérieure du cortex orbito-frontal
gauche, répondent préférentiellement aux stimuli vocaux indépendamment du fait qu’ils
190
contiennent des informations linguistiques (Fecteau et al., 2005; Imaizumi et al., 1997). Dans
l’hémisphère droit, cette région du cortex orbito-frontal ne répond qu’aux stimuli vocaux ne
contenant pas d’informations linguistiques, renforçant l’idée de l’implication de l’hémisphère
droit dans le traitement des informations vocales paralinguistiques. Les régions frontales
seraient impliquées dans la catégorisation de stimuli auditifs. Ainsi, chez le macaque, il a été
montré l’implication du cortex préfrontal ventral dans la discrimination entre différentes
vocalises en fonction de la signification sociale des cris (Gifford et al., 2005).
La perception du genre
Les mécanismes cérébraux sous-tendant la détection du genre du locuteur ont
également été explorés. Il a notamment été démontré que les voix féminines induisent un
signal BOLD supérieur aux voix masculines dans le cortex auditif, indépendamment du genre
des auditeurs (Lattner et al., 2005; Sokhi et al., 2005). L’activité cérébrale plus grande pour
les voix de femmes est observée bilatéralement dans les régions antérieures au gyrus de
Heschl et dans le STG postérieur, elle est néanmoins plus importante dans l’hémisphère droit
(Belin et al., 2006; Lattner et al., 2005; Sokhi et al., 2005). A contrario, aucune région
cérébrale ne présente le pattern inverse à savoir une activité supérieure pour les voix
d’hommes (Belin et al., 2006; Lattner et al., 2005). Il a néanmoins été montré, chez des sujets
hommes, une activation plus forte du précunéus pour les voix d’hommes21 (Sokhi et al.,
2005). Dans l’étude de Sokhi et al. (2005), les activités observées dans le STG antérieur droit
et le précunéus sont indépendantes de la fréquence fondamentale de la voix suggérant que ces
aires sont impliquées dans la perception du genre per se. Lattner et al. (2005) ont appliqué
diverses modifications à des voix naturelles d’hommes et de femmes afin d’identifier les
réponses cérébrales induites par le traitement de la hauteur et l’analyse des caractéristiques
acoustiques de la voix. Ces résultats montrent principalement que la fréquence fondamentale
plus élevée des voix de femmes conduit à la plus forte activation des régions du lobe temporal
antérieures au gyrus de Heschl (Lattner et al., 2005). Les voix ayant des fréquences
fondamentales « masculines » entraînent une activation du gyrus cingulaire antérieur (Lattner
et al., 2005). Le gyrus cingulaire antérieur est également activé par les voix présentant un
genre ambigu, c’est à dire des voix dont la fréquence fondamentale est située dans la région
de recouvrement (Sokhi et al., 2005). L’activation du gyrus cingulaire antérieur pourrait
21
Pour l’anecdote : les résultats de Sokhi et collaborateurs (2005) ont été interprétés par des journalistes comme
justifiant le fait que les hommes n’écoutent pas les femmes : « Les voix de femmes, plus aiguës et musicales,
sont plus difficiles à « décoder » et nécessitent une plus grande activité cérébrale, expliquant une
certaine…fatigue au bout d’un moment. »
191
refléter une plus grande demande attentionnelle par les stimuli ambigus ou le côté déplaisant
des voix non naturelles (Lattner et al., 2005; Sokhi et al., 2005). Les voix présentant les
caractéristiques d’un conduit vocal féminin mettent en jeu les régions postérieures du STG,
notamment le planum temporale (Lattner et al., 2005). Le planum temporale est impliqué
dans le traitement de la dynamique spectrale des stimuli auditifs ; son activation dans cette
étude pourrait être due au rythme plus marqué des voix féminines (Andrews & Schmidt,
1997). Dans des expériences utilisant des continuums de voix naturelles, aucune région
cérébrale ne montre une plus grande activité pour les paires de voix croisant la ligne frontière
(genres différents) que pour les paires de stimuli situés du même côté (même genre), les
différentes physiques entre les stimuli étant les mêmes pour les différentes paires. Au
contraire, le STG postérieur gauche montre une diminution de l’activité pour les voix perçues
comme différentes en terme de genre (Belin et al., 2006; Chartrand et al., 2005).
Une interaction entre genre du locuteur et genre de l’auditeur est rapportée dans le
précunéus et le gyrus cingulaire postérieur. Cette interaction est cependant dans le sens
inverse de celle décrite par Sokhi et al. (2005) : l’activité est supérieure pour les voix de
femmes chez les sujets hommes, le pattern inverse est observé chez les femmes (une plus
grande activité pour les voix d’hommes) ; l’activité dans le précunéus semble plus grande
chez les auditeurs masculins (Belin et al., 2006). Par ailleurs, il a été montré une diminution
de l’activité du précunéus pour des voix de femmes répétées ; les voix d’hommes, quant à
elles, induisent une diminution de l’activité dans le gyrus frontal inférieur gauche. Le gyrus
frontal inférieur gauche est activé par des voix ayant des caractéristiques acoustiques
masculines (Chartrand et al., 2005; Lattner et al., 2005).
Il ne paraît donc pas y avoir de régions sélectivement impliquées dans la perception du
genre de la voix ; certaines régions cérébrales semblent néanmoins plus sensibles aux voix de
femmes qu’aux voix masculines. Au vu de la grande variabilité des données recueillies, les
corrélats neuronaux de la perception du genre de la voix ne sont pas encore bien compris. Une
zone paraît toutefois régulièrement impliquée dans la perception du genre de la voix, celle
incluant le gyrus cingulaire postérieur et le précunéus (Charest et al., 2005). Il est nécessaire
de continuer à investiguer les corrélats neuronaux de la perception du genre de la voix afin de
comprendre le rôle de ces nombreuses aires cérébrales, et les caractéristiques vocales qui
induisent l’acivation de ces différentes aires.
192
Reconnaissance de la voix et des émotions
La reconnaissance de la voix met non seulement en jeu la partie antérieure du STS,
mais elle active également d’autres régions cérébrales, dont les gyri parahippocampique,
lingual et pariétal inférieur (Imaizumi et al., 1997; von Kriegstein et al., 2003). L’activation
du gyrus parahippocampique gauche pourrait refléter la recherche d’informations
biographiques sur le locuteur (Imaizumi et al., 1997). Le précunéus est aussi activé dans une
tâche de reconnaissance de voix non familières ; les auteurs suggèrent que cette activation
reflète la difficulté des auditeurs à retenir les voix non familières, difficulté indiquée par les
résultats comportementaux (von Kriegstein et al., 2003).
La reconnaissance des émotions vocales a également été explorée ; ces études révèlent
que l’identification des émotions met en jeu des structures sous-corticales comme le cervelet
ou l’hippocampe, ainsi que des structures corticales notamment les régions frontales
inférieures (Fecteau et al., 2005; Imaizumi et al., 1997). L’activation du gyrus frontal
inférieur droit a été décrite dans des tâches de reconnaissance des émotions faciales
(Nakamura et al., 1999). Il apparaît ainsi que le gyrus frontal inférieur droit pourrait être
impliqué dans la reconnaissance des émotions, quelle que soit la modalité d’origine des
informations. Ces données confirmeraient l’hypothèse d’une ségrégation corticale entre le
traitement des caractéristiques de l’objet et celui de sa localisation dans le cortex frontal ; les
caractéristiques d’un stimulus comme l’émotion, l’identité, le genre d’un visage ou d’une
voix, sont traitées dans le gyrus frontal inférieur (Alain et al., 2001; Brunetti et al., 2005;
Fecteau et al., 2005; Imaizumi et al., 1997; Lattner et al., 2005; Nakamura et al., 1999).
Ces différentes études montrent que la perception des voix met en jeu un grand
nombre d’aires cérébrales, localisées essentiellement le long du STS. Parmi ces nombreuses
aires, seule la partie antérieure du STS paraît sélectivement impliquée dans le traitement des
sons vocaux sans contenu linguistique. Cette région est également activée lors de tâche de
reconnaissance des voix, confirmant son rôle dans l’extraction des informations
paralinguistiques de la voix. La reconnaissance du genre et de l’identité de la voix repose sur
un vaste réseau cérébral, mais la fonction de ces différentes aires n’est pas encore bien
comprise.
c.
Décours temporel
193
Le décours temporel de la perception des voix n’a été que très peu étudié ; les
différentes composantes auditives (P50, N1, P2/MMN) n’ont pas toujours été analysées dans
l’étude de la perception des voix. Récemment, il a été montré une modulation tardive de
l’activité cérébrale par les voix, ne correspondant à aucune composante précitée ; cette
composante est appelée la VSR (Levy et al., 2001, 2003).
L’amplitude et la latence de la N1 ne sont pas influencées par l’aspect vocal ou non
d’un stimulus auditif, de même que le contenu sémantique n’a pas d’effet sur la N1 (Näätänen
& Picton, 1987). Ceci paraît normal au vu de la sensibilité de la N1 à des facteurs bas niveau
tels que la localisation spatiale ou la fréquence des stimuli (Crottaz-Herbette & Ragot, 2000;
Jacobson et al., 1992; Näätänen & Picton, 1987; Näätänen et al., 1988).
La VSR aux environs de 300 ms
Deux études récentes ont montré que les voix induisent une plus grande positivité que
les stimuli non voix sur les électrodes frontales entre 260 et 380 ms (Levy et al., 2001, 2003).
La latence du pic est environ 320 ms ; cette onde a été nommée la VSR (« Voice Selective
Response ») puisqu’elle est plus ample pour des stimuli vocaux que pour une variété de
stimuli non voix (Figure 32) (Levy et al., 2001, 2003). Le paradigme utilisé par Lévy et
collaborateurs est un paradigme de rareté (« oddball paradigm ») dans lequel les sujets
doivent détecter un stimulus rare (un son de piano, ou des sons plus courts). La VSR n’est
observée que dans certaines conditions attentionnelles (Levy et al., 2003). Diriger l’attention
des sujets vers une autre modalité (par exemple en regardant un film muet) annihile
l’apparition de la VSR. De plus, lorsque les stimuli cibles diffèrent des stimuli non cibles par
leur durée, la VSR est évoquée par les voix et les sons produits par les instruments à cordes ;
ces deux sons ont des caractéristiques acoustiques similaires (Levy et al., 2003). Sous
l’hypothèse que la VSR représente le traitement de la voix, celui-ci semble moins
automatique que celui des visages ; les visages induisent en effet une N170 même lorsque
l’attention des sujets n’est pas explicitement dirigée vers le visage (Severac Cauquil et al.,
2000; Vuilleumier, 2000). L’amplitude de la VSR dépend également des traitements effectués
sur les stimuli : lors de tâche requérant un traitement superficiel, la VSR est la même pour
tous les stimuli (Levy et al., 2003). Si la VSR est un bon indice de la perception des voix, il
semble que la voix ne soit pas traitée automatiquement.
194
Figure 32. VSR évoquées par plusieurs types de stimuli. Issu de Lévy et al. (2001). (a)
Potentiels évoqués et topographies. Noter la VSR plus ample pour la voix humaine que pour une
variété de sons musicaux (c) distribution antéropostérieure de la différence d'amplitude entre la
VSR entre voix et les PE évoqués par les instruments de musique. Expérience 1. (b) Expérience 2.
VSR évoquées par les voix et les cuivres ("brass"). L'expérience 2 a été mise en place pour
confirmer que la VSR était bien spécifique des voix et non pas représentative de la rareté des
stimuli (cette seconde hypothèse était proposée parce que la VSR ressemble en latence et
topographie à la P3a, indice de la rareté d'un stimulus). Dans la première expérience, la catégorie
"voix" comportait, en effet, moins d'items que la catégorie "instruments", la deuxième expérience
compare deux catégories égales en nombre d'items.
Une activité spécifique des voix plus précoce ? à 200 ms ?
D’autres études suggèrent qu’un traitement automatique de la voix peut avoir lieu plus
précocement : entre 150 et 220 ms, dans la gamme des latences de la P2 et de la MMN
(Beauchemin et al., 2006; Lattner et al., 2003; Titova & Naatanen, 2001). Les modulations de
la P2 et de la MMN par les informations paralinguistiques de la voix ont été explorées.
Lattner et al. (2003) montrent que l’augmentation de l’amplitude de la MMN dépend des
caractéristiques du stimulus rare. La MMN est plus ample lorsque les stimuli rares sont des
stimuli non typiques (voix synthétiques ou modifiées) (Lattner et al., 2003). Dans une étude
plus récente, ils ont montré que les stimuli non typiques induisent une augmentation de
l’activité du STS antérieur ; l’augmentation de la MMN pourrait refléter cette augmentation
(Lattner et al., 2005). Par ailleurs, la MMN est plus ample pour un stimulus rare non naturel
(voix modifiée) ressemblant, en terme de F0, au stimulus fréquent (voix d’homme naturelle)
que pour un stimulus rare naturel (voix de femmes) différant du stimulus fréquent par sa F0 et
la fréquence des formants. Ces résultats suggèrent que la représentation mnésique du genre de
la voix est prototypique, et que ce prototype regroupe les informations portées par la
fréquence fondamentale et les formants ; l’augmentation de la MMN traduirait la violation de
195
l’attente des auditeurs (Lattner et al., 2003). La MMN reflète également la discrimination
entre plusieurs voix ; l’augmentation de la MMN est inversement corrélée à la similarité entre
la voix rare et la voix fréquente (Titova & Naatanen, 2001). La MMN est aussi modulée par la
familiarité de la voix : elle est plus ample pour les voix familières que pour les voix non
familières (Figure 33b) (Beauchemin et al., 2006). La MMN est un indice des traitements
auditifs automatiques (Naatanen & Alho, 1995; Roeber et al., 2003; Tiitinen et al., 1993) ; ces
différentes études montrent que les informations paralinguistiques de la voix peuvent
engendrer des traitements automatiques. La MMN est cependant observée dans des
paradigmes utilisant des stimuli non voix, ou ne demandant pas un traitement identitaire de la
voix, révélant que les traitements sous-tendant la MMN ne sont pas spécifiques de la voix ; ils
pourraient représenter le recouvrement d’informations mnésiques (Naatanen, 2001). La MMN
n’est donc pas un bon indice de la perception des voix ; son amplitude est souvent étudiée,
mais il semble qu’en fonction des tâches sa latence varie également (bien qu’elle ne soit pas
décrite explicitement dans la plupart des études). Par ailleurs, les informations mnésiques ont
un impact sur la MMN puisque la MMN, enregistrée dans les études sur le langage, est plus
ample pour les sons spécifiques de la langue maternelle que pour les sons des langues
étrangères. Bien que ces études ne permettent pas de révéler une latence à laquelle le
traitement de la voix serait différent de celui des non voix, elles ont l’avantage de montrer que
dans la gamme des latences de la P2, un traitement des informations paralinguistiques de la
voix peut avoir lieu. La P2 pourrait refléter des différences entre voix et non voix ; elle est, en
effet, souvent modulée par les différents stimuli utilisés dans les études s’intéressant à la
MMN (Figure 33a) ; de plus, dans l’étude de Lévy et collaborateurs (2001), elle paraît plus
ample pour les voix que pour les non voix (Voir Figure 31b).
196
Figure 33. Familiarité de la voix et potentiels évoqués. (a) Potentiels évoqués (P2) par les voix
familières (pointillés longs), les voix non familières rares (pointillés courts) et fréquentes (trait
plein). Les traits verticaux représentent 0, 200, 400 et 600 ms après le début de la stimulation; les
valeurs positives sont représentées vers le bas. Noter la P2 plus ample pour les voix familières que
pour les voix non familières (2nd trait à 200 ms). (b) MMN, topographie et familiarité. A gauche:
MMN pour les voix familières, à droite : MMN pour les voix non familières. La MMN est plus
ample pour les voix familières que non familières. Issu de Beauchemin et al. (2006).
La modulation de la P2 par la familiarité de la voix a également été investiguée. Un
effet d’amorçage sur l’amplitude de la P2 a été montré ; elle est augmentée à la deuxième
présentation d’une voix, que cette voix soit familière ou non (Schweinberger, 2001). Les
auteurs proposent que la modulation de la P2 par l’amorçage pour les voix non familières en
l’absence d’effet comportemental traduit le « sentiment de familiarité » associé aux voix non
familières causé par la répétition. Une autre étude propose que la P2 indexe le traitement
sémantique car elle est plus ample pour les différentes voyelles présentées que pour un son
pur, partageant certaines caractéristiques acoustiques spectrales des voyelles (Tiitinen et al.,
1999). Cependant, ces résultats pourraient également refléter un traitement de la voix d’autant
que la P2 évoquée par les différentes voyelles est identique.
En résumé, la perception de la voix met donc en jeu un certain nombre d’aires
cérébrales. La partie antérieure du STS droit paraît être l’aire impliquée dans le traitement des
informations paralinguistiques de la voix. L’identification et la perception du genre du
locuteur semblent mettre en jeu des aires cérébrales largement distribuées aussi bien dans le
cortex pariétal, que dans le cortex frontal. Aucun consensus n’est fixé sur la fonction de ces
197
différentes aires dans la perception des voix, de leur détection à leur reconnaissance. Le
décours temporel de la perception des voix révèle une différence entre voix et stimuli non
vocaux environ 300 ms après le début de la stimulation. Cette activité paraît bien tardive
comparée aux 170 ms – voire au 100 ms – nécessaires à la détection d’un visage, d’autant que
les informations auditives parviennent au cortex auditif avant que les informations visuelles
n’arrivent au cortex visuel (environ 20 ms versus 40 ms). D’autres études montrent une
modulation des potentiels évoqués par les informations vocales autour de 200 ms ; cette
activité plus précoce paraît plus réaliste et pourrait donc être un indice de la discrimination
entre voix et non voix. Ceci n’a toutefois pas été testé ; la figure 2 de l’article de Levy et al.
(2001) révèle pourtant une différence entre la P2 évoquée par les voix et les cuivres ; les
résultats ne sont pourtant pas rapportés soit parce qu’ils ne sont pas significatifs, soit parce
que le sujet de l’article était la VSR.
d. Modèle de la perception des voix
Les résultats de ces différentes études ont conduit les chercheurs à proposer un modèle
de reconnaissance des voix similaire à celui proposé par Bruce & Young (1986) pour la
reconnaissance des visages (Figure 34) (Belin et al., 2004; Neuner & Schweinberger, 2000).
Figure 34. Modèle de reconnaissance des voix. La partie droite du modèle est une adaptation du
modèle de Bruce & Young (1986). La partie gauche est le modèle proposé pour la reconnaissance
des voix. Les flèches en pointillé indiquent des possibles interactions bimodales. Issu de Belin et
al. (2004).
Ce modèle propose que la perception de la voix commence par l’extraction des
informations bas niveau qui aurait lieu au niveau des aires auditives primaires et secondaires,
peut être à la latence de la Pa (P50). Après extraction des ces informations, l’analyse
structurelle de la voix pourrait avoir lieu dans des régions proches du gyrus de Heschl, en
198
surface du lobe temporal. Suivant cette étape, les informations prendraient des chemins
différents pour l’analyse de l’identité, du contenu sémantique et des émotions. L’analyse des
informations phonétiques mettrait en jeu des aires situées dans le lobe temporal postérieur et
antérieur, essentiellement dans l’hémisphère gauche. Les informations émotionnelles seraient
analysées par les régions frontales et certains noyaux sous-corticaux. L’identité serait
analysée dans la partie antérieure du STS droit et mettrait en jeu des modules de
reconnaissance des voix, où la structure extraite de la voix (le prototype, équivalent du gestalt
extrait des visages) serait comparée à la représentation mnésique. La correspondance entre la
structure extraite et un prototype stocké en mémoire activerait les modules de reconnaissance
des personnes, et permettrait l’accès aux informations biographiques notamment via le gyrus
parahippocampique.
Ce modèle est renforcé par les études lésionnelles montrant une double dissociation
entre la perception du langage et la perception de l’identité. Il est en effet rapporté des cas de
phonagnosie sans atteinte langagière et des cas d’aphasie associés à une reconnaissance des
voix normale (Van Lancker et al., 1988; Van Lancker et al., 1989). De la même façon une
dissociation entre traitement des émotions et traitement de l’identité est montrée par l’étude
d’Imaizumi et al. (1997). Les régions antérieures du lobe temporal des deux hémisphères, le
pole temporal, sont impliquées dans la reconnaissance des locuteurs, alors que la
reconnaissance des émotions met en jeu le gyrus frontal inférieur (Fecteau et al., 2005;
Imaizumi et al., 1997). Cependant, bien que ce modèle propose que ces 3 voies soient
indépendantes, il est clair qu’elles interagissent puisqu’il y a, notamment, une suppression du
traitement des informations paralinguistiques dans certains tâches requérant un traitement
sémantique (von Kriegstein et al., 2003).
Pour résumer, la perception du genre de la voix a été étudiée au niveau
comportemental et en IRMf mais pas en EEG. Les résultats des études dans ce domaine
présentent une grande variabilité. Certaines observations sont cependant constantes : l’activité
cérébrale est en général supérieure pour les voix de femmes, particulièrement au niveau des
régions localisées dans le lobe temporal. Cette grande variabilité des résultats suggère
l’implication d’un grand nombre d’aires cérébrales dans le traitement du genre de la voix ;
leur activité semble dépendre des différents facteurs acoustiques permettant l’identification du
genre. Dans mes études présentées dans les pages suivantes, j’ai exploré le traitement du
genre de la voix à l’aide des potentiels évoqués. Cette technique a l’avantage de donner des
199
informations temporelles sur les traitements effectués par le cerveau. Mes études pourraient
permettre de distinguer les processus précoces effectués dans le cortex auditif primaire, liés à
l’analyse de la fréquence des stimuli, des processus plus tardifs qui pourraient indexer le
traitement du genre à proprement parler, et donc le traitement de la voix en tant que stimulus
auditif spécial. Au niveau comportemental, il a par ailleurs été montré que le genre de la voix
est indiqué en premier lieu par la fréquence fondamentale, mais d’autres informations peuvent
être utilisées, notamment la dynamique spectrale.
Pour explorer les processus impliqués dans la perception du genre de la voix, j’ai mis
en place deux études. La première étude a pour but de montrer les différences entre traitement
des voix d’hommes et de femmes, sur des voix normales. Dans la deuxième étude, en
demandant aux locuteurs de forcer leur voix vers l’aigu ou le grave, j’ai rendu les
informations sur la fréquence fondamentale non pertinentes pour la catégorisation du genre.
Cette étude permet de distinguer le traitement des informations spectrales de celui du genre à
proprement parler.
200
201
202
3. Travail expérimental : la perception du genre de la voix
L’article suivant présente les résultats de trois études, réalisées sur les mêmes sujets,
sur la perception du genre d’un individu. Une étude sur la perception du genre du visage et
deux études sur la perception du genre de la voix. Les résultats de l’étude sur le genre du
visage ont été exposés dans la partie visage.
Objectifs & Méthodes (expérience 2 et 3)
Dans la première étude, j’ai exploré la perception du genre de la voix sur des voix
naturelles. La perception du genre reposant en premier lieu sur la fréquence fondamentale, j’ai
réalisé une deuxième étude dans laquelle les informations sur la hauteur de la voix n’étaient
plus pertinentes. Les stimuli utilisés ont été enregistrés au laboratoire ; il s’agissait de 14 mots
français monosyllabiques prononcés par 3 femmes et 3 hommes soit normalement, soit avec
une voix forcée vers l’aigu ou le grave. L’analyse de la fréquence fondamentale confirme que
les voix de femmes sont plus aiguës que les voix d’hommes. Les voix forcées vers l’aigu ont
une fréquence supérieure aux voix normales ou graves. Les fréquences fondamentales de ces
dernières sont statistiquement similaires, bien que les sujets les perçoivent comme distinctes.
Résultats & Conclusions
Le taux de réponses correctes est identique pour les voix d’hommes et de femmes,
mais les temps de réaction sont plus long pour les voix de femmes. La modification de la
hauteur de la voix altère davantage la perception des voix féminines que celle des voix
masculines. Ceci suggère que différentes informations sont utilisées pour juger de la
masculinité ou de la féminité d’une voix.
Au niveau électrophysiologique, il est montré des différences entre voix d’hommes et
de femme dès les 30 premières millisecondes ; ces effets sont vraisemblablement liés au
traitement de la hauteur. La N1 est plus ample pour les voix d’hommes que pour les voix de
femmes, cet effet disparaît dans la deuxième expérience suggérant une modulation de la N1
par l’attention. Dans les processus plus tardifs, les voix de femmes évoquent une P2 plus
ample que les voix d’hommes. La topographie à cette latence est la même pour les deux types
de voix, seule l’amplitude varie, l’activité est plus ample pour les voix de femmes
indépendamment de la fréquence fondamentale. Ceci suggère que le traitement du genre peut
avoir lieu 200 ms après la présentation du stimulus.
La VSR ne montre pas de modulation en fonction du genre de la voix.
203
204
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Faces are easier: Gender categorisation of faces and voices
Marianne Latinus1 and Margot J. Taylor2
1
CerCo, Université Toulouse 3 - CNRS, Faculté de Médecine de Rangueil,
31062 Toulouse, France
2
Diagnostic Imaging and Research Institute, Hospital for Sick Children,
555 University Avenue, Toronto, Ontario, Canada, M5G1X8
*Corresponding author:
Marianne Latinus
CerCo – Centre de recherche Cerveau et Cognition,
Université Toulouse 3 – CNRS
Faculté de Médecine de Rangueil
31062 Toulouse Cedex 9
France
Tel: +33561173770
Fax: +33562172809
E mail: [email protected]
-1-
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Abstract
Gender is salient, socially critical information obtained from faces and voices, yet the
brain processes underlying gender discrimination have not been well studied. We investigated
neural correlates of gender processing of faces and voices in three ERP studies. In the first,
participants categorised the gender of faces and greater activation to female faces was seen at
140-170ms over left fronto-temporal regions; the N170 was unaffected by face gender. In
study 2, gender processing of voices was investigated and differences were seen between
female and male voices starting at 30ms, in both spatio-temporal and peak analyses,
particularly the fronto-central N1 and P2. As pitch differences may drive gender differences,
the third study used normal, high- and low-pitched voices. The results of studies 2 and 3
suggested that pitch produced the early differences (30-50ms) observed. In study 2, N1 was
larger for male voices, a result not seen in study 3, revealing that N1 was modulated by
selective attention to pitch. In both studies, P2 (at 190-230ms) was larger for female voices,
regardless of pitch discrepancies. This suggests that the P2 may index gender categorisation.
Voice selective response (VSR) at 320ms was not sensitive to pitch or gender. Based on the
comparison between the ERPs to face and voice processing these data demonstrate that the
timing and localisation of gender processing in the brain is modality specific, occurring earlier
and more anteriorly for faces.
-2-
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Introduction
Gender discrimination is an important ability for humans, as it is one of the first
characteristics perceived in another individual. This skill is particularly critical with faces and
voices. Face processing has been intensely studied; it has been shown that faces are special
stimuli, the processing of which is subtended by specific networks and brain regions (Puce et
al., 1996; Kanwisher et al., 1999) (Haxby et al., 2000). In event-related potential (ERP)
studies, the face sensitive N170, a negative wave over posterior temporal brain areas at 170
ms, has been widely used in face recognition studies (Bentin et al., 1996; George et al., 1996;
Itier et al., 2006), and it has been shown that N170 is sensitive to face configuration (Bentin et
al., 1996; Sagiv & Bentin, 2001; Itier & Taylor, 2004a; George et al., 2005; Latinus &
Taylor, 2005; Itier et al., 2006; Latinus & Taylor, 2006). Other visual components indexing
face processing are P1 and P2. P1 is reported as to be sensitive to first-order configural
processing (Halit et al., 2000; Itier & Taylor, 2004a), which is the first stage of face
processing (Maurer et al., 2002), and to low-level features (Rossion et al., 1999b) although
attentional modulations are also observed on P1 (Rossion et al., 1999a; Taylor, 2002; Batty et
al., 2003; Holmes et al., 2003). The second stage of face processing, holistic processing, can
be reflected in the N170 (Latinus & Taylor, 2006). P2 reflects deeper processing of
ambiguous stimuli (Latinus & Taylor, 2005; 2006). Face recognition has shown to rest on
second-order configural processing that differentiates the details of the facial features within
the configural whole (Maurer et al., 2002). Neural correlates of recognition remain unclear,
however, as some reports reveal a modulation of the N170 by familiarity while others fail to.
Gender is a critical aspect for face recognition that is easily extracted from unfamiliar
as well as familiar faces (Bruce & Young, 1986), and proceeds in parallel with face
recognition (Bruce et al., 1987). Although female and male faces differ by shape in lateral
views and texture in frontal views, and both shape and texture are used to perform gender
categorisation on faces, male and female faces nevertheless share the same first-order
configuration (Bruce & Langton, 1994; Cellerino et al., 2004). Only with holistic and second
order configural processing that leads to identification, would gender effects likely be seen,
supported by reported no differences between female and male faces on N170 (MouchetantRostaing et al., 2000). However, these authors provided evidence of an automatic extraction
of gender information from faces between 145 to 185 ms seen as a decrease in the frontal
positivity with both implicit and explicit gender processing. This suggests a separation
between structural encoding prior to face identification and gender processing; processes that
-3-
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
may occur in parallel. PET studies have also shown that gender categorisation involves
different brain regions than face recognition mediated by configural processing (Andreasen et
al., 1996).
Voices are the auditory counterparts of faces (Bedard & Belin, 2004) as they, like
faces, convey considerable social information besides being the vector of speech. Prephonetic processing of voices is an important skill, as it is a means of speaker identification
and extraction of auditory derived semantic information such as age, emotional state or
gender. Neuroimaging studies have provided evidence that, like faces, voices are special
stimuli with the anterior part of the temporal lobes specifically involved in voice processing
for both linguistic and extra-linguistic factors (Belin et al., 2000; Scott et al., 2000; Belin et
al., 2002; von Kriegstein et al., 2003). Vocal sounds produce greater bilateral brain activity
than non-vocal sounds in multiple brain regions particularly those located along the STS
(Belin et al., 2000; Belin et al., 2002). Areas involved in specific language processing are
located in the left anterior superior temporal sulcus (STS) (Scott et al., 2000), whereas voice
characteristics are analysed in the right anterior STS (Belin et al., 2002; von Kriegstein et al.,
2003). In ERP studies, it has been shown that voices induce a more positive wave than
instrumental sounds 320 ms after stimulus onset; this positive deflection is called the VSR –
voice selective response (Levy et al., 2001). VSR was modulated by attention, as with
unattended auditory stimuli there were no differences between voices and other harmonic
stimuli (Levy et al., 2003). Except for the two studies above, whose observations were
restricted to the VSR, there are few papers that investigate voice processing per se with ERPs.
The auditory N1 is described as sensitive to stimulus frequency and location, but does not
distinguish between vocal and non-vocal sounds or speech and non-speech (Näätänen &
Picton, 1987; Jacobson et al., 1992; Levy et al., 2001); auditory P2 is suggested to reflect
semantic processing (Tiitinen et al., 1999; Schweinberger, 2001). Other studies revealed
modulation of the MMN in the latency range of P2 by voice familiarity or prototypicallity
(Lattner et al., 2003; Beauchemin et al., 2006).
Speaker identification is dependent on a number of extra-linguistic acoustic
parameters in relation to phonetic information; in particular, the perception of voice gender
relies on the fundamental frequency, formant frequency and breathiness, although
fundamental frequency is the primary dimension for gender judgments (Mullennix et al.,
1995; Lavner et al., 2000). Fundamental frequency (F0) provides information on the
perceived pitch and is most often higher in female than male voices, whereas formants drive
information on timbre and gender, and reflect voice individuality; they also are lower in male
-4-
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
voices (Andrews & Schmidt, 1997; Whiteside, 1998). Neuroimaging studies on voice
recognition have shown that speaker identification involves areas located in the right anterior
temporal lobe, particularly the STS (Imaizumi et al., 1997; Belin et al., 2002). fMRI studies
on gender perception have shown that female and male voices activate different brain regions
(Lattner et al., 2005; Sokhi et al., 2005). Female voices produced stronger bilateral response
than male voices, with a right hemisphere dominance especially in the superior temporal
gyrus (STG); bilateral inferior parietal lobe and insula were also more activated by female
voices (Lattner et al., 2005). On the other hand, Sokhi et al. (2005) showed than female voice
processing takes place in the STG whereas male voices produced a larger response in the right
precuneus. However, differences between these could be due to Sokhi et al. (2005) including
only male subjects. Lattner et al. (2005) also investigated pitch perception regardless of voice
gender. They showed that high-pitch voices activate a neural network similar to female voices
whereas low-pitch voices induced a larger activity in the left anterior cingulate gyrus (Lattner
et al., 2005); pitch judgement involved right prefrontal cortex. Although the above studies
were interested either in pitch perception or in gender categorisation, their results are highly
variable, thus difficult to interpret and require confirmation.
We wished to assess neuronal activity that underlies gender categorisation in visual
and auditory modalities to determine if the processes engaged by gender categorisation are
modality specific. Male/female categorisations of faces and voices were completed while
ERPs were recorded. In the first study participants performed gender categorisation on
photographs of faces, and in a second study on audio clips of voices. We further investigated
the role of fundamental frequency gender categorisation of voices in a third study, using lowand high-pitched voices as well as normal voices. Because of the overlapping issues in the
three studies, we present the three without separate discussions, and have a general discussion
at the end, to avoid redundancies.
General Methods
Subjects
Nineteen English speaking adults (9 females) aged between 20 and 35 years (mean =
26.4 years), participated in the study. None of the subjects reported any visual or hearing
problems. They all gave informed written consent and the study was approved by the
Sunnybrook Health Sciences Research Ethics Board.
-5-
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Tasks and design
The subjects performed a gender discrimination task of faces (study 1) or voices
(study 2 and 3), i.e. they pressed one keyboard key for female and another one for male faces
or voices. The attribution of the left and right hand responses to male or female faces and
voices was varied across subjects. The ERPs were recorded in a dimly lit sound-proof booth;
participants sat 60 cm from a screen on which face stimuli were presented. Auditory stimuli
were presented binaurally via headphones at normal speaking levels (68dB ±5dB). Stimulus
duration was 300 ms; inter-stimuli intervals varied randomly between 1300 and 1600 ms. For
the face task, a fixation cross appeared between face presentations; for the auditory task, only
the central fixation cross was on the screen. In all three tasks subjects were asked to maintain
central fixation and refrain from making eye movements.
EEG recordings
EEG was recorded using an ANT system and a 64 electrode cap, including three
ocular electrodes to monitor vertical and horizontal eye movements. Impedances were kept
below 5kΩ. The sampling acquisition rate was 1024 Hz. FCz was the reference during
acquisition; an average reference was calculated off-line. Continuous EEG was epoched into
600 ms sweeps including a 100 ms pre-stimuli baseline. Ocular and muscular artefacts, trials
containing an amplitude shift greater than 100µV, were rejected from analysis. Epochs were
averaged by condition and filtered using a bandpass filter 1-30 Hz.
Preliminary analyses were completed on the electrophysiological data from each study
to assess interactions between subject’s gender and brain activity for the different conditions.
These analyses revealed differences between ERPs for female and male subjects; female
subjects had consistently larger amplitude responses than male subjects. However, in the 3
studies, no interactions between subjects’ gender and gender categorisation were observed,
i.e. female subjects did not process female and male stimuli differently than did male subjects.
Consequently electrophysiological data analyses presented above are collapsed across the
gender of the participants.
Peak analyses were performed on individual data on the correct trials only in each
condition. Spatio-temporal effects were assessed by comparing brain topography of each
condition at each time point. A comparison was considered significant if the results of the ttest yielded p<0.01 for at least 15 consecutive 1ms time-bins and two adjacent electrodes.
Study 1: Gender categorization on faces
-6-
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Methods
Subjects performed a gender categorisation task on front view, greyscale pictures of
faces. Faces were photographs of 3 females and 3 males while saying each of the 14 words;
no pictures repeated, but there were 14 photographs of each person leading to 42 pictures in
each condition. Peak analyses were completed on classic peaks described in visual ERP face
literature, i.e. P1, N170, P2 and VPP. Peak latencies and amplitudes were measured in a ±30
ms time-window centred on the latencies of the peak in the grand average (P1: 104 ms, N170
and VPP: 150 ms and P2: 220 ms). P1 and P2 were measured at O1/O2, PO7/PO8, P7/P8 and
PO3/PO4, although for P2 electrodes P5/P6 were also included. N170 was measured at
PO9/PO10, PO7/PO8, P7/P8 and P9/P10. VPP was measured at FC1/FC2, F1/F2, AF3/AF4
and Fz (Jeffreys, 1993). For each subject, latencies were measured at one time point per
hemisphere at the electrode with the largest amplitude. Amplitudes were taken at this latency
at the other selected electrodes over the hemisphere. Peak latencies and amplitudes were
submitted to repeated measures analyses of variance; within subject factors were stimulus
gender (2 levels), hemisphere (except for central electrodes) and electrode (4 levels for P1 and
N170, 3 for VPP and 5 levels for P2) for peak amplitudes. A one-way ANOVA was run to
compare spatio-temporal distribution to female and male faces.
Results
The task was easy, as accuracy reached 95% and mean reaction times (RTs) were
around 550 ms. Significant differences were not found between female and male faces, either
on accuracy or RTs. There was however, an interaction between female and male faces and
subject gender on RTs (F(1,17) = 9.03, p = 0.008) as women categorised female faces faster
(551.8 ms vs. 582.3 ms), whereas the opposite was observed for male subjects (male faces:
527.0 ms; female faces: 538.8 ms).
Peak analyses revealed no differences in latencies or amplitudes between early ERPs
evoked by female and male faces on P1, N170, P2 or VPP (Figure 1A). The spatio-temporal
analysis revealed significant differences between 137 and 170 ms in left frontal regions
(Figure 1B) and right parietal regions, reflecting differences between the topographies of the
VPP/N170, evoked by female and male faces; the symmetric frontal positivity to female faces
was more diffuse to male faces (Figure 1B).
Study 2: Gender categorisation on voices
-7-
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
We then investigated neural correlates of gender processing on normal female and
male voices to determine if gender processing differed between visual and auditory
modalities, or if similar processes are involved regardless of the sensory modality. We
hypothesised that if gender processing occurs in a particular brain region, then whether via
faces or voices, differences between female and male stimuli should occur over the same sites
and possibly at the same latency.
Methods
Auditory stimuli were 84 vocal stimuli, 42 by female and 42 by male voices. Stimuli
were 14 monosyllabic French words (e.g., bas, pré) all spoken by six different speakers (3
females and 3 males) and recorded using CoolEdit Pro (stereo; 22.05 kHz; 32 bits). The
speakers also repeated the words using high- and low-pitched voices. Thus, there were six
voice conditions: female high-pitched, female normal and female low-pitched voices, and the
same for male voices. The same words were pronounced by all of the speakers. There were no
significant differences in word duration across the six voiced conditions. As we were not
interested in semantic processing, the experiments were run on native, mono-lingual English
speaking adults with French words. We also compared auditory ERPs across conditions, to
ensure that no differences were seen due to stimulus conditions. The stimuli were filtered
using a high-pass filter (20 Hz) to remove low-frequencies not related to the stimuli.
Intensities were normalised using Matlab; the normalisation involved dividing by global
energy of the signal. To prevent the perceptual effect of clicks at onset and offset, an envelope
of 10 ms on rise and fall times was applied to all stimuli.
In this first auditory study we used only the stimuli in the speakers’ normal voices.
Fundamental frequencies (F0) of the stimuli were measured using Yin program, developed by
(de Cheveigne & Kawahara, 2002). Mean F0 for female voice was 195 Hz (± 14.6),
significantly higher than the mean F0 for male voices (115 Hz ± 21.6). Participants performed
a gender categorisation task, as they did for faces in Study 1.
Peak analyses were completed on peaks classically described in auditory ERP
literature, N1 – negative peak at 100 ms, P2 – positive deflection at 200 ms (Näätänen et al.,
1988) and the VSR (Levy et al., 2001). The methodology and statistical analyses for latency
and amplitude measures were the same as described in study 1. N1 was measured in a ±30 ms
time-window centred at the grand average latency, 118 ms, at CP1/CP2, C1/C2 and FC1/FC2,
plus the vertex Cz. The time-window for P2 was centred on 215 ms, and measured at
electrodes F1/F2, F3/F4, FC1/FC2, FC3/FC4 and Fz. VSR was measured at FC1/FC2, F1/F2,
-8-
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
F3/F4, AF3/AF4 and Fz in a ±30 ms time-window around 350 ms. As for the faces study, we
compared brain topography evoked by male and female voices with a one-way ANOVA.
Results
Subjects performed well on gender discrimination of voices; accuracy was at 95%
regardless of voice gender. RTs were longer for female (718 ms) than for male (690 ms)
voices (F(1,17) = 6.31 , p = 0.022).
ERPs revealed no latency differences between N1 for female voices (117 ms) or male
voices (121 ms), but N1 was larger for male than female voices (F(1,18) = 18.35, p < 0.001
(Figure 2A – at Cz). P2 was smaller (F(1,18) = 8.56, p = 0.009) for male voices (2µV versus
2.9µV for female voices) (Figure 2A – ERPs at FC1). The VSR latency and amplitude were
not modulated by voice gender (Figure 2A – ERPs at FC1).
Spatio-temporal analyses of brain activity revealed differences between the processing
of female and male voices starting as early as 30ms. The topographies for the two conditions
differed between 30 and 50 ms; reaching significance in left posterior and right anterior
temporal regions (see figure 3B – 45ms). These effects were due to greater positivity over
right anterior temporal regions for male voices and relatively greater positivity in left
temporal regions for female voices. Between 70ms and 115ms, the topographies for male and
female voices were also dissimilar; differences reached significance in central regions with a
right hemisphere bias, due to male voices inducing a more diffuse and larger negativity than
female voices (see figure 2B, showing an example at 104ms). Topography differences in this
latency range and the N1 modulation by voice gender (a larger N1 to male voices), suggest
that N1 observed for male voices may arise from somewhat different brain sources than
female voices. In the time window 130–170ms, female and male voice processing differed as
well, particularly in the left hemisphere. As seen in figure 2B (146ms), the topography to
male voices was similar to N1 topography (figure 2B, 104ms) whereas topography for female
voices was transitioning to the topography underlying P2 (see figure 2B, 212ms). This may
reflect an earlier onset from N1 to P2 for female voices. Between 190 and 230ms,
topographies were similar but amplitudes of the signal differed due to P2 being larger for
female voices (see figure 2B, 212ms).
Male voices evoked greater activity than female voices between 320 and 370 ms (VSR
latency range), particularly in left temporo-occipital regions (Figure 2, 339ms). No
differences were observed in this latency range in frontal regions, where the VSR was
observed with peak analyses.
-9-
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Study 3: Does voice gender categorisation rely on pitch?
Although in study 2 disparities were observed between the processing of female and
male voices, the source of these differences is difficult to assess as female and male voices
differ primarily in pitch (by 100 Hz) and pitch discrepancies may be used to categorise voice
gender. Consequently, the observed differences could stem either from pitch perception, i.e.
low-level processing, or from an effective gender categorisation, a more abstract
representation. We proposed that the early ERP effects may reflect pitch processing and that
later effects (~ at the P2 latency) may be the correlates of voice gender processing. Thus, we
ran a third study including the altered-pitch voices (high-pitch and low-pitch voices), in order
to distinguish between pitch and gender.
Methods
The full series of auditory stimuli described in study 2 was used. There were 252
stimuli divided into six categories (42 stimuli per condition): female high-pitch voices (HF),
female low-pitch voices (LF), female normal voices (NF) and male high-pitch voices (HM),
male low-pitch voices (LM), male normal voices (NM). Mean F0 range was 176 Hz (± 14.7)
for low-pitch to 420 Hz (± 112.3) for high-pitch for female voices, and 113 (± 13.1) to 320 Hz
(± 58.7) for male voices. Analyses of F0 showed that female voices were on average higher
pitched than male voices, but the F0 for low-pitch voices did not differ from normal voices
regardless of the sex of the speaker (see figure 3), although they sounded differently to the
listeners. Participants again pressed one key for male voices and another for female voices
(counter-balanced across subjects). Instructions for this task informed the subjects that the
pitch of the voices may be altered.
Peak and topographical analyses were conducted as for study 2. The spatio-temporal
analysis was a two-way ANOVA with pitch and voice gender as inter-subject factors.
Results
Behavioural results
Recognition of male voices was more accurate than female voices (F(1,17) = 20.29, p
< 0.001), due to the altered voices (i.e. high- and low-pitched voices) disrupting female more
than male categorisation (pitch x voice gender: F(2,34) = 14.04, p < 0.001) (Table 1).
Accuracy on normal voices was high (~96%) regardless of gender. Categorisation of highpitch voices was the least accurate (F(2,34) = 53.09, p < 0.001), especially for female voices.
Low-pitch voices were categorised as accurately as normal voices for male voices but not for
female voices (See Table 1 and Figure 4A). RTs were equivalent for female and male voices
- 10 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
(F(1,17) = 0.354, n.s.) but were modulated by subject gender, as responses were faster to
same sex voices (subject x voice gender: F(1,17) = 5.24, p = 0.035) (Table 1). RTs differed as
a function of pitch (F(2,34) = 7.72, p = 0.006); high-pitch voices took the longest to
categorise. Pitch and voice gender interacted (F(2,34) = 36.91, p < 0.001) on RTs: the fastest
responses were for low-pitch voices categorised as male, whereas responses to high-pitch
voices were the fastest for female voices (see Table 1 and Figure 4B).
Peak analyses
N1 showed no sensitivity to pitch or voice gender in latency or amplitude.
P2 was earlier (F(1,18) = 21.25, p < 0.001) and larger (F(1,18) = 14.95, p = 0.001) for
female compared to male voices. A general effect of pitch on P2 latency (F(2,36) = 6.33, p =
0.007) and amplitude (F(2,36) = 7.69, p = 0.003) was observed, due to P2 to high-pitch voices
having the longest latency and, for male voices, being the largest (Figure 5A). P2 at Fz only
showed a modulation of amplitude by voice gender – larger for female voices (F(1,18) =
14.07, p = 0.001) and for high pitch voices (F(1,18) = 4.89, p = 0.014).
Voice-selective response (VSR) was delayed by 5 ms for male voices reflecting the
delay observed at the P2 latency, shown by a peak-to-peak analysis. VSR was earlier in the
left hemisphere for high-pitch voices, the opposite was seen for low-pitch voices, no
lateralisation was observed for normal voices (frequency x hemisphere: F(2,36) = 5.94, p =
0.006). VSR amplitude was not affected by pitch or gender.
Topography analyses
The ANOVAs revealed that the two factors we manipulated affected brain activity
independently i.e. no interactions were seen between pitch and voice gender for any time
points. Pitch modulated brain activity in the early processing between 34 and 55 ms (Figure
5C, left-hand column). Significant differences were seen in right anterior and left posterior
regions, due to high-pitch voices inducing larger amplitudes than low-pitch and normal
voices, shown by a multicomparison post-hoc analysis. The multicomparison was performed
using Matlab and consisted of paired comparisons for the three pitch conditions, i.e. high vs.
low pitched, normal vs. low-pitch and normal vs. high-pitch. High-pitch voices showed no
hemispheric asymmetry, whereas the pattern of activity for low-pitch and normal voices
showed right-frontal lateralisation (Figure 5B, left-hand column).
In contrast, voice gender processing led to activity differences over central and right
temporo-occipital regions between 170 and 215 ms, due to female voices having larger
responses than male voices (collapsed data for pitch – Figure 5B and C, right-hand column).
However, a major difference between male and female voices is fundamental frequency (F0)
- 11 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
that is on average higher for female than male voice (see methods). Thus, in order to
determine if this difference was due to gender categorisation, a one-way ANOVA was run on
brain topography between high-pitch male voices (320 Hz) and normal female voices (195
Hz). This comparison revealed significant differences at the same latency and localisation as
the comparison of average male to average female voices (Figure 5C on the right and 5D).
Consequently, although in this particular case pitch was higher for male than female voices,
the topography of the significant differences was similar to the gender comparison with a
fundamental frequency higher for female than for male voices. These results suggest that the
neural activity subtending P2 may be a neural correlate of gender discrimination of voices.
Discussion
Face gender processing
Although some behavioural differences were found, there was o evidence of gender
processing of faces on the face-sensitive ERP components. Participants categorised same sex
faces faster in accordance with previous studies (Yamaguchi et al., 1995; Cellerino et al.,
2004). No differences were seen on the visual P1, although it has been shown to be sensitive
to configuration (Halit et al., 2000; Itier & Taylor, 2004a) and low-level features (Rossion et
al., 1999b), which differ between female and male faces (Bruce & Langton, 1994; Cellerino
et al., 2004). However, some studies have shown that directed attention to specific stimulus
characteristics masks early effects on P1 (Rossion et al., 1999a; Batty et al., 2003). As the
participants’ task required paying attention to the gender of the faces, this could account for
the lack of differences on P1 to male and female faces.
No modulation of N170 or VPP by face gender was observed, as also found by
Mouchetant-Rostaing et al. (2000). Numerous studies have shown a modulation of N170
amplitude and latency by configural changes such as inversion (Bentin et al., 1996; Rossion et
al., 2000; Taylor et al., 2001a; Itier & Taylor, 2004b), contrast reversal (Itier & Taylor, 2002)
or using different face types (Bentin & Golland, 2002; Latinus & Taylor, 2005; 2006).
However, N170 is evidently insensitive to the configural differences underlying gender.
Gender categorisation is based on specific features such as face shape, textures and eyebrows
(Bruce & Langton, 1994; Yamaguchi et al., 1995; Cellerino et al., 2004). Although Baudouin
and Humphreys (2006) have shown that configuration is also an important cue for gender
categorisation using composite faces (Baudouin & Humphreys, 2006), this is not
contradictory with our results, as N170 reflects first-order configural and holistic processing
- 12 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
(Latinus & Taylor, 2006) but not recognition per se (Bentin & Deouell, 2000; Eimer, 2000),
which would entail completion of second-order relational configural processing (Maurer et
al., 2002). This study reinforces the view that N170 reflects automatic face processing driven
by first-order and holistic face configuration (Mouchetant-Rostaing et al., 2000; Severac
Cauquil et al., 2000; Vuilleumier, 2000; Taylor et al., 2001b).
Differences were seen in brain activity evoked by male and female faces between 127
and 180 ms, the latency range of the N170 but in left frontal regions. Andreasen et al (1996)
showed that gender processing involved brain areas located in the left inferior temporal lobe
and in the left frontal cortex with fMRI; the current study is consistent with this and provides
the possible timing of this activation. This also provides evidence that gender categorisation
of faces is independent of the structural encoding of faces, reflected in the posteriorly
generated N170 (Bentin et al., 1996). Processing face gender, as for age categorisation,
engages early processing that occurs in parallel with structural encoding (MouchetantRostaing & Giard, 2003). This is also in accordance with a study by Bacon-Macé (2006) who
showed that face detection is automatically associated with gender detection, i.e. “I saw a
woman’s face”, whereas identification depends on further processing (Bacon-Macé, 2006).
These results plus the present data demonstrate that gender processing is automatic, it does
not require attention (Reddy et al., 2004) and takes place in parallel to configural face
processing leading to identification.
P2 did not show a sensitivity to face gender, which would be in accordance with the
model that it reflects a deeper processing only taking place for ambiguous stimuli (Latinus &
Taylor, 2005), and the present task was easy, as shown by behavioural data. Furthermore,
according to spatio-temporal analyses the gender categorisation occurred earlier than P2,
suggesting that it is not necessary to process face stimuli in an extended way to extract gender
information.
Voice gender processing
In contrast to the faces, studies 2 and 3 revealed a host of differences between the
processing of female and male voices, both behaviourally and neurophysiologically. At the
behavioural level, gender differences were seen on accuracy for; the altered voices,
particularly for female voices, but not for normal pitch voices. As with faces, participants
categorised same-sex voices faster. Gender categorisation affected RTs in study 2 as they
were longer for female than male voices perhaps due to the greater range of F0s for female
voices (154 Hz to 245 Hz) than male voices (92 to 152 Hz). In study 3, RTs were not
modulated by gender but were by pitch. Stimulus analyses revealed that the range of F0 was
- 13 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
broader for female than male voices, especially for high-pitched voices (see figure 3 and
methods for mean values). Thus, F0 is more variable for female than male voices, which
could explain the greater difficulty in categorizing female voices. Another explanation would
be that the processing of female and male voices differs; for example Murry & Singh, (1980)
showed that female voice perception relies on temporal information whereas male voice
perception is more spectrally based. Thus, the different effects observed following pitch
modification for female and male voice recognition may result from the use of short stimuli
that reduce the temporal information. Voices where the pitch was more characteristic of the
gender, i.e. high-pitch for female voices and low-pitch for male voices, were the fastest
categorized. These results confirm that a person’s gender is in part derived from fundamental
frequency and that high F0 are typical of a feminine voice and vice versa (Murry & Singh,
1980; Mullennix et al., 1995; Whiteside, 1998). Yet other parameters, such as temporal
information, also influence gender categorisation as it remains reliable even in the absence of
a customary F0.
Spatio-temporal analyses revealed differences in the processing of female and male
voices starting at 30 ms: female voices evoked a left lateralised positive activity whereas male
voice processing showed greater positivity in the right hemisphere. Study 3 demonstrated that
these early differences (30 to 50 ms) were driven by pitch processing; high-pitch voice
processing differed from the processing of low-pitch and normal voices. This is coherent with
the fact that F0 to low-pitch voices and normal voices did not differ significantly, regardless
of voice gender. In this latency range, Pa or P50 is generally measured; this component is
sensitive to stimulus frequency and its topography reflects changesg in dipole orientation with
increasing frequency (Liegeois-Chauvel et al., 1994; Pantev et al., 1995). It has been
proposed that this change in topography reflects the tonotopy of the primary auditory cortex
(Pantev et al., 1995). Thus, in the present study, these early effects likely reflect frequency
processing in the auditory cortex.
In study 2, male voices evoked a larger N! than female voices, especially over
posterior sites. This N1 modulation by voice gender was also evident in topographical
differences. In study 3, however, N1 was no longer modulated by pitch or gender. N1 has
been described to reflect the physical and temporal aspects of auditory stimuli (Näätänen &
Picton, 1987) including stimulus frequency (Näätänen et al., 1988). N1 latency and amplitude
decrease with increasing frequency using pure tone stimuli, especially for unattended tones
(Näätänen & Picton, 1987; Jacobson et al., 1992; Alho et al., 1994; Crottaz-Herbette &
Ragot, 2000). An fMRI study provided evidence of a lateralisation of pitch processing in the
- 14 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
right hemisphere (Lattner et al., 2005); the ERP correlate of this may be the reduced negative
activity seen to female voices. It has also been shown that selective attention influences the
N1 component (Neelon et al., 2006), and that attention to pitch masks the N1 modulation by
frequency (Alho et al., 1994), as for the visual P1 (Rossion et al., 1999a; Batty et al., 2003).
This suggests that the smaller N1 for female voices seen in study 2 corresponds to pitch
processing; this was not observed in study 3 due to attention directed to pitch, as subjects
were instructed that pitches had been modified.
Female voices evoked an earlier and larger P2 than male voices in study 3: between
146 and 220 ms differences were observed over fronto-central brain areas that encompass the
P2 component. Peak analyses revealed that P2 latency and amplitude were increased for high
pitch voices, particularly for the male high pitch voices. The spatio-temporal analysis showed
no interaction between pitch and gender and no pitch effect in this latency range. Comparison
between brain topographies to high-pitch male voices and female normal voices showed that
male voices, even with a higher F0, yielded smaller responses than female voices at the same
location and latency range. The combined results of study 2 and 3 suggest that neural
mechanisms that underlie P2 are involved in gender categorisation. Sokhi et al. (2005)
reported that female voices activate the right anterior STG whereas male voices activate the
precuneus. This does not seem evident in our study as topography to male and female voices
were equivalent, suggesting that a common brain region underlies P2, albeit activated to
differing extents. However, as fMRI data does not provide temporal information, the brain
areas described by Sokhi et al (2005) may be activated at different latencies; activation of the
STG around 220 ms leading to a larger P2 for female voices and the precuneus may occur
later and could drive differences we observed at the VSR latency in left posterior regions
(Sokhi et al., 2005).
Studies 2 and 3 revealed a positive deflection around 320 ms that was probably the
VSR, although we did not use a voice/non-voice discrimination (Levy et al., 2001). It has
been suggested that VSR, as the N170 for face, indexes the identification and distinction of
human voice stimuli (Levy et al., 2003). We found that the VSR, as the N170, was not
influenced by gender processing. Modification of voice frequency did not alter VSR, whereas
studies have reported that modification of visual spatial frequencies does influence N170
(Reinvang et al., 2002; Goffaux et al., 2003; Pourtois et al., 2005). This suggests that the
VRS and N170 may have some commonalities, but they may not index the same processing
stage in the two modalities.
- 15 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
The two studies with voices suggest that true voice gender processing occurs at the P2
latency while pitch processing occurs earlier. Although Levy et al (2001) were most interested
in differences between voices and a range of non-vocal sounds (i.e. musical instruments) that
occurred 260 to 380 ms after stimuli onset, in figure 2 of their paper, one can see that at the
P2 latency, there were amplitude differences between brass and voices (Levy et al., 2001). P2
may also index voice processing, distinguishing between vocal and non-vocal sounds. An
MEG study demonstrated that a violation of the expectations of listeners leads to a voicespecific brain response 200 ms after stimulus onset (Lattner et al., 2003). It has also been
suggested that P2 is an index for speech processing as P2 was larger to vowels than tones
(Tiitinen et al., 1999) and was sensitive to voice priming in a voice recognition paradigm
(Schweinberger, 2001). These effects on P2 amplitude may reflect voice sensitivity more than
speech processing.
We suggest that the auditory ERPs index both pitch and gender
processing: pitch processing starts very early and it is modulated by attention, particularly at
the N1 latency, while gender discrimination occurs around 200 ms, associated with other
aspects of voice processing.
Comparison of face and voice gender processing
This study revealed the gender processing of faces was faster than that of voices, even
though auditory processing starts earlier than does visual processing. Activation of neurons in
the primary auditory cortex is reported as early as 18 ms after stimulus onset (LiegeoisChauvel et al., 1994), whereas the first responses recorded in primary visual area occurs
around 40 ms. Two hypotheses may explain these results. The first is that visual system is
tuned to the extraction of information about an individual, whereas voice primarily driven
linguistic information; thus, the processing of gender would be more efficient in the visual
modality. A second explanation would be that visual gender information is available as soon
as the stimulus is seen, whereas auditory gender information is not available immediately.
The auditory system may thus require more time to process gender information; particularly
for female voices that may be recognised largely on temporal information.
Conclusions
These three studies showed different patterns of ERPs in terms of peak analyses and
topographies, consistent with gender processing being modality-specific. We provide
evidence of differing processes in the extraction of gender information from faces and voices.
Gender processing of faces involves left anterior temporal and frontal areas at 150ms. This
- 16 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
suggests that face gender is processed in parallel with face recognition. Voice processing was
more variable, however. Once pitch information has been accounted for, it appears that
differences at the P2 latency remain in fronto-central regions, suggesting that gender
categorisation takes place at this latency. This would be consistent with reaction times that are
longer for gender categorisation of voices than of faces.
These results suggest that neuronal processes underlying gender categorisation of
faces and voices differs and that the brain processes that allow the discrimination of male and
female faces occurs early and in differing brain areas than comparable discrimination of male
and female voices.
Acknowledgments
Marianne Latinus gratefully acknowledges the salary support from the Fondation pour la
Recherche Médicale. We thank Dr. Nancy J. Lobaugh for her generosity in allowing us full
access to her ERP lab, and the help provided with the studies by Dr. Lobaugh and Erin
Gibson. The authors also want to thank Rufin Van Rullen for constructive comments on the
manuscript.
- 17 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
References
Alho, K., Teder, W., Lavikainen, J. & Naatanen, R. (1994) Strongly focused attention and
auditory event-related potentials. Biol Psychol, 38, 73-90.
Andreasen, N.C., O'Leary, D.S., Arndt, S., Cizadlo, T., Hurtig, R., Rezai, K., Watkins, G.L.,
Ponto, L.B. & Hichwa, R.D. (1996) Neural substrates of facial recognition. J
Neuropsychiatry Clin Neurosci, 8, 139-146.
Andrews, M.L. & Schmidt, C.P. (1997) Gender presentation: perceptual and acoustical
analyses of voice. J Voice, 11, 307-313.
Bacon-Macé, N.M. (2006) Temporal constraints of visual processing in a categorisation task
of natural scenes (French thesis) Centre de recherche cerveau et cogition. Université
Paul Sabatier, Toulouse, pp. 189.
Batty, M., Delaux, S. & Taylor, M.J. (Year) Early neurophysiological effects in the explicit
and implicit processing of facial emotions. The social brain. City.
Baudouin, J.Y. & Humphreys, G.W. (2006) Configural information in gender categorisation.
Perception, 35, 531-540.
Beauchemin, M., De Beaumont, L., Vannasing, P., Turcotte, A., Arcand, C., Belin, P. &
Lassonde, M. (2006) Electrophysiological markers of voice familiarity. Eur J
Neurosci, 23, 3081-3086.
Bedard, C. & Belin, P. (2004) A "voice inversion effect?" Brain Cogn, 55, 247-249.
Belin, P., Zatorre, R.J. & Ahad, P. (2002) Human temporal-lobe response to vocal sounds.
Brain Res Cogn Brain Res, 13, 17-26.
Belin, P., Zatorre, R.J., Lafaille, P., Ahad, P. & Pike, B. (2000) Voice-selective areas in
human auditory cortex. Nature, 403, 309-312.
Bentin, S., Allison, T., Puce, A., Perez, E. & Mccarthy, G. (1996) Electrophysiological
Studies of Face Perception in Humans. Journal of Cognitive Neuroscience, 8, 551565.
Bentin, S. & Deouell, L. (2000) Structural encoding and face identification in face processing:
ERP evidence for separate mechanisms. Journal of Cognitive Neuropsychology, 17,
35-54.
Bentin, S. & Golland, Y. (2002) Meaningful processing of meaningless stimuli: the influence
of perceptual experience on early visual processing of faces. Cognition, 86, B1-14.
Bruce, V., Ellis, H., Gibling, F. & Young, A. (1987) Parallel processing of the sex and
familiarity of faces. Can J Psychol, 41, 510-520.
- 18 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Bruce, V. & Langton, S. (1994) The use of pigmentation and shading information in
recognising the sex and identities of faces. Perception, 23, 803-822.
Bruce, V. & Young, A. (1986) Understanding face recognition. Br J Psychol, 77 ( Pt 3), 305327.
Cellerino, A., Borghetti, D. & Sartucci, F. (2004) Sex differences in face gender recognition
in humans. Brain Res Bull, 63, 443-449.
Crottaz-Herbette, S. & Ragot, R. (2000) Perception of complex sounds: N1 latency codes
pitch and topography codes spectra. Clin Neurophysiol, 111, 1759-1766.
de Cheveigne, A. & Kawahara, H. (2002) YIN, a fundamental frequency estimator for speech
and music. J Acoust Soc Am, 111, 1917-1930.
Eimer, M. (2000) Effects of face inversion on the structural encoding and recognition of
faces. Evidence from event-related brain potentials. Brain Res Cogn Brain Res, 10,
145-158.
George, N., Evans, J., Fiori, N., Davidoff, J. & Renault, B. (1996) Brain events related to
normal and moderately scrambled faces. Cognitive Brain Research, 4, 65-76.
George, N., Jemel, B., Fiori, N., Chaby, L. & Renault, B. (2005) Electrophysiological
correlates of facial decision: insights from upright and upside-down Mooney-face
perception. Brain Res Cogn Brain Res, 24, 663-673.
Goffaux, V., Gauthier, I. & Rossion, B. (2003) Spatial scale contribution to early visual
differences between face and object processing. Cognitive Brain Research, 16, 416424.
Halit, H., de Haan, M. & Johnson, M.H. (2000) Modulation of event-related potentials by
prototypical and atypical faces. Neuroreport, 11, 1871-1875.
Haxby, J.V., Hoffman, E.A. & Gobbini, M.I. (2000) The distributed human neural system for
face perception. Trends Cogn Sci, 4, 223-233.
Holmes, A., Vuilleumier, P. & Eimer, M. (2003) The processing of emotional facial
expression is gated by spatial attention: evidence from event-related brain potentials.
Brain Res Cogn Brain Res, 16, 174-184.
Imaizumi, S., Mori, K., Kiritani, S., Kawashima, R., Sugiura, M., Fukuda, H., Itoh, K., Kato,
T., Nakamura, A., Hatano, K., Kojima, S. & Nakamura, K. (1997) Vocal identification
of speaker and emotion activates different brain regions. Neuroreport, 8, 2809-2812.
Itier, R.J., Latinus, M. & Taylor, M.J. (2006) Face, eye and object early processing: what is
the face specificity? Neuroimage, 29, 667-676.
Itier, R.J. & Taylor, M.J. (2002) Inversion and contrast polarity reversal affect both encoding
and recognition processes of unfamiliar faces: a repetition study using ERPs.
Neuroimage, 15, 353-372.
- 19 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Itier, R.J. & Taylor, M.J. (2004a) Effects of repetition learning on upright, inverted and
contrast-reversed face processing using ERPs. Neuroimage, 21, 1518-1532.
Itier, R.J. & Taylor, M.J. (2004b) N170 or N1? Spatiotemporal differences between object
and face processing using ERPs. Cereb Cortex, 14, 132-142.
Jacobson, G.P., Lombardi, D.M., Gibbens, N.D., Ahmad, B.K. & Newman, C.W. (1992) The
effects of stimulus frequency and recording site on the amplitude and latency of
multichannel cortical auditory evoked potential (CAEP) component N1. Ear Hear, 13,
300-306.
Jeffreys, D.A. (1993) The influence of stimulus orientation on the vertex positive scalp
potential evoked by faces. Experimental Brain Research, 96, 163-172.
Kanwisher, N., Stanley, D. & Harris, A. (1999) The fusiform face area is selective for faces
not animals. Neuroreport, 10, 183-187.
Latinus, M. & Taylor, M.J. (2005) Holistic processing of faces: learning effects with Mooney
faces. J Cogn Neurosci, 17, 1316-1327.
Latinus, M. & Taylor, M.J. (2006) Face processing stages: Impact of difficulty and the
separation of effects. Brain Res, 1123, 179-187.
Lattner, S., Maess, B., Wang, Y., Schauer, M., Alter, K. & Friederici, A.D. (2003)
Dissociation of human and computer voices in the brain: evidence for a preattentive
gestalt-like perception. Hum Brain Mapp, 20, 13-21.
Lattner, S., Meyer, M.E. & Friederici, A.D. (2005) Voice perception: Sex, pitch, and the right
hemisphere. Hum Brain Mapp, 24, 11-20.
Lavner, Y., Gath, I. & Rosenhouse, J. (2000) The effects of acoustic modifications on the
identification of familiar voices speaking isolated vowels. Speech Communication, 30,
9-26.
Levy, D.A., Granot, R. & Bentin, S. (2001) Processing specificity for human voice stimuli:
electrophysiological evidence. Neuroreport, 12, 2653-2657.
Levy, D.A., Granot, R. & Bentin, S. (2003) Neural sensitivity to human voices: ERP evidence
of task and attentional influences. Psychophysiology, 40, 291-305.
Liegeois-Chauvel, C., Musolino, A., Badier, J.M., Marquis, P. & Chauvel, P. (1994) Evoked
potentials recorded from the auditory cortex in man: evaluation and topography of the
middle latency components. Electroencephalogr Clin Neurophysiol, 92, 204-214.
Maurer, D., Grand, R.L. & Mondloch, C.J. (2002) The many faces of configural processing.
Trends Cogn Sci, 6, 255-260.
Mouchetant-Rostaing, Y. & Giard, M.H. (2003) Electrophysiological correlates of age and
gender perception on human faces. J Cogn Neurosci, 15, 900-910.
- 20 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Mouchetant-Rostaing, Y., Giard, M.H., Bentin, S., Aguera, P.E. & Pernier, J. (2000)
Neurophysiological correlates of face gender processing in humans. Eur J Neurosci,
12, 303-310.
Mullennix, J.W., Johnson, K.A., Topcu-Durgun, M. & Farnsworth, L.M. (1995) The
perceptual representation of voice gender. J Acoust Soc Am, 98, 3080-3095.
Murry, T. & Singh, S. (1980) Multidimensional analysis of male and female voices. J Acoust
Soc Am, 68, 1294-1300.
Näätänen, R. & Picton, T. (1987) The N1 wave of the human electric and magnetic response
to sound: a review and an analysis of the component structure. Psychophysiology, 24,
375-425.
Näätänen, R., Sams, M., Alho, K., Paavilainen, P., Reinikainen, K. & Sokolov, E.N. (1988)
Frequency and location specificity of the human vertex N1 wave. Electroencephalogr
Clin Neurophysiol, 69, 523-531.
Neelon, M.F., Williams, J. & Garell, P.C. (2006) The effects of auditory attention measured
from human electrocorticograms. Clin Neurophysiol, 117, 504-521.
Pantev, C., Bertrand, O., Eulitz, C., Verkindt, C., Hampson, S., Schuierer, G. & Elbert, T.
(1995) Specific tonotopic organizations of different areas of the human auditory
cortex revealed by simultaneous magnetic and electric recordings. Electroencephalogr
Clin Neurophysiol, 94, 26-40.
Pourtois, G., Dan, E.S., Grandjean, D., Sander, D. & Vuilleumier, P. (2005) Enhanced
extrastriate visual response to bandpass spatial frequency filtered fearful faces: time
course and topographic evoked potentials mapping. Hum Brain Mapp, 26, 65-79.
Puce, A., Allison, T., Asgari, M., Gore, J.C. & McCarthy, G. (1996) Differential sensitivity of
human visual cortex to faces, letter-strings, and textures: a functional magnetic
resonance imaging study. Journal of Neuroscience, 16, 5205-5215.
Reddy, L., Wilken, P. & Koch, C. (2004) Face-gender discrimination is possible in the nearabsence of attention. J Vis, 4, 106-117.
Reinvang, I., Magnussen, S. & Greenlee, M.W. (2002) Hemispheric asymmetry in visual
discrimination and memory: ERP evidence for spatial frequency hypothesis. Exp
Brain Res, 144, 483-495.
Rossion, B., Campanella, S., Gomez, C.M., Delinte, A., Debatisse, D., Liard, L., Dubois, S.,
Bruyer, R., Crommelinck, M. & Guerit, J.M. (1999a) Task modulation of brain
activity related to familiar and unfamiliar face processing: an ERP study. Clin
Neurophysiol, 110, 449-462.
Rossion, B., Delvenne, J.F., Debatisse, D., Goffaux, V., Bruyer, R., Crommelinck, M. &
Guerit, J.M. (1999b) Spatio-temporal localization of the face inversion effect: an
event-related potentials study. Biol Psychol, 50, 173-189.
- 21 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Rossion, B., Gauthier, I., Tarr, M.J., Despland, P., Bruyer, R., Linotte, S. & Crommelinck, M.
(2000) The N170 occipito-temporal component is delayed and enhanced to inverted
faces but not to inverted objects: an electrophysiological account of face-specific
processes in the human brain. Neuroreport, 11, 69-74.
Sagiv, N. & Bentin, S. (2001) Structural encoding of human and schematic faces: holistic and
part-based processes. Journal of Cognitive Neuroscience, 13, 937-951.
Schweinberger, S.R. (2001) Human brain potential correlates of voice priming and voice
recognition. Neuropsychologia, 39, 921-936.
Scott, S.K., Blank, C.C., Rosen, S. & Wise, R.J. (2000) Identification of a pathway for
intelligible speech in the left temporal lobe. Brain, 123 Pt 12, 2400-2406.
Severac Cauquil, A., Edmonds, G.E. & Taylor, M.J. (2000) Is the face-sensitive N170 the
only ERP not affected by selective attention? Neuroreport, 11, 2167-2171.
Sokhi, D.S., Hunter, M.D., Wilkinson, I.D. & Woodruff, P.W. (2005) Male and female voices
activate distinct regions in the male brain. Neuroimage, 27, 572-578.
Taylor, M.J. (2002) Non-spatial attentional effects on P1. Clin Neurophysiol, 113, 1903-1908.
Taylor, M.J., Edmonds, G.E., McCarthy, G. & Allison, T. (2001a) Eyes first! Eye processing
develops before face processing in children. Neuroreport, 12, 1671-1676.
Taylor, M.J., Itier, R.J., Allison, T. & Edmonds, G.E. (2001b) Direction of gaze effects on
early face processing: eyes-only versus full faces. Brain Res Cogn Brain Res, 10, 333340.
Tiitinen, H., Sivonen, P., Alku, P., Virtanen, J. & Naatanen, R. (1999) Electromagnetic
recordings reveal latency differences in speech and tone processing in humans. Brain
Res Cogn Brain Res, 8, 355-363.
von Kriegstein, K., Eger, E., Kleinschmidt, A. & Giraud, A.L. (2003) Modulation of neural
responses to speech by directing attention to voices or verbal content. Brain Res Cogn
Brain Res, 17, 48-55.
Vuilleumier, P. (2000) Faces call for attention: evidence from patients with visual extinction.
Neuropsychologia, 38, 693-700.
Whiteside, S.P. (1998) Identification of a speaker's sex: a study of vowels. Percept Mot Skills,
86, 579-584.
Yamaguchi, M.K., Hirukawa, T. & Kanazawa, S. (1995) Judgment of gender through facial
parts. Perception, 24, 563-575.
- 22 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Table 1: Mean Accuracy and Reaction Times for study 3 for each condition.
Female Voices
Male Voices
Hits (%)
RTs (ms)
Hits (%)
RTs (ms)
High-pitched
76.82 ± 2.27
775.08 ± 25.35
87.84 ± 1.95
863.75 ± 31.87
Normal
96.11 ± 0.86
810.94 ± 30.92
96.49 ± 1.3
760.63 ± 28.32
Low-pitched
84.71 ± 1.65
808.8 ± 33.65
97.87 ± 1.01
748.73 ± 29.62
NB: Accuracy was particularly low for high-pitched voices, especially for female
voices. RTs to female high-pitched voices are the fastest whereas for male voices low-pitched
voices induced the fastest response.
- 23 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Figure Captions
Figure 1: Grand average ERPs and topographies for faces, study 1. A) ERPs to female
(▬) and male (▬) faces at electrodes PO7 and PO8. B) Topographies of N170 to male and
female faces. First column: male faces, second column: female faces, third column:
significant F-values (F(1,18) > 6.5146) of the difference between male and female stimuli.
NB: For the F-value topographies, values that are not significant are in green. The scale is a /+ maximum F-value.
Figure 2: Grand average ERPs and topographies for voices, study 2. A) ERPs to
normal female (▬) and male (▬) voices at Cz (left) and FC1 (right). B) Topographies for
each time interval where there were significant differences between male and female voices.
First column: male voices, second column: female voices, third column: significant F-values
(F(1,18) > 6.5146) of the difference between male and female stimuli. NB: For the F-value
topographies, values that are not significant are in green. The scale is a -/+ maximum F-value.
Figure 3: Fundamental frequency (F0) in Hz of the stimuli used in studies 2 and 3, and
graphic representation. Note that F0 for female voices were on average higher than male
voices. Low-pitched (black) and normal voices (dark grey) did not differ significantly, but
high pitch voices (clear grey) were always the highest regardless of gender.
Figure 4: Behavioural results for study 3. A) Accuracy in percentages. Normal voices
(dark grey) were well categorised regardless of gender. Pitch modifications impaired female
voice categorisation more than male. High-pitched voices (clear grey) were the worst
categorised for both male and female voices. Low pitched voices are represented in black. B)
Reaction times in ms for the different conditions. RTs did not differ as a function of voice
gender but were modulated by pitch.
Figure 5: Peak and spatio-temporal analysis for study 3. A) Grand average ERPs for
each condition at FC1 (P2 is represented). Female voices are in pink, male voices are in blue.
- 24 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
The lighter to darker lines represent the higher pitch to the lower pitch voices. Note the
delayed and smaller P2 for male voices. B) Topographies at 45ms of the voices, averaged by
pitch (left column) and at 184ms by gender (right column). High-pitch voices led to larger
activity and female voices produced greater frontal activity than to male voices. C)
Topographies of the significant F-values revealed by the two ANOVAs for the pitch factor
(first column – 45 ms) and gender factor (second column – 184 ms) seen in B. D) Comparison
between activity to male high-pitched voices and female normal voices, and maps of the
significant F values of the one-way ANOVA. Note that the female voices evoked a larger
activity than male voices with a similar distribution of effects as seen in the gender results
(C), even though in this comparison the female voices had an F0 125Hz lower than the male
voices.
- 25 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Figure 1
- 26 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Figure 2
- 27 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Figure 3
- 28 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Figure 4
- 29 -
Latinus & Taylor
Manuscript in preparation for European Journal of Neuroscience
Figure 5
- 30 -
4. Discussion
Perception du genre de la voix
Les expériences 2 et 3 de l’article précédent avaient pour but d’explorer la perception
du genre de la voix. Les résultats comportementaux mettent en évidence une différence entre
la perception des voix d’hommes et celle des voix de femmes. Dans la première expérience,
cette différence n’est visible qu’au niveau des temps de réaction, qui sont plus longs pour la
catégorisation des voix de femmes. Dans la deuxième expérience, la modification de la
hauteur de la voix produit des résultats inattendus. En effet, puisque la hauteur est un élément
primordial de la perception du genre, une hypothèse était que les voix de femmes forcées vers
l’aigu soient perçues comme féminines, et les voix des hommes forcées vers le grave comme
masculines ; or, les résultats comportementaux vont à l’encontre de cette hypothèse. La
modification de la hauteur de la voix n’altère presque pas la perception des voix d’hommes
mais elle modifie de façon importante la perception des voix de femmes. Cela suggère que la
modification de la hauteur ne perturbe pas toutes les caractéristiques acoustiques utilisées
pour juger du côté masculin d’une voix, mais qu’elle perturbe les informations utilisées pour
juger de la féminité d’une voix. Ces informations manquantes pour la détection du genre de la
voix pourraient être celles contenues dans la dynamique temporelle de la voix. Certaines
études montrent en effet que le traitement des voix de femmes repose sur la dynamique
temporelle de la voix (Andrews & Schmidt, 1997; Murry & Singh, 1980). Ainsi, dans notre
expérience, du fait de l’utilisation de mots courts (~300 ms), le recours aux informations
temporelles a pu être impossible. Ces résultats révèlent donc que les voix masculines sont
reconnues par une fréquence fondamentale basse, mais que d’autres informations spectrales
peuvent être utilisées en l’absence d’une F0 pertinente. Pour les voix de femmes, la détection
du genre passe essentiellement par la F0 mais lorsque celle-ci n’est pas appropriée, elle
requiert des informations temporelles non disponibles dans des stimuli courts.
Des différences entre voix d’hommes et de femmes sont observées très précocement.
A 30 ms la topographie pour les voix d’hommes est distincte de celle observée pour les voix
de femmes. Elle est cependant similaire pour les voix d’hommes et les voix graves : un pic
d’activité est observé dans l’hémisphère gauche. Les voix de femmes induisent une activité
latéralisée à droite. La topographie pour les voix aiguës est différente aussi bien de celle des
voix de femmes que de celle des voix d’hommes ; elle ne présente pas de latéralisation. Ces
différences de topographie en fonction de la hauteur de la voix reflètent probablement la
235
tonotopie des aires auditives primaires, d’autant qu’elles sont observées dans l’intervalle des
latences du complexe Na/Pa (Pantev et al., 1995).
Les voix d’hommes entraînent une N1 plus ample que les voix de femmes, les
topographies étant également différentes. La topographie pour les voix d’hommes indique une
activation plus postérieure que celle des voix de femmes ; ces résultats sont en accord avec les
études montrant une sensibilité de l’amplitude et de la topographie de la N1 à la fréquence des
stimuli reflétant la tonotopie observée dans les aires auditives secondaires (Crottaz-Herbette
& Ragot, 2000; Näätänen & Picton, 1987; Näätänen et al., 1988; Pantev et al., 1995). Les
modulations de la N1 disparaissent dans la deuxième étude. Ces résultats refléteraient une
modulation de la N1 par les processus attentionnels ; les différences physiques entre les
stimuli sont conservées, mais la hauteur de la voix n’est plus un indice pertinent, elle n’est
donc pas traitée de façon approfondie (Alho et al., 1994).
La P2 est modulée par le genre de la voix : elle est plus ample pour les voix féminines.
Sa topographie est similaire pour les voix féminines et masculines. Par ailleurs, à cette
latence, la topographie des différences entre les voix de femmes normales et les voix
d’hommes aiguës est similaire à la topographie des différences entre voix d’hommes et voix
de femmes. Cette dernière comparaison montre que les différences observées à la latence de la
P2 ne sont pas induites par la fréquence fondamentale de la voix, mais bien par le genre. Je
pense donc, que la P2 auditive pourrait refléter l’activité d’une source cérébrale sensible aux
genres de la voix. Ces résultats suggèrent également que la P2 pourrait refléter l’étape de
distinction entre la voix et les autres stimuli auditifs. Cette dernière hypothèse ne peut
cependant pas être vérifiée par ses deux expériences.
Ces deux études engendrent deux hypothèses. La perception des voix aurait lieu 200
ms après la stimulation, et non pas 320 ms. Le genre de la voix paraît être traité à la même
latence. Afin de tester ces hypothèses, j’ai pensé à une troisième étude en collaboration avec
Magali Batty (Service d’exploration fonctionelle en pédopsychiatrie, Tours), étude qui est
actuellement en préparation. Les stimuli utilisés dans cette étude seront les voix utilisées dans
mes deux expériences, ces mêmes stimuli inversés, ainsi que des sons purs appariés en terme
d’enveloppe et de fréquence fondamentale à chacune des voix. La comparaison entre les sons
purs et les voix permettrait de mettre en évidence des traitements spécifiques de la voix. Les
stimuli inversés sont ajoutés pour tester l’effet d’inversion ; en effet, dans le domaine de la
perception des visages, la sensibilité de la N170 à l’inversion des visages est un indice de la
spécificité des visages. Par ailleurs, l’utilisation de sons purs inversés pourrait permettre de
236
montrer que l’effet d’inversion, s’il existe, est spécifique des visages. Les effets précoces
observés dans mes expériences précédentes devraient être communs aux voix et aux non voix.
Les effets sur la P2 devraient être spécifiques des voix. Si la P2 ou la VSR reflète le
traitement de la voix, on s’attend à des différences entre voix et non voix, et pourquoi pas à un
effet d’inversion sur l’une de ces composantes.
Comparaison entre le genre du visage et le genre de la voix
Cette étude avait également pour but d’explorer la perception du genre d’un individu à
travers les deux modalités sensorielles primordiales pour cette tâche : la vision et l’audition.
L’hypothèse sous-jacente supposait que si la perception du genre était un processus amodal,
ou supramodal, la discrimination du genre devrait conduire à une topographie/activité
similaire après les traitements spécifiques quelle que soit la modalité. Les résultats de ces
études ne permettent pas de mettre en évidence une telle similarité.
En premier lieu, au niveau comportemental, la catégorisation du genre est effectuée
plus rapidement sur le visage que sur la voix (550 contre 700 ms en moyenne). Ce résultat
peut paraître surprenant au vu des différences recontrées au niveau cortical ; en effet, les aires
auditives sont activées plus tôt que les aires visuelles. Cependant, dans notre étude, le visage
est un stimulus statique, la voix, quant à elle, est un stimulus dynamique. Ainsi, toutes les
informations visuelles sont disponibles dès le début de la présentation, ce qui n’est pas le cas
pour les voix. Cette hypothèse suffit à expliquer les données. Une deuxième hypothèse
pourrait être que l’information visuelle prévaut sur l’information auditive dans le cadre de la
perception du genre. Cette deuxième hypothèse sera explorée dans mes travaux sur les
interactions multimodales. Une deuxième distinction entre voix et visage, au niveau
comportemental, est l’absence de différence entre la catégorisation des visages d’hommes et
de femmes, alors que la catégorisation des voix de femmes est plus lente d’environ 30 ms que
celle des voix d’hommes. Cette seconde observation peut également resulter de la dynamique
des stimuli auditifs : il a en effet été démontré que la perception des voix de femmes dépend
d’indices dynamiques alors que la perception des voix d’hommes se fait essentiellement via
des informations spectrales. Les informations sur la dynamique de la voix n’étant pas
disponibles au même moment que les informations spectrales, ceci peut expliquer que les
temps de réaction des sujets soient plus longs lorsqu’il s’agit de catégoriser une voix
féminine.
237
L’activité cérébrale enregistrée dans ces deux tâches est également différente. Les
visages de femmes et d’hommes évoquent une activité différente sur les électrodes frontales
entre 140 et 170 ms. Au contraire, les voix d’hommes et de femmes évoquent une activité
différente dès 40 ms ; la topographie des différences ne ressemble jamais à celle obtenue entre
visages d’hommes et visages de femmes. Même si nombre de différences entre voix
d’hommes et de femmes peuvent résulter des traitements bas niveau (traitement des
informations spectrales), mon étude montre qu’une différence liée à la perception du genre de
la voix (et non aux différences de fréquence entre les voix) apparaît entre 175 et 215 ms sur
les électrodes centrales. Ainsi, il semble que la perception du genre d’un visage diffère de la
perception du genre de la voix, et il ne semble pas y avoir un centre supramodal de la
perception du genre.
Ainsi, ces trois études suggèrent que le traitement des voix n’est peut-être pas
similaire à celui des visages ; plus particulièrement la reconnaissance du genre ne semble pas
être effectuée de la même façon sur le visage que sur la voix. Il apparaît également une
différence dans les vitesses de traitement entre les deux modalités ; cette différence pourrait
être due aux caractéristiques des stimuli (voix dynamique contre visage statique) mais elle
pourrait refléter un avantage du système visuel dans la perception du genre de l’individu. Au
niveau électrophysiologique, l’activité cérébrale évoquée par les visages de femmes et les
visage d’hommes diffère de manière localisée à la fois spatialement et temporellement (à 180
ms sur les électrodes frontales). Au contraire, les voix d’hommes et de femmes induisent une
activité cérébrale différente pendant une longue période et en des régions variées.
Dans la dernière étude de ma thèse, j’ai étudié la perception du genre de la voix sur
des stimuli bimodaux constitués de visages et de voix. Dans cette étude, des stimuli
congruents et incongruents ont été utilisés lorsque l’attention des sujets était dirigée vers l’une
ou l’autre, ou les deux modalités sensorielles. Ainsi, grâce à l’utilisation de stimuli
incongruents, cette étude permet de tester l’hypothèse d’une asymétrie entre les modalités
sensorielles dans la perception du genre. Elle explore également les corrélats
électrophysiologiques des interactions bimodales.
238
B. Interactions bimodales
Dans la vie quotidienne, les informations du monde extérieur, en général congruentes,
atteignent simultanément nos différents sens. Les paroles prononcées par un locuteur sont
perçues par le système auditif (émission sonore) mais également par le système visuel
(mouvement articulatoire des lèvres) ; ces deux informations sont intégrées simultanément et
améliorent la perception du langage : le rôle des informations visuelles est particulièrement
important dans des conditions bruitées (MacLeod & Summerfield, 1987). Ce type
d’interactions entre plusieurs modalités se retrouve à tous les niveaux de notre vie
quotidienne ; qui n’a jamais gouté un bonbon en ressentant un goût de pomme lorsque le
bonbon est vert, alors que si la couleur du bonbon est inconnue, son gout n’est plus
définissable. Il est donc normal de s’interroger sur la contribution respective de chacune des
informations unimodales à la perception de notre environnement, et sur leurs possibles
interactions.
L’interaction entre les informations provenant de nos différents sens est montrée par
deux types d’études. Une première approche de l’étude des interactions multimodales repose
sur l’observation des réponses des sujets à des stimulations multimodales conflictuelles. La
deuxième approche consiste à observer la réponse des sujets à des informations sensorielles
redondantes. Dans ma thèse, j’ai étudié les interactions entre vision et audition dans la
perception des personnes ; il s’agissait d’une tâche de catégorisation du genre sur des stimuli
bimodaux congruents ou incongruents. Ainsi, mes études utilisent les deux types de
paradigmes décrits ci-dessus. J’ai en effet analysé les réponse comportementales et neuronales
des sujets à des stimulations sensorielles portant des informations redondantes/congruentes ou
conflictuelles/incongruentes.
1. La preuve par les illusions
Les interactions multimodales donnent naissance à de nombreuses illusions
sensorielles. Les illusions intermodales peuvent mettre en jeu tous les systèmes sensoriels.
Sont ainsi décrites des illusions visuo-auditives, visuo-tactiles, visuo-gustatives etc. Je
restreindrai pourtant ma présentation à l’interaction entre les systèmes auditif et visuel,
puisque ce sont eux qui m’ont intéressée au cours de ma thèse. Certaines illusions résultent
d’une altération des traitements auditifs par les informations visuelles, par exemple l’effet
239
McGurk. D’autres illusions proviennent d’une perturbation des traitements visuels par les
informations auditives.
1.1. L’effet McGurk
L’effet McGurk est un exemple frappant d’interaction bimodale. Cette illusion, décrite
par McGurk et McDonald (1976), se situe dans le domaine de la parole. Elle traduit
l’influence du mouvement articulatoire des lèvres sur la perception auditive. La perception
auditive de la syllabe ‘ba’ est modifiée par la présentation simultanée d’une bouche mimant le
mouvement articulatoire de la syllabe ‘ga’ ; la syllabe finalement perçue est la syllabe ‘da’
(McGurk & MacDonald, 1976). L’effet McGurk est une illusion intermodale très robuste. La
majorité des sujets (~80%) y est sensible, même lorsque la nature des informations
unimodales est connue. L’effet McGurk est observé même en l’absence de synchronisation
temporelle et/ou spatiale entre le son et l’image (Jones & Jarick, 2006; Jones & Munhall,
1997; Munhall et al., 1996). La force de l’effet McGurk dépend du poids respectif donné aux
informations auditives et visuelles, expliquant pourquoi certains sujets n’y sont pas sensibles
ou d’autres très sensibles. L’effet McGurk est, par exemple, invariablement observé chez les
sourds implantés cochléaires22 (communication de Julien Rouger, CerCo).
L’effet McGurk résulte d’une différence entre les lieux d’articulation des consonnes
‘g’ et ‘b’. Le lieu d’articulation est, rappelons-le, le lieu d’obstruction de l’air dans les cavités
supra-glottiques. Le lieu d’articulation est indiqué majoritairement par les informations
visuelles, néanmoins les informations auditives y donnent également accès, notamment par la
transition formantique23 entre la consonne et la voyelle. La consonne ‘b’ est une consonne
labiale (produite par un resserrement des lèvres), ‘g’ est une consonne vélaire (produite par un
appui du dos de la langue contre le voile du palais). Visuellement, le lieu d’articulation de la
consonne ‘d’ (consonne dentale, produite par un rapprochement de la pointe de la langue des
dents) est proche de celui de la consonne ‘g’ : ce sont toutes deux des consonnes non labiales,
ne mettant pas en jeu de mouvement des lèvres. A contrario, les informations auditives sur le
lieu d’articulation sont relativement similaires pour les syllabes ‘da’ et ‘ba’. Ainsi, la
combinaison des informations visuelles et auditives ne peut conduire qu’à une perception
intermédiaire afin de satisfaire au mieux la volonté de concordance habituellement vécue ;
22
Les sujets sourds implantés cochléaires, influencés en premier lieu par les informations visuelles, rapportent
percevoir soit un ‘ga, soit un ‘da’.
23
Comme je l’ai dit dans le paragraphe 2.2.1a., une consonne est définie par rapport à la voyelle adjacente. La
transition formatique définit un changement rapide de la fréquence d’un formant, notamment lors du passage de
la consonne à la voyelle. Cette transition formantique permet de différencier les différentes syllabes du langage.
240
cette concordance est trouvée dans la syllabe ‘da’. L’effet McGurk est en général décrit lors de
la présentation visuelle de consonnes non labiales (par exemple ‘ga’ ou ‘ka’) associée à la
présentation auditive d’une consonne labiale (par exemple ‘ba’ ou ‘ma’), la syllabe perçue
étant alors intermédiaire (‘da’ ou ‘na’). Inversement, la présentation visuelle de la syllabe ‘ba’
et auditive de la syllabe ‘ga’ induit également une illusion visuo-auditive mais elle ne résulte
pas en une fusion des deux percepts, plutôt en une addition : les sujets reportent entendre
‘bga’.
L’effet McGurk n’est pas restreint à la perception des syllabes, il est également
rapporté pour des phrases entières. La présentation auditive d’une phrase n’ayant aucune
signification ("My bab pop me poo brive") combinée à la présentation visuelle d’une autre
phrase n’ayant aucun sens ("My gag kok me koo grive") conduit à la perception de "My dad
taught me to drive" (« mon père m’a appris à conduire ») par la plupart des sujets (Massaro &
Stork, 1998).
L’effet McGurk révèle l’existence d’interactions entre les informations linguistiques
visuelles et auditives ; cette interaction serait relativement précoce puisqu’elle a lieu avant
l’interprétation phonétique (Summerfield, 1992).
1.2. Ventriloquie : illusion spatiale et temporelle
L’interaction entre modalités visuelle et auditive est également démontrée dans le
domaine de la localisation spatiale. La localisation d’un son est affectée par des informations
visuelles (Bertelson & Radeau, 1981; Driver, 1996; Radeau & Bertelson, 1987). Cette illusion
est à la base de la ventriloquie ; le ventriloque parle en bougeant les lèvres le moins possible
mais en en animant la bouche d’une marionnette : la parole est alors attribuée à cette dernière
(Figure 35). La perception du mouvement articulatoire des lèvres influence la localisation
spatiale de la source sonore (Driver, 1996).
Figure 35. Ventriloque et sa marionnette. Les données
visuelles que le public peut associer aux paroles entendues
proviennent de la marionnette (Issu du site internet de
Christian Gabriel, ventriloque).
241
La ventriloquie est une illusion multimodale dans le domaine de la communication
langagière. Elle peut également être étendue à d’autres domaines. La localisation spatiale
d’une source sonore fixe est modifiée par la présence d’une information visuelle : la source
sonore est perçue comme étant plus proche de la source visuelle qu’elle ne l’est effectivement
(Bertelson & Radeau, 1981; Radeau & Bertelson, 1987; Slutsky & Recanzone, 2001; Spence
& Driver, 2000). Ce biais perceptuel diminue avec l’augmentation de la distance séparant les
sources auditive et visuelle ; autrement dit, plus les sources auditive et visuelle sont éloignées
l’une de l’autre, plus les deux évènements ont tendance à être traités de façon indépendante
(Slutsky & Recanzone, 2001). L’illusion spatiale dépend également de la synchronisation
entre la présentation du stimulus sonore et celle du stimulus visuel (Radeau & Bertelson,
1987). Cette illusion montre un biais important de l’information visuelle sur la localisation
spatiale d’un stimulus auditif. Au contraire, la localisation d’une cible visuelle n’est pas ou
peu influencée par une information auditive discordante (Bertelson & Radeau, 1981; Radeau
& Bertelson, 1987). Il apparaît donc que le traitement des informations spatiales est dominé
par la modalité visuelle. L’effet de ventriloquie ne dépend ni de facteurs attentionnels
exogènes (capture automatique de l’attention) ni de facteurs attentionnels endogènes
(attention délibérée), il reflète une interaction sensorielle automatique entre les modalités
visuelle et auditive (Bertelson et al., 2000; Spence & Driver, 2000; Vroomen, Bertelson et al.,
2001).
Il a également été démontré une ventriloquie dans le domaine temporel (Bertelson &
Aschersleben, 2003; Fendrich & Corballis, 2001). L’évaluation de l’occurrence temporelle
d’un stimulus visuel est influencée par la présentation d’un stimulus auditif ; un effet similaire
mais de plus faible amplitude est rapporté lors de l’évaluation de l’occurrence temporelle d’un
stimulus auditif (Aschersleben & Bertelson, 2003; Fendrich & Corballis, 2001). Ainsi, la
modalité auditive paraît dominer la modalité visuelle dans le traitement des aspects temporels
des évènements. Cette dominance est relative puisque la modalité visuelle influence
également la modalité auditive.
1.3. Flashs illusoires
Récemment, une équipe de chercheurs a mis en évidence une illusion visuelle
provoquée par des informations auditives (Shams et al., 2000, 2002). Les informations
auditives altèrent la perception visuelle quand bien même celle-ci n’est pas ambiguë ; la
présentation d’un flash visuel accompagné de plusieurs bips auditifs entraîne la perception
illusoire de plusieurs flashs. Cette perception illusoire est un phénomène robuste : les sujets
242
connaissant le principe de l’illusion y sont tout de même sensibles ; tous les sujets n’y sont
cependant pas sensibles (80 % des sujets y sont sensibles) (Andersen et al., 2004; Shams et
al., 2000, 2002). Cette illusion est purement perceptuelle, elle ne dépend ni de la saillance du
stimulus visuel ni de processus cognitifs (Shams et al., 2002). Elle dépend de l’intervalle de
temps entre les stimulations auditive et visuelle ; elle n’a pas lieu lorsque ces stimulations
sont séparées par plus de 100 ms, ce qui correspond à la fenêtre temporelle de l’intégration
des neurones multisensoriels (Shams et al., 2002). L’information auditive entraîne une fission
du stimulus visuel en deux stimuli ou plus. A l’inverse, dans leurs études, Shams et al. (2000,
2002) ne rapportent pas d’effet de fusion ; une fusion correspondrait à une diminution du
nombre de flashs perçus par rapport au nombre réel de flashs lorsqu’un seul bip est présenté.
Cependant, il a été montré récemment un effet de fusion : le nombre de flashs visuels perçus
diminue avec le nombre de bips auditifs (Andersen et al., 2004). L’effet de fusion reste
néanmoins inférieur à l’effet de fission, et il disparaît lorsque le stimulus auditif est ambigu.
Andersen et al. (2004) ont également montré que l’illusion n’est pas produite lorsque les
stimuli à compter sont les stimuli auditifs, sauf si ces derniers ont une faible intensité. Ainsi,
dans cette illusion, l’information visuelle ne biaise pas l’information auditive à moins que
cette dernière ne soit ambiguë. Ces deux études mettent donc à nouveau en évidence une
asymétrie dans l’influence d’une modalité sur l’autre modalité en fonction de la tâche à
réaliser.
Ces différentes études sur les illusions intermodales révèlent une interaction entre les
modalités visuelle et auditive, dans le traitement des aspects temporels, spatiaux, et
discriminatifs des évènements. Elles montrent également une asymétrie dans l’influence
d’une modalité sur une autre. Cette asymétrie démontre l’existence d’une dominance
sensorielle, dépendant de l’information à traiter. Cependant, dans certains paradigmes
conflictuels, la modalité non dominante peut également altérer la perception ; c’est le cas
notamment dans l’effet McGurk.
1.4. Un cas particulier d’interaction intermodale : La synesthésie
La synesthésie, bien qu’elle ne puisse pas être considérée comme une illusion
perceptuelle, illustre néanmoins la communication entre les différents systèmes sensoriels.
Elle se traduit par l’association entre deux ou plusieurs sens, mais elle peut également être
intramodale, par exemple l’association d’un graphème et d’une couleur.
243
« Mon monde est coloré. Les lettres et les nombres possèdent une dimension de plus par rapport à
une perception auditive normale: ils ont des couleurs. Le A et le 4 sont rouges pétillants, le E est
jaune citron et le R bleu noir. La surface du I est lisse et douce tandis que celle du Z est peluchée.
En entendant ou en lisant une phrase, je vois les mots colorés déambuler devant moi comme sur un
écran. L'année a une forme ovale et lisse et rejoint les semaines et les jours dans une forme spiralée
compliquée; chaque mois possède une couleur. Je me souviens de la couleur du nom d'une personne
avant de me rappeler comment elle s'appelle: Anna est rouge et vert foncé et son anniversaire est
violet blanc, ce qui ne peut être que le premier mai.
Je ne peux pas inhiber ces sensations volontairement, elles étaient toujours là et toujours les mêmes,
elles accompagnent tout simplement le langage en donnant une dimension supplémentaire au vécu
quotidien.
Ce n'est que récemment que j'ai appris, avec étonnement, que les autres n'avaient pas ces mêmes
perceptions et j'ai de la peine à m'imaginer un monde sans mes couleurs, tout comme un nonsynesthète a de la peine à comprendre mon monde. On a tendance à assumer que la réalité est la
même pour tout le monde - l'expérience de la synesthésie nous montre que cela n'est pas le cas.»
Irène Schönenberger
La synesthésie se définit comme une association intermodale involontaire. La
stimulation d’un sens induit spontanément une sensation dans un autre sens : un son peut être
associé à une couleur etc. La synesthésie est un phénomène durable, robuste. Un même sujet
présente toujours les mêmes associations. Plusieurs types de synesthésie sont décrits. La
synesthésie bimodale mettant en jeu deux sens est en général unidirectionnelle : un son
déclenche une perception colorée mais pas l’inverse. La synesthésie multimodale est le
croisement des informations de 3 ou plusieurs sens ; elle est en général bidirectionnelle. La
synesthésie cognitive ou catégorielle consiste en une association entre une information
sensorielle et les systèmes de catégorisation culturels (l’alphabet coloré en est la forme la plus
fréquente – (Figure 36)). Il existe toutefois autant de synesthésies que de synesthètes : chaque
individu crée ses propres associations sensorielles.
Figure 36. Alphabet tel qu'il est perçu par un
synesthète.
La synesthésie est en général de nature développementale. Elle est plus fréquemment
observée chez les femmes que chez les hommes, et est souvent transmise à la descendance
(Baron-Cohen et al., 1993; Cytowic, 1995). La synesthésie paraît donc avoir en partie une
cause génétique ; il est d’ailleurs suggéré qu’elle mette en jeu le chromosome X. Sa
prévalence dans la population générale varie énormément selon les estimations (d’une
personne sur 20 à une sur 200000). Cette grande variabilité est en partie dû au fait que les
244
recensements n’ont été faits qu’avec des personnes se déclarant synesthètes ; la prévalence
décrite par ces études est d’autant moins représentative que nombre de synesthètes ne se
rendent pas compte de leur synesthésie. Les études s’intéressant à un échantillon aléatoire de
la population montrent que la prévalence de la synesthésie pourrait être de 1 personne sur 20.
Plusieurs théories neurobiologiques tentent d’expliquer la synesthésie. Selon BaronCohen (1993), la synesthésie est observée chez tous les nouveau-nés (jusqu’à 4 mois). Après
4 mois, il y aurait une sélection des connexions corticales par mort cellulaire de manière à
isoler les informations sensorielles. C’est cette phase de sélection qui serait défectueuse chez
les synesthètes (Baron-Cohen et al., 1993). Une autre théorie propose que la synesthésie
résulte d’un dysfonctionnement des connexions présentes chez tous les individus. En temps
normal, certains réseaux fonctionnels sont inhibés ; cette inhibition ferait défaut dans la
synesthésie. Cette seconde hypothèse est soutenue par l’existence de synesthésies non
développementales induites par des crises d’épilepsie, des commotions cérébrales, ou la prise
de drogues hallucinogènes (Grossenbacher & Lovelace, 2001). Une dernière théorie propose
que la synesthésie résulte d’une différence au niveau du fonctionnement global du cerveau ;
l’existence d’un nombre infini de synesthésies, de même que la forte association entre
émotion et expériences synesthètes, tendrait à soutenir cette hypothèse. Il est proposé que
l’hippocampe soit une structure majeure responsable de la synesthésie (Cytowic, 1995).
L’existence d’illusions intermodales ou d’associations intermodales témoigne de
l’interaction entre nos différents systèmes sensoriels, qui ne fonctionnent donc pas de façon
indépendante les uns des autres. Sur la base de l’existence de telles interactions, les
recherches en neuroscience ont exploré les effets comportementaux et neuronaux de la
bimodalité.
2. Etudes comportementales des interactions multimodales
Dans la vie quotidienne, les situations où nos sens véhiculent des informations
sensorielles contradictoires sont rarement rencontrées. Les interactions multimodales existent
pourtant, elles se traduisent en général par une amélioration des performances des systèmes
sensoriels. Les interactions multimodales dans des situations non illusoires sont mises en
évidence par différentes approches expérimentales. Dans le domaine de la localisation
spatiale, les chercheurs ont exploré l’effet de le présentation d’un stimulus accessoire (c’est à
dire non pertinent) sur la localisation d’une cible dans une autre modalité : c’est la facilitation
intersensorielle. D’autres recherches ont étudié la perception d’un objet défini par plusieurs
245
composantes sensorielles ; ces études montrent que lorsque toutes les composantes
sensorielles définissant l’objet sont présentes, son traitement est amélioré : c’est l’effet de
redondance. Ces deux approches diffèrent puisque dans un cas l’objet à localiser n’est défini
que par une seule composante sensorielle, alors que dans l’autre l’objet est caractérisé par ses
deux composantes sensorielles, qui sont donc redondantes. Ces deux approches dévoilent une
facilitation de la bimodalité sur la détection ou l’identification de cibles.
2.1. Facilitation intersensorielle
La facilitation intersensorielle décrit l’amélioration des performances dans des tâches
de localisation spatiale par la présentation d’un stimulus non pertinent dans une autre
modalité sensorielle. Les données montrent en général une diminution des temps de réactions
pour la détection, la localisation ou le jugement de l’altitude (haut vs bas) d’une cible visuelle
excentrée lorsqu’un stimulus auditif non pertinent (indice) est présenté du même côté que la
cible (Frassinetti et al., 2002; McDonald et al., 2000; McDonald & Ward, 2000; Schmitt et
al., 2000; Spence & Driver, 1997; Spence et al., 1998). La localisation d’une cible auditive
est, elle aussi, facilitée par la présentation d’un indice visuel (Schmitt et al., 2000).
Cependant, un indice visuel ne facilite pas la détection ou le jugement de l’altitude d’une cible
auditive dans des tâches où l’indice est orthogonal à la cible24 (« orthogonal cueing »)
(Schmitt et al., 2000; Spence & Driver, 1997). Si le stimulus visuel est accompagné d’un
stimulus auditif de telle sorte que cela produise un effet de ventriloquie, le traitement de la
cible auditive est facilité par le stimulus visuel, même lorsque l’indice est orthogonal à la
cible (Spence & Driver, 2000; Vroomen, Bertelson et al., 2001). Ces données suggèrent que
la facilitation est liée à une capture automatique de l’attention par le stimulus accessoire. Cette
capture automatique de l’attention spatiale n’a lieu que dans un sens : de l’audition vers la
vision. La vision n’influence pas l’audition sauf si elle renseigne sur la localisation illusoire
d’un son, et capture ainsi automatiquement l’attention auditive spatiale vers cet emplacement
illusoire (Spence & Driver, 2000; Vroomen, Bertelson et al., 2001). Les effets de facilitation
observés entre un indice auditif et une cible visuelle dépendent des concordances
spatiotemporelles entre les deux stimuli (Frassinetti et al., 2002; Frens et al., 1995). Plus ces
deux stimuli sont éloignés dans l’espace et dans le temps, moins l’indice auditif facilitera le
24
Un indice est un stimulus accessoire qui facilite le traitement de la cible. L’ « orthogonal cueing » fait
référence au fait que l’indice a une direction opposée à la cible. Dans l’étude de Spence et al. (1997), les sujets
doivent juger si la cible auditive apparaît en haut ou en bas, quel que soit le côté où elle est présentée, l’indice,
lui, est présenté à gauche ou à droite. Ainsi, les informations apportées par l’indice sont orthogonales à celles
nécessaires à la réalisation de la tâche.
246
traitement de la cible visuelle. Certaines études montrent par ailleurs, que la facilitation est
maximale lorsque le stimulus auditif précède le stimulus visuel (Frens et al., 1995), bien que
d’autres montrent le phénomène inverse (Giray & Ulrich, 1993).
2.2. Effet de redondance
L’effet de redondance explique la diminution des temps de réaction des sujets pour
des stimuli bimodaux portant des informations congruentes. La redondance s’appliquera donc
plus à la reconnaissance d’objets bimodaux. Les études montrent qu’un objet bimodal est plus
rapidement traité que le même objet défini par une seule composante sensorielle.
La facilitation du traitement des stimuli bimodaux liée à redondance des informations
sensorielles est démontrée, notamment, dans des tâches de détection (Forster et al., 2002 ;
Fort et al., 2002a; Giray & Ulrich, 1993; Hughes et al., 1994; Molholm et al., 2002). La
détection d’un stimulus bimodal est plus rapide d’environ 50 ms que la détection de stimuli
unimodaux (Molholm et al., 2002). L’amélioration des temps de traitement, c’est à dire la
diminution des temps de réaction (TR), engendrée par la bimodalité dans la détection d’un
stimulus est rapportée avec des stimuli non écologiques tels que la détection d’un flash
associé à un son (Fort et al., 2002a; Molholm et al., 2002) mais également avec des stimuli
écologiques tels que des images/bruits d’animaux (Molholm et al., 2004). Les sujets doivent
détecter la présence d’un animal défini à l’avance (ex : une vache) dans une séquence de
stimuli constituée de stimuli unimodaux (visuel ou auditif), de stimuli bimodaux congruents
ou incongruents ; les différents stimuli ont un statut cible ou non cible (Molholm et al.,
2004). Les stimuli bimodaux congruents sont cibles s’ils sont constitués d’un meuglement
associé à l’image d’une vache, les stimuli bimodaux incongruents sont cibles si l’une des
composantes sensorielles (l’image ou le son) est cible ; dans tous les cas, cette tâche peut être
effectuée en répondant seulement à une composante sensorielle : meuglement ou (non
exclusif) image de vache. La détection de la vache est plus rapide pour les stimuli bimodaux
congruents que pour les stimuli unimodaux ou les stimuli bimodaux incongruents. Ces deux
derniers types de stimuli induisent, par ailleurs des TR similaires démontrant qu’une
information conflictuelle dans une modalité n’affecte pas les réponses des sujets (Molholm et
al., 2004). Dans cette tâche particulière, il n’y a donc pas d’interférence entre les deux
modalités sensorielles. Ces résultats révèlent qu’il n’y a pas d’asymétrie entre les modalités
auditive et visuelle lors de la perception d’un animal. Les résultats de Molholm et al. (2004)
montrent également que les informations apportées par le système visuel sont plus rapidement
et plus précisément traitées que les informations auditives. Au contraire, Fort et al. (2002) en
247
utilisant des objets caractérisés par une composante visuelle (un cercle se déformant dans le
sens horizontal ou vertical) et une composante auditive (son pur de 540 ou 560 Hz) montrent
une primauté de la modalité auditive pour la détection de l’objet (Fort et al., 2002a). Ces deux
études pourraient suggérer que le poids des modalités visuelle et auditive n’est pas le même
en fonction des stimuli utilisés et de la tâche effectuée par les sujets qui ne requiert pas le
même niveau de traitement dans les deux études : l’une demande la détection d’un stimulus
particulier (Molholm et al., 2004), l’autre la simple détection d’une stimulation (Fort et al.,
2002a). Par ailleurs, dans ces deux études une différence est également observée au niveau
des stimuli. Dans l’étude de Molholm et al. (2004), les stimuli visuels sont statiques, et les
stimuli auditifs dynamiques ; or, dans l’étude de Fort et al. (2002) ce sont les stimuli visuels
qui sont dynamiques, le stimulus auditif est statique (son pur), l’information qu’il porte est
toujours la même.
La facilitation liée à la bimodalité est également observée dans des tâches de
localisation spatiale (Hughes et al., 1994; Schroger & Widmann, 1998). L’emplacement
d’une cible audiovisuelle est plus rapidement perçu que celui des seules parties visuelle ou
auditive (Schroger & Widmann, 1998). Dans une tâche de localisation spatiale, la facilitation
est observée quel que soit le mode de réponse des sujets : réponse manuelle ou saccadique
(Hughes et al., 1994). Par ailleurs, ces études montrent également que dans ce type de tâche
une coïncidence spatiale entre les deux composantes unimodales est nécessaire ; plus la
distance entre les composantes unimodales augmente, plus la facilitation diminue (Frens et
al., 1995; Hughes et al., 1994).
L’identification d’un objet bimodal est aussi plus rapide et plus précise que celle du
même objet défini par une seule composante sensorielle (Giard & Peronnet, 1999; TederSalejarvi et al., 2002 ). Cette facilitation est démontrée avec des stimuli non écologiques
comme des ellipses associées à des bruits ; la reconnaissance d’un objet est plus rapide et plus
efficace lorsqu’il est caractérisé par ses deux composantes sensorielles (Giard & Peronnet,
1999). Ils rapportent également une différence entre les sujets : certains sujets répondent plus
vite à la composante auditive qu’à la composante visuelle et, vice versa. Ces données
montrent qu’il existe également une dominance sensorielle au niveau individuel (Fort et al.,
2002b; Giard & Peronnet, 1999).
L’effet de redondance a été peu étudié dans la perception de stimuli bimodaux à
caractères sociaux, c’est à dire l’intégration des informations provenant d’un visage et d’une
voix. Quelques études se sont intéressées, soit à la perception du langage, soit à la perception
248
des émotions. La redondance des informations visuelle et auditive est notamment responsable
de l’amélioration de la compréhension du discours dans des conditions bruitées ou simulant
du bruit (Calvert et al., 1998; MacLeod & Summerfield, 1987). Dans des conditions normales
d’audition, la compréhension du discours est plus rapide sur les stimuli bimodaux que sur les
stimuli unimodaux (Besle et al., 2004). Afin d’étudier la perception des émotions via les
visages et les voix, de Gelder & Vroomen (2000) ont utilisé un continuum de visages allant
d’une émotion (joie) à une autre (tristesse). Ces visages étaient présentés seuls ou associés à
une voix congruente ou non ; les sujets devaient répondre si la personne était triste ou
joyeuse. Dans un premier temps, toute mention à une quelconque modalité sensorielle était
évitée. Les résultats montrent que les sujets répondent plus rapidement lorsque la voix et le
visage portent des informations émotionnelles congruentes et plus lentement lorsque les
émotions sont incongruentes (de Gelder et al., 1999; De Gelder & Vroomen, 2000; Dolan et
al., 2001). Dans la suite de leur étude, les auteurs ont exploré la perception bimodale des
émotions en dirigeant l’attention des sujets vers l’une ou l’autre modalité. Ils montrent que la
présentation d’une voix, alors même qu’elle doit être ignorée, biaise la reconnaissance de
l’expression faciale particulièrement dans la zone ambiguë du continuum : lorsque l’émotion
portée par le visage est ambiguë, c’est la voix qui induit la réponse des sujets (De Gelder &
Vroomen, 2000). Puis, en utilisant un continuum de voix allant de la joie à la peur présentées
en même temps qu’un visage congruent ou non, ils montrent que le visage perturbe la
reconnaissance de l’émotion vocale, mais seulement au niveau des pourcentages de réponses
correctes (De Gelder & Vroomen, 2000; Vroomen, Driver et al., 2001). Dans une autre étude,
ils montrent que la reconnaissance de l’émotion vocale est perturbée par la présentation
concomitante d’un visage, indépendamment des ressources attentionnelles disponibles
(Vroomen, Driver et al., 2001). De ces différentes études, De Gelder & Vroomen (2000)
déduisent que la combinaison des informations en provenance de deux modalités sensorielles
est un processus automatique : même lorsqu’ils ont pour consigne d’ignorer une modalité, les
sujets sont influencés par l’émotion présentée dans cette modalité (De Gelder & Vroomen,
2000). Leurs résultats montrent également une asymétrie dans l’influence d’une modalité sur
l’autre : la reconnaissance des expressions faciales est plus influencée par la voix que
l’inverse, surtout au niveau des TR. Les auteurs proposent que cette asymétrie résulte d’une
différence méthodologique ; cependant, l’hypothèse que cela reflète une dominance
sensorielle de l’audition dans le domaine de la perception des émotions ne peut pas non plus
être écartée.
249
2.3. Règles de synchronies
Les interactions multimodales sont régies par certaines règles ; notamment pour qu’il
y ait interaction entre modalités, il est nécessaire d’avoir une synchronisation spatiotemporelle
entre les stimuli. A y regarder de plus près, les règles de synchronies ne s’appliquent pas à
tous les types d’interactions multimodales, révélant ainsi des différences entre la localisation
et l’identification d’une cible bimodale. La facilitation dépend d’une cohérence spatiotemporelle pour la localisation d’une cible bimodale : plus les écarts spatiaux et temporels
augmentent, plus la facilitation comportementale diminue. Cette nécessité de cohérence est
rapportée dans les études étudiant le ventriloquisme ou celles étudiant la facilitation
intersensorielle ou l’effet de redondance (Frassinetti et al., 2002; Frens et al., 1995; Hughes et
al., 1994; Radeau & Bertelson, 1987; Slutsky & Recanzone, 2001). Au contraire, la détection
ou l’identification d’une cible bimodale ne nécessite pas forcément une congruence spatiale
ou temporelle. L’effet McGurk persiste lorsque la source visuelle et la source auditive sont
séparées de 90°, et lorsque les stimuli visuel et auditif sont décalés de 180 ms (Jones & Jarick,
2006; Jones & Munhall, 1997; Munhall et al., 1996). Cependant, la dynamique temporelle des
informations visuelle et auditive doit être similaire ; par exemple, l’effet McGurk est aboli si
la dynamique temporelle de l’information visuelle est différente de celle de l’information
auditive (Munhall et al., 1996). Ces contradictions dans les règles spatiotemporelles
gouvernant les interactions multimodales impliquées dans la localisation et l’identification
d’une cible suggèrent que ces deux types de traitements puissent être effectués par des
substrats neuronaux différents (Calvert et al., 1998; Calvert et al., 2001).
2.4. Modèles expliquant les interactions multimodales
Les études décrites précédemment dévoilent que les intégrations multisensorielles sont
modulées par les paradigmes utilisés. L’utilisation de stimuli portant des informations
redondantes peut montrer un effet de la bimodalité par rapport à l’unimodalité mais, seule
l’utilisation de stimuli incongruents peut permettre de révéler une dominance sensorielle
(Andersen et al., 2004). Les théories tentant d’expliquer les interactions multimodales n’ont
pris en compte que l’un ou l’autre de ces aspects des interactions multisensorielles.
250
2.4.1. Modèles expliquant la facilitation25
Plusieurs modèles ont tenté d’expliquer la facilitation provoquée par la présentation
d’un stimulus accessoire ou par la présentation d’objets bimodaux.
Une hypothèse suggère que la facilitation intersensorielle résulte d’une attraction
automatique de l’attention en un point précis de l’espace par le stimulus accessoire. Ce
déplacement attentionnel permettrait une préparation et donc une amélioration des traitements
du stimulus cible, même dans une autre modalité sensorielle (Driver & Spence, 1998). Une
autre hypothèse propose que les informations du stimulus accessoire et du stimulus pertinent
soient traitées de manière indépendante, et que la facilitation est la conséquence d’une
sommation des énergies dans les deux canaux sensoriels ; la sommation des énergies des deux
stimuli augmenterait la saillance du stimulus pertinent (Nickerson, 1973).
L’effet de redondance a été expliqué essentiellement par deux modèles. Le modèle de
« la course indépendante » (« independant race model ») propose que la diminution des
temps de réaction observée pour les stimuli bimodaux reflète le fait que chaque composante
sensorielle est traitée indépendamment de l’autre ; l’information sensorielle traitée la première
va induire la réponse. D’une certaine façon, ce modèle nie l’existence d’interactions entre les
sens. Les temps de réaction pour les cibles bimodales correspondant à une distribution des TR
minimum dans chaque modalité, ils seraient en moyenne plus courts que ceux observés dans
chaque modalité séparément. Ce modèle suggère que les informations redondantes sont
traitées de manière indépendante et donc que les relations entre les informations unimodales
ne sont pas prises en compte. Miller (1991) a démontré que ce modèle ne permettait pas
d’expliquer la facilitation liée à l’effet de redondance. Dans son étude, un stimulus visuel peut
apparaître au milieu, en haut ou en bas d’un écran ; le stimulus auditif a une hauteur (une
fréquence) plus ou moins élevée. Les sujets doivent répondre lorsqu’un stimulus est en bas ou
en haut, en terme d’altitude pour le stimulus visuel et de fréquence pour le stimulus auditif.
Miller (1991) montre que les sujets répondent plus vite lorsque les stimuli sont bimodaux et
que les informations unimodales sont congruentes (un son de haute fréquence associé à un
stimulus visuel en haut de l’écran) que lorsqu’elles sont incongruentes. Il dévoile ainsi la non
validité du modèle de course indépendante ; en effet, si les informations sensorielles étaient
traitées indépendamment, le fait qu’elles soient congruentes ou non ne devrait pas influencer
25
Ici, le terme facilitation fait référence à l’amélioration des performances, c’est à dire la diminution des erreurs
et des temps de réaction, par la bimodalité. Il est donc utilisé dans un contexte plus général que dans la
facilitation intersensorielle mentionnée plus haut (cf 2.1)
251
la réponse des sujets (Miller, 1991). Ces résultats montrent donc que les TR sont influencés
par les propriétés de la cible bimodale et non par les propriétés des composantes unimodales
la définissant. Il a donc proposé un second modèle : le modèle de co-activation interactive.
Selon ce modèle, les informations unimodales sont initialement traitées de façon indépendante
mais elles convergent dans les mêmes régions cérébrales et sont intégrées lors d’étapes
ultérieures ; ce modèle permet d’expliquer les résultats de Miller (1991). Par la suite, d’autres
paradigmes ont infirmé le modèle de course indépendante. En étudiant la distribution des TR
des sujets aux stimuli bimodaux et unimodaux, ces différents auteurs ont montré que les TR
pour la cible bimodale étaient significativement inférieurs aux TR minimums théoriques
prédits par le modèle de course indépendante (Besle et al., 2004; Molholm et al., 2004;
Molholm et al., 2002; Schroger & Widmann, 1998). Ainsi, ces études penchent donc en
faveur du modèle de co-activation interactive.
2.4.2. Hypothèses sur la dominance sensorielle
Toutes les études sur les illusions intermodales suggèrent que le poids des modalités
sensorielles n’est pas équivalent selon la tâche à réaliser. La modalité auditive prend le pas sur
la modalité visuelle dans le traitement des aspects temporels d’un stimulus tels que sa durée
(Walker & Scott, 1981), sa fréquence (Wada et al., 2003), ou son occurrence temporelle
(Bertelson & Aschersleben, 2003; Fendrich & Corballis, 2001; Shimojo & Shams, 2001). La
modalité visuelle paraît être la modalité dominante dans le traitement des aspects spatiaux
d’une stimulation (Bertelson et al., 2000; Shimojo & Shams, 2001). Les dominances des
modalités auditives et visuelles ne sont bien sûr pas restreintes aux aspects temporels ou
spatiaux des stimuli ; par exemple, une information auditive peut influencer la perception de
l’intensité d’un stimulus visuel.
Plusieurs hypothèses tentent d’expliquer la dominance d’une modalité sensorielle sur
une autre. Bien que certains auteurs tentent de les opposer, ces hypothèses ne sont en aucun
cas exclusives. Andersen et al. (2004) ont d’ailleurs démontré qu’elles contribuent toutes en
partie à la dominance sensorielle observée dans certaines conditions expérimentales.
L’hypothèse de la discontinuité suggère que la modalité dominante sera celle dans
laquelle la stimulation est discontinue (Shams et al., 2002; Shimojo & Shams, 2001). Cette
hypothèse permet en partie d’expliquer pourquoi, dans l’expérience de Shams et al. (2002),
les stimuli auditifs provoquent une fission des flashs visuels mais pas de fusion. En effet, pour
tester la fusion des stimuli, la discontinuité est présentée dans la modalité visuelle ; la
252
modalité auditive n’a donc pas d’effet. Cependant, puisque Andersen et al. (2004) observent
une fusion des stimuli visuels lorsque le nombre de bips diminue, ils suggèrent que la
discontinuité n’est pas nécessaire à l’apparition d’une dominance sensorielle. L’effet de
fusion étant plus faible que l’effet de fission, ils proposent que la discontinuité de la
stimulation favorise la tendance d’une modalité à dominer l’autre.
L’hypothèse de la modalité adéquate propose que la modalité dominante soit la
modalité la plus adaptée à la réalisation de la tâche (Andersen et al., 2004; Welch & Warren,
1980). La modalité donnant les informations les plus précises dans un domaine particulier a
plus d’influence que les autres. Cette hypothèse pourrait expliquer la dominance de la
modalité visuelle dans le cas de la localisation spatiale d’un stimulus, ou celle de la modalité
auditive lors du jugement des aspects temporaux d’une stimulation. Cette hypothèse est
toutefois remise en question par les résultats d’études montrant que certaines illusions peuvent
être inversées. La modalité visuelle peut parfois influencer le traitement des informations
auditives, particulièrement lorsque ces dernières sont ambiguës (Andersen et al., 2004; Wada
et al., 2003). Ces observations ont conduit certains auteurs à proposer une autre hypothèse :
l’hypothèse de la fiabilité de l’information. Selon cette hypothèse, la modalité sensorielle qui
domine les interactions multisensorielles est celle donnant une information à laquelle les
sujets peuvent se fier. Cette hypothèse tient compte à la fois de la modalité préférée pour la
réalisation d’une tâche mais également des caractéristiques des stimuli et de facteurs cognitifs.
Cette hypothèse permettrait d’expliquer pourquoi les informations visuelles entraînent une
illusion auditive dans certaines conditions ambiguës (Andersen et al., 2004; Wada et al.,
2003). Ces deux dernières hypothèses ne sont pas indépendantes ; la modalité adéquate
influence la perception dans l’autre modalité, sauf si les informations qu’elle porte sont
ambiguës, auquel cas l’autre modalité devient la modalité dominante.
Une dernière hypothèse suppose que la dominance sensorielle est provoquée par des
influences attentionnelles : hypothèse de l’attention dirigée. Selon cette hypothèse, une
modalité domine l’autre parce que l’attention des sujets est dirigée vers cette modalité en
particulier (Andersen et al., 2004). Dans certains cas, cependant, un stimulus saillant pourrait
capturer automatiquement l’attention des sujets vers une modalité particulière et masquer les
effets liés à l’attention dirigée (Andersen et al., 2004).
253
3. Corrélats neuronaux des interactions multimodales
Au niveau comportemental, la multimodalité a été étudiée par différentes méthodes
(illusion, redondance etc.) ; similairement, différentes approches ont permis de mettre en
évidence les mécanismes cérébraux sous-tendant les interactions multimodales. Dans
certaines études, la priorité a été mise sur la localisation de zones cérébrales hétéromodales :
régions cérébrales répondant à des stimulations en provenance de plusieurs sens. Ces études
ne permettent pas de mettre en évidence les processus cérébraux impliqués dans l’intégration
des informations proprement dite. D’autres analyses permettent de dévoiler les activités soustendant les interactions entre différentes modalités ; elles utilisent deux types de paradigmes.
Une méthode classiquement utilisée consiste à comparer l’activité évoquée par des stimuli
bimodaux à celle évoquée par les stimuli unimodaux (Calvert, 2001; Calvert et al., 2000;
Giard & Peronnet, 1999). L’interaction entre deux modalités est démontrée lorsque l’activité
observée dans la condition bimodale est significativement supérieure à la somme des activités
unimodales : (AV) >> (A + V)26. Un autre moyen permettant de révéler les activités reflétant
une interaction entre deux modalités est de comparer l’activité cérébrale évoquée par des
stimuli congruents et incongruents. Calvert et ses collaborateurs (1999, 2000, 2001)
supposent, par ailleurs, que l’utilisation d’un critère très sélectif pourrait permettre d’isoler
spécifiquement les aires cérébrales intégrant les informations multimodales. Ainsi, ils ne
considèrent comme multimodales que les aires présentant une augmentation et une diminution
significative de leur activité, respectivement, pour les stimuli bimodaux congruents et
incongruents.
De nombreuses régions cérébrales ont été identifiées comme étant hétéromodales chez
différentes espèces animales. Les aires hétéromodales sont des zones de convergences
sensorielles, recevant des afférences des aires cérébrales unimodales ; elles ne sont pas
forcément impliquées dans l’intégration des informations à proprement parler (Calvert, 2001;
Calvert & Thesen, 2004). Parmi ces régions, certaines sont localisées dans le cortex, d’autres
sont sous-corticales. Les régions hétéromodales supposées sont les régions antérieure et
postérieure du STS, les aires intrapariétales, notamment le sulcus intrapariétal et les cortex
insulaire, préfrontal et prémoteur (Figure 37a) (Calvert, 2001; Calvert & Thesen, 2004;
Downar et al., 2000; Lewis & Van Essen, 2000). Au niveau sous-cortical, le colliculus
26
Ce paradigme fait l’hypothèse d’une sommation linéaire des activités cérébrales. Il ne serait pas valable dans
le cas où la sommation ne serait pas linéaire mais saturerait par exemple.
254
supérieur est régulièrement décrit comme étant une aire hétéromodale, de même que la zone
du claustrum, proche de l’insula (Figure 37a) (Calvert et al., 2001; Meredith et al., 1992).
Figure 37. Localisation des aires hétéromodales. (a) Localisation des aires dites hétéromodales
sur une vue latérale (à gauche) et sagittale (à droite) du cerveau. Différentes régions hétéromodales
sont décrites en couleur à travers les différentes vues. En jaune sont représentées les frontières des
zones multisensorielles localisées dans les sulci. Issu de Calvert & Thesen (2004). (b) Aires
cérébrales impliquées dans la localisation de cibles bimodales. Les flèches et les têtes de flèches
indiquent respectivement les aires situées dans la profondeur et sur les côtés du sulcus
intrapariétal. Issu de Sestiéri et al. (2006). (c) Aires cérébrales impliquées dans la reconnaissance
d'objets bimodaux. Les flèches et les têtes de flèches indiquent respectivement les aires situées
dans le STS gauche et dans le gyrus occipital inférieur. Issu de Sestiéri et al. (2006).
255
Rappelons que la localisation et l’identification de cibles bimodales ne sont pas
soumises aux mêmes règles de synchronies. Cette différence suppose une distinction entre les
corrélats neuronaux de la localisation et de l’identification de stimuli bimodaux, distinction
qui serait parallèle à celle déjà décrite dans les systèmes auditif et visuel. Une dissociation
anatomique a, par ailleurs, été décrite dans le traitement des informations multimodales
spatiales, et celui des informations liées à l’identification (Figure 37b,c) (Sestieri et al.,
2006). Le traitement des informations spatiales met en jeu des aires corticales unimodales et
hétéromodales situées dans la partie dorsale de l’encéphale, alors que les caractéristiques du
stimulus, permettant sa catégorisation, sont analysées dans les aires ventrales. Une grande
quantité de travaux ont porté sur les corrélats neuronaux des interactions multisensorielles
dans le cadre de la localisation de cible ; au contraire, les études s’intéressant à l’identification
d’objets bimodaux font défaut.
3.1. Localisation de cibles bimodales
3.1.1. Localisation cérébrale
La localisation spatiale d’une cible bimodale active les régions dorsales : le précunéus,
le lobule pariétal inférieur, et le sulcus intrapariétal (Sestieri et al., 2006). Ces 3 aires
cérébrales sont des aires hétéromodales activées par des stimuli unimodaux (visuels ou
auditifs) ou bimodaux (audiovisuels ou visuotactiles) (Bremmer et al., 2001; Bushara et al.,
1999; Calvert, 2001; Calvert et al., 2001; Macaluso & Driver, 2001; Macaluso et al., 2000a;
Macaluso et al., 2000b). Les stimuli tactiles, quant à eux, n’activent le sulcus intrapariétal
qu’à condition d’être couplés avec une stimulation visuelle (Macaluso et al., 2000a).
L’attention portée vers un endroit ou l’autre de l’espace a des effets multimodaux ou
spécifiques d’une modalité (Macaluso et al., 2000a). Le sulcus intrapariétal (IPS) gauche est
ainsi activé lorsque l’attention des sujets est dirigée à droite, et ce quelle que soit la modalité
attendue. Le gyrus postcentral (aire somesthésique) et le gyrus occipital supérieur (aire
visuelle) montrent une modulation de leur activité par l’attention dirigée dans les modalités
visuelles et tactiles respectivement (Macaluso & Driver, 2001; Macaluso et al., 2000a;
Macaluso et al., 2005). Dans une autre étude, Macaluso et al. (2000a) observent que le sulcus
intrapariétal n’est activé par des stimuli tactiles que lorsque l’information visuelle est
également disponible, confirmant ainsi le rôle de l’IPS dans l’intégration multimodale
(Figure 38b). Ils montrent également que lorsqu’un stimulus tactile arrive simultanément à un
256
stimulus visuel, l’activité dans le gyrus lingual (aire visuelle associative) augmente ; cette
augmentation n’est pas liée à une afférence directe du système somesthésique sur le gyrus
lingual puisque ce dernier n’est pas activé lorsque la stimulation tactile est controlatérale à la
stimulation visuelle (Figure 38a) (Macaluso et al., 2000b). L’augmentation de l’activité dans
le gyrus lingual est corrélée à une augmentation d’activité dans le gyrus postcentral, ainsi que
dans le lobule pariétal inférieur, au niveau du gyrus supramarginal. Ces résultats montrent
donc que la facilitation intersensorielle peut résulter d’une augmentation d’activité dans les
structures unisensorielles, augmentation induite par des connexions en retour depuis les aires
hétéromodales (Macaluso & Driver, 2001; Macaluso et al., 2000b). Dans l’étude de Sestieri et
al. (2006), une seule aire présente une activation différente pour les stimuli congruents et
incongruents : le STS postérieur droit, région relativement proche du gyrus supramarginal et
du lobule inférieur. Cette aire pourrait donc également être impliquée dans l’établissement du
lien entre les informations spatiales en provenance du système visuel et du système auditif.
Figure 38. Aires cérébrales modulées par les interactions multimodales pour la localisation
d'une cible. (a) Illustration de l'augmentation d'activité dans le gyrus lingual suite à la présentation
simultanée d'un stimulus tactile du côté ipsilatéral (graphique de gauche) et du côté controlatéral
(graph de droite) à la stimulation visuelle. Issu de Macaluso et Driver (2000). (b) Activité du
sulcus intrapariétal gauche lors de la localisation d'une cible tactile à droite. Sur l'histogramme :
les 3 barres à gauche représentent l'activité de l'IPS, lorsque les yeux sont ouverts quand l'attention
du sujet est dirigée à gauche (L), à droite (R) et en condition passive (C1). Les 3 barres à droite
représentent l'activité de l'IPS, lorsque les yeux sont fermés quand l'attention du sujet est dirigée à
gauche (L), à droite (R) et au repos (C2). Issu de Macaluso et al. (2000a).
257
3.1.2. Décours temporel
Des modulations des potentiels évoqués sont rapportées lors de l’étude des
interactions multimodales dans le domaine de la localisation spatiale ; ces modulations sont
également le reflet des déplacements attentionnels. La présentation d’un stimulus tactile non
pertinent pour la réalisation de la tâche, simultanément à un stimulus visuel, entraîne une
augmentation de la N1 visuelle, autour de 140 ms (Macaluso & Driver, 2005). De la même
façon, la N1 visuelle est plus ample lorsqu’un stimulus auditif et un stimulus visuel sont
localisés dans le même hémichamp visuel ; des analyses de sources effectuées sur ces données
suggèrent que l’augmentation de la N1 visuelle résulte de projections en retour des aires
hétéromodales. Par ailleurs, une autre étude montre que l’attention spatiale module également
l’activité précoce dans les régions unisensorielles (Eimer, 2001; Eimer & Driver, 2001). Cette
modulation est observée dans la modalité attendue mais également dans la modalité qui doit
être ignorée par les sujets. Ces données révèlent que lorsque l’attention des sujets est dirigée
vers une localisation spécifique, cela affecte les processus cérébraux ayant lieu dans les cortex
unisensoriels.
Ces différentes études montrent que la localisation spatiale de cible bimodale conduit
à une augmentation de l’activité dans les régions dites unimodales. Ainsi, il apparaît que les
interactions entre différentes modalités sensorielles ne sont pas seulement l’affaire d’un
traitement hiérarchique unidirectionnel, mais qu’elles résultent également d’une modulation
de l’activité des aires unisensorielles par les aires hétéromodales localisées dans le cortex
pariétal, plus précisément à la jonction pariéto-temporo-occipitale (pour une revue sur les
interactions multisensorielles dans le domaine de la localisation spatiale, voir (Macaluso &
Driver, 2005)). Chez le macaque, il a en outre été démontré des recouvrements dans les
champs récepteurs des neurones de l’aire pariétale ventrale (VIP) répondant aux informations
visuelles et auditives, confirmant ainsi le rôle de VIP dans la représentation supramodale de
l’espace (Schlack et al., 2005) ; VIP a par ailleurs été rapporté comme étant l’équivalent de
l’IPS chez l’homme (Bremmer et al., 2001). Ces données confirmeraient ainsi le rôle du
sulcus intrapariétal dans la représentation multimodale de l’espace.
258
3.2. La perception des objets, du langage, des visages et des voix
3.2.1. Localisation cérébrale
Sestiéri et al. (2006) ont étudié les corrélats neuronaux de la localisation spatiale et de
l’identification de cible bimodale sur les mêmes stimuli, congruents ou incongruents. Dans
cette étude, la tâche de reconnaissance implique des régions des voies ventrales auditive et
visuelle : le gyrus occipital inférieur, la partie antérieure du STS et le STG (Sestieri et al.,
2006). Ces différentes régions cérébrales, particulièrement le STS, sont des aires cérébrales
hétéromodales, répondant à des stimulations visuelles et/ou auditives (Beauchamp et al.,
2004; Callan et al., 2003; Calvert, 2001; Calvert et al., 2000; Calvert & Thesen, 2004;
Macaluso et al., 2004; Wright et al., 2003). L’activité du STS antérieur augmente pour les
stimuli linguistiques congruents (la voix et le visage prononcent les mêmes mots) et diminue
pour les stimuli incongruents (les mots perçus par la lecture labiale et la voix sont différents)
par rapport à l’activité engendrée par les stimulations unimodales (Figure 39a) (Calvert et al.,
2000). Ces données révèlent que le STS est une aire cérébrale hétéromodale également
impliquée dans l’intégration des informations visuelles et auditives (Callan et al., 2003;
Calvert et al., 2000; Macaluso et al., 2004; Wright et al., 2003). En utilisant l’association
entre un phonème et un graphème (sa représentation visuelle), Raij et al. (2001) montrent
également une modulation de l’activité du STS par la bimodalité (Raij et al., 2000). Une autre
étude montre que l’activation du STS ne dépend pas de la synchronisation temporelle entre les
composantes visuelle et auditive de stimuli linguistiques ; le STS est plus activé par les
stimuli bimodaux que par les stimuli unimodaux, mais son activité est similaire que la
présentation des stimuli soit ou non simultanée (Olson et al., 2002). Ainsi, le STS paraît
impliqué dans l’intégrations des informations visuelles et auditives de la parole, mais cette
intégration ne nécessite pas de synchronisation temporelle. Cependant, les performances
comportementales des sujets montrent qu’avec le délai utilisé dans l’étude d’Olson et al.
(2002), délai d’une seconde, les entrées auditives et visuelles sont perçues comme
indépendantes ; ainsi, la plus grande activité du STS pourrait simplement refléter son
comportement hétéromodal : le STS est activé par des stimuli auditifs ou visuels, la présence
des 2 informations entraîne une sommation conduisant à une activité supérieure. Sestieri et al.
(2006) n’ont pourtant pas trouvé d’effet de la congruence dans cette zone hétéromodale.
259
Figure 39. Illustration des aires cérébrales répondant aux stimuli linguistiques. (a)
Localisation du STS (à gauche) et ses réponses à des stimuli audiovisuels congruents et
incongruents (graphique à droite). Activation représentée en pourcentage de la somme des activités
unimodales. Les stimuli congruents entraînent une augmentation d'activité, les stimuli
incongruents une diminution. Issu de Calvert et al. (2000). (b) Réponse de différentes aires
cérébrales à des stimuli linguistiques bimodaux ou unimodaux. Le complexe V5 et les aires
auditives primaires (BA 41/42) sont plus activés par les stimuli bimodaux, le claustrum/insula est
activé par les stimuli unimodaux visuels et auditifs. Issu de Calvert et al. (1999).
La congruence sémantique entre les informations bimodales dans une tâche de
reconnaissance active l’insula, le cortex cingulaire antérieur et le gyrus frontal inférieur ;
régions qui ont également été décrites comme hétéromodales (Amedi et al., 2005; Laurienti et
al., 2003; Sestieri et al., 2006). Ces données suggèrent une différence dans le traitement de la
parole et le traitement des stimuli non langagiers. La parole bimodale est intégrée au niveau
du STS alors que les informations non langagières interagissent dans le cortex frontal et
l’insula. L’activation de l’insula est également rapportée dans les études sur le langage ; elle
est plus activée pour les stimuli bimodaux, mais seulement lorsque ceux-ci présentent une
synchronisation temporelle (Olson et al., 2002). Cependant, Calvert et al. (1999), dans une
tâche utilisant des stimuli langagiers, montrent une activation de l’insula par les stimuli
unimodaux indépendamment de leur modalité sensorielle, mais pas de sommation
supralinéaire liée à la bimodalité. Certaines études décrivent également une activation de
l’insula/claustrum dans des tâches d’appariement crossmodal. Par exemple, il a été montré
que la reconnaissance visuelle d’une forme perçue par le système tactile active l’insula
260
(Hadjikhani & Roland, 1998). Ainsi, l’insula pourrait être impliquée dans la détection de la
synchronie temporelle entre les stimuli (Bushara et al., 2001) mais elle pourrait également
être un relais entre les différentes modalités sensorielles (Ettlinger & Wilson, 1990).
Dans le domaine de la perception du langage, il est trouvé une augmentation de
l’activité dans les cortex sensoriels unimodaux par la stimulation bimodale ; cette
augmentation n’est pas observée lorsque les stimuli ne présentent pas de congruence
sémantique (par exemple, un damier et un stimulus linguistique) (Figure 39b) (Calvert et al.,
1999; Calvert et al., 2000). Pour les auteurs, la facilitation perceptuelle, observée au niveau
comportemental, résulterait d’une augmentation de l’activité dans les cortex unimodaux
(Calvert et al., 1999). Une augmentation de l’activité des neurones dans le cortex auditif est
également démontrée chez le macaque ; le taux de décharge des neurones du cortex auditif
primaire et des aires de la ceinture augmente lorsqu’un visage et une vocalise sont délivrés
simultanément (Ghazanfar et al., 2001). Calvert et al. (2000) et Ghazanfar & Logothetis
(2001) proposent que l’augmentation d’activité dans les régions dites unimodales reflète une
influence descendante du STS sur les aires unimodales via des connexions « en retour »
(« feedback »). D’autres études montrent une diminution de l’activité du cortex auditif lorsque
l’attention des sujets est dirigée vers le stimulus visuel. Ainsi, la modulation de l’activité des
aires unimodales par les aires hétéromodales peut aussi résulter en une diminution de
l’activité des aires unimodales (Downar et al., 2000; Kawashima et al., 1999).
En dehors de la compréhension du discours, la perception des visages et des voix a
également été étudiée dans le domaine émotionnel. Les structures cérébrales impliquées dans
l’intégration bimodale d’informations émotionnelles dépendent de la valence de l’émotion,
c’est à dire s’il s’agit d’une émotion positive ou négative. Les émotions positives (par
exemple, la joie) semblent impliquer des structures de l’hémisphère gauche alors que les
émotions négatives (par exemple, la peur) paraissent recruter des régions situées dans
l’hémisphère droit ; cette latéralisation hémisphérique paraît liée au caractère bimodal des
stimuli puisqu’elle n’est pas décrite lorsque les auteurs comparent l’activité cérébrale évoquée
par les stimuli unimodaux positifs et négatifs (Pourtois et al., 2005). De plus, les stimuli
bimodaux entraînent une plus grande activité dans le gyrus temporal médian gauche que les
stimuli unimodaux. L’amygdale est plus activée lorsque les émotions exprimées par la voix et
le visage sont congruentes, particulièrement dans le cas des émotions négatives (peur) (Dolan
et al., 2001; Ethofer et al., 2006). L’amygdale ne paraît cependant pas être un centre
émotionnel hétéromodal puisqu’elle n’est pas activée par les voix exprimant la peur. Elle est,
261
par contre, impliquée dans l’association et la rétention de stimuli intermodaux (Pourtois et al.,
2005). Ces études montrent également que la présentation simultanée d’une voix et d’un
visage émotionnel entraîne une augmentation de l’activité dans le gyrus fusiforme, dans des
sites proches de la FFA, particulièrement pour les émotions négatives (de Gelder et al., 2005;
Dolan et al., 2001; Ethofer et al., 2006; Pourtois et al., 2005).
Une autre étude a montré une activation des régions dédiées à la perception des
visages dans une tâche de reconnaissance de la voix ; la FFA n’est activée que lorsque
l’attention des sujets est dirigée vers l’identité vocale, et non lorsque les sujets font attention
au contenu sémantique des stimuli. Les auteurs suggèrent que la FFA reçoit des entrées
sensorielles en provenance d’une région qui a déjà été activée par la tâche, à savoir le STS
antérieur droit, la région sélective des voix ; ce résultat est confirmé par une analyse
corrélative des activations de ces deux zones. Ces données suggèrent que la reconnaissance
d’une personne ne résulte pas de l’activation d’un centre supramodal, mais bien d’une
communication entre les zones répondant aux visages et celles répondant aux voix (von
Kriegstein et al., 2006; von Kriegstein et al., 2005).
3.2.2. Décours temporel
Les études sur la reconnaissance multimodale des objets en potentiels évoqués
révèlent que les interactions multimodales sont très précoces, dès 40 ms, et qu’elles s’étendent
sur un large intervalle de temps jusqu’à 200 ms post-stimulus (Figure 40). Cette première
observation montre que l’intégration d’informations en provenance de différentes modalités
sensorielles n’est pas le résultat d’un processus physiologique unique mais d’une cascade
d’évènements (Giard & Peronnet, 1999).
262
Figure 40. Illustration du décours temporel des interactions multimodales. Les différentes
colonnes de gauche représentent la topographie de l'activité cérébrale pour les stimuli auditifs
(Au), visuels (Vi), la somme des deux (Au + Vi), et pour les stimuli bimodaux (AV). Dans les
colonnes de droite, les topographies (potentiels et densité de courant (SCD)) de l'interaction
quantifiée par la différence [AV-(A+V)] entre la réponse multimodale et la somme des réponses
unimodales. Dernière colonne à droite: cartes des valeurs de t estimées à partir des potentiels; en
gris sont signifiées les valeurs significatives. NB: l'interaction entre différentes modalités
sensorielles débute très tôt et perdure pendant un large intervalle temporel. Issu de Giard &
Perronnet (1999).
a. Activité précoce
De nombreuses études rapportent effectivement une activité plus ample pour les
stimuli bimodaux que pour la somme des activités unimodales, signifiant une intégration
bimodale visuo-auditive, aux environs de 40 ms (Fort et al., 2002a, b; Giard & Peronnet,
1999; Molholm et al., 2002; Teder-Salejarvi et al., 2002). Cette activité précoce est supposée
reflèter les interactions existant dès les aires sensorielles primaires (Fort et al., 2002a; Giard
& Peronnet, 1999; Molholm et al., 2002). Cette activité précoce est enregistrée sur les
électrodes occipitales postérieures ; l’activité distinguant stimuli bimodaux et unimodaux sur
les électrodes fronto-centrales est plus tardive, autour de 120 ms, à la latence de la N1
auditive et de la P1 visuelle. Ainsi, cette activité précoce semble représenter une modulation
de l’activité du cortex visuel par les entrées auditives ; les informations auditives parviennent
en effet plus rapidement (quelques 20 ms avant) au cortex auditif que les informations
visuelles au cortex visuel (Fort et al., 2002a; Molholm et al., 2002). Deux hypothèses
pourraient expliquer l’influence aussi rapide de l’information auditive sur les traitements
263
visuels : une connexion directe entre les aires auditives primaires et le cortex visuel, ou une
connexion indirecte via un centre hétéromodal supérieur qui modulerait l’activité du cortex
visuel. La première hypothèse est soutenue par les études chez les primates démontrant
l’existence de connexions anatomiques entre les différents cortex primaires (Cappe & Barone,
2005; Falchier et al., 2002). La deuxième hypothèse est en accord avec celle proposée suite
aux résultats obtenus en IRMf, à savoir un contrôle des régions unimodales par les zones
hétéromodales. D’autres auteurs proposent que cette activité précoce reflète des activités
anticipatoires (Teder-Salejarvi et al., 2002). Teder-Salejarvi et al. (2002) déclarent que filtrer
les données en passe haut à 2 Hz et faire varier la période pendant laquelle est appliquée la
correction de la ligne de base (de -100 à 0 ms ou de -100 à -50 ms) peut permettre d’empêcher
les effets liés à l’anticipation ; dans leur étude les effets précoces disparaissent après ces
différentes analyses. En appliquant ces critères, d’autres études montrent cependant que les
effets précoces des interactions bimodales persistent révélant ainsi qu’ils ne sont pas le
résultat d’une anticipation (Fort et al., 2002a; Molholm et al., 2002). Dans certains cas, cette
modulation précoce de l’activité cérébrale n’est pas rapportée. C’est le cas, par exemple, dans
une étude s’intéressant à l’identification de cibles bimodales dont les composantes
unisensorielles ne sont pas redondantes (Fort et al., 2002b). Les études s’intéressant à la
perception bimodale de stimuli écologiques (animaux ou émotions), par conséquent plus
complexes, ne rapportent pas de modulations précoces de l’activité cérébrale, soit qu’elles
n’aient pas été analysées, soit que les stimuli visuels et auditifs ne soient pas présentés de
manière synchrone (Besle et al., 2004; Molholm et al., 2004; Pourtois et al., 2000).
b. P1 visuelle et N1 auditive
Giard & Peronnet (1999) montrent également que l’activité cérébrale évoquée par un
stimulus bimodal varie à la latence de la P1 visuelle. Les auteurs suggèrent que cette
augmentation de l’amplitude de la P1 visuelle traduit l’augmentation de la saillance du
stimulus visuel grâce à la présentation simultanée d’un stimulus auditif (Giard & Peronnet,
1999). Dans ce même intervalle de temps, une modulation de la topographie de la N1 auditive
est rapportée : l’amplitude de la N1 augmente dans les régions temporales ; cette
augmentation n’est pas significative sur les électrodes frontales. Rappellons que la N1
auditive reflète l’activité de plusieurs sources cérébrales ; ainsi, ces données suggèrent que
l’entrée visuelle pourrait modifier l’activité d’un des générateurs à l’origine de la N1 auditive.
D’autres études montrent des modulations de la P1 visuelle et de la N1 auditive par la
bimodalité (Besle et al., 2004; Joassin et al., 2004; Pourtois et al., 2000). La N1 auditive est
264
plus ample pour les stimuli congruents en terme d’émotion ou d’identité que pour les stimuli
incongruents ou unimodaux ; cette augmentation résulte de l’amplification des traitements
auditifs dans les aires auditives associatives sous l’influence d’entrées visuelles congruentes
(Joassin et al., 2004; Pourtois et al., 2000). Dans une étude portant sur la perception bimodale
de la parole, l’inverse est démontré : la N1 auditive est réduite pour les stimuli bimodaux
congruents (Besle et al., 2004). Les auteurs proposent que cela reflète un amorçage
phonétique par les informations visuelles qui sont présentées plus tôt (Besle et al., 2004).
Dans les études en MEG, il n’est pas rapporté de modulation de la M100 auditive (Miki et al.,
2004; Raij et al., 2000). Ceci révèle que les effets de la bimodalité sur la N1 auditive
traduisent la modulation d’un des générateurs de la N1 auditive qui n’est pas enregistré en
MEG.
c.
Activité plus tardive
Des modulations plus tardives sont également rapportées sur les électrodes
postérieures (Giard & Peronnet, 1999; Molholm et al., 2004; Molholm et al., 2002). La N170
(N1 visuelle) est décrite comme étant plus petite pour les stimuli bimodaux que pour les
stimuli unimodaux, dans les études utilisant des stimuli simples (Giard & Peronnet, 1999;
Molholm et al., 2002). Les auteurs proposent que la diminution de l’amplitude de la N170
reflète une facilitation ; le stimulus visuel est rendu plus saillant par l’entrée auditive et
nécessite donc un traitement visuel moins approfondi. Cette hypothèse est soutenue par les
études de Fort et al. (2002a, b) dans lesquelles la N170 n’est pas modulée lorsque la tâche
consiste simplement à détecter un stimulus, ou lorsque les informations viuselles et auditives
ne sont pas redondantes. Molholm et al. (2004) montrent, au contraire, une augmentation de
l’amplitude de la N170 pour les stimuli bimodaux congruents, mais seulement lorsque ceux-ci
ont un statut cible. La N170 paraît donc être modulée par la bimodalité des stimuli seulement
lorsque ces derniers sont pertinents pour la tâche à accomplir. Des effets plus tardifs, autour
de 190 ms, sont aussi décrits sur les électrodes fronto-temporales et pourraient refléter
l’activation de l’insula ; les stimuli bimodaux évoquent une activité qui leur est spécifique
(Fort et al., 2002a, b; Giard & Peronnet, 1999). Cette activité dans les régions temporofrontales est observée lorsque les sujets doivent détecter ou reconnaître des objets caractérisés
par des informations redondantes ou non. Ces résultats suggèrent que l’activité évoquée à
cette latence (190 ms) pourrait être le reflet de la détection d’un stimulus bimodal quelles que
soient les informations qu’il contient (Fort et al., 2002a, b).
265
d. Effets liés à la dominance sensorielle des sujets
Nous avons vu précédemment qu’il existait une dominance sensorielle au niveau
individuel : certains sujets répondent plus rapidement aux stimuli auditifs et d’autres aux
stimuli visuels (Fort et al., 2002b; Giard & Peronnet, 1999). Au niveau neuronal, la
dominance sensorielle des sujets conduit à des modulations différentes de l’activité des cortex
unisensoriels (
Figure 41) (Fort et al., 2002b; Giard & Peronnet, 1999). Chez les sujets « visuels », il
est rapporté une augmentation de l’activité dans le cortex auditif durant les premières 150 ms
pour les stimuli audiovisuels ; au contraire, chez les sujets auditifs, l’augmentation est
observée dans le cortex visuel. Ainsi, la bimodalité semble entraîner une augmentation de
l’activité dans le cortex sensoriel de la modalité non dominante (Giard & Peronnet, 1999). La
dominance sensorielle des sujets module l’activité cérébrale même lorsque les composantes
unisensorielles ne sont pas redondantes, mais cette modulation apparaît plus tardivement. Une
modulation de l’activité cérébrale à la latence de la N1 auditive est observée chez les sujets
visuels, et une modulation à la latence de la N170 est observée chez les sujets auditifs (Fort et
al., 2002b). Ces données montrent que les traitements précoces effectués sur les stimuli
bimodaux dépendent de la modalité dominante du sujet, et de la tâche à effectuer. Ainsi,
lorsque la tâche ne requiert pas l’identification des deux composantes unisensorielles, des
modulations très précoces sont observées dans la modalité non dominante ; lorsque
l’identification de chaque composante est nécessaire, les effets n’apparaissent qu’autour de
140 ms. Les différences entre ces études pourraient signifier que la modulation des PE
précoces est la conséquence de processus attentionnels.
Figure 41. Illustration de l'activité cérébrale en
fonction de la dominance sensorielle des sujets, dans
les conditions auditives, visuelles et audiovisuelles.
SCD indique l'analyse de la densité de courant. NB:
chez les sujets auditifs les interactions sont observées
sur les électrodes postérieures, alors que chez les
sujets visuels, une augmentation de l'activité au niveau
du cortex auditif est observée pour les stimuli
bimodaux. Issu de Giard & Perronnet (1999).
266
Pour résumer, les interactions multimodales impliquent un grand nombre d’aires
cérébrales à différentes latences. Les processus cérébraux impliqués dans la perception
d’objets bimodaux sont sensibles à la tâche, aux stimuli etc. (Fort & Giard, 2004; TederSalejarvi et al., 2002). Cependant, des résultats sont constamment rapportés comme la
modulation de l’activité dans les zones considérées à priori comme étant unimodales, telles
que les cortex auditif et visuel primaires, le gyrus fusiforme etc. Cette modulation des zones
unimodales est observée aussi bien en IRMf qu’en potentiels évoqués ; dans ce dernier cas,
elle est visible dans la précocité des effets liés à la multimodalité. Une autre constance de ces
études est l’activation plus grande des gyri temporaux, le MTG et le STG, ou du sulcus
temporal supérieur. La situation des loci d’activation le long du STS dépend de la tâche, des
stimuli utilisés dans les études. Par exemple, dans les tâches requérant un traitement
linguistique, les activations supérieures sont observées dans le STS antérieur gauche, alors
que dans les tâches étudiant la perception bimodale d’objet cette activation est supérieure dans
la région postérieure du STS (Beauchamp et al., 2004). Le claustrum et l’insula pourraient
être des zones relais des différentes modalités sensorielles ; cependant, leur rôle dans les
interactions multimodales paraît plus complexe que celui de simple relais intersensoriel
(Calvert et al., 1999). D’autres études sont nécessaires afin de distinguer les effets purement
liés aux interactions bimodales de ceux liés à l’attention des sujets, attention qui semble ne
pas avoir été contrôlée dans la majorité des études.
3.3. Conclusions
En conclusion, l’intégration des informations en provenance de nos différents sens met
en jeu un réseau d’aires cérébrales largement distribuées, s’étendant à quasiment tout le
cortex. Les modulations de l’activité de ce réseau sont très précoces puisqu’elles sont
rapportées dans les 200 milisecondes suivant la présentation des stimuli. Ces différentes
données présentent un schéma commun qui va à l’encontre des hypothèses fournies dans les
années 60, 70. Les premiers modèles ayant tenté d’expliquer les interactions multimodales
suggéraient un traitement hiérarchique des informations sensorielles : des aires sensorielles
primaires vers les aires sensorielles secondaires, puis vers les aires hétéromodales (Bushara et
al., 2003; Calvert & Thesen, 2004). Un deuxième modèle suggére une interaction entre les
cortex unisensoriels via une structure hétéromodale telle que le claustrum ou l’insula
(Ettlinger & Wilson, 1990).
267
Ces deux modèles sont remis en cause au vue des données accumulées en anatomie,
en imagerie et en électrophysiologie. En anatomie, il a été mis en évidence des connexions
neuronales directes entre les aires sensorielles primaires et secondaires de différentes
modalités (Cappe & Barone, 2005; Falchier et al., 2002). Les études lésionnelles montrent
également que le traitement des informations multimodales met en jeu un réseau d’aires
cérébrales largement distribuées : les lésions des aires dites hétéromodales n’annihilent pas les
appariements et les transferts crossmodaux. Par ailleurs, des études plus récentes en potentiels
évoqués rapportent que l’activité cérébrale est précocement modulée par les informations
multimodales, dès 40 ms (Fort et al., 2002a, b; Giard & Peronnet, 1999).
Figure 42. Un modèle des interactions multimodales. Différentes aires cérébrales semblent
spécialisées dans différents traitements de l'information, les informations spatiales sont traitées
dans l'IPS, le STS paraît impliqué dans la perception des objets etc. Les régions en bleu/jaune
(IPS, STS) sont des régions hétéromodales également impliquées dans l'établissement d'un lien
entre les informations sensorielles. La région représentée avec une moitié jaune et une moitié bleue
indique que les informations sensorielles peuvent être partagées mais pas forcément intégrées
(nouvelle association). La région en blanc indique un relais supposé entre les cortex sensoriels
sans que son rôle soit bien compris. J'ai ajouté une flèche entre les cortex primaires puisque les
études anatomiques suggèrent l'existence de connexions directes entre ces derniers. SC: colliculus
supérieur, FC cortex frontal. Adapté de Calvert (2001).
Ces données montrent donc que les aires hétéromodales fonctionnent en parallèle aux
réseaux unimodaux et ne constituent pas le dernier échelon du traitement sensoriel (Figure
42) (Bushara et al., 2003; Calvert & Thesen, 2004). Par ailleurs, la précocité des interactions
268
multimodales suggère qu’elles ne dépendent pas uniquement de connexions en retour des
aires hétéromodales vers les aires unimodales. Il apparaît donc que les aires hétéromodales et
unimodales interagissent afin de construire une perception cohérente de notre environnement.
Certaines aires hétéromodales semblent par ailleurs avoir des rôles précis dans les processus
intersensoriels. Le colliculus supérieur est impliqué dans la détection de la cohérence spatiale,
l’insula paraît jouer un rôle dans la perception de la synchronie entre les informations
multisensorielles.
Les études sur les intégrations multisensorielles présentent une grande variabilité de
résultats, témoignant probablement d’un fonctionnement plus complexe qu’on ne le pensait a
priori. Les structures mises en jeu diffèrent en fonction des tâches, des stimuli et des analyses
effectuées sur les données. Dans la dernière étude de ma thèse, je me suis intéressée aux
interactions entre les traitements des visages et des voix. Les études unimodales mettent en
évidence une spécificité des visages et, dans une moindre mesure, des voix comparés aux
autres types de stimuli visuels ou auditifs. Du fait de cette spécifité intramodale, il est fort
probable que l’intégration des informations véhiculées par les visages et les voix soit
différente de l’intégration d’autres types de stimuli audiovisuels ; en particulier parce que le
visage est un stimulus particulièrement saillant, capturant l’attention de manière automatique.
Les résultats de mes expériences précédentes sur la catégorisation du genre suggéraient une
influence du visage sur la voix et non l’inverse. Cette étude m’a permis, d’une part, de tester
l’hypothèse d’une dominance du visage sur la voix dans le cadre du traitement du genre via
l’utilisation de stimuli congruents et incongruents ; ces deux types de stimuli m’ont également
permis de mettre en évidence l’influence des processus ascendants (« bottom-up ») sur le
traitement des informations multisensorielles. D’autre part, en dirigeant l’attention des sujets
vers la voix, le visage ou les deux, j’ai étudié l’influence des processus descendants (« topdown ») sur le traitement de ces informations. Cette étude permet donc de distinguer les
processus purement liés aux interactions multimodales, c’est à dire à la liaison entre les
informations provenant de différents sens, de ceux résultant d’une modulation attentionnelle.
269
270
271
272
4. Travail expérimental
Objectifs & Méthodes
Dans cette étude, j’ai exploré les interactions multimodales dans la perception du
genre de l’individu. Les stimuli utilisés étaient des visages statiques et des voix présentés
simultanément pendant 300 ms ; les stimuli étaient congruents ou incongruents en terme de
genre. L’attention des sujets était dirigée vers la voix (VOICE) ou vers le visage (FACE) ; la
tâche des sujets consistait en une catégorisation du genre. Dans un troisième partie, les sujets
jugeaient la congruence des stimuli en terme de genre ; l’attention était donc dirigée vers les
deux modalités (BOTH). Diriger l’attention des sujets vers les différentes modalités nous a
permis de mettre en évidence les effets des interactions multimodales induits par l’attention.
L’utilisation de stimuli congruents et incongruents permet de révéler l’activité cérébrale liée à
la multimodalité per se.
Résultats & Conclusions
Les données comportementales révèlent une interaction automatique entre le
traitement des visages et des voix : la présentation d’une information incongruente dans la
modalité ignorée entraîne une augmentation des TR. L’interaction entre les deux modalités est
asymétrique : la catégorisation du genre des visages n’est pas affectée par une voix
incongruente, alors qu’un visage incongruent entraîne une forte diminution des performances
de catégorisation du genre de la voix. Ainsi, dans cette tâche la modalité dominante paraît être
la vision.
D’un point de vue général, les potentiels évoqués par les stimuli bimodaux
ressemblent à ceux évoqués par les visages, en accord avec l’hypothèse d’une dominance des
visages sur les voix. Des différences liées à l’attention apparaissent très tôt, dès 40 ms et
jusqu’à 140 ms. La topographie de l’activité cérébrale est représentative d’un traitement
unimodal lorsque l’attention est dirigée vers une ou l’autre modalité. L’activité cérébrale dans
la condition BOTH est similaire à celle évoquée par la condition VOICE dans les régions
centrales, et supérieure à celle évoquée par la condition FACE dans les régions postérieures.
La N170 n’est influencée ni par l’attention, ni par la congruence.
Autour de 180 ms, une différence est mise en évidence entre les stimuli congruents et
incongruents sur les électrodes fronto-temporales. Cette différence pourrait refléter une
activité liée à la bimodalité, c’est à dire aux processus intégratifs la sous-tendant.
273
274
Page 1 of 39
Top-down and bottom-up attentional modulation in processing bimodal
face/voice stimuli.
Marianne Latinus1,* Rufin VanRullen1 and Margot J. Taylor2
1
CerCo, Université Toulouse 3 - CNRS, Faculté de Médecine de Rangueil, 31062
Toulouse Cedex 9, France
2
r
Fo
Diagnostic Imaging and Research Institute, Hospital for Sick Children,
555 University Avenue, Toronto, Ontario, Canada, M5G1X8
er
Pe
*Corresponding author:
Marianne Latinus
Re
CerCo – Centre de recherche Cerveau et Cognition,
Université Toulouse 3 – CNRS
Faculté de Médecine de Rangueil
31062 Toulouse Cedex 9, France
Tel: +33561173770
Fax: +33562172809
E mail: [email protected]
Running title: Multimodal face and voice processing.
ew
vi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
Journal of Neurophysiology
Multimodal face and voice processing
-2-
Abstract
Integration of multimodal information is a critical capacity of the human brain, with classic
studies showing facilitation or interference of perceptual processing. Bimodal stimuli pivotal to
social interactions, faces and voices, have received little study and the impact of attention has not
been investigated. We explored multimodal processing of simultaneously presented faces and
r
Fo
voices using ERPs. Subjects performed two gender categorisation tasks directing attention either
to faces or to voices; in a third task, they judged whether the bimodal face/voice stimuli were
congruent in terms of gender. Behavioural data revealed asymmetrical interactions between face
Pe
and voice processing; the ignored modality affected the processing in the attended modality, but
this disruption was more pronounced for voices. Spatio-temporal analyses revealed a modulation
er
of brain activity in early processes (35 to 120ms), over unisensory cortices, dependant on directed
Re
attention. Top-down influences and gender congruency did not modulate N170/VPP. However,
between 180 and 205ms, congruent stimuli induced a larger right frontal activity than incongruent
vi
stimuli. These data determined that top-down influences drive early multimodal interactions by
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 2 of 39
favouring one or the other modality, whereas bottom-up interactions (i.e. congruency effects) are
relatively late.
Keywords: audiovisual stimuli, attention, ERPs, gender.
Page 3 of 39
Introduction
The ability to integrate information through several sensory modalities is a vital skill of
the human brain, as information we receive from the external world is often multimodal. The
integration of multisensory stimuli can represent a perceptual gain; for example, in a noisy
environment, lip-reading helps in the comprehension of speech (MacLeod and Summerfield
1987). Studies on multimodal processing demonstrate facilitation for processing bimodal stimuli,
r
Fo
seen as an increase in accuracy and a decrease in reaction times (RTs) compared to unimodal
stimuli (Fort et al. 2002a; Giard and Peronnet 1999; Molholm et al. 2004; Schroger and Widmann
1998; Talsma and Woldorff 2005; Teder-Salejarvi et al. 2002), with multimodal integration being
Pe
greater with stimuli presented synchronously in the spatial and the temporal domains (Calvert et
al. 2001; Stein and Meredith 1993). As unimodal studies have shown that object recognition and
er
spatial localisation involve anatomically and functionally distinct processes, studies that
Re
investigate multimodal integration have focused either on spatial information or object
recognition processing (in the visual domain – (Haxby et al. 1991; Mishkin et al. 1983) and in the
vi
auditory domain – (Alain et al. 2001; Barrett and Hall 2006; Rauschecker and Tian 2000)); but
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
see (Belin and Zatorre 2000)). For example, in localisation tasks, studies reveal a behavioural
advantage for bimodal stimuli compared to unimodal stimuli either with visuo-tactile (Hadjikhani
and Roland 1998) or with visuo-auditory stimuli (Schroger and Widmann 1998). Contrary to the
number of studies on multimodal spatial information, only a few have investigated multimodal
object recognition. Using visual shapes and tones associated to form various bimodal objects, an
enhancement of behavioural response for the detection of bimodal objects has been shown, as
long as the bimodal information was redundant (Fort et al. 2002a; b; Giard and Peronnet 1999).
The benefits of bimodal inputs for the detection of natural, ecologically valid objects (such as
Journal of Neurophysiology
Multimodal face and voice processing
2
animals) have also been demonstrated (Molholm et al. 2004); the same study revealed that visual
detection of an animal was easier and faster than auditory detection.
Investigations of higher-level multimodal inputs critical to human social interactions
(faces and voices) have been less common. Most studies on face and voice integration have
focussed on speech processing. The interaction between the processing of face and voice in the
speech domain is classically demonstrated by the McGurk effect, in which incongruent face and
voice information lead to an intermediate or novel percept (McGurk and MacDonald 1976); lip-
r
Fo
reading information biases the processing of auditory speech information. Other studies revealed,
as for simple bimodal object processing and spatial processing, an advantage of bimodal
redundant speech compared to either visual (i.e. lip-reading) or auditory speech, shown by shorter
Pe
RTs to bimodal speech (Besle et al. 2004). The small literature on face/voice interactions in a
er
non-verbal context, e.g., to discriminate gender, age, identity or emotions, is largely focussed on
emotional processing (Dolan et al. 2001; Pourtois et al. 2005; Pourtois et al. 2000), demonstrating
Re
interference in the processing of incongruent emotional voices and faces (De Gelder and
Vroomen 2000).
vi
Neural correlates of crossmodal integration or binding have been investigated using fMRI,
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 4 of 39
PET and to a lesser extent EEG. Various studies interested in multimodal interactions have found
that the localisation and timing of crossmodal binding were task-sensitive (Fort and Giard 2004).
Spatial localisation of audiovisual stimuli activates more regions located in parietal lobes
(Bushara et al. 1999) whereas bimodal object recognition preferentially involves brain areas in
the temporal lobes (Sestieri et al. 2006), consistent with the dorsal/ventral or what/where
pathways (Ungerleider and Haxby 1994). One means to assess bimodal integration is to compare
the bimodal activity to the sum of the unimodal activities (AV – (A+V)). Using this paradigm in a
speech perception study, it was reported that semantically congruent bimodal stimuli enhanced
Page 5 of 39
Multimodal face and voice processing
3
activation either in sensory-specific cortices (Calvert et al. 1999; Eimer 2001; Giard and Peronnet
1999) or in brain regions described as heteromodal areas, such as the superior temporal
sulcus/gyrus (STS/STG) (Calvert et al. 2000). The timing of this bimodal processing appears to
be very rapid. Several studies demonstrated that multimodal stimuli affect brain processing within
40ms, in what are usually described as unisensory cortices (Fort et al. 2002b; Giard and Peronnet
1999; Molholm et al. 2002; Teder-Salejarvi et al. 2002). Even with more complex stimuli, an
early interaction between visual and auditory processing was seen on the visual N1 (~150 ms),
r
Fo
which was modulated by the congruency of bimodal stimuli (Molholm et al. 2004). Early
interactions between the processing of congruent emotional faces and voices have been shown to
enhance the auditory N1 for congruent stimuli (Pourtois et al. 2000); yet, in a bimodal speech
Pe
perception study, the opposite was demonstrated, namely a reduced N1 to congruent bimodal
stimuli (Besle et al. 2004).
er
Although face/voice associations to extract non-speech information are rarely studied,
Re
there is a wealth of face and voice processing studies in unimodal paradigms. Most of the face
studies focus on identity/emotional processing, whereas a major part of voice processing studies
vi
are focussed on speech. It has been shown that faces are recognized faster than objects (Tanaka
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
2001) and that inversion disturbs face more than object processing (Yin 1969). Conjointly with
neuroimaging studies, this suggests a specific system dedicated to face processing, which
includes brain regions such as the fusiform and occipito-temporal gyri and the superior temporal
region ((Allison et al. 1994; Kanwisher et al. 1998; Puce et al. 1995 1997) but see (Gauthier et al.
1999; Rossion and Gauthier 2002)). Neurophysiological studies provide evidence for a
component, the N170, that is sensitive to a range of manipulations of faces, and is much smaller
or absent to non-face stimuli (Bentin et al. 1996; George et al. 1996; Itier et al. 2006; Rossion et
al. 2000). Moreover, the N170 reflects automatic face processing (Puce et al. 1999; Severac
Journal of Neurophysiology
Multimodal face and voice processing
4
Cauquil et al. 2000), is not sensitive to gender (Latinus and Taylor submitted; MouchetantRostaing et al. 2000), identity (Eimer 2000; Rossion et al. 1999a but see Caharel, 2002 #61), and
seems sensitive to the configural processing preferentially engaged by faces (Latinus and Taylor
2006; Maurer et al. 2002). Two other visual components are considered in face processing
studies: P1 and P2, two positive peaks occurring around 100 and 200 ms, respectively. Face
sensitivity of P1 remains controversial as some configural changes affect P1 (Halit et al. 2000;
Itier and Taylor 2004a; Linkenkaer-Hansen et al. 1998; Taylor 2002), although other paradigms
r
Fo
fail to see P1 effects (Latinus and Taylor 2006; 2005; Rossion et al. 1999b) suggesting either an
attentional modulation (Holmes et al. 2003; Rossion et al. 1999a) or a sensitivity to low-level
features (Rossion et al. 1999b). P2 has been associated with deeper processing of ambiguous
Pe
stimuli and may reflect the recruitment of additional analytic processing to perform face
er
identification or detection (Caharel et al. 2002; Latinus and Taylor 2006; 2005).
Some comparable studies have been completed with voices, ‘auditory faces’ (Bedard and
Re
Belin 2004; Belin et al. 2004). Inversion of voices in the frequency or time domain impacts voice
recognition behaviourally (Bedard and Belin 2004; Schweinberger 2001), yet this inversion effect
vi
is not restricted to voices. To assess voice specificity, the neural correlates of voice processing
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 6 of 39
have been investigated with fMRI and PET; linguistic and extra-linguistic voice processing takes
place in specific temporal brain regions (Belin et al. 2000; Binder et al. 2000; Scott et al. 2000;
Zatorre et al. 1992). Vocal sounds induce a greater activation than non-vocal stimuli from
primary auditory to associative auditory areas (Belin et al. 2002). It has been shown that speech
processing implicates the left anterior STS, whereas non-linguistic processing occurs in the right
hemisphere in areas located along the STS (Belin et al. 2004; Belin et al. 2002; Imaizumi et al.
1997; Scott et al. 2000; von Kriegstein et al. 2003). Temporal aspects of voice processing are less
understood as there are fewer ERP studies comparing voices to other auditory stimuli. Two
Page 7 of 39
Multimodal face and voice processing
5
reports, however, provide evidence for a positive deflection 320 ms after stimulus onset that is
larger to voices than to various non-voice stimuli. This component was labelled the Voice
Selective Response (VSR) and was distinct from other components in that time range (Levy et al.
2003; 2001). Other studies using EEG or MEG have suggested that voice processing may start
earlier, in the latency range of the auditory P2, 160-240ms (Beauchemin et al. 2006; Latinus and
Taylor submitted; Lattner et al. 2003).
There is currently little consensus in the bimodal auditory/visual literature regarding early
r
Fo
processing stages, as few ERP studies have examined the critical skill of integrating faces and
voices, an essential ability for social interactions. Here we investigated face and voice integration
on gender judgement in three different tasks. Subjects were asked to judge gender on bimodal
Pe
stimuli, with simultaneously presented faces and voices. The first task was to determine if the
er
gender information carried by the face and the voice was congruent or not; the two other tasks
were to categorise the bimodal stimuli by gender, in one case while ignoring faces and
Re
responding only to voices or, conversely, attending only to the faces. It was traditionally believed
that processes occurring in the first 200 ms arise from areas that are considered as unimodal or
vi
sensory specific (Giard and Peronnet 1999; Shams et al. 2001); however, as summarised above,
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
multiple studies revealed very early interactions between auditory and visual processing in these
areas (Fort et al. 2002a; Giard and Peronnet 1999; Shams et al. 2001; Teder-Salejarvi et al. 2002).
We hypothesised that directing attention to only one modality would modulate early ERPs, in that
ERPs to bimodal stimuli would be more representative of the attended modality. The congruency
task was designed to reveal potential interaction effects as performing the task required the
processing of both auditory and visual information; the pattern of cerebral activity should reflect
the processing in both modalities. In other words, the directed attention aspects of the tasks were
to determine the influence of top-down modulation on multimodal processing, whereas the use of
Journal of Neurophysiology
Multimodal face and voice processing
6
congruent and incongruent stimuli was expected to provide information on bottom-up stimulusdependent interactions.
Material and Methods
Subjects
Nineteen English speaking adults (9 women) aged between 20 and 35 years (mean = 26.4
years) participated in the study.
Subjects reported normal medical history and no hearing
r
Fo
problems; all had normal or corrected to normal vision. They all provided informed written
consent and the experiment was approved by the Sunnybrook Health Sciences Research Ethics
Board.
Stimuli and procedure
er
Pe
Stimuli were bimodal auditory/visual stimulus pairs that were comprised of front view
greyscale pictures of faces associated with a voiced word; the stimulus duration was 300ms. Face
Re
stimuli were 42 female and 42 male faces. Voice stimuli were 14 monosyllabic French words
recorded in stereo from 3 female and 3 male speakers; there were 42 female and 42 male voice
vi
stimuli. The same words were pronounced by female and male speakers, and there were no
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 8 of 39
repetitions of words by a speaker. The words averaged 300ms in duration, including 10ms rise
and fall times. We purposefully used French words in English speaking subjects to limit the
extent of lexical processing. Voices and faces were randomly associated to form 84 stimuli: 42
were congruent, half of them were female face/female voice and the other male face/male voice,
and 42 were incongruent (i.e., male face/female voice or female face/male voice). Face stimuli
were presented for 300ms in the centre of a computer screen; their onset was synchronised with
the onset of auditory stimuli using Presentation software; inter-stimuli intervals varied randomly
Page 9 of 39
Multimodal face and voice processing
7
between 1300 and 1600 ms. The subjects performed three different gender judgment tasks. 1) The
first task was to indicate with one of two keys whether the stimuli were congruent or incongruent
in terms of gender, i.e. the subjects had to pay attention to both face and voice gender (BOTH).
This task was the hardest, and subjects completed two blocks of 84 stimuli. As this task differed
in terms of response mapping, it was always run first. 2) Attention was directed towards the faces,
i.e. subjects performed a gender discrimination of faces (FACE) while ignoring the voices for 84
trials. 3) In the third task, they performed gender discrimination of the voices (VOICE) while
r
Fo
ignoring the faces for 84 trials. In these two studies, participants pressed one keyboard key for
female and another for male faces or voices. The order of the presentation of these two tasks was
counterbalanced across subjects, as was the response key attribution.
Pe
EEG recording and analysis
er
The ERPs were recorded in a dimly lit sound-proof booth; participants sat 60 cm from a
screen on which stimuli were presented. A fixation cross appeared between presentations and
Re
subjects were asked to look at it and refrain from making eye movements. During the execution
of the tasks, EEG was recorded using an ANT system and a 64 electrode cap, including three
vi
ocular electrodes to monitor vertical and horizontal eye movements. Impedances were kept below
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
5k . The sampling acquisition rate was 1024 Hz. FCz was the reference during acquisition; an
average reference was calculated off-line. Continuous EEG was epoched into 600 ms sweeps
including a 100 ms pre-stimulus baseline. Ocular and muscular artefacts, or trials containing an
amplitude shift greater than 100µV, were rejected from analyses. Epochs were averaged by
condition (6 conditions: congruent/incongruent in the 3 tasks) and filtered using a bandpass filter
between 1-30 Hz. Peak analyses were completed on classical peaks described in the visual, i.e.
P1, N170, P2 and VPP, and the auditory, i.e. N1, VSR (Voice Selective Response – (Levy et al.
2001)), ERP literature. Peak latencies and amplitudes were measured in a ±30 ms time-window
Journal of Neurophysiology
Multimodal face and voice processing
8
centred on the latencies of the peak in the grand average (P1: 105 ms, N170: 155 ms, VPP: 160
ms and P2: 220 ms). P1 and P2 were measured at O1/O2, PO7/PO8, and PO3/PO4. N170 was
measured at PO9/PO10, PO7/PO8, P7/P8 and P9/P10. VPP was measured at FC1/FC2, FC3/FC4,
F1/F2, F3/F4 and C1/C2. Auditory N1 was measured in a ±30 ms time-window centred at 100
ms at FC1/FC2, C1/C2, CP1/CP2 and VSR in a window centred at 350 ms at AF3/AF4, F3/F4
and F1/F2. For each subject, latencies were measured at one time point per hemisphere at the
electrode with the largest amplitude. Amplitudes were taken at this latency at the other selected
r
Fo
electrodes over the hemisphere (Picton et al. 2000).
Unimodal auditory stimuli generally evoke biphasic ERPs, the negative N1, described
above, followed by the auditory P2 in fronto-central regions, a positive wave occurring 200 ms
Pe
after stimulus onset. Auditory P2 has been proposed to index voice processing (Latinus and
er
Taylor submitted; Lattner et al. 2003). Unfortunately, auditory P2 was not apparent in our study,
probably because it was masked by the VPP, which occurred in almost the same latency range
Re
and regions. However, looking at the grand average for each condition, a shoulder was evident on
the descending slope of the VPP around 190 ms (see figure 1 – an example for VOICE
vi
condition). This inflexion on the descending slope of the VPP may reflect an embedded auditory
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 10 of 39
P2. Thus, between 160 and 230 ms, we calculated the first and second derivative of the ERPs for
5 electrodes per hemisphere (F1,F3,FC1,FC3,C1 in the left hemisphere and F2,F4,FC2,FC4,C2 in
the right hemisphere), for each subject and condition. A null second derivative indicated the
presence of an inflexion. We measured the slope of the ERPs between the two points (x1 and x2)
where the second derivative was null (figure 1,
SLOPE(shoulder)
this value by the global descending slope (figure 1,
= (Y2-Y1)/(X2-X1)); we normalized
SLOPE(global)
= (Ymin-Ymax)/(Xmin-Xmax)) of the
VPP around the shoulder (between the maximum of the VPP (figure 1,
Xmax,Ymax)
and the next
minimum (figure 1, Xmin,Ymin)). The strength of the shoulder was defined as the value of the ratio
Page 11 of 39
Multimodal face and voice processing
SLOPE(shoulder)/SLOPE(global);
9
the smaller this ratio, the more evident the shoulder (with negative
ratios indicating the presence of a second peak), whereas ratios tending to 1 indicated the absence
of a shoulder.
Peak latencies and amplitudes were submitted to repeated measures analyses of variance;
within subject factors were attention (3 levels), congruency (2 levels), hemisphere and electrode
for peak amplitudes. Spatio-temporal effects were assessed using a two-way ANOVA with
attention and congruency as inter-subject factors on brain topography at each time point. A
r
Fo
comparison was considered significant if the results of the t-test yielded p < 0.01 for at least 15
consecutive 1ms time-bins and two adjacent electrodes.
Results
er
Pe
Behavioural results
Re
Behavioural data analyses revealed that subjects performed gender categorisation as well
vi
on faces (96.47%) as on voices (95.44%); congruency judgement in the BOTH condition was
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
more difficult (90.05%) reflected by the lower percentage of correct responses (F36,2 = 15.96, p <
0.001). Congruency of the face and voice affected gender categorisation performance only when
subjects attended to the voices – VOICE condition (attention x congruency: F36,2 = 7.92, p =
0.002): incongruent face information impaired gender categorisation of voices (congruent:
97.49%; incongruent: 93.38%) – see figure 2A. Reaction times were influenced by task (F36,2 =
63.09, p < 0.001): they were longer in the BOTH condition, i.e. the congruency judgment took
longer than simple gender categorisation; categorisation itself was longer in the auditory than the
visual modality (Figure 2B).
Congruency affected reaction times regardless of attentional
Journal of Neurophysiology
Multimodal face and voice processing
10
conditions; incongruent stimuli were longer to categorise for all three tasks (F18,1 = 35.89, p <
0.001).
Early effects, P1 and N1 components
Overall, the waveforms had similar morphologies to those observed in face ERP studies.
Spatio-temporal and peak analyses revealed a modulation of brain activity by attention and
congruence at a number of locations and latency ranges. Early differences due to the attentional
r
Fo
condition were observed in central and posterior brain areas (figure 3 – top) around 40 ms. These
early differences across the three attentional conditions were seen in the
spatio-temporal
analyses, with activity in the FACE condition being smaller; activity was more positive in central
Pe
regions to BOTH and, to a lesser extent, VOICE conditions, and in posterior regions, brain
er
activity was most negative to VOICE (figure 3 – bottom). P1 and N1 latencies were not affected
by attention or congruency. P1 amplitude varied with attention as it was larger in the FACE and
Re
BOTH conditions than in the VOICE condition (F36,2 = 8.37, p = 0.001) – figure 4A; N1
amplitude was not affected by attention (figure 4B). P1 was largest at PO7/PO8 regardless of
vi
where attention was directed; however, when attention was directed towards faces in the FACE
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 12 of 39
and BOTH conditions, O1/O2 were the second largest, whereas for the VOICE condition P1
measured at PO7/PO8 and PO3/PO4 were equivalent and superior to P1 measured at O1/O2
(attention x electrodes: F72,4 = 5.25, p = 0.006) (see table1). In other words, the P1 topography
was more occipital in conditions with attention directed to faces.
N170/VPP
N170 latency was modulated by attention (F36,2 = 6.93, p = 0.006); N170 was earlier when
attention was directed towards both faces and voices (BOTH – 147.65 ms) than when it was
Page 13 of 39
Multimodal face and voice processing
11
directed towards faces (FACE – 150.72 ms) or voices (VOICE – 155.13 ms) alone. N170 was
earlier in the right hemisphere (RH – 149.88 ms, LH – 152.45 ms; F18,1 = 5.25, p = 0.034) (Figure
4A). VPP peaked earlier when attention was directed to faces (154.53 ms) and to both faces and
voices (153.03 ms), relative to when attention was directed only towards voices (159.65 ms) (F36,2
= 4.71, p = 0.03) (Figure 5B). N170 and VPP amplitude were not affected by the different
conditions (Figure 5A and B).
Between 135 and 150 ms, spatio-temporal analyses revealed a larger positivity in BOTH
r
Fo
and FACE conditions at central electrodes (Figure 5C). This may reflect the delayed VPP for the
VOICE condition; in this latency range (135-150ms) VPP for BOTH and FACE conditions was
almost at the maximum whereas for the VOICE condition it was still in the ascending slope.
er
Pe
Auditory and Visual P2s, and later effects
On the grand average ERPs a shoulder was observed on the descending slope of the VPP
Re
(figure 1, 4B and 5B). This shoulder appeared to increase in conditions when voice processing
was important, i.e. VOICE and BOTH conditions. Therefore, we hypothesised that it represented
vi
an indicator of the auditory P2 component which was otherwise absent from our ERPs. Statistical
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
analyses of slope ratio value (representing shoulder strength) provided evidence for an interaction
between attention and congruency (F18,2 = 4.52, p = 0.034). The shoulder was more pronounced in
BOTH conditions regardless of congruency, VOICE conditions particularly for congruent stimuli,
and in the FACE incongruent condition.
Congruency affected brain topography between 182 and 206 ms in right fronto-temporal
areas due to incongruent stimuli evoking an overall more positive activity (Figure 5D).
Visual P2 was larger in the right than in the left hemisphere (F18, 1 = 8.54, p = 0.009), but
was not affected by attention or congruency. Hemisphere modulated VSR latency (F18, 1 = 10.4, p
Journal of Neurophysiology
Multimodal face and voice processing
12
= 0.005) and amplitude (F18, 1 = 17.42, p = 0.001), but not attention or congruency; VSR was
earlier and larger in the right hemisphere.
Discussion
This study investigated the influence of top-down and bottom-up processes on multimodal
face/voice interactions. Top-down influences are revealed by the task performed by the subjects;
r
Fo
stimuli were the same in all three tasks, only attentional instructions differed. Differences in the
processing of congruent and incongruent stimuli revealed bottom-up influences, i.e. how stimulus
Pe
characteristics influence the interaction between modalities.
er
Top-down and bottom-up influences on behaviour
Behavioural data showed that directing attention toward one or the other sensory modality
Re
biased the processing of bimodal face/voice stimuli. RTs were longer for gender categorisation
of voices (regardless of congruency), and in accordance with previous reports using ecologically
vi
valid bimodal stimuli, visually based categorisation was faster than auditory based categorisation
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 14 of 39
(De Gelder and Vroomen 2000; Molholm et al. 2004). RTs were longer for incongruent stimuli
regardless of the direction of attention, revealing the automatic processing of multimodal
information, as the ignored modality affected processing in the attended modality (De Gelder and
Vroomen 2000).
Incongruent information modulated face and voice processing differently, however, as
accuracy varied only for the VOICE condition; this suggests asymmetrical interference between
face and voice processing in this paradigm, faces having a higher impact on voice processing than
Page 15 of 39
Multimodal face and voice processing
13
the opposite. Interference effects have been reported in other studies using various paradigms and
stimuli (Joassin et al. 2004; Molholm et al. 2002; Shimojo and Shams 2001). Reddy et al. (2004)
demonstrated that gender categorisation of faces occurs in the near absence of attention, showing
that gender is automatically extracted from faces. In contrast, our results demonstrate that
extracting gender from voices may require more attention. Gender categorisation of voices was
affected by the addition of irrelevant face information, yet the opposite was less true; this
suggests that faces capture attention (Bindemann et al. 2005) and disturb voice processing
r
Fo
whereas voices may not automatically claim attention; thus voice processing interferes less with
the processing of faces.
The hardest task was to evaluate gender from both the face and the voice and to judge
Pe
their congruency, reflected by its lower accuracy and longer RTs. In multimodal studies, a
er
behavioural facilitation is often reported with bimodal stimuli (Fort et al. 2002a; Giard and
Peronnet 1999; Molholm et al. 2002; Schroger and Widmann 1998); however, in tasks involving
Re
identification of a non-redundant target, RTs are generally longer (Fort et al. 2002b). These
longer RTs in non-redundant target identification reflect that these tasks require the extraction of
vi
the relevant information from both modalities. Moreover, in our study, more time was needed, as
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
subjects were not identifying a single target but had to decide on the congruency judgement.
Behavioural results provide evidence of a modulation of the response by both top-down
and bottom-up influences. Incongruent stimuli (those with inconsistent bottom-up information)
delayed multimodal processing, as congruency affected reaction times regardless of attention
instructions. Top-down processes had an impact on multimodal interaction as directed attention to
one and/or the other modality did not modulate behaviour in the same way. It suggests that
directing attention to a specific sensory modality led to a competition in attentional resources.
This competition was particularly evident for the VOICE condition, due to the processing of faces
Journal of Neurophysiology
Multimodal face and voice processing
14
being automatic (Vuilleumier 2000). As face processing appears mandatory, some attentional
resources are automatically allocated to faces, consequently voice processing could not be as
efficient as face processing. Directed attention to both auditory and visual modalities (BOTH
condition) led to a decrement in accuracy and increment in RTs, again likely reflecting
competition between attentional resources.
The ERP pattern, however, regardless of conditions, was very similar to that described in
r
Fo
the face literature (Bentin et al. 1996; Itier and Taylor 2004b; Rossion et al. 2000). This also
suggests that face processing may be more automatic than voice processing, in accordance with
the conclusions from the behavioural data. In addition, there were significant differences between
Pe
ERP signals due to both top-down and bottom-up influences.
er
Modulation of brain activity by top-down processes
Re
Brain activity was modulated according to the different conditions by 40 ms. Directing
attention to one and/or the other modality led to dissimilar topographies in central brain regions,
vi
particularly between the FACE and the other two conditions. Other studies using various
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 16 of 39
paradigms (object recognition, spatial localisation etc.) have reported very early activity to
bimodal stimuli when comparing the response to bimodal stimuli to the sum of responses to
unimodal stimuli (Giard and Peronnet 1999; Molholm et al. 2002; Shams et al. 2001; TederSalejarvi et al. 2002); early multimodal effects were explained either as anticipatory effects
(Teder-Salejarvi et al. 2002) or as recruitment of a novel population of neurons by bimodal
stimuli in the visual cortex (Giard and Peronnet 1999). Here, this early modulation seemed to
reflect top-down processes; subjects had to focus on one or the other modality, and this produced
the early activation of unisensory cortices of the attended modality, reflecting preparatory
Page 17 of 39
Multimodal face and voice processing
15
processes due to top-down influence. For example, in the VOICE condition, the observed brain
topography was similar to the one expected for unimodal voice stimulus, i.e. larger activity in
fronto-central brain regions (see Figure 2 of (Latinus and Taylor submitted)). Similarly, in the
FACE condition, activity to bimodal stimuli was larger in occipital regions. Thus, directed
attention to vision or audition led to a greater activation of modality-specific cortices. When
attention was directed towards both faces and voices (BOTH), an intermediate topography was
observed: attending to both modalities enhanced activity in each sensory cortex, but somewhat
r
Fo
reduced compared single-modality directed attention conditions.
The early visual P1 was larger when attention was directed to faces i.e. in FACE and
BOTH conditions, yet the early auditory N1 amplitude did not show modulation by attention.
Pe
Moreover, P1 topography differed across the conditions; P1 in the FACE and BOTH conditions
er
was maximal over occipital electrodes whereas P1 in the VOICE condition was more parietal.
This suggests that P1 in the condition where attention was directed towards voices reflects
Re
activation of generator(s) different from those involved for face processing (i.e. in FACE and
BOTH condition). The fronto-central N1 recorded in the present study may be the negative
vi
counterpart of the P1 as it is generally observed with visual stimuli; yet, it can also reflect
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
auditory processing (Näätänen and Picton 1987). However, the conditions modulated P1 and N1
in different ways, revealing a probable modulation of the N1/P1 complex in central regions by
auditory processing. If there was no evidence of auditory processing, N1 and P1 should be
modulated similarly across conditions; this was not the case as only P1 varied with task. This
suggests that processing of voice information in the VOICE condition in fact modulated N1
amplitude. Although in some studies bimodal stimuli enhanced the auditory N1 (Pourtois et al.
2000), others have shown that visual stimuli/tasks lead to a deactivation in auditory cortex
resulting in a smaller N1 to bimodal stimuli (Besle et al. 2004; Kawashima et al. 1999).
Journal of Neurophysiology
Multimodal face and voice processing
16
Unimodal studies of auditory processing find that auditory N1 is enhanced to attended auditory
stimuli (Alho et al. 1986). The absence of differences on the N1 across the conditions may reflect
either a deactivation of auditory cortex when attention was directed to faces or a greater
activation of auditory cortex when attention was directed to voices.
N170 and VPP peaked earlier when attention was directed to both faces and voices
(BOTH condition); this may reflect an interaction or facilitation between the unimodal processing
in this condition. N170 and VPP amplitude were not modulated by task, although studies using
r
Fo
non-face stimuli demonstrated a modulation of the visual N1 with bimodal stimuli (Giard and
Peronnet 1999; Molholm et al. 2004). Although this appears inconsistent with our results, there
are numerous studies that distinguish between the N1 and N170, which reflect separable
Pe
processes and are differentially affected by task manipulations. The N170 is a face sensitive
er
component, and studies have shown that N170 is not modulated by attention (e.g., Severac
Cauquil et al. 2000; Vuilleumier 2000); this could explain why in our study the N170 was similar
across conditions.
Re
The auditory P2 was not seen in our experiment, probably because it was hidden by the
vi
presence of the VPP. However, we observed a shoulder in the descending slope of the VPP
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 18 of 39
around the auditory P2 latency (around 180/190 ms (Michalewski et al. 1986)) that may
correspond to processes normally underlying P2 in unimodal conditions, such as voice processing
(Latinus and Taylor submitted; Lattner et al. 2003). Analyses of this shoulder showed that it was
larger in VOICE and BOTH conditions and in FACE condition for incongruent stimuli; a larger
shoulder would imply increased voice processing. Thus, in the FACE experiment a voice was
more effectively ignored when it was congruent but was processed, even if irrelevant for the task,
when carrying incongruent information.
Page 19 of 39
Multimodal face and voice processing
17
Modulation of brain activity by bottom-up processes
Congruency affected brain activity around 190 ms after stimuli onset; incongruent stimuli
evoked a more positive activity than congruent stimuli in right anterior frontal regions. fMRI
studies using bimodal stimuli have shown that the processing of incongruent and congruent
stimuli differed in activation in the inferior frontal gyrus (IFG) and the anterior insula (Amedi et
al. 2005; Callan et al. 2003; Calvert et al. 1999; Calvert et al. 2001), areas thought to be
heteromodal. Activity in these regions decreased for incongruent stimuli (Calvert et al. 2000;
r
Fo
Sestieri et al. 2006). The localisation of the modulation of brain activity by congruency (right
frontal regions) in the present study is compatible with the idea that these differences between
congruent and incongruent stimuli arise from insula or right IFG, and provides a latency (190ms)
Pe
to the previously described effect in the fMRI literature. The inferior frontal gyrus and insula
er
particularly in the left hemisphere are thought to reflect the retrieval and manipulation of
linguistic semantic representations (Poldrack et al. 1999; Wagner 1999). In contrast, these regions
Re
in the right hemisphere may be involved in semantic representation (e.g. gender congruency
judgment between auditory and visual inputs), independent of linguistic information.
ew
vi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
In conclusion, we observed that top-down influences modulate the processing of
multimodal stimuli as early as 40 ms after stimuli onset, yet, this influence depended on the
preferential modality for the task, providing evidence for a visual bias in the case of face/voice
gender categorisation. It is possible that this bias would be reversed when studying speech
perception. Top-down influences modulated the latencies of VPP and N170, which were earlier
when both faces and voices were important for the task (BOTH condition), reflecting a dialogue
between unisensory cortices well before 200 ms. Congruency between face and voice gender
Journal of Neurophysiology
Multimodal face and voice processing
18
affected multimodal processing around 190 ms, suggesting that bottom-up multimodal
interactions for gender processing are relatively late.
r
Fo
er
Pe
ew
vi
Re
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 20 of 39
Page 21 of 39
Multimodal face and voice processing
19
Acknowledgments
Marianne Latinus was supported by la Fondation pour La Recherche Médicale (FRM,
FDT20051206128). We thank Dr. Nancy J. Lobaugh for her generosity in allowing us full access
to her ERP lab, and the help provided with the studies by Dr. Lobaugh and Erin Gibson.
r
Fo
er
Pe
ew
vi
Re
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
Journal of Neurophysiology
Multimodal face and voice processing
20
References
Alain C, Arnott SR, Hevenor S, Graham S, and Grady CL. "What" and "where" in the human
auditory system. Proc Natl Acad Sci U S A 98: 12301-12306, 2001.
Alho K, Sams M, Paavilainen P, and Naatanen R. Small pitch separation and the selectiveattention effect on the ERP. Psychophysiology 23: 189-197, 1986.
Allison T, McCarthy G, Nobre A, Puce A, and Belger A. Human extrastriate visual cortex and
the perception of faces, words, numbers, and colors. Cerebral Cortex 5: 544-554, 1994.
r
Fo
Amedi A, von Kriegstein K, van Atteveldt NM, Beauchamp MS, and Naumer MJ.
Functional imaging of human crossmodal identification and object recognition. Exp Brain Res
166: 559-571, 2005.
Pe
Barrett DJ, and Hall DA. Response preferences for "what" and "where" in human non-primary
er
auditory cortex. Neuroimage 32: 968-977, 2006.
Beauchemin M, De Beaumont L, Vannasing P, Turcotte A, Arcand C, Belin P, and
Re
Lassonde M. Electrophysiological markers of voice familiarity. Eur J Neurosci 23: 3081-3086,
2006.
vi
Bedard C, and Belin P. A "voice inversion effect?" Brain Cogn 55: 247-249, 2004.
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 22 of 39
Belin P, Fecteau S, and Bedard C. Thinking the voice: neural correlates of voice perception.
Trends Cogn Sci 8: 129-135, 2004.
Belin P, and Zatorre RJ. 'What', 'where' and 'how' in auditory cortex. Nat Neurosci 3: 965-966,
2000.
Belin P, Zatorre RJ, and Ahad P. Human temporal-lobe response to vocal sounds. Brain Res
Cogn Brain Res 13: 17-26, 2002.
Page 23 of 39
Multimodal face and voice processing
21
Belin P, Zatorre RJ, Lafaille P, Ahad P, and Pike B. Voice-selective areas in human auditory
cortex. Nature 403: 309-312, 2000.
Bentin S, Allison T, Puce A, Perez E, and Mccarthy G. Electrophysiological Studies of Face
Perception in Humans. Journal of Cognitive Neuroscience 8: 551-565, 1996.
Besle J, Fort A, Delpuech C, and Giard MH. Bimodal speech: early suppressive visual effects
in human auditory cortex. Eur J Neurosci 20: 2225-2234, 2004.
Bindemann M, Burton AM, Hooge IT, Jenkins R, and de Haan EH. Faces retain attention.
r
Fo
Psychon Bull Rev 12: 1048-1053, 2005.
Binder JR, Frost JA, Hammeke TA, Bellgowan PS, Springer JA, Kaufman JN, and Possing
ET. Human temporal lobe activation by speech and nonspeech sounds. Cereb Cortex 10: 512528, 2000.
er
Pe
Bushara KO, Weeks RA, Ishii K, Catalan MJ, Tian B, Rauschecker JP, and Hallett M.
Modality-specific frontal and parietal areas for auditory and visual spatial localization in humans.
Nat Neurosci 2: 759-766, 1999.
Re
Caharel S, Poiroux S, Bernard C, Thibaut F, Lalonde R, and Rebai M. ERPs associated with
vi
familiarity and degree of familiarity during face recognition. Int J Neurosci 112: 1499-1512,
2002.
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
Callan DE, Jones JA, Munhall K, Callan AM, Kroos C, and Vatikiotis-Bateson E. Neural
processes underlying perceptual enhancement by visual speech gestures. Neuroreport 14: 22132218, 2003.
Calvert GA, Brammer MJ, Bullmore ET, Campbell R, Iversen SD, and David AS. Response
amplification in sensory-specific cortices during crossmodal binding. Neuroreport 10: 26192623, 1999.
Journal of Neurophysiology
Multimodal face and voice processing
22
Calvert GA, Campbell R, and Brammer MJ. Evidence from functional magnetic resonance
imaging of crossmodal binding in the human heteromodal cortex. Curr Biol 10: 649-657, 2000.
Calvert GA, Hansen PC, Iversen SD, and Brammer MJ. Detection of audio-visual integration
sites in humans by application of electrophysiological criteria to the BOLD effect. Neuroimage
14: 427-438, 2001.
De Gelder B, and Vroomen J. The perception of emotions by ear and by eye. Cognition and
Emotion 14: 289-311, 2000.
r
Fo
Dolan RJ, Morris JS, and de Gelder B. Crossmodal binding of fear in voice and face. Proc
Natl Acad Sci U S A 98: 10006-10010, 2001.
Eimer M. Crossmodal links in spatial attention between vision, audition, and touch: evidence
Pe
from event-related brain potentials. Neuropsychologia 39: 1292-1303, 2001.
er
Eimer M. Effects of face inversion on the structural encoding and recognition of faces. Evidence
from event-related brain potentials. Brain Res Cogn Brain Res 10: 145-158, 2000.
Re
Fort A, Delpuech C, Pernier J, and Giard MH. Dynamics of cortico-subcortical cross-modal
operations involved in audio-visual object detection in humans. Cereb Cortex 12: 1031-1039,
ew
2002a.
vi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 24 of 39
Fort A, Delpuech C, Pernier J, and Giard MH. Early auditory-visual interactions in human
cortex during nonredundant target identification. Brain Res Cogn Brain Res 14: 20-30, 2002b.
Fort A, and Giard MH. Multi electrophysiological mechanisms of audio-visual integration in
human perception In: The Handbook of Multisensory Processes, edited by Calvert GA, Spence C,
and Stein BE. Cambridge: MIT Press, 2004, p. 503-514.
Gauthier I, Tarr MJ, Anderson AW, Skudlarski P, and Gore JC. Activation of the middle
fusiform 'face area' increases with expertise in recognizing novel objects. Nature Neurosciences
2: 568-573., 1999.
Page 25 of 39
Multimodal face and voice processing
23
George N, Evans J, Fiori N, Davidoff J, and Renault B. Brain events related to normal and
moderately scrambled faces. Cognitive Brain Research 4: 65-76, 1996.
Giard MH, and Peronnet F. Auditory-visual integration during multimodal object recognition
in humans: a behavioral and electrophysiological study. J Cogn Neurosci 11: 473-490, 1999.
Hadjikhani N, and Roland PE. Cross-modal transfer of information between the tactile and the
visual representations in the human brain: A positron emission tomographic study. J Neurosci 18:
1072-1084, 1998.
r
Fo
Halit H, de Haan M, and Johnson MH. Modulation of event-related potentials by prototypical
and atypical faces. Neuroreport 11: 1871-1875, 2000.
Haxby JV, Grady CL, Horwitz B, Ungerleider LG, Mishkin M, Carson RE, Herscovitch P,
Pe
Schapiro MB, and Rapoport SI. Dissociation of object and spatial visual processing pathways
er
in human extrastriate cortex. Proc Natl Acad Sci U S A 88: 1621-1625, 1991.
Holmes A, Vuilleumier P, and Eimer M. The processing of emotional facial expression is gated
Re
by spatial attention: evidence from event-related brain potentials. Brain Res Cogn Brain Res 16:
174-184, 2003.
vi
Imaizumi S, Mori K, Kiritani S, Kawashima R, Sugiura M, Fukuda H, Itoh K, Kato T,
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
Nakamura A, Hatano K, Kojima S, and Nakamura K. Vocal identification of speaker and
emotion activates different brain regions. Neuroreport 8: 2809-2812, 1997.
Itier RJ, Latinus M, and Taylor MJ. Face, eye and object early processing: what is the face
specificity? Neuroimage 29: 667-676, 2006.
Itier RJ, and Taylor MJ. Effects of repetition and configural changes on the development of
face recognition processes. Dev Sci 7: 469-487, 2004a.
Itier RJ, and Taylor MJ. N170 or N1? Spatiotemporal differences between object and face
processing using ERPs. Cereb Cortex 14: 132-142, 2004b.
Journal of Neurophysiology
Multimodal face and voice processing
24
Joassin F, Maurage P, Bruyer R, Crommelinck M, and Campanella S. When audition alters
vision: an event-related potential study of the cross-modal interactions between faces and voices.
Neurosci Lett 369: 132-137, 2004.
Kanwisher N, Tong F, and Nakayama K. The effect of face inversion on the human fusiform
face area. Cognition 68: B1-11, 1998.
Kawashima R, Imaizumi S, Mori K, Okada K, Goto R, Kiritani S, Ogawa A, and Fukuda
H. Selective visual and auditory attention toward utterances-a PET study. Neuroimage 10: 209215, 1999.
r
Fo
Latinus M, and Taylor MJ. Face processing stages: Impact of difficulty and the separation of
effects. Brain Res 1123: 179-187, 2006.
Pe
Latinus M, and Taylor MJ. Faces are easier: Gender categorisation of faces and voices
Neuroimage submitted.
er
Latinus M, and Taylor MJ. Holistic processing of faces: learning effects with Mooney faces. J
Cogn Neurosci 17: 1316-1327, 2005.
Re
Lattner S, Maess B, Wang Y, Schauer M, Alter K, and Friederici AD. Dissociation of human
vi
and computer voices in the brain: evidence for a preattentive gestalt-like perception. Hum Brain
Mapp 20: 13-21, 2003.
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 26 of 39
Levy DA, Granot R, and Bentin S. Neural sensitivity to human voices: ERP evidence of task
and attentional influences. Psychophysiology 40: 291-305, 2003.
Levy DA, Granot R, and Bentin S. Processing specificity for human voice stimuli:
electrophysiological evidence. Neuroreport 12: 2653-2657, 2001.
Linkenkaer-Hansen K, Palva JM, Sams M, Hietanen JK, Aronen HJ, and Ilmoniemi RJ.
Face-selective processing in human extrastriate cortex around 120 ms after stimulus onset
revealed by magneto- and electroencephalography. Neuroscience Letters 253: 147-150, 1998.
Page 27 of 39
Multimodal face and voice processing
25
MacLeod A, and Summerfield Q. Quantifying the contribution of vision to speech perception in
noise. Br J Audiol 21: 131-141, 1987.
Maurer D, Grand RL, and Mondloch CJ. The many faces of configural processing. Trends
Cogn Sci 6: 255-260, 2002.
McGurk H, and MacDonald J. Hearing lips and seeing voices. Nature 264: 746-748, 1976.
Michalewski HJ, Prasher DK, and Starr A. Latency variability and temporal interrelationships
of the auditory event-related potentials (N1, P2, N2, and P3) in normal subjects.
r
Fo
Electroencephalogr Clin Neurophysiol 65: 59-71, 1986.
Mishkin M, Ungerleider LG, and Macko KA. Object vision and spatial vision: two cortical
pathways. Trends Neurosci 6: 414-417, 1983.
Pe
Molholm S, Ritter W, Javitt DC, and Foxe JJ. Multisensory visual-auditory object recognition
er
in humans: a high-density electrical mapping study. Cereb Cortex 14: 452-465, 2004.
Molholm S, Ritter W, Murray MM, Javitt DC, Schroeder CE, and Foxe JJ. Multisensory
Re
auditory-visual interactions during early sensory processing in humans: a high-density electrical
mapping study. Brain Res Cogn Brain Res 14: 115-128, 2002.
Y,
Giard
MH,
Bentin
S,
Aguera
PE,
ew
Mouchetant-Rostaing
vi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
and
Pernier
J.
Neurophysiological correlates of face gender processing in humans. Eur J Neurosci 12: 303-310,
2000.
Näätänen R, and Picton T. The N1 wave of the human electric and magnetic response to sound:
a review and an analysis of the component structure. Psychophysiology 24: 375-425, 1987.
Picton TW, Bentin S, Berg P, Donchin E, Hillyard SA, Johnson R, Jr., Miller GA, Ritter W,
Ruchkin DS, Rugg MD, and Taylor MJ. Guidelines for using human event-related potentials to
study cognition: recording standards and publication criteria. Psychophysiology 37: 127-152,
2000.
Journal of Neurophysiology
Multimodal face and voice processing
26
Poldrack RA, Wagner AD, Prull MW, Desmond JE, Glover GH, and Gabrieli JD.
Functional specialization for semantic and phonological processing in the left inferior prefrontal
cortex. Neuroimage 10: 15-35, 1999.
Pourtois G, de Gelder B, Bol A, and Crommelinck M. Perception of facial expressions and
voices and of their combination in the human brain. Cortex 41: 49-59, 2005.
Pourtois G, de Gelder B, Vroomen J, Rossion B, and Crommelinck M. The time-course of
intermodal binding between seeing and hearing affective information. Neuroreport 11: 13291333, 2000.
r
Fo
Puce A, Allison T, Gore JC, and McCarthy G. Face-sensitive regions in human extrastriate
cortex studied by functional MRI. J Neurophysiol 74: 1192-1199, 1995.
Pe
Puce A, Allison T, and McCarthy G. Electrophysiological studies of human face perception.
er
III: Effects of top-down processing on face-specific potentials. Cereb Cortex 9: 445-458, 1999.
Rauschecker JP, and Tian B. Mechanisms and streams for processing of "what" and "where" in
Re
auditory cortex. Proc Natl Acad Sci U S A 97: 11800-11806, 2000.
Reddy L, Wilken P, and Koch C. Face-gender discrimination is possible in the near-absence of
ew
attention. J Vis 4: 106-117, 2004.
vi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 28 of 39
Rossion B, Campanella S, Gomez CM, Delinte A, Debatisse D, Liard L, Dubois S, Bruyer R,
Crommelinck M, and Guerit JM. Task modulation of brain activity related to familiar and
unfamiliar face processing: an ERP study. Clin Neurophysiol 110: 449-462, 1999a.
Rossion B, Delvenne JF, Debatisse D, Goffaux V, Bruyer R, Crommelinck M, and Guerit
JM. Spatio-temporal localization of the face inversion effect: an event-related potentials study.
Biol Psychol 50: 173-189, 1999b.
Rossion B, and Gauthier I. How does the brain process upright and inverted faces? Behav and
Cogn Neuroscience Rev 1: 62-74, 2002.
Page 29 of 39
Multimodal face and voice processing
27
Rossion B, Gauthier I, Tarr MJ, Despland P, Bruyer R, Linotte S, and Crommelinck M.
The N170 occipito-temporal component is delayed and enhanced to inverted faces but not to
inverted objects: an electrophysiological account of face-specific processes in the human brain.
Neuroreport 11: 69-74, 2000.
Schroger E, and Widmann A. Speeded responses to audiovisual signal changes result from
bimodal integration. Psychophysiology 35: 755-759, 1998.
Schweinberger SR. Human brain potential correlates of voice priming and voice recognition.
r
Fo
Neuropsychologia 39: 921-936, 2001.
Scott SK, Blank CC, Rosen S, and Wise RJ. Identification of a pathway for intelligible speech
in the left temporal lobe. Brain 123 Pt 12: 2400-2406, 2000.
Pe
Sestieri C, Di Matteo R, Ferretti A, Del Gratta C, Caulo M, Tartaro A, Olivetti Belardinelli
er
M, and Romani GL. "What" versus "where" in the audiovisual domain: an fMRI study.
Neuroimage 33: 672-680, 2006.
Re
Severac Cauquil A, Edmonds GE, and Taylor MJ. Is the face-sensitive N170 the only ERP not
affected by selective attention? Neuroreport 11: 2167-2171, 2000.
vi
Shams L, Kamitani Y, Thompson S, and Shimojo S. Sound alters visual evoked potentials in
humans. Neuroreport 12: 3849-3852, 2001.
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
Shimojo S, and Shams L. Sensory modalities are not separate modalities: plasticity and
interactions. Curr Opin Neurobiol 11: 505-509, 2001.
Stein BE, and Meredith MA. The merging of the senses. Cambridge, MA, USA: MIT Press,
1993.
Talsma D, and Woldorff MG. Selective attention and multisensory integration: multiple phases
of effects on the evoked brain activity. J Cogn Neurosci 17: 1098-1114, 2005.
Journal of Neurophysiology
Multimodal face and voice processing
28
Tanaka JW. The entry point of face recognition: evidence for face expertise. J Exp Psychol Gen
130: 534-543, 2001.
Taylor MJ. Non-spatial attentional effects on P1. Clin Neurophysiol 113: 1903-1908, 2002.
Teder-Salejarvi WA, McDonald JJ, Di Russo F, and Hillyard SA. An analysis of audio-visual
crossmodal integration by means of event-related potential (ERP) recordings. Brain Res Cogn
Brain Res 14: 106-114, 2002.
Ungerleider LG, and Haxby JV. 'What' and 'where' in the human brain. Curr Opin Neurobiol 4:
157-165, 1994.
r
Fo
von Kriegstein K, Eger E, Kleinschmidt A, and Giraud AL. Modulation of neural responses to
speech by directing attention to voices or verbal content. Brain Res Cogn Brain Res 17: 48-55,
2003.
er
Pe
Vuilleumier P. Faces call for attention: evidence from patients with visual extinction.
Neuropsychologia 38: 693-700, 2000.
Re
Wagner AD. Working memory contributions to human learning and remembering. Neuron 22:
19-22, 1999.
vi
Yin RK. Looking at upside-down faces. Journal of Experimental Psychology 81: 141-145, 1969.
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 30 of 39
Zatorre RJ, Evans AC, Meyer E, and Gjedde A. Lateralization of phonetic and pitch
discrimination in speech processing. Science 256: 846-849, 1992.
Page 31 of 39
Multimodal face and voice processing
29
Figure Captions
Figure 1: Illustration of the measures used to evaluate the strength of the shoulder on the
descending slope of the VPP. We measured the second derivative throughout the ERP; a null
second derivative (i.e. an inflexion point) between 160 (latency of VPP) and 220 ms revealed the
presence of a shoulder. A first zero-crossing of the second derivative (coordinates:
X1, Y1),
was
followed by a second zero-crossing (X2, Y2). The strength of the shoulder was assessed using the
r
Fo
ERP slope between these two points (SLOPE(shoulder) = (Y2- Y1)/(X2 - X1), which was then normalized
by the global slope of the descending ramp of VPP, between the VPP maximum
the
next
minimum
Xmin,
Pe
Ymin
:
SLOPE(global)
=
Xmax, Ymax
(Ymin-Ymax)/(Xmin-Xmax).
The
and
ratio
(SLOPE(shoulder)/SLOPE(global)) reflects the strength of the shoulder; the smaller this ratio, the more
er
pronounced the shoulder. Ratio values tending to 1 indicated an absence of shoulder.
Re
Figure 2: A. Accuracy for the different conditions. B. Reaction times. Responses to congruent
stimuli are in dark and to incongruent stimuli in gray. * p < 0.001 between congruent and
vi
incongruent stimuli in the same attentional task. ¤ p < 0.001 in comparisons across attentional
tasks regardless of congruency.
ew
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
Figure 3: Early brain activity was modulated by attention. Top: map of the F-values for the factor
attention at 40 ms; significant threshold (p = 0.01) is indicated by the arrow. Bottom: map for
each condition left to right: FACE, VOICE, BOTH.
Journal of Neurophysiology
Multimodal face and voice processing
30
Figure 4: Grand average ERPs for the three tasks. A. ERPs at PO7 (left) and PO8 (right) for the
congruent stimuli in each attentional task. FACE: dark gray, VOICE: clear gray, BOTH: black.
B. ERPs at FC1 (left) and FC2 (right) illustrating auditory N1, VPP and the shoulder (likely
reflecting the auditory P2) for congruent stimuli in the different conditions.
Figure 5: N170 (A) at PO9 and VPP (B) at C2 for the 6 conditions. In green: VOICE task, in red:
FACE task, in black: BOTH task. Dark coloured traces: congruent stimuli, lighter coloured
r
Fo
traces: incongruent stimuli. C. Effects of attention around 140 ms; the two-way ANOVA was
significant in central regions; bottom: map of the F-values, significant threshold (p = 0.01) is
indicated by the arrow. D. Modulation of brain activity by congruency around 190 ms; on the
Pe
right, topographic map of the significant F-values between congruent and incongruent stimuli;
er
bottom: map of the F-values, significant threshold (p = 0.01) is indicated by the arrow
ew
vi
Re
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 32 of 39
Page 33 of 39
Multimodal face and voice processing
31
Table 1: P1 amplitude as a function of electrode in the different attentional paradigms.
Electrodes
To Voices (µV)
To Faces (µV)
To Both (µV)
O1/O2
4.827 ± .643
6.018 ± .754
5.431 ± .808
PO3/PO4
5.223 ± .614
5.667 ± .697
4.992 ± .720
PO7/PO8
5.349 ± .642
6.999 ± .559
6.251 ± .723
r
Fo
er
Pe
ew
vi
Re
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
Journal of Neurophysiology
Multimodal face and voice processing
r
Fo
er
Pe
ew
vi
Re
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 34 of 39
32
Page 35 of 39
r
Fo
er
Pe
ew
vi
Re
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
Journal of Neurophysiology
r
Fo
er
Pe
ew
vi
Re
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 36 of 39
Page 37 of 39
r
Fo
er
Pe
ew
vi
Re
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
Journal of Neurophysiology
r
Fo
er
Pe
ew
vi
Re
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Page 38 of 39
Page 39 of 39
r
Fo
er
Pe
ew
vi
Re
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Journal of Neurophysiology
314
5. Discussion
Cette étude révèle une interaction entre le traitement du visage et celui de la voix.
Dans mes études unimodales, la catégorisation du genre des visages et des voix est effectuée
respectivement avec des temps de réaction de 550 ms et 700 ms (Latinus & Taylor, soumis) ;
avec les stimuli bimodaux congruents, les TR pour la catégorisation du genre sont de 600 et
750 ms lorsque l’attention des sujets est dirigée respectivement vers les visages et les voix.
Ces différences ne sont pas significatives. Ainsi, ces résultats révèlent que la présentation
simultanée d’une information congruente n’a pas d’impact sur les temps de réaction des
sujets. Au contraire, si l’information est incongruente, le traitement du genre est ralenti quelle
que soit la modalité sur laquelle est dirigée l’attention (638 et 790 ms pour les visages et les
voix respectivement). Ces résultats confirment l’automaticité des interactions bimodales (De
Gelder & Vroomen, 2000). Au niveau des pourcentages de réponses correctes, la voix
n’influence pas la perception du genre du visage. Le genre du visage paraît donc être traité
automatiquement, sans que l’attention soit explicitement dirigée vers le visage. Cette
observation est en accord avec une étude, utilisant un paradigme de tâche double, montrant
que la discrimination du genre des visages peut se faire en quasi absence d’attention (Reddy
et al., 2004). Au contraire, le traitement de la voix ne paraît pas automatique ; il est en effet
nettement influençable par la présentation simultanée d’un visage. Ces résultats mettent en
évidence que, lorsqu’il s’agit de percevoir le genre d’un individu, les informations visuelles
dominent les informations auditives ; dans cette tâche tous les sujets répondent d’ailleurs plus
rapidement lorsqu’il s’agit de discriminer le genre du visage.
Au niveau électrophysiologique, le pattern des potentiels évoqués est similaire à celui
enregistré quand des visages sont présentés seuls. Cette observation confirme le traitement
automatique des visages, et démontre la quasi impossibilité d’inhiber un tel traitement. Mes
données permettent également de montrer que les effets précoces observés sont liés à
l’attention des sujets. L’attention dirigée vers les visages conduit à une topographie qui serait
similaire à celle observée dans les études unimodales de la perception des visages. Au
contraire, diriger l’attention vers la voix induit une activité cérébrale plus représentative d’un
traitement auditif. Lorsque la tâche est de juger de la congruence de la voix et du visage, la
topographie est similaire à celle évoquée dans la tâche requérant la catégorisation du genre de
la voix. Lorsque les sujets doivent déterminer la congruence des deux informations, le
traitement des informations visuelles et auditives est nécessaire mais le traitement de
l’information auditive est favorisé parce qu’il s’agit de la modalité non dominante. Cette
315
hypothèse serait en accord avec les résultats observés dans les études de Giard & Perronnet
(1999) et Fort et al. (2000a) qui montrent que l’activité augmente dans les cortex sensoriels
primaires de la modalité non dominante. L’attention des sujets module également l’activité
cérébrale à la latence du complexe P1 visuelle/ N1 auditive. La P1 est plus ample lorsque
l’attention des sujets est dirigée vers le visage que lorsqu’elle est dirigée vers la voix ; la N1,
elle, n’est pas modulée par l’attention des sujets. Ce résultat pourrait traduire une « volonté »
d’inhiber les traitements visuels lorsque les sujets doivent catégoriser le genre de la voix ;
inhibition qui ne serait pas très efficace, la P1 étant malgré tout plus ample. Ces différents
résultats suggèrent que les modulations précoces observées dans les études ayant exploré la
multimodalité pourraient refléter des influences descendantes. Par exemple, dans l’étude de
Giard & Perronnet (1999), les sujets n’ont pas de consignes spécifiques sur la modalité
attendue, néanmoins, les informations visuelles et auditives sont redondantes, et ils peuvent
avoir « décidé » de fixer leur attention sur leur modalité dominante. Ainsi les sujets auditifs,
pour lesquels le traitement auditif est plus facile, amplifieraient les traitements dans le cortex
visuel et vice versa.
Les stimuli congruents et incongruents induisent une activité différente sur les
électrodes fronto-temporales droites, 190 ms après la stimulation. Ce résultat est en accord
avec les observations décrites dans l’équipe de MH Giard (Fort et al., 2002a, b; Giard &
Peronnet, 1999). Cependant, ces auteurs suggèrent que cette activité traduit la simple
détection de stimuli bimodaux ; or, dans mes études, elle distingue les stimuli congruents des
stimuli incongruents. Ainsi, l’intégration d’informations en provenance de nos différents sens
pourrait avoir lieu à cette latence. La localisation de cette activité sur les électrodes frontotemporales suggère que la source de cette activité pourrait être l’insula (Fort et al., 2002a, b).
L’hypothèse de la localisation de la source de cette activité dans l’insula ou le gyrus frontal
inférieur est soutenue par les études en IRMf montrant que ces régions présentent une activité
différente pour les stimuli congruents et incongruents (Calvert et al., 2000). Dans
l’hémisphère gauche, l’insula et le gyrus frontal inférieur sont considérés comme étant
impliqués dans la manipulation des représentations linguistiques sémantiques (Sestieri et al.,
2006). Dans l’hémisphère droit, ces régions pourraient être impliquées dans l’association
sémantique de stimuli multisensoriels non langagiers.
Cette étude a montré que les interactions entre modalités sont asymétriques.
L’asymétrie entre modalités, c’est à dire la dominance sensorielle, n’avait pour l’instant été
démontrée que dans des tâches demandant un traitement des aspects temporels ou spatiaux
316
d’une stimulation. Mon étude montre qu’une asymétrie existe également dans la perception
des « objets ». L’existence d’une asymétrie entre la perception des visages et des voix suggère
également que le traitement des visages et des voix est différent : les visages paraissent être
traités de façon plus automatique que les voix. Cependant, cette asymétrie pourrait résulter
des caractéristiques propres aux stimuli visuels et auditifs. Dans mon étude, les visages sont
statiques et les stimuli auditifs sont, par définition, dynamiques. L’information visuelle est
donc disponible immédiatement, alors que l’information auditive n’est disponible qu’au fur et
à mesure de la présentation du stimulus. L’asymétrie, et donc la dominance sensorielle,
pourrait résulter de la quantité d’informations disponibles à la présentation du stimulus. Cette
différence dans les quantités d’informations disponibles est néanmoins inhérente à la
multimodalité, les caractéristiques temporelles des informations visuelles et auditives n’étant
pas les mêmes.
Mon étude met également en évidence le rôle primordial de l’attention dans les
interactions multimodales (attention dirigée vers une modalité particulière) ; l’attention
semble responsable des effets précoces de la bimodalité. Les interactions bimodales, à
proprement parler, c’est à dire celles conduisant à la perception d’une congruence (ou d’une
incongruence), semblent prendre place plus tardivement, autour de 190 ms.
317
318
Après-propos
Dans les pages précédentes, nous avons exploré le traitement des visages et des voix
ainsi que les interactions entre ces traitements. La voix est le pendant auditif du visage ; ils
véhiculent tous deux des informations sur les personnes etc. Mes études tendent à démontrer
que, bien que la voix et le visage véhiculent le même type d’informations, la perception des
voix n’est pas tout à fait similaire à celle des visages. Je suppose que cette différence vient de
l’utilisation courante faite de ces deux stimuli : les visages servent, en premier lieu, à
l’identification de nos interlocuteurs, alors que la voix est primordiale dans la communication
orale. L’utilisation différente que nous faisons des informations issues du visage et de la voix
pourrait conduire à ce que les traitements automatiques qu’ils mettent en jeu ne soient pas
dédiés à l’extraction des mêmes informations.
Mes études sur la perception des visages m’ont permis d’explorer le décours temporel
du traitement des visages, de leur détection à leur identification. La perception d’un visage
commence, comme celle de tout autre stimulus visuel, par l’extraction des informations de
bas niveau : luminance, contraste, orientation… ces informations parviennent au cortex visuel
en 40 à 50 ms, d’après les enregistrements chez le macaque (Celebrini et al., 1993). Les
différentes études que j’ai réalisées sur le traitement des visages m’ont permis de proposer un
modèle de la reconnaissance des visages mettant en jeu les trois étapes décrites par Maurer et
al. (2002). Ce modèle est présenté en détail dans la discussion de la première partie ; les
grandes lignes en sont rappelées ci dessous. La première étape du traitement des visages, qui
pourrait commencer dès 100 ms après la stimulation, est l’extraction de la configuration de
premier ordre, c’est à dire la configuration générique du visage ; le visage est alors détecté,
mais pas reconnu. A la suite de l’extraction de la configuration de premier ordre, le traitement
holistique est mis en œuvre ; les informations sur les liens spatiaux unissant les différents
élements, et les informations de plus bas niveau (texture, couleur etc.), sont intégrées dans une
représentation du visage perçu. Ce pattern est ensuite comparé aux gestalts stockés en
mémoire. Si une correspondance est trouvée entre le pattern construit et un des gestalts
stockés, l’accès aux informations biographiques est rendu possible ; dans une étape ultérieure,
le nom sera accessible. Au contraire, si la comparaison s’avère nulle, les relations spatiales
entre les éléments sont extraites du gestalt via le traitement configural de second ordre ;
commence alors l’encodage de ce nouveau visage. Après plusieurs expositions à ce nouveau
319
visage, une représentation sera construite et stockée en mémoire où elle sera associée à des
informations biographiques.
En plus de l’identité, le visage véhicule des informations sur le genre. Dans les
modèles existant, la perception du genre a été considérée comme basée sur des informations
visuelles d’assez bas niveau, et donc négligée (Bruce & Young, 1986). En utilisant des
visages normaux, j’ai montré que la discrimination du genre a lieu quasi simultanément au
traitement holistique dans des régions frontales. Le traitement du genre semble prendre place
en parallèle du traitement de l’identité. Le genre est un élement important extrait d’un visage ;
il est donc nécessaire de l’intégrer au modèle de la reconnaissance des visages.
Le traitement de la voix commence, lui aussi, par l’extraction d’informations bas
niveau telles que les différentes fréquences du son. Par la suite, des informations de plus haut
niveau vont être extraites lors de l’analyse structurelle de la voix ; ces informations peuvent
être les transitions formantiques, la dynamique temporelle du son etc. Le genre de la voix est
reconnu en partie grâce à des informations bas niveau ; de nombreuse études montrent en effet
que la hauteur de la voix est l’élément fondamental de la reconnaissance du genre (Andrews
& Schmidt, 1997; Mullennix et al., 1995). Mon étude montre, cependant, que la fréquence
fondamentale n’est pas nécessaire à la perception du genre ; en effet, même lorsque la hauteur
de la voix n’est plus un indice pertinent, les sujets discriminent les voix d’hommes et de
femmes à un niveau bien supérieur à celui de la chance. D’autres informations sont donc
utilisées dans la reconnaissance du genre de la voix, informations qui ne sont pas modifiées
lorsque la voix est forcée vers le grave ou l’aigu ; une de ces informations pourrait être la
dynamique temporelle de la voix (Andrews & Schmidt, 1997). Ainsi, dans les modèles de
perception de la voix, il est également indispensable de décrire la perception du genre.
Mes études sur la perception du genre de la voix et du visage mettent en évidence une
différence au niveau des temps de réaction des sujets, mais également au niveau de l’activité
cérébrale sous-tendant le traitement du genre. Il semble donc que la perception des visages et
des voix ne fonctionne pas de façon tout à fait similaire ; les TR sont bien plus courts pour les
visages. Un modèle comparatif du traitement visuel et auditif du genre devra tenir compte de
ces différences.
Cette asymétrie entre traitement des visages et traitement des voix est également
apparente dans la reconnaissance du genre sur les stimuli bimodaux ; le genre du visage
influence plus la reconnaissance du genre de la voix que l’inverse. Même si cette différence
320
pourrait être liée au fait que les visages présentés sont des images statiques et que les voix
sont des stimuli dynamiques (voir discussion à la suite de la partie « voix »), il n’empêche que
dans des conditions réelles, les informations visuelles sur le genre d’un individu sont
disponibles immédiatement ce qui n’est pas le cas des informations auditives. Cette
observation suggère donc une différence entre le poids des modalités sensorielles en fonction
de la nature des stimuli, mais également de la tâche à réaliser sur ces stimuli. Cette différence
est également à prendre en compte dans les modèles de la perception des voix et des visages.
En résumé, les modèles existant aujourd’hui proposent une similarité entre traitement
des visages et traitement des voix. Ils ne tiennent cependant pas compte du traitement du
genre, et de l’importance relative des informations véhiculées par le visage ou la voix. Le rôle
primordial de la voix est de véhiculer le langage ; les temps de réaction des sujets sont
d’ailleurs plus courts lorsqu’ils jugent le contenu sémantique d’une voix que lorsqu’ils
doivent identifier le locuteur (von Kriegstein et al., 2003). Au contraire, le traitement des
visages est orienté vers la perception de l’identité. De telles différences entre les informations
principalement extraites de ces stimulus supposent que les systèmes auditif et visuel vont être
orientés de façon à optimiser les traitements les plus courants. La spécialisation des systèmes
sensoriels pour le traitement de certaines informations peut conduire à ce que le traitement des
voix et des visages soit différent et donc, induire une asymétrie des interactions bimodales. Je
propose donc un modèle de la reconnaissance des visages et des voix qui intègre les différents
résultats recueillis au cour de ma thèse (Figure 43).
321
Figure 43. Modèle de la reconnaissance des voix et des visages adapté de Belin et al. 2004 et
Bruce & Young (1986).Dans ce modèle, le traitement des visages est symbolisé en rouge, le
traitement des voix en bleu. L'épaisseur des flèches détermine les informations prioritaires
extraites du stimulus. Dans les boites, les photos illustrent les prototypes stockés en mémoire (Issu
de Schyns et al. (2002)). Les fleches violettes indiquent les interactions intermodales, et la
dominance sensorielle. Le trait en pointillé représente une séparation entre les processus qui ont
fait l'objet de cette thèse (au dessus du trait) et ceux qui n'ont pas été directement testés (en
dessous).
322
Ce modèle résume les conclusions tirées de mes études ; il propose également de
nouvelles hypothèses qui n’ont pas été testées. La reconnaissance des voix et des visages a
lieu en parallèle ; ces deux voies peuvent néanmoins interagir. Ce modèle part de l’hypothèse
selon laquelle les traitements effectués sur un stimulus seront optimisés pour leur utilisation la
plus courante : la perception des informations jouant un rôle dans la communication non
verbale – l’identité, le genre, les émotions – pour les visages, la perception du langage pour la
voix.
La perception des visages
Précédemment, nous avons vu que la reconnaissance du visage s’effectue en plusieurs
étapes ; deux étapes sont nécessaires à la construction d’une représentation globale du visage.
Cette représentation est ensuite comparée aux gestalts stockés en mémoire ; la reconnaissance
a lieu lorsque la représentation correspond à un gestalt existant (Figure 43). En parallèle de
l’extraction de l’identité du visage, d’autres traitements peuvent avoir lieu : perception du
genre, des émotions, du langage via la lecture labiale.
La représentation extraite du visage va également être comparée à des gestalts du
genre, et de l’émotion. En effet, il a été montré que la perception du genre du visage est un
processus catégoriel, suggérant l’existence de prototypes féminin et masculin (Campanella et
al., 2001). De plus, la perception du genre est perturbée sur des visages chimériques contenant
pour moitié un visage d’homme et pour l’autre un visage de femme, démontrant qu’elle
dépend en partie du traitement holistique (Baudouin & Humphreys, 2006). Il est également
admis que la reconnaissance du genre est basée sur les caractéristiques de certains éléments
du visage, révélant l’importance des éléments du visage (Roberts & Bruce, 1988; Yamaguchi
et al., 1995). Ces différentes données suggèrent que les représentations prototypiques du
genre du visage passent par une représentation globale dont certains éléments seront
accentués, par exemple, la longueur des cheveux, la forme des yeux etc. ; les informations
spatiales seront, au contraire, négligées. Ainsi, le genre serait reconnu via une comparaison
entre le pattern extrait et les gestalts du « genre » stockés en mémoire. La reconnaissance du
genre serait donc plus rapide que la reconnaissance de l’individu, car elle ne nécessite pas que
la représentation extraite du visage soit complète ; elle ne sera par ailleurs comparée qu’à
deux gestalts existants. Ainsi, la reconnaissance du genre pourrait avoir lieu peu après le
commencement du traitement holistique. De la même façon, un certain nombre de gestalts
émotionnels pourraient exister, qui présenteraient également une accentuation de certains
traits, notamment la bouche ou les yeux selon l’émotion. L’hypothèse de l’existence de
323
gestalts particuliers, dans lesquels certains éléments sont plus marqués que d’autres, pour les
émotions et la perception du genre est appuyée par les études de Schyns et ses collaborateurs
(2001, 2002, 2006). Ils ont développé une technique, la technique des « bulles », qui permet
de révéler quels sont les éléments d’un visage les plus déterminants pour l’identification, la
reconnaissance du genre ou de l’expression émotionnelle. Les résultats révèlent que
l’identification d’un visage nécessite une représentation complète de la configuration du
visage. Au contraire, la perception du genre requiert moins d’informations ; elle passe
essentiellement par la bouche et les yeux. Le pattern émotionnel présente une accentuation au
niveau de la bouche (par exemple pour juger la joie ou la surprise) ou des yeux (pour juger la
peur ou la colère) (Figure 43, photos dans les boîtes) (Gosselin & Schyns, 2001; Schyns et
al., 2002; Sowden & Schyns, 2006). La reconnaissance du genre et des émotions semble donc
mettre en jeu le traitement configural et une partie du traitement holistique, afin de construire
un gestalt qui sera comparé aux prototypes stockés en mémoire, dans lesquels certains traits
caractéristiques sont accentués. Ces différents traitements du visage seraient effectués en
parallèle, par des réseaux cérébraux distincts. Bien qu’elles ne soient pas représentées dans
mon modèle, il existe également des interactions intramodales entre les différentes voies de
traitement. Ceci est, par exemple, démontré dans les études révélant une facilitation dans la
perception du genre pour les visages familiers (Dubois et al., 1999), ce qui suggère qu’il
pourrait y avoir interaction entre les traitements de l’identité et du genre.
La lecture labiale serait également effectuée en parallèle de l’extraction du genre, de
l’émotion ou de l’identité du visage. Pour la lecture labiale, la bouche seule suffit à décoder
les informations ; le traitement holistique n’est pas forcément nécessaire, même s’il a
probablement lieu en condition normale. La compréhension du langage ne passe que très peu
par les informations visuelles ; la capacité des sujets à lire sur les lèvres est en effet très faible.
Dans ce domaine, le système auditif prévaut sur le système visuel. Ainsi, la lecture labiale
n’est pas une opération primordiale effectuée sur le visage ; je suppose donc que les
traitements sous-tendant la lecture labiale sont différents de ceux permettant la reconnaissance
de l’identité, du genre ou des émotions. Il est également important de noter que la lecture
labiale, contrairement à la reconnaissance de l’identité et du genre, est un processus
dynamique ; cette différence peut également avoir des conséquences sur les traitements mis en
jeu. Il serait nécessaire d’approfondir les recherches sur la perception du discours via la
lecture labiale, afin de comprendre quelles informations sont nécessaires à la lecture labiale, et
si elle passe ou non par le traitement holistique du visage.
324
La perception des voix
La voix est particulièrement importante pour la communication verbale ; son rôle est
avant tout de véhiculer le langage articulé. Je suggère donc que l’analyse structurelle de la
voix est orientée vers l’extraction d’une structure permettant la perception du discours et non
vers la perception des informations paralinguistiques. Sous l’hypothèse d’une similarité entre
traitement des visages et traitement des voix, on peut penser que, suite à l’analyse structurelle,
un prototype vocal va être extrait dont les informations principales permettraient la perception
du langage. Les informations linguistiques portées par la voix sont traitées dans une voie
principale et parallèle aux autres. Le propotype vocal issu de l’analyse structurelle
contiendrait également les informations nécessaires à la reconnaissance de la voix telles que
les informations spectrales, et temporelles ainsi que celles sur les transitions formantiques.
Des différences minimes dans ce schéma commun détermineraient l’unicité de la voix.
De nombreuses études montrent par ailleurs que la reconnaissance de la voix, la
perception du genre et la perception des émotions vocales reposent sur des informations bas
niveau telles que la fréquence fondamentale ou les fréquences des formants. Néanmoins, il est
démontré que la reconnaissance du genre de la voix est un processus catégoriel (Belin et al.,
2006; Charest et al., 2005; Chartrand et al., 2005), suggérant donc l’existence de prototypes
vocaux représentant le genre de la voix. Ces observations suggèrent une organisation de la
perception des voix similaire à celle des visages, dans la perception des informations
paralinguistiques, même si elles ne sont pas les informations principales extraites de la voix.
Le prototype construit à partir de la voix perçue, dont la création est influencée par les
informations linguistiques, sera comparé à des gestalts stockés en mémoire dont certains
éléments seraient accentués. Dans la cas de la perception du genre de la voix, les éléments
marqués seraient la fréquence fondamentale et la dynamique temporelle. Nous avons, en effet,
vu précédemment que ces deux informations sont importantes dans la perception du genre
(Andrews & Schmidt, 1997; Murry & Singh, 1980).
En parallèle du traitement du genre, une voie pourrait être impliquée dans la
reconnaissance de l’identité, mettant en jeu des gestalts stockés en mémoire dont d’autres
informations seraient accentuées. Suite à la reconnaissance, la voix serait associée à des
informations biographiques sur le locuteur dans des modules de reconnaissance de la
personne supramodaux. Nous sommes également capables d’inférer les émotions exprimées
par un individu à partir de sa voix. Les informations vocales résident dans la fréquence
fondamentale de la voix mais également dans la prosodie : la dynamique temporelle du son.
325
Les voix exprimant la tristesse sont en général plus graves et plus lentes que les voix
exprimant la joie (De Gelder & Vroomen, 2000). Le prototype vocal émotionnel contiendrait
donc une combinaison d’informations spectrales et temporelles.
En résumé, l’analyse structurelle de la voix pourrait permettre la construction d’un
prototype axée sur le traitement des informations linguistiques. Ce prototype contiendrait
également les informations nécessaires à l’extraction des informations paralinguistiques de la
voix. C’est pourquoi dans ce modèle, je propose que les informations comparées aux gestalts
soient issues de l’analyse structurelle de la voix. Par ailleurs, il est important de mentionner
que ces voies interagissent ; le genre détermine, par exemple, les informations qui vont être
utilisées pour la reconnaissance du locuteur. L’articulation du langage influence également de
façon notoire la reconnaissance de la voix. Les connaissances accumulées ces dernières
années améliorent notre compréhension des processus cérébraux sous-tendant la perception
des voix ; néanmoins, des études supplémentaires seraient nécessaires afin de comprendre
quels mécanismes sous-tendent l’étape fondamentale de l’analyse structurelle de la voix.
Interaction entre la perception des visages et celle des voix
Les résultats de mes études unimodales et bimodales mettent en évidence une
asymétrie entre le traitement du genre de la voix et du visage. L’information portée par le
visage paraît avoir plus de poids que celle portée par la voix. A partir de cette observation, je
propose que l’asymétrie entre voix et visage résulte de la spécialisation des systèmes auditif et
visuel dans les traitements de la voix et du visage.
Le système auditif est spécialisé dans l’analyse du langage ; il serait donc la modalité
dominante dans la compréhension du langage. Néanmoins, l’existence de l’effet McGurk
montre que les informations visuelles influencent également la compréhension des
informations auditives. A ma connaissance, l’effet McGurk n’est observé que lorsque les
sujets portent leur attention sur les informations labiales ; ainsi, cela suggère que l’influence
de la voix sur le visage dans le domaine de la parole pourrait être automatique, alors que
l’inverse dépendrait d’une orientation « volontaire » vers le visage. Une autre hypothèse qui
pourrait expliquer que les informations visuelles influencent la perception auditive serait que
dans le cas du langage, les informations visuelles et auditives sont disponibles en même
temps ; ceci pourrait justifier la reciprocité entre les interactions bimodales. Cette hypothèse
est soutenue par les études montrant que lorsque la dynamique temporelle du mouvement des
lèvres ne coincide par avec celle de la voix, l’effet McGurk est aboli (Munhall et al., 1996).
326
Le système visuel est, quant à lui, spécialisé dans la reconnaissance de l’identité ; je
suppose donc que, dans ce cas, les informations visuelles vont avoir un rôle plus important
dans la reconnaissance d’un individu. Les interactions multimodales seront donc en premier
lieu gouvernées par les informations visuelles.
En ce qui concerne la reconnaissance des émotions, il serait interessant d’étudier
l’influence de la bimodalité en utilisant des visages dynamiques. En effet, les observations
précédentes, à savoir l’influence du visage dans la perception du genre ou de l’identité,
peuvent être la conséquence du moment auquel les informations sont disponibles : les
informations visuelles sont disponibles immédiatement, ce qui n’est pas le cas des
informations auditives. Dans le domaine émotionnel, bien qu’un visage émotionnel puisse
être statique, la génération d’une expression faciale est en général un phénomène dynamique.
Ainsi, comme dans le langage, les informations visuelles et auditives varient au cours du
temps, et sont en général disponibles au même moment.
Ce modèle est issu de l’analyse des données recuillies au cours de ma thèse. Il suggère
des similarités entre traitement de la voix et traitement du visage, mais également une
différence importante liée aux opérations effectuées en priorité sur ces deux stimuli. Le
modèle illustre également les interactions entre les traitements engagés par les visages et les
voix. Mes données ont révélé que la perception bimodale du genre est asymétrique. Deux
hypothèses peuvent expliquer cette différence : l’occurrence des informations et la dominance
sensorielle à proprement parler. Il est difficile de séparer ces deux facteurs en étudiant la
reconnaissance de l’identité ou la perception du genre. Néanmoins, l’étude des émotions et du
langage sur des stimuli bimodaux dynamiques pourrait permettre de séparer ces deux facteurs.
En effet, les informations linguistiques et émotionnelles sont dynamiques et ainsi, elles seront
disponibles quasi simultanément dans les deux systèmes sensoriels. Les résultats d’une telle
étude permettraient de révéler si la disponibilité des informations détermine la dominance
sensorielle, ou si c’est l’importance relative des traitements effectués dans chaque modalité
qui influence la dominance sensorielle.
327
328
Références
Aguirre, G. K., Singh, R., D'Esposito, M., (1999). Stimulus inversion and the responses of
face and object-sensitive cortical areas. Neuroreport. 10, 189-94.
Aguirre, G. K., Zarahn, E., D'Esposito, M., (1998). An area within human ventral cortex
sensitive to "building" stimuli: evidence and implications. Neuron. 21, 373-83.
Alain, C., Arnott, S. R., Hevenor, S., Graham, S., Grady, C. L., (2001). "What" and "where"
in the human auditory system. Proc Natl Acad Sci U S A. 98, 12301-6.
Alho, K., Sams, M., Paavilainen, P., Naatanen, R., (1986). Small pitch separation and the
selective-attention effect on the ERP. Psychophysiology. 23, 189-97.
Alho, K., Teder, W., Lavikainen, J., Naatanen, R., (1994). Strongly focused attention and
auditory event-related potentials. Biol Psychol. 38, 73-90.
Allison, T., McCarthy, G., Nobre, A., Puce, A., Belger, A., (1994). Human extrastriate visual
cortex and the perception of faces, words, numbers, and colors. Cerebral Cortex. 5,
544-554.
Allison, T., Puce, A., McCarthy, G., (2000). Social perception from visual cues: role of the
STS region. Trends Cogn Sci. 4, 267-278.
Allison, T., Puce, A., Spencer, D. D., McCarthy, G., (1999). Electrophysiological studies of
human face perception. I: Potentials generated in occipitotemporal cortex by face and
non-face stimuli. Cerebral Cortex. 9, 415-30.
Amedi, A., von Kriegstein, K., van Atteveldt, N. M., Beauchamp, M. S., Naumer, M. J.,
(2005). Functional imaging of human crossmodal identification and object
recognition. Exp Brain Res. 166, 559-71.
Andersen, T. S., Tiippana, K., Sams, M., (2004). Factors influencing audiovisual fission and
fusion illusions. Brain Res Cogn Brain Res. 21, 301-8.
Andrews, M. L., Schmidt, C. P., (1997). Gender presentation: perceptual and acoustical
analyses of voice. J Voice. 11, 307-13.
Anllo-Vento, L., Luck, S. J., Hillyard, S. A., (1998). Spatio-temporal dynamics of attention to
color: evidence from human electrophysiology. Hum Brain Mapp. 6, 216-38.
Aschersleben, G., Bertelson, P., (2003). Temporal ventriloquism: crossmodal interaction on
the time dimension. 2. Evidence from sensorimotor synchronization. Int J
Psychophysiol. 50, 157-63.
Bacon-Macé, N. M., Temporal constraints of visual processing in a categorisation task of
natural scenes (French thesis). Centre de recherche cerveau et cogition. Université
Paul Sabatier, Toulouse, 2006, pp. 189.
Baron-Cohen, S., Harrison, J., Goldstein, L. H., Wyke, M., (1993). Coloured speech
perception: is synaesthesia what happens when modularity breaks down? Perception.
22, 419-26.
Barrett, D. J., Hall, D. A., (2006). Response preferences for "what" and "where" in human
non-primary auditory cortex. Neuroimage. 32, 968-77.
Bartlett, J. C., Searcy, J., (1993). Inversion and configuration of faces. Cognit Psychol. 25,
281-316.
Bartlett, J. C., Searcy, J. H., Abdi, H., What are the routes to face recognition? In: M. A.
Peterson, G. Rhodes, Eds., Perception of faces objects and scene. vol. Oxford
University Press, 2003, pp. 21-53.
329
Barton, J. J., Keenan, J. P., Bass, T., (2001). Discrimination of spatial relations and features in
faces: effects of inversion and viewing duration. Br J Psychol. 92, 527-49.
Barton, R. A., (2006). Animal communication: do dolphins have names? Curr Biol. 16, R5989.
Batty, M., Delaux, S., Taylor, M. J., Early neurophysiological effects in the explicit and
implicit processing of facial emotions. The social brain, Götberg, Sweden, 2003.
Baudouin, J. Y., Humphreys, G. W., (2006). Configural information in gender categorisation.
Perception. 35, 531-40.
Bayle, D., Latinus, M., Bohler, K., Deltheil, T., Taylor, M. J., (Soumis). Early processing
differences between learned and famous faces. Brain and Cognition.
Beauchamp, M. S., Lee, K. E., Argall, B. D., Martin, A., (2004). Integration of auditory and
visual information about objects in superior temporal sulcus. Neuron. 41, 809-23.
Beauchemin, M., De Beaumont, L., Vannasing, P., Turcotte, A., Arcand, C., Belin, P.,
Lassonde, M., (2006). Electrophysiological markers of voice familiarity. Eur J
Neurosci. 23, 3081-6.
Bedard, C., Belin, P., (2004). A "voice inversion effect?" Brain Cogn. 55, 247-9.
Bee, M. A., Gerhardt, H. C., (2002). Individual voice recognition in a territorial frog (Rana
catesbeiana). Proc Biol Sci. 269, 1443-8.
Belin, P., Fecteau, S., Bedard, C., (2004). Thinking the voice: neural correlates of voice
perception. Trends Cogn Sci. 8, 129-35.
Belin, P., Pernet, C., Chartrand, J. P., The cerebral representation of voice gender. Auditory
Cortex, Grantham, UK, 2006.
Belin, P., Zatorre, R. J., (2000). 'What', 'where' and 'how' in auditory cortex. Nat Neurosci. 3,
965-6.
Belin, P., Zatorre, R. J., (2003). Adaptation to speaker's voice in right anterior temporal lobe.
Neuroreport. 14, 2105-9.
Belin, P., Zatorre, R. J., Ahad, P., (2002). Human temporal-lobe response to vocal sounds.
Brain Res Cogn Brain Res. 13, 17-26.
Belin, P., Zatorre, R. J., Lafaille, P., Ahad, P., Pike, B., (2000). Voice-selective areas in
human auditory cortex. Nature. 403, 309-12.
Belin, P., Zilbovicius, M., Crozier, S., Thivard, L., Fontaine, A., Masure, M. C., Samson, Y.,
(1998). Lateralization of speech and auditory temporal processing. J Cogn Neurosci.
10, 536-40.
Bentin, S., Allison, T., Puce, A., Perez, E., Mccarthy, G., (1996). Electrophysiological Studies
of Face Perception in Humans. Journal of Cognitive Neuroscience. 8, 551-565.
Bentin, S., Deouell, L., (2000). Structural encoding and face identification in face processing:
ERP evidence for separate mechanisms. Journal of Cognitive Neuropsychology. 17,
35-54.
Bentin, S., Golland, Y., (2002). Meaningful processing of meaningless stimuli: the influence
of perceptual experience on early visual processing of faces. Cognition. 86, B1-14.
Bertelson, P., Aschersleben, G., (2003). Temporal ventriloquism: crossmodal interaction on
the time dimension. 1. Evidence from auditory-visual temporal order judgment. Int J
Psychophysiol. 50, 147-55.
Bertelson, P., Radeau, M., (1981). Cross-modal bias and perceptual fusion with auditoryvisual spatial discordance. Percept Psychophys. 29, 578-84.
Bertelson, P., Vroomen, J., de Gelder, B., Driver, J., (2000). The ventriloquist effect does not
depend on the direction of deliberate visual attention. Percept Psychophys. 62, 321-32.
Besle, J., Fort, A., Delpuech, C., Giard, M. H., (2004). Bimodal speech: early suppressive
visual effects in human auditory cortex. Eur J Neurosci. 20, 2225-34.
330
Binder, J. R., Frost, J. A., Hammeke, T. A., Cox, R. W., Rao, S. M., Prieto, T., (1997).
Human brain language areas identified by functional magnetic resonance imaging. J
Neurosci. 17, 353-62.
Binder, J. R., Frost, J. A., Hammeke, T. A., Rao, S. M., Cox, R. W., (1996). Function of the
left planum temporale in auditory and linguistic processing. Brain. 119 ( Pt 4), 123947.
Bodamer, J., (1947). Die-Prosop-agnosie. Arch Psychiat Nerv 179, 6-54.
Botzel, K., Schulze, S., Stodieck, S. R., (1995). Scalp topography and analysis of intracranial
sources of face-evoked potentials. Experimental Brain Research. 104, 135-43.
Boutsen, L., Humphreys, G. W., (2003). The effect of inversion on the encoding of normal
and "thatcherized" faces. Q J Exp Psychol A. 56, 955-75.
Boutsen, L., Humphreys, G. W., Praamstra, P., Warbrick, T., (2006). Comparing neural
correlates of configural processing in faces and objects: an ERP study of the Thatcher
illusion. Neuroimage. 32, 352-67.
Bremmer, F., Schlack, A., Shah, N. J., Zafiris, O., Kubischik, M., Hoffmann, K., Zilles, K.,
Fink, G. R., (2001). Polymodal motion processing in posterior parietal and premotor
cortex: a human fMRI study strongly implies equivalencies between humans and
monkeys. Neuron. 29, 287-96.
Bruce, V., Burton, A. M., Hanna, E., Healey, P., Mason, O., Coombes, A., Fright, R., Linney,
A., (1993). Sex discrimination: how do we tell the difference between male and
female faces? Perception. 22, 131-52.
Bruce, V., Ellis, H., Gibling, F., Young, A., (1987). Parallel processing of the sex and
familiarity of faces. Can J Psychol. 41, 510-20.
Bruce, V., Langton, S., (1994). The use of pigmentation and shading information in
recognising the sex and identities of faces. Perception. 23, 803-22.
Bruce, V., Young, A., (1986). Understanding face recognition. Br J Psychol. 77 ( Pt 3), 30527.
Brunetti, M., Belardinelli, P., Caulo, M., Del Gratta, C., Della Penna, S., Ferretti, A., Lucci,
G., Moretti, A., Pizzella, V., Tartaro, A., Torquati, K., Olivetti Belardinelli, M.,
Romani, G. L., (2005). Human brain activation during passive listening to sounds
from different locations: an fMRI and MEG study. Hum Brain Mapp. 26, 251-61.
Bushara, K. O., Grafman, J., Hallett, M., (2001). Neural correlates of auditory-visual stimulus
onset asynchrony detection. J Neurosci. 21, 300-4.
Bushara, K. O., Hanakawa, T., Immisch, I., Toma, K., Kansaku, K., Hallett, M., (2003).
Neural correlates of cross-modal binding. Nat Neurosci. 6, 190-5.
Bushara, K. O., Weeks, R. A., Ishii, K., Catalan, M. J., Tian, B., Rauschecker, J. P., Hallett,
M., (1999). Modality-specific frontal and parietal areas for auditory and visual spatial
localization in humans. Nat Neurosci. 2, 759-66.
Caharel, S., Courtay, N., Bernard, C., Lalonde, R., Rebai, M., (2005). Familiarity and
emotional expression influence an early stage of face processing: an
electrophysiological study. Brain Cogn. 59, 96-100.
Caharel, S., Fiori, N., Bernard, C., Lalonde, R., Rebai, M., (2006). The effects of inversion
and eye displacements of familiar and unknown faces on early and late-stage ERPs.
Int J Psychophysiol. 62, 141-51.
Caharel, S., Poiroux, S., Bernard, C., Thibaut, F., Lalonde, R., Rebai, M., (2002). ERPs
associated with familiarity and degree of familiarity during face recognition. Int J
Neurosci. 112, 1499-512.
Caldara, R., Thut, G., Servoir, P., Michel, C. M., Bovet, P., Renault, B., (2003). Face versus
non-face object perception and the 'other-race' effect: a spatio-temporal event-related
potential study. Clin Neurophysiol. 114, 515-28.
331
Callan, D. E., Jones, J. A., Munhall, K., Callan, A. M., Kroos, C., Vatikiotis-Bateson, E.,
(2003). Neural processes underlying perceptual enhancement by visual speech
gestures. Neuroreport. 14, 2213-8.
Calvert, G. A., (2001). Crossmodal processing in the human brain: insights from functional
neuroimaging studies. Cereb Cortex. 11, 1110-23.
Calvert, G. A., Brammer, M. J., Bullmore, E. T., Campbell, R., Iversen, S. D., David, A. S.,
(1999). Response amplification in sensory-specific cortices during crossmodal
binding. Neuroreport. 10, 2619-23.
Calvert, G. A., Brammer, M. J., Iversen, S. D., (1998). Crossmodal identification. Trends
Cogn Sci. 2, 247-253.
Calvert, G. A., Campbell, R., Brammer, M. J., (2000). Evidence from functional magnetic
resonance imaging of crossmodal binding in the human heteromodal cortex. Curr
Biol. 10, 649-57.
Calvert, G. A., Hansen, P. C., Iversen, S. D., Brammer, M. J., (2001). Detection of audiovisual integration sites in humans by application of electrophysiological criteria to the
BOLD effect. Neuroimage. 14, 427-38.
Calvert, G. A., Thesen, T., (2004). Multisensory integration: methodological approaches and
emerging principles in the human brain. J Physiol Paris. 98, 191-205.
Campanella, S., Chrysochoos, A., Bruyer, R., (2001). Categorical perception of facial gender
information : Behavioural evidence and the face-space metaphor. Visual Cognition. 8,
237-262.
Campanella, S., Hanoteau, C., Depy, D., Rossion, B., Bruyer, R., Crommelinck, M., Guerit, J.
M., (2000). Right N170 modulation in a face discrimination task: an account for
categorical perception of familiar faces. Psychophysiology. 37, 796-806.
Campanella, S., Quinet, P., Bruyer, R., Crommelinck, M., Guerit, J. M., (2002). Categorical
perception of happiness and fear facial expressions: an ERP study. J Cogn Neurosci.
14, 210-27.
Cappe, C., Barone, P., (2005). Heteromodal connections supporting multisensory integration
at low levels of cortical processing in the monkey. Eur J Neurosci. 22, 2886-902.
Carmel, D., Bentin, S., (2002). Domain specificity versus expertise: factors influencing
distinct processing of faces. Cognition. 83, 1-29.
Celebrini, S., Thorpe, S., Trotter, Y., Imbert, M., (1993). Dynamics of orientation coding in
area V1 of the awake primate. Vis Neurosci. 10, 811-25.
Chao, L. L., Martin, A., Haxby, J. V., (1999). Are face-responsive regions selective only for
faces? Neuroreport. 10, 2945-50.
Charest, I., Pelletier, I., Fillion-Bilodeau, S., Belizaire, G., Chartrand, J. P., Pinard, C.,
Bertrand-Gauvin, C., Belin, P., Neural correlates of voice gender perception: an eventrelated fMRI study. Human Brain Mapping. The Organisation for Human Brain
Mapping, Toronto, Ontario, Canada, 2005.
Chartrand, J. P., Pinard, C., Fillion-Bilodeau, S., Bertrand-Gauvin, C., Belin, P., The effect of
‘genderness’ on STS voice selective activation., Human Brain Mapping. The
organisation for Human Brain Mapping, Toronto, Ontario, Canada, 2005.
Clark, V. P., Keil, K., Maisog, J. M., Courtney, S., Ungerleider, L. G., Haxby, J. V., (1996).
Functional magnetic resonance imaging of human visual cortex during face matching:
a comparison with positron emission tomography. Neuroimage. 4, 1-15.
Cohen, L., (2004). L'homme thermomètre. Le cerveau en pièce détachée, vol. Odile Jacob
Sciences, Paris.
Crottaz-Herbette, S., Ragot, R., (2000). Perception of complex sounds: N1 latency codes pitch
and topography codes spectra. Clin Neurophysiol. 111, 1759-66.
332
Curran, T., Tanaka, J. W., Weiskopf, D. M., (2002). An electrophysiological comparison of
visual categorization and recognition memory. Cogn Affect Behav Neurosci. 2, 1-18.
Cytowic, (1995). Synesthesia: phenomenology and neuropsychology. A review of current
knowledge. Psyche. 2.
de Gelder, B., Bocker, K. B., Tuomainen, J., Hensen, M., Vroomen, J., (1999). The combined
perception of emotion from voice and face: early interaction revealed by human
electric brain responses. Neurosci Lett. 260, 133-6.
de Gelder, B., Morris, J. S., Dolan, R. J., (2005). Unconscious fear influences emotional
awareness of faces and voices. Proc Natl Acad Sci U S A. 102, 18682-7.
De Gelder, B., Vroomen, J., (2000). The perception of emotions by ear and by eye. Cognition
and Emotion. 14, 289-311.
Desimone, R., Albright, T. D., Gross, C. G., Bruce, C., (1984). Stimulus-selective properties
of inferior temporal neurons in the macaque. J Neurosci. 4, 2051-62.
Di Russo, F., Martinez, A., Sereno, M. I., Pitzalis, S., Hillyard, S. A., (2002). Cortical sources
of the early components of the visual evoked potential. Hum Brain Mapp. 15, 95-111.
Diamond, R., Carey, S., (1986). Why faces are and are not special: an effect of expertise.
Journal of Experimental Psychology : General. 115, 107-117.
Dolan, R. J., Fink, G. R., Rolls, E., Booth, M., Holmes, A., Frackowiak, R. S., Friston, K. J.,
(1997). How the brain learns to see objects and faces in an impoverished context.
Nature. 389, 596-9.
Dolan, R. J., Morris, J. S., de Gelder, B., (2001). Crossmodal binding of fear in voice and
face. Proc Natl Acad Sci U S A. 98, 10006-10.
Downar, J., Crawley, A. P., Mikulis, D. J., Davis, K. D., (2000). A multimodal cortical
network for the detection of changes in the sensory environment. Nat Neurosci. 3,
277-83.
Driver, J., (1996). Enhancement of selective listening by illusory mislocation of speech
sounds due to lip-reading. Nature. 381, 66-8.
Driver, J., Spence, C., (1998). Cross-modal links in spatial attention. Philos Trans R Soc Lond
B Biol Sci. 353, 1319-31.
Dubois, S., Rossion, B., Schiltz, C., Bodart, J. M., Michel, C., Bruyer, R., Crommelinck, M.,
(1999). Effect of familiarity on the processing of human faces. Neuroimage. 9, 27889.
Dyer, A. G., Neumeyer, C., Chittka, L., (2005). Honeybee (Apis mellifera) vision can
discriminate between and recognise images of human faces. J Exp Biol. 208, 4709-14.
Edwards, R., Xiao, D., Keysers, C., Foldiak, P., Perrett, D., (2003). Color sensitivity of cells
responsive to complex stimuli in the temporal cortex. J Neurophysiol. 90, 1245-56.
Eimer, M., (1998). Does the face-specific N170 component reflect the activity of a specialized
eye processor? Neuroreport. 9, 2945-8.
Eimer, M., (2000a). Effects of face inversion on the structural encoding and recognition of
faces. Evidence from event-related brain potentials. Brain Res Cogn Brain Res. 10,
145-58.
Eimer, M., (2000b). Event-related brain potentials distinguish processing stages involved in
face perception and recognition. Clin Neurophysiol. 111, 694-705.
Eimer, M., (2000c). The face-specific N170 component reflects late stages in the structural
encoding of faces. Neuroreport. 11, 2319-24.
Eimer, M., (2001). Crossmodal links in spatial attention between vision, audition, and touch:
evidence from event-related brain potentials. Neuropsychologia. 39, 1292-303.
Eimer, M., Driver, J., (2001). Crossmodal links in endogenous and exogenous spatial
attention: evidence from event-related brain potential studies. Neurosci Biobehav Rev.
25, 497-511.
333
Elangovan, S., Cranfordt, J. L., Walker, L., Stuart, A., (2005). A comparison of the mismatch
negativity and a differential waveform response. Int J Audiol. 44, 637-46.
Epstein, R., Harris, A., Stanley, D., Kanwisher, N., (1999). The parahippocampal place area:
recognition, navigation, or encoding? Neuron. 23, 115-25.
Epstein, R., Kanwisher, N., (1998). A cortical representation of the local visual environment.
Nature. 392, 598-601.
Epstein, R. A., Higgins, J. S., Parker, W., Aguirre, G. K., Cooperman, S., (2006). Cortical
correlates of face and scene inversion: a comparison. Neuropsychologia. 44, 1145-58.
Ethofer, T., Anders, S., Erb, M., Droll, C., Royen, L., Saur, R., Reiterer, S., Grodd, W.,
Wildgruber, D., (2006). Impact of voice on emotional judgment of faces: an eventrelated fMRI study. Hum Brain Mapp. 27, 707-14.
Ettlinger, G., Wilson, W. A., (1990). Cross-modal performance: behavioural processes,
phylogenetic considerations and neural mechanisms. Behav Brain Res. 40, 169-92.
Falchier, A., Clavagnier, S., Barone, P., Kennedy, H., (2002). Anatomical evidence of
multimodal integration in primate striate cortex. J Neurosci. 22, 5749-59.
Fantz, R. L., Miranda, S. B., (1975). Newborn infant attention to form of contour. Child Dev.
46, 224-8.
Farah, M. J., (1996). Is face recognition 'special'? Evidence from neuropsychology. Behav
Brain Res. 76, 181-9.
Farah, M. J., Levinson, K. L., Klein, K. L., (1995). Face perception and within-category
discrimination in prosopagnosia. Neuropsychologia. 33, 661-74.
Farah, M. J., Tanaka, J. W., Drain, H. M., (1995). What causes the face inversion effect?
Journal of Experimental Psychology: Human Perception & Performance. 21, 628-34.
Farah, M. J., Wilson, K. D., Drain, H. M., Tanaka, J. R., (1995). The inverted face inversion
effect in prosopagnosia: evidence for mandatory, face-specific perceptual
mechanisms. Vision Res. 35, 2089-93.
Farah, M. J., Wilson, K. D., Drain, M., Tanaka, J. N., (1998). What is "special" about face
perception? Psychol Rev. 105, 482-98.
Fecteau, S., Armony, J. L., Joanette, Y., Belin, P., (2004a). Is voice processing speciesspecific in human auditory cortex? An fMRI study. Neuroimage. 23, 840-8.
Fecteau, S., Armony, J. L., Joanette, Y., Belin, P., (2004b). Priming of non-speech
vocalizations in male adults: the influence of the speaker's gender. Brain Cogn. 55,
300-2.
Fecteau, S., Armony, J. L., Joanette, Y., Belin, P., (2005). Sensitivity to voice in human
prefrontal cortex. J Neurophysiol. 94, 2251-4.
Fendrich, R., Corballis, P. M., (2001). The temporal cross-capture of audition and vision.
Percept Psychophys. 63, 719-25.
Forster, B., Cavina-Pratesi, C., Aglioti, S. M., Berlucchi, G., (2002). Redundant target effect
and intersensory facilitation from visual-tactile interactions in simple reaction time.
Exp Brain Res. 143, 480-7.
Fort, A., Delpuech, C., Pernier, J., Giard, M. H., (2002a). Dynamics of cortico-subcortical
cross-modal operations involved in audio-visual object detection in humans. Cereb
Cortex. 12, 1031-9.
Fort, A., Delpuech, C., Pernier, J., Giard, M. H., (2002b). Early auditory-visual interactions in
human cortex during nonredundant target identification. Brain Res Cogn Brain Res.
14, 20-30.
Fort, A., Giard, M. H., Multi electrophysiological mechanisms of audio-visual integration in
human perception In: G. A. Calvert, et al., Eds., The Handbook of Multisensory
Processes. vol. MIT Press, Cambridge, 2004, pp. 503-514.
334
Frassinetti, F., Bolognini, N., Ladavas, E., (2002). Enhancement of visual perception by
crossmodal visuo-auditory interaction. Exp Brain Res. 147, 332-43.
Freire, A., Lee, K., Symons, L. A., (2000). The face-inversion effect as a deficit in the
encoding of configural information: direct evidence. Perception. 29, 159-70.
Frens, M. A., Van Opstal, A. J., Van der Willigen, R. F., (1995). Spatial and temporal factors
determine auditory-visual interactions in human saccadic eye movements. Percept
Psychophys. 57, 802-16.
Fu, Q. J., Chinchilla, S., Galvin, J. J., (2004). The role of spectral and temporal cues in voice
gender discrimination by normal-hearing listeners and cochlear implant users. J Assoc
Res Otolaryngol. 5, 253-60.
Fujita, I., Tanaka, K., Ito, M., Cheng, K., (1992). Columns for visual features of objects in
monkey inferotemporal cortex. Nature. 360, 343-6.
Furey, M. L., Tanskanen, T., Beauchamp, M. S., Avikainen, S., Uutela, K., Hari, R., Haxby,
J. V., (2006). Dissociation of face-selective cortical responses by attention. Proc Natl
Acad Sci U S A. 103, 1065-70.
Gauthier, I., Anderson, A. W., Tarr, M. J., Skudlarski, P., Gore, J. C., (1997). Levels of
categorization in visual recognition studied using functional magnetic resonance
imaging. Curr Biol. 7, 645-51.
Gauthier, I., Curran, T., Curby, K. M., Collins, D., (2003). Perceptual interference supports a
non-modular account of face processing. Nat Neurosci. 6, 428-32.
Gauthier, I., Skudlarski, P., Gore, J., Anderson, A., (2000). Expertise for cars and birds recuits
brain areas involved in face recognition. Nature Neurosciences. 3, 191-197.
Gauthier, I., Tarr, M. J., (1997). Becoming a "Greeble" expert: exploring mechanisms for face
recognition. Vision Res. 37, 1673-82.
Gauthier, I., Tarr, M. J., (2002). Unraveling mechanisms for expert object recognition:
bridging brain activity and behavior. J Exp Psychol Hum Percept Perform. 28, 431-46.
Gauthier, I., Tarr, M. J., Anderson, A. W., Skudlarski, P., Gore, J. C., (1999). Activation of
the middle fusiform 'face area' increases with expertise in recognizing novel objects.
Nature Neurosciences. 2, 568-73.
Gauthier, I., Tarr, M. J., Moylan, J., Skudlarski, P., Gore, J. C., Anderson, A. W., (2000). The
fusiform "face area" is part of a network that processes faces at the individual level. J
Cogn Neurosci. 12, 495-504.
George, N., Dolan, R. J., Fink, G. R., Baylis, G. C., Russell, C., Driver, J., (1999). Contrast
polarity and face recognition in the human fusiform gyrus. Nat Neurosci. 2, 574-80.
George, N., Evans, J., Fiori, N., Davidoff, J., Renault, B., (1996). Brain events related to
normal and moderately scrambled faces. Cognitive Brain Research. 4, 65-76.
George, N., Jemel, B., Fiori, N., Chaby, L., Renault, B., (2005). Electrophysiological
correlates of facial decision: insights from upright and upside-down Mooney-face
perception. Brain Res Cogn Brain Res. 24, 663-73.
George, N., Jemel, B., Fiori, N., Renault, B., (1997). Face and shape repetitions effects in
humans: a spatio-temporal ERP study. Neuroreport. 8, 1417-1423.
Ghazanfar, A. A., Smith-Rohrberg, D., Hauser, M. D., (2001). The role of temporal cues in
rhesus monkey vocal recognition: orienting asymmetries to reversed calls. Brain
Behav Evol. 58, 163-72.
Giard, M. H., Peronnet, F., (1999). Auditory-visual integration during multimodal object
recognition in humans: a behavioral and electrophysiological study. J Cogn Neurosci.
11, 473-90.
Giard, M. H., Perrin, F., Echallier, J. F., Thevenet, M., Froment, J. C., Pernier, J., (1994).
Dissociation of temporal and frontal components in the human auditory N1 wave: a
335
scalp current density and dipole model analysis. Electroencephalogr Clin
Neurophysiol. 92, 238-52.
Giard, M. H., Perrin, F., Pernier, J., Peronnet, F., (1988). Several attention-related wave forms
in auditory areas: a topographic study. Electroencephalogr Clin Neurophysiol. 69,
371-84.
Gifford, G. W., 3rd, MacLean, K. A., Hauser, M. D., Cohen, Y. E., (2005). The
neurophysiology of functionally meaningful categories: macaque ventrolateral
prefrontal cortex plays a critical role in spontaneous categorization of species-specific
vocalizations. J Cogn Neurosci. 17, 1471-82.
Giray, M., Ulrich, R., (1993). Motor coactivation revealed by response force in divided and
focused attention. J Exp Psychol Hum Percept Perform. 19, 1278-91.
Gobbini, M. I., Haxby, J. V., (2006). Neural response to the visual familiarity of faces. Brain
Res Bull. 71, 76-82.
Gochin, P. M., (1996). The representation of shape in the temporal lobe. Behav Brain Res. 76,
99-116.
Goffaux, V., Gauthier, I., Rossion, B., (2003). Spatial scale contribution to early visual
differences between face and object processing. Cognitive Brain Research. 16, 416424.
Goffaux, V., Hault, B., Michel, C., Vuong, Q. C., Rossion, B., (2005). The respective role of
low and high spatial frequencies in supporting configural and featural processing of
faces. Perception. 34, 77-86.
Goffaux, V., Jemel, B., Jacques, C., Rossion, B., Schyns, P. G., (2003). ERPs evidence for
task modulations on face perceptual processing at different spatial scales. Cognitive
Science. 27, 313-325.
Goffaux, V., Rossion, B., (2006). Faces are "spatial"--holistic face perception is supported by
low spatial frequencies. J Exp Psychol Hum Percept Perform. 32, 1023-39.
Goren, C. C., Sarty, M., Wu, P. Y. K., (1975). Visual following and pattern discrimination of
face-like stimuli by newborn infants. Pediatrics. 56, 544-549.
Goshen-Gottstein, Y., Ganel, T., (2000). Repetition priming for familiar and unfamiliar faces
in a sex-judgment task: evidence for a common route for the processing of sex and
identity. J Exp Psychol Learn Mem Cogn. 26, 1198-214.
Gosselin, F., Schyns, P. G., (2001). Bubbles: a technique to reveal the use of information in
recognition tasks. Vision Res. 41, 2261-71.
Grill-Spector, K., Knouf, N., Kanwisher, N., (2004). The fusiform face area subserves face
perception, not generic within-category identification. Nat Neurosci. 7, 555-62.
Grill-Spector, K., Kushnir, T., Edelman, S., Avidan, G., Itzchak, Y., Malach, R., (1999).
Differential processing of objects under various viewing conditions in the human
lateral occipital complex. Neuron. 24, 187-203.
Grill-Spector, K., Sayres, R., Ress, D., (2006). High-resolution imaging reveals highly
selective nonface clusters in the fusiform face area. Nat Neurosci. 9, 1177-85.
Gross, C. G., Rocha-Miranda, C. E., Bender, D. B., (1972). Visual properties of neurons in
inferotemporal cortex of the Macaque. J Neurophysiol. 35, 96-111.
Grossenbacher, P. G., Lovelace, C. T., (2001). Mechanisms of synesthesia: cognitive and
physiological constraints. Trends Cogn Sci. 5, 36-41.
Hackett, T. A., Preuss, T. M., Kaas, J. H., (2001). Architectonic identification of the core
region in auditory cortex of macaques, chimpanzees, and humans. J Comp Neurol.
441, 197-222.
Hackett, T. A., Stepniewska, I., Kaas, J. H., (1998). Thalamocortical connections of the
parabelt auditory cortex in macaque monkeys. J Comp Neurol. 400, 271-86.
336
Hadjikhani, N., Roland, P. E., (1998). Cross-modal transfer of information between the tactile
and the visual representations in the human brain: A positron emission tomographic
study. J Neurosci. 18, 1072-84.
Halgren, E., Dale, A. M., Sereno, M. I., Tootell, R. B., Marinkovic, K., Rosen, B. R., (1999).
Location of human face-selective cortex with respect to retinotopic areas. Hum Brain
Mapp. 7, 29-37.
Halgren, E., Raij, T., Marinkovic, K., Jousmaki, V., Hari, R., (2000). Cognitive response
profile of the human fusiform face area as determined by MEG. Cereb Cortex. 10, 6981.
Halit, H., de Haan, M., Johnson, M. H., (2000). Modulation of event-related potentials by
prototypical and atypical faces. Neuroreport. 11, 1871-5.
Haxby, J. V., Gobbini, M. I., Furey, M. L., Ishai, A., Schouten, J. L., Pietrini, P., (2001).
Distributed and overlapping representations of faces and objects in ventral temporal
cortex. Science. 293, 2425-30.
Haxby, J. V., Grady, C. L., Horwitz, B., Ungerleider, L. G., Mishkin, M., Carson, R. E.,
Herscovitch, P., Schapiro, M. B., Rapoport, S. I., (1991). Dissociation of object and
spatial visual processing pathways in human extrastriate cortex. Proc Natl Acad Sci U
S A. 88, 1621-5.
Haxby, J. V., Hoffman, E. A., Gobbini, M. I., (2000). The distributed human neural system
for face perception. Trends Cogn Sci. 4, 223-233.
Haxby, J. V., Horwitz, B., Ungerleider, L. G., Maisog, J. M., Pietrini, P., Grady, C. L.,
(1994). The functional organization of human extrastriate cortex: a PET-rCBF study
of selective attention to faces and locations. J Neurosci. 14, 6336-53.
Haxby, J. V., Ungerleider, L. G., Clark, V. P., Schouten, J. L., Hoffman, E. A., Martin, A.,
(1999). The effect of face inversion on activity in human neural systems for face and
object perception. Neuron. 22, 189-99.
Henderson, R. M., McCulloch, D. L., Herbert, A. M., (2003). Event-related potentials (ERPs)
to schematic faces in adults and children. Int J Psychophysiol. 51, 59-67.
Henson, R., Shallice, T., Dolan, R., (2000). Neuroimaging evidence for dissociable forms of
repetition priming. Science. 287, 1269-72.
Hillyard, S. A., Anllo-Vento, L., (1998). Event-related brain potentials in the study of visual
selective attention. Proc Natl Acad Sci U S A. 95, 781-7.
Hoffman, E. A., Haxby, J. V., (2000). Distinct representations of eye gaze and identity in the
distributed human neural system for face perception. Nat Neurosci. 3, 80-4.
Hole, G. J., (1994). Configurational factors in the perception of unfamiliar faces. Perception.
23, 65-74.
Hole, G. J., George, P. A., Dunsmore, V., (1999). Evidence for holistic processing of faces
viewed as photographic negatives. Perception. 28, 341-59.
Holmes, A., Vuilleumier, P., Eimer, M., (2003). The processing of emotional facial
expression is gated by spatial attention: evidence from event-related brain potentials.
Brain Res Cogn Brain Res. 16, 174-84.
Huber, L., Troje, N. F., Loidolt, M., Aust, U., Grass, D., (2000). Natural categorization
through multiple feature learning in pigeons. Q J Exp Psychol B. 53, 341-57.
Hughes, H. C., Reuter-Lorenz, P. A., Nozawa, G., Fendrich, R., (1994). Visual-auditory
interactions in sensorimotor processing: saccades versus manual responses. J Exp
Psychol Hum Percept Perform. 20, 131-53.
Hung, C. P., Kreiman, G., Poggio, T., DiCarlo, J. J., (2005). Fast readout of object identity
from macaque inferior temporal cortex. Science. 310, 863-6.
337
Husain, F. T., Fromm, S. J., Pursley, R. H., Hosey, L. A., Braun, A. R., Horwitz, B., (2006).
Neural bases of categorization of simple speech and nonspeech sounds. Hum Brain
Mapp. 27, 636-51.
Husain, F. T., McKinney, C. M., Horwitz, B., (2006). Frontal cortex functional connectivity
changes during sound categorization. Neuroreport. 17, 617-21.
Imaizumi, S., Mori, K., Kiritani, S., Kawashima, R., Sugiura, M., Fukuda, H., Itoh, K., Kato,
T., Nakamura, A., Hatano, K., Kojima, S., Nakamura, K., (1997). Vocal identification
of speaker and emotion activates different brain regions. Neuroreport. 8, 2809-12.
Ishai, A., Ungerleider, L. G., Martin, A., Haxby, J. V., (2000). The representation of objects
in the human occipital and temporal cortex. J Cogn Neurosci. 12 Suppl 2, 35-51.
Ishai, A., Ungerleider, L. G., Martin, A., Schouten, J. L., Haxby, J. V., (1999). Distributed
representation of objects in the human ventral visual pathway. Proc Natl Acad Sci U S
A. 96, 9379-84.
Ishai, A., Yago, E., (2006). Recognition memory of newly learned faces. Brain Res Bull. 71,
167-73.
Itier, R. J., Herdman, A. T., George, N., Cheyne, D., Taylor, M. J., (2006). Inversion and
contrast-reversal effects on face processing assessed by MEG. Brain Res. 1115, 10820.
Itier, R. J., Latinus, M., Taylor, M. J., (2006). Face, eye and object early processing: what is
the face specificity? Neuroimage. 29, 667-76.
Itier, R. J., Taylor, M. J., (2002). Inversion and contrast polarity reversal affect both encoding
and recognition processes of unfamiliar faces: a repetition study using ERPs.
Neuroimage. 15, 353-72.
Itier, R. J., Taylor, M. J., (2004a). Effects of repetition learning on upright, inverted and
contrast-reversed face processing using ERPs. Neuroimage. 21, 1518-32.
Itier, R. J., Taylor, M. J., (2004b). Face inversion and contrast-reversal effects across
development: in contrast to the expertise theory. Dev Sci. 7, 246-60.
Itier, R. J., Taylor, M. J., (2004c). N170 or N1? Spatiotemporal differences between object
and face processing using ERPs. Cereb Cortex. 14, 132-42.
Itier, R. J., Taylor, M. J., (2004d). Source analysis of the N170 to faces and objects.
Neuroreport. 15, 1261-5.
Ito, M., Tamura, H., Fujita, I., Tanaka, K., (1995). Size and position invariance of neuronal
responses in monkey inferotemporal cortex. J Neurophysiol. 73, 218-26.
Jacobson, G. P., Lombardi, D. M., Gibbens, N. D., Ahmad, B. K., Newman, C. W., (1992).
The effects of stimulus frequency and recording site on the amplitude and latency of
multichannel cortical auditory evoked potential (CAEP) component N1. Ear Hear. 13,
300-6.
Jacques, C., Rossion, B., (2004). Concurrent processing reveals competition between visual
representations of faces. Neuroreport. 15, 2417-21.
Jacques, C., Rossion, B., (2006a). The speed of individual face categorization. Psychol Sci.
17, 485-92.
Jacques, C., Rossion, B., (2006b). The time course of visual competition to the presentation of
centrally fixated faces. J Vis. 6, 154-62.
Jeffreys, D. A., (1993). The influence of stimulus orientation on the vertex positive scalp
potential evoked by faces. Experimental Brain Research. 96, 163-172.
Jeffreys, D. A., (1996). Evoked potential studies of face and object processing. Visual
Cognition. 3, 1-38.
Jemel, B., George, N., Olivares, E., Fiori, N., Renault, B., (1999). Event-related potentials to
structural familiar face incongruity processing. Psychophysiology. 36, 437-52.
338
Jemel, B., Pisani, M., Calabria, M., Crommelinck, M., Bruyer, R., (2003). Is the N170 for
faces cognitively penetrable? Evidence from repetition priming of Mooney faces of
familiar and unfamiliar persons. Brain Res Cogn Brain Res. 17, 431-46.
Jemel, B., Schuller, A. M., Cheref-Khan, Y., Goffaux, V., Crommelinck, M., Bruyer, R.,
(2003). Stepwise emergence of the face-sensitive N170 event-related potential
component. Neuroreport. 14, 2035-9.
Joassin, F., Maurage, P., Bruyer, R., Crommelinck, M., Campanella, S., (2004). When
audition alters vision: an event-related potential study of the cross-modal interactions
between faces and voices. Neurosci Lett. 369, 132-7.
Johnson, M. H., Dziurawiec, S., Ellis, H., Morton, J., (1991). Newborns' preferential tracking
of face-like stimuli and its subsequent decline. Cognition. 40, 1-19.
Jolicoeur, P., Gluck, M. A., Kosslyn, S. M., (1984). Pictures and names: making the
connection. Cognit Psychol. 16, 243-75.
Jones, J. A., Jarick, M., (2006). Multisensory integration of speech signals: the relationship
between space and time. Exp Brain Res. 174, 588-94.
Jones, J. A., Munhall, K., (1997). The effects of separating auditory and visual sources on
audiovisual integration of speech. Canadian Acoustics. 25, 13-19.
Jouventin, P., Aubin, T., Lengagne, T., (1999). Finding a parent in a king penguin colony: the
acoustic system of individual recognition. Anim Behav. 57, 1175-1183.
Joyce, C., Rossion, B., (2005). The face-sensitive N170 and VPP components manifest the
same brain processes: the effect of reference electrode site. Clin Neurophysiol. 116,
2613-31.
Kaas, J. H., Hackett, T. A., (1998). Subdivisions of auditory cortex and levels of processing in
primates. Audiol Neurootol. 3, 73-85.
Kaas, J. H., Hackett, T. A., (1999). 'What' and 'where' processing in auditory cortex. Nat
Neurosci. 2, 1045-7.
Kaas, J. H., Hackett, T. A., Tramo, M. J., (1999). Auditory processing in primate cerebral
cortex. Curr Opin Neurobiol. 9, 164-70.
Kanwisher, N., McDermott, J., Chun, M. M., (1997). The fusiform face area: a module in
human extrastriate cortex specialized for face perception. J Neurosci. 17, 4302-11.
Kanwisher, N., Stanley, D., Harris, A., (1999). The fusiform face area is selective for faces
not animals. Neuroreport. 10, 183-7.
Kanwisher, N., Tong, F., Nakayama, K., (1998). The effect of face inversion on the human
fusiform face area. Cognition. 68, B1-11.
Kanwisher, N., Yovel, G., (2006). The fusiform face area: a cortical region specialized for the
perception of faces. Philos Trans R Soc Lond B Biol Sci. 361, 2109-28.
Kawashima, R., Imaizumi, S., Mori, K., Okada, K., Goto, R., Kiritani, S., Ogawa, A., Fukuda,
H., (1999). Selective visual and auditory attention toward utterances-a PET study.
Neuroimage. 10, 209-15.
Kemp, R., McManus, C., Pigott, T., (1990). Sensitivity to the displacement of facial features
in negative and inverted images. Perception. 19, 531-43.
Kilgour, A. R., de Gelder, B., Lederman, S. J., (2004). Haptic face recognition and
prosopagnosia. Neuropsychologia. 42, 707-12.
Kilgour, A. R., Lederman, S. J., (2002). Face recognition by hand. Percept Psychophys. 64,
339-52.
Kilgour, A. R., Lederman, S. J., (2006). A haptic face-inversion effect. Perception. 35, 92131.
Kobatake, E., Tanaka, K., (1994). Neuronal selectivities to complex object features in the
ventral visual pathway of the macaque cerebral cortex. J Neurophysiol. 71, 856-67.
339
Kreiman, G., Koch, C., Fried, I., (2000). Category-specific visual responses of single neurons
in the human medial temporal lobe. Nat Neurosci. 3, 946-53.
Langers, D. R., Backes, W. H., van Dijk, P., (2007). Representation of lateralization and
tonotopy in primary versus secondary human auditory cortex. Neuroimage. 34, 26473.
Latinus, M., Taylor, M. J., (2005). Holistic processing of faces: learning effects with Mooney
faces. J Cogn Neurosci. 17, 1316-27.
Latinus, M., Taylor, M. J., (2006). Face processing stages: Impact of difficulty and the
separation of effects. Brain Res. 1123, 179-187.
Latinus, M., Taylor, M. J., (soumis). Faces are easier: Gender categorisation of faces and
voices Eur J Neurosci.
Latinus, M., Taylor, M. J., (submitted). Faces are easier: Gender categorisation of faces and
voices Neuroimage.
Lattner, S., Maess, B., Wang, Y., Schauer, M., Alter, K., Friederici, A. D., (2003).
Dissociation of human and computer voices in the brain: evidence for a preattentive
gestalt-like perception. Hum Brain Mapp. 20, 13-21.
Lattner, S., Meyer, M. E., Friederici, A. D., (2005). Voice perception: Sex, pitch, and the right
hemisphere. Hum Brain Mapp. 24, 11-20.
Laurienti, P. J., Wallace, M. T., Maldjian, J. A., Susi, C. M., Stein, B. E., Burdette, J. H.,
(2003). Cross-modal sensory processing in the anterior cingulate and medial prefrontal
cortices. Hum Brain Mapp. 19, 213-23.
Lavner, Y., Gath, I., Rosenhouse, J., (2000). The effects of acoustic modifications on the
identification of familiar voices speaking isolated vowels. Speech Communication. 30,
9-26.
Le Grand, R., Mondloch, C. J., Maurer, D., Brent, H. P., (2001). Neuroperception. Early
visual experience and face processing. Nature. 410, 890.
Leder, H., Bruce, V., (2000). When inverted faces are recognized: the role of configural
information in face recognition. Q J Exp Psychol A. 53, 513-36.
Leder, H., Candrian, G., Huber, O., Bruce, V., (2001). Configural features in the context of
upright and inverted faces. Perception. 30, 73-83.
Leder, H., Carbon, C. C., (2006). Face-specific configural processing of relational
information. Br J Psychol. 97, 19-29.
Leveroni, C. L., Seidenberg, M., Mayer, A. R., Mead, L. A., Binder, J. R., Rao, S. M., (2000).
Neural systems underlying the recognition of familiar and newly learned faces. J
Neurosci. 20, 878-86.
Levy, D. A., Granot, R., Bentin, S., (2001). Processing specificity for human voice stimuli:
electrophysiological evidence. Neuroreport. 12, 2653-7.
Levy, D. A., Granot, R., Bentin, S., (2003). Neural sensitivity to human voices: ERP evidence
of task and attentional influences. Psychophysiology. 40, 291-305.
Lewis, J. W., Van Essen, D. C., (2000). Corticocortical connections of visual, sensorimotor,
and multimodal processing areas in the parietal lobe of the macaque monkey. J Comp
Neurol. 428, 112-37.
Lewis, M. B., Johnston, R. A., (1997). The Thatcher illusion as a test of configural disruption.
Perception. 26, 225-7.
Liegeois-Chauvel, C., de Graaf, J. B., Laguitton, V., Chauvel, P., (1999). Specialization of
left auditory cortex for speech perception in man depends on temporal coding. Cereb
Cortex. 9, 484-96.
Liegeois-Chauvel, C., Giraud, K., Badier, J. M., Marquis, P., Chauvel, P., (2001).
Intracerebral evoked potentials in pitch perception reveal a functional asymmetry of
the human auditory cortex. Ann N Y Acad Sci. 930, 117-32.
340
Liegeois-Chauvel, C., Musolino, A., Badier, J. M., Marquis, P., Chauvel, P., (1994). Evoked
potentials recorded from the auditory cortex in man: evaluation and topography of the
middle latency components. Electroencephalogr Clin Neurophysiol. 92, 204-14.
Liegeois-Chauvel, C., Musolino, A., Chauvel, P., (1991). Localization of the primary auditory
area in man. Brain. 114 ( Pt 1A), 139-51.
Linkenkaer-Hansen, K., Palva, J. M., Sams, M., Hietanen, J. K., Aronen, H. J., Ilmoniemi, R.
J., (1998). Face-selective processing in human extrastriate cortex around 120 ms after
stimulus onset revealed by magneto- and electroencephalography. Neuroscience
Letters. 253, 147-50.
Liu, J., Harris, A., Kanwisher, N., (2002). Stages of processing in face perception: an MEG
study. Nat Neurosci. 5, 910-6.
Liu, J., Higuchi, M., Marantz, A., Kanwisher, N., (2000). The selectivity of the
occipitotemporal M170 for faces. Neuroreport. 11, 337-41.
Logothetis, N. K., Pauls, J., Poggio, T., (1995). Shape representation in the inferior temporal
cortex of monkeys. Curr Biol. 5, 552-63.
Lueschow, A., Miller, E. K., Desimone, R., (1994). Inferior temporal mechanisms for
invariant object recognition. Cereb Cortex. 4, 523-31.
Luethke, L. E., Krubitzer, L. A., Kaas, J. H., (1989). Connections of primary auditory cortex
in the New World monkey, Saguinus. J Comp Neurol. 285, 487-513.
Lutkenhoner, B., Steinstrater, O., (1998). High-precision neuromagnetic study of the
functional organization of the human auditory cortex. Audiol Neurootol. 3, 191-213.
Macaluso, E., Driver, J., (2001). Spatial attention and crossmodal interactions between vision
and touch. Neuropsychologia. 39, 1304-16.
Macaluso, E., Driver, J., (2005). Multisensory spatial interactions: a window onto functional
integration in the human brain. Trends Neurosci. 28, 264-71.
Macaluso, E., Frith, C., Driver, J., (2000a). Selective spatial attention in vision and touch:
unimodal and multimodal mechanisms revealed by PET. J Neurophysiol. 83, 3062-75.
Macaluso, E., Frith, C. D., Driver, J., (2000b). Modulation of human visual cortex by
crossmodal spatial attention. Science. 289, 1206-8.
Macaluso, E., Frith, C. D., Driver, J., (2005). Multisensory stimulation with or without
saccades: fMRI evidence for crossmodal effects on sensory-specific cortices that
reflect multisensory location-congruence rather than task-relevance. Neuroimage. 26,
414-25.
Macaluso, E., George, N., Dolan, R., Spence, C., Driver, J., (2004). Spatial and temporal
factors during processing of audiovisual speech: a PET study. Neuroimage. 21, 72532.
MacLeod, A., Summerfield, Q., (1987). Quantifying the contribution of vision to speech
perception in noise. Br J Audiol. 21, 131-41.
Maeder, P. P., Meuli, R. A., Adriani, M., Bellmann, A., Fornari, E., Thiran, J. P., Pittet, A.,
Clarke, S., (2001). Distinct pathways involved in sound recognition and localization: a
human fMRI study. Neuroimage. 14, 802-16.
Malach, R., Reppas, J. B., Benson, R. R., Kwong, K. K., Jiang, H., Kennedy, W. A., Ledden,
P. J., Brady, T. J., Rosen, B. R., Tootell, R. B., (1995). Object-related activity revealed
by functional magnetic resonance imaging in human occipital cortex. Proc Natl Acad
Sci U S A. 92, 8135-9.
Massaro, D. W., Stork, D. G., (1998). Speech recognition and sensory integration. American
Scientist. 86, 236-244.
Maurer, D., Grand, R. L., Mondloch, C. J., (2002). The many faces of configural processing.
Trends Cogn Sci. 6, 255-260.
341
McCarthy, G., Puce, A., Belger, A., Allison, T., (1999). Electrophysiological studies of
human face perception. II: Response properties of face-specific potentials generated in
occipitotemporal cortex. Cereb Cortex. 9, 431-44.
McCarthy, G., Puce, A., Gore, J. C., Allison, T., (1997). Face-specific processing in the
human fusiform gyrus. Journal of Cognitive Neuroscience. 9, 605-610.
McDonald, J. J., Teder-Salejarvi, W. A., Hillyard, S. A., (2000). Involuntary orienting to
sound improves visual perception. Nature. 407, 906-8.
McDonald, J. J., Ward, L. M., (2000). Involuntary listening aids seeing: evidence from human
electrophysiology. Psychol Sci. 11, 167-71.
McGurk, H., MacDonald, J., (1976). Hearing lips and seeing voices. Nature. 264, 746-8.
Meredith, M. A., Wallace, M. T., Stein, B. E., (1992). Visual, auditory and somatosensory
convergence in output neurons of the cat superior colliculus: multisensory properties
of the tecto-reticulo-spinal projection. Exp Brain Res. 88, 181-6.
Mervis, C. B., Rosch, E., (1981). Categorisation of natural objects. Annual Review of
Psychology. 32, 89-115.
Michalewski, H. J., Prasher, D. K., Starr, A., (1986). Latency variability and temporal
interrelationships of the auditory event-related potentials (N1, P2, N2, and P3) in
normal subjects. Electroencephalogr Clin Neurophysiol. 65, 59-71.
Michel, F., Poncet, M., Signoret, J. L., (1989). [Are the lesions responsible for prosopagnosia
always bilateral?]. Revue de Neurologie. 145, 764-70.
Miki, K., Watanabe, S., Kakigi, R., (2004). Interaction between auditory and visual stimulus
relating to the vowel sounds in the auditory cortex in humans: a
magnetoencephalographic study. Neurosci Lett. 357, 199-202.
Miller, J., (1991). Channel interaction and the redundant-targets effect in bimodal divided
attention. J Exp Psychol Hum Percept Perform. 17, 160-9.
Miranda, S. B., Fantz, R. L., (1973). Visual preferences of Down's syndrome and normal
infants. Child Dev. 44, 555-61.
Molholm, S., Ritter, W., Javitt, D. C., Foxe, J. J., (2004). Multisensory visual-auditory object
recognition in humans: a high-density electrical mapping study. Cereb Cortex. 14,
452-65.
Molholm, S., Ritter, W., Murray, M. M., Javitt, D. C., Schroeder, C. E., Foxe, J. J., (2002).
Multisensory auditory-visual interactions during early sensory processing in humans:
a high-density electrical mapping study. Brain Res Cogn Brain Res. 14, 115-28.
Mooney, C. M., (1957). Age in the development of closure ability in children. Canadian
Journal of Psychology. 11, 219-226.
Moscovitch, M., Winocur, G., Behrmann, M., (1997). What is special about face recognition?
Nineteen experiments on a person with visual agnosia and dyslexia but normal face
recognition. Journal of Cognitive Neurosciences. 9, 555-604.
Mouchetant-Rostaing, Y., Giard, M. H., Bentin, S., Aguera, P. E., Pernier, J., (2000).
Neurophysiological correlates of face gender processing in humans. Eur J Neurosci.
12, 303-10.
Mullennix, J. W., Johnson, K. A., Topcu-Durgun, M., Farnsworth, L. M., (1995). The
perceptual representation of voice gender. J Acoust Soc Am. 98, 3080-95.
Munhall, K. G., Gribble, P., Sacco, L., Ward, M., (1996). Temporal constraints on the
McGurk effect. Percept Psychophys. 58, 351-62.
Murry, T., Singh, S., (1980). Multidimensional analysis of male and female voices. J Acoust
Soc Am. 68, 1294-300.
Naatanen, R., (2001). The perception of speech sounds by the human brain as reflected by the
mismatch negativity (MMN) and its magnetic equivalent (MMNm).
Psychophysiology. 38, 1-21.
342
Naatanen, R., Alho, K., (1995). Mismatch negativity--a unique measure of sensory processing
in audition. Int J Neurosci. 80, 317-37.
Naatanen, R., Alho, K., (1997). Mismatch negativity--the measure for central sound
representation accuracy. Audiol Neurootol. 2, 341-53.
Näätänen, R., Picton, T., (1987). The N1 wave of the human electric and magnetic response to
sound: a review and an analysis of the component structure. Psychophysiology. 24,
375-425.
Näätänen, R., Sams, M., Alho, K., Paavilainen, P., Reinikainen, K., Sokolov, E. N., (1988).
Frequency and location specificity of the human vertex N1 wave. Electroencephalogr
Clin Neurophysiol. 69, 523-31.
Nakamura, K., Kawashima, R., Ito, K., Sugiura, M., Kato, T., Nakamura, A., Hatano, K.,
Nagumo, S., Kubota, K., Fukuda, H., Kojima, S., (1999). Activation of the right
inferior frontal cortex during assessment of facial emotion. J Neurophysiol. 82, 16104.
Nakamura, K., Kawashima, R., Sugiura, M., Kato, T., Nakamura, A., Hatano, K., Nagumo,
S., Kubota, K., Fukuda, H., Ito, K., Kojima, S., (2001). Neural substrates for
recognition of familiar voices: a PET study. Neuropsychologia. 39, 1047-54.
Neelon, M. F., Williams, J., Garell, P. C., (2006). The effects of auditory attention measured
from human electrocorticograms. Clin Neurophysiol. 117, 504-21.
Neuner, F., Schweinberger, S. R., (2000). Neuropsychological impairments in the recognition
of faces, voices, and personal names. Brain Cogn. 44, 342-66.
Nickerson, R. S., (1973). Intersensory facilitation of reaction time: energy summation or
preparation enhancement? Psychol Rev. 80, 489-509.
Olson, I. R., Gatenby, J. C., Gore, J. C., (2002). A comparison of bound and unbound audiovisual information processing in the human cerebral cortex. Brain Res Cogn Brain
Res. 14, 129-38.
Oram, M. W., Perrett, D. I., (1992). Time course of neural responses discriminating different
views of the face and head. J Neurophysiol. 68, 70-84.
Pantev, C., Bertrand, O., Eulitz, C., Verkindt, C., Hampson, S., Schuierer, G., Elbert, T.,
(1995). Specific tonotopic organizations of different areas of the human auditory
cortex revealed by simultaneous magnetic and electric recordings. Electroencephalogr
Clin Neurophysiol. 94, 26-40.
Papcun, G., Kreiman, J., Davis, A., (1989). Long-term memory for unfamiliar voices. J
Acoust Soc Am. 85, 913-25.
Pascalis, O., de Haan, M., Nelson, C. A., (2002). Is face processing species-specific during
the first year of life? Science. 296, 1321-3.
Pernet, C., Basan, S., Doyon, B., Cardebat, D., Demonet, J. F., Celsis, P., (2003). Neural
timing of visual implicit categorization. Brain Res Cogn Brain Res. 17, 327-38.
Perrett, D. I., Hietanen, J. K., Oram, M. W., Benson, P. J., (1992). Organization and functions
of cells responsive to faces in the temporal cortex. Philosophical Transactions of the
Royal Society of London. B335, 23-30.
Perrett, D. I., Mistlin, A. J., Chitty, A. J., Smith, P. A., Potter, D. D., Broennimann, R.,
Harries, M., (1988). Specialized face processing and hemispheric asymmetry in man
and monkey: evidence from single unit and reaction time studies. Behav Brain Res.
29, 245-58.
Perrett, D. I., Rolls, E. T., Caan, W., (1982). Visual neurones responsive to faces in the
monkey temporal cortex. Exp Brain Res. 47, 329-42.
Perrett, D. I., Rolls, E. T., Caan, W., (1987). Visual neurones responsive to faces. Trends
Neurosci. 10, 358-64.
343
Picton, T. W., Bentin, S., Berg, P., Donchin, E., Hillyard, S. A., Johnson, R., Jr., Miller, G.
A., Ritter, W., Ruchkin, D. S., Rugg, M. D., Taylor, M. J., (2000). Guidelines for
using human event-related potentials to study cognition: recording standards and
publication criteria. Psychophysiology. 37, 127-52.
Pietrini, P., Furey, M. L., Ricciardi, E., Gobbini, M. I., Wu, W. H., Cohen, L., Guazzelli, M.,
Haxby, J. V., (2004). Beyond sensory images: Object-based representation in the
human ventral pathway. Proc Natl Acad Sci U S A. 101, 5658-63.
Pourtois, G., de Gelder, B., Bol, A., Crommelinck, M., (2005). Perception of facial
expressions and voices and of their combination in the human brain. Cortex. 41, 4959.
Pourtois, G., de Gelder, B., Vroomen, J., Rossion, B., Crommelinck, M., (2000). The timecourse of intermodal binding between seeing and hearing affective information.
Neuroreport. 11, 1329-33.
Price, J. J., (1999). Recognition of family-specific calls in stripe-backed wrens. Anim Behav.
57, 483-492.
Puce, A., Allison, T., Asgari, M., Gore, J. C., McCarthy, G., (1996). Differential sensitivity of
human visual cortex to faces, letter-strings, and textures: a functional magnetic
resonance imaging study. Journal of Neuroscience. 16, 5205-5215.
Puce, A., Allison, T., Bentin, S., Gore, J. C., McCarthy, G., (1998). Temporal cortex
activation in humans viewing eye and mouth movements. J Neurosci. 18, 2188-99.
Puce, A., Allison, T., Gore, J. C., McCarthy, G., (1995). Face-sensitive regions in human
extrastriate cortex studied by functional MRI. J Neurophysiol. 74, 1192-9.
Puce, A., Allison, T., McCarthy, G., (1999). Electrophysiological studies of human face
perception. III: Effects of top-down processing on face-specific potentials. Cereb
Cortex. 9, 445-58.
Purcell, D. G., Stewart, A. L., (1988). The face-detection effect: configuration enhances
detection. Percept Psychophys. 43, 355-66.
Quaglino, A., (1867). Emiplegia sinistra con amaurosi - guarigione - perdita totale della
percezione dei colori e della memoria della configurazione degli oggetti. Giornale
d'Oftalmologia Italiano. 10, 106-112.
Quiroga, R. Q., Reddy, L., Kreiman, G., Koch, C., Fried, I., (2005). Invariant visual
representation by single neurons in the human brain. Nature. 435, 1102-7.
Radeau, M., Bertelson, P., (1987). Auditory-visual interaction and the timing of inputs.
Thomas (1941) revisited. Psychol Res. 49, 17-22.
Raij, T., Uutela, K., Hari, R., (2000). Audiovisual integration of letters in the human brain.
Neuron. 28, 617-25.
Rauschecker, J. P., (1998). Cortical processing of complex sounds. Curr Opin Neurobiol. 8,
516-21.
Rauschecker, J. P., Tian, B., (2000). Mechanisms and streams for processing of "what" and
"where" in auditory cortex. Proc Natl Acad Sci U S A. 97, 11800-6.
Rebai, M., Poiroux, S., Bernard, C., Lalonde, R., (2001). Event-related potentials for
category-specific information during passive viewing of faces and objects. Int J
Neurosci. 106, 209-26.
Reddy, L., Wilken, P., Koch, C., (2004). Face-gender discrimination is possible in the nearabsence of attention. J Vis. 4, 106-17.
Rhodes, G., Brake, S., Atkinson, A. P., (1993). What's lost in inverted faces? Cognition. 47,
25-57.
Rhodes, G., Byatt, G., Michie, P. T., Puce, A., (2004). Is the fusiform face area specialized for
faces, individuation, or expert individuation? J Cogn Neurosci. 16, 189-203.
344
Robbins, R., McKone, E., (2007). No face-like processing for objects-of-expertise in three
behavioural tasks. Cognition. 103, 34-79.
Roberts, T., Bruce, V., (1988). Feature saliency in judging the sex and familiarity of faces.
Perception. 17, 475-81.
Roeber, U., Widmann, A., Schroger, E., (2003). Auditory distraction by duration and location
deviants: a behavioral and event-related potential study. Brain Res Cogn Brain Res.
17, 347-57.
Rolls, E. T., (1992). Neurophysiological mechanisms underlying face processing within and
beyond the temporal cortical visual areas. Philos Trans R Soc Lond B Biol Sci. 335,
11-20; discussion 20-1.
Romanski, L. M., Tian, B., Fritz, J., Mishkin, M., Goldman-Rakic, P. S., Rauschecker, J. P.,
(1999). Dual streams of auditory afferents target multiple domains in the primate
prefrontal cortex. Nat Neurosci. 2, 1131-6.
Rosch, E., Mervis, C. B., Gray, W., Johnson, D., Boyes-Braem, P., (1976). Basic objects in
natural categories. Cognit Psychol. 8, 382-439.
Rossion, B., Campanella, S., Gomez, C. M., Delinte, A., Debatisse, D., Liard, L., Dubois, S.,
Bruyer, R., Crommelinck, M., Guerit, J. M., (1999). Task modulation of brain activity
related to familiar and unfamiliar face processing: an ERP study. Clin Neurophysiol.
110, 449-62.
Rossion, B., Delvenne, J. F., Debatisse, D., Goffaux, V., Bruyer, R., Crommelinck, M.,
Guerit, J. M., (1999). Spatio-temporal localization of the face inversion effect: an
event-related potentials study. Biol Psychol. 50, 173-89.
Rossion, B., Dricot, L., Devolder, A., Bodart, J. M., Crommelinck, M., De Gelder, B.,
Zoontjes, R., (2000). Hemispheric asymmetries for whole-based and part-based face
processing in the human fusiform gyrus. J Cogn Neurosci. 12, 793-802.
Rossion, B., Gauthier, I., (2002). How does the brain process upright and inverted faces?
Behav and Cogn Neuroscience Rev. 1, 62-74.
Rossion, B., Gauthier, I., Goffaux, V., Tarr, M. J., Crommelinck, M., (2002). Expertise
training with novel objects leads to left-lateralized facelike electrophysiological
responses. Psychol Sci. 13, 250-7.
Rossion, B., Gauthier, I., Tarr, M. J., Despland, P., Bruyer, R., Linotte, S., Crommelinck, M.,
(2000). The N170 occipito-temporal component is delayed and enhanced to inverted
faces but not to inverted objects: an electrophysiological account of face-specific
processes in the human brain. Neuroreport. 11, 69-74.
Rossion, B., Joyce, C. A., Cottrell, G. W., Tarr, M. J., (2003). Early lateralization and
orientation tuning for face, word, and object processing in the visual cortex.
Neuroimage. 20, 1609-24.
Rossion, B., Kung, C. C., Tarr, M. J., (2004). Visual expertise with nonface objects leads to
competition with the early perceptual processing of faces in the human
occipitotemporal cortex. Proc Natl Acad Sci U S A. 101, 14521-6.
Rossion, B., Schiltz, C., Crommelinck, M., (2003). The functionally defined right occipital
and fusiform "face areas" discriminate novel from visually familiar faces.
Neuroimage. 19, 877-83.
Rossion, B., Schiltz, C., Robaye, L., Pirenne, D., Crommelinck, M., (2001). How does the
brain discriminate familiar and unfamiliar faces?: a PET study of face categorical
perception. J Cogn Neurosci. 13, 1019-34.
Rotshtein, P., Henson, R. N., Treves, A., Driver, J., Dolan, R. J., (2005). Morphing Marilyn
into Maggie dissociates physical and identity face representations in the brain. Nat
Neurosci. 8, 107-13.
345
Rousselet, G. A., Mace, M. J., Fabre-Thorpe, M., (2004a). Animal and human faces in natural
scenes: How specific to human faces is the N170 ERP component? J Vis. 4, 13-21.
Rousselet, G. A., Mace, M. J., Fabre-Thorpe, M., (2004b). Spatiotemporal analyses of the
N170 for human faces, animal faces and objects in natural scenes. Neuroreport. 15,
2607-11.
Sadr, J., Jarudi, I., Sinha, P., (2003). The role of eyebrows in face recognition. Perception. 32,
285-93.
Sagiv, N., Bentin, S., (2001). Structural encoding of human and schematic faces: holistic and
part-based processes. Journal of Cognitive Neuroscience. 13, 937-951.
Schiltz, C., Rossion, B., (2006). Faces are represented holistically in the human occipitotemporal cortex. Neuroimage. 32, 1385-94.
Schlack, A., Sterbing-D'Angelo, S. J., Hartung, K., Hoffmann, K. P., Bremmer, F., (2005).
Multisensory space representations in the macaque ventral intraparietal area. J
Neurosci. 25, 4616-25.
Schmitt, M., Postma, A., De Haan, E., (2000). Interactions between exogenous auditory and
visual spatial attention. Q J Exp Psychol A. 53, 105-30.
Schroger, E., Widmann, A., (1998). Speeded responses to audiovisual signal changes result
from bimodal integration. Psychophysiology. 35, 755-9.
Schweinberger, S. R., (2001). Human brain potential correlates of voice priming and voice
recognition. Neuropsychologia. 39, 921-36.
Schweinberger, S. R., Herholz, A., Sommer, W., (1997). Recognizing famous voices:
influence of stimulus duration and different types of retrieval cues. J Speech Lang
Hear Res. 40, 453-63.
Schyns, P. G., Bonnar, L., Gosselin, F., (2002). Show me the features! Understanding
recognition from the use of visual information. Psychol Sci. 13, 402-9.
Scott, S. K., Blank, C. C., Rosen, S., Wise, R. J., (2000). Identification of a pathway for
intelligible speech in the left temporal lobe. Brain. 123 Pt 12, 2400-6.
Scott, S. K., Johnsrude, I. S., (2003). The neuroanatomical and functional organization of
speech perception. Trends Neurosci. 26, 100-7.
Scott, S. K., Rosen, S., Lang, H., Wise, R. J., (2006). Neural correlates of intelligibility in
speech investigated with noise vocoded speech--a positron emission tomography
study. J Acoust Soc Am. 120, 1075-83.
Searcy, J. H., Bartlett, J. C., (1996). Inversion and processing of component and spatialrelational information in faces. J Exp Psychol Hum Percept Perform. 22, 904-15.
Sergent, J., Ohta, S., MacDonald, B., (1992). Functional neuroanatomy of face and object
processing. A positron emission tomography study. Brain. 115 Pt 1, 15-36.
Sergent, J., Signoret, J. L., (1992a). Functional and anatomical decomposition of face
processing: evidence from prosopagnosia and PET study of normal subjects. Philos
Trans R Soc Lond B Biol Sci. 335, 55-61; discussion 61-2.
Sergent, J., Signoret, J. L., (1992b). Varieties of functional deficits in prosopagnosia. Cereb
Cortex. 2, 375-88.
Sestieri, C., Di Matteo, R., Ferretti, A., Del Gratta, C., Caulo, M., Tartaro, A., Olivetti
Belardinelli, M., Romani, G. L., (2006). "What" versus "where" in the audiovisual
domain: an fMRI study. Neuroimage. 33, 672-80.
Severac Cauquil, A., Edmonds, G. E., Taylor, M. J., (2000). Is the face-sensitive N170 the
only ERP not affected by selective attention? Neuroreport. 11, 2167-71.
Shams, L., Kamitani, Y., Shimojo, S., (2000). Illusions. What you see is what you hear.
Nature. 408, 788.
Shams, L., Kamitani, Y., Shimojo, S., (2002). Visual illusion induced by sound. Brain Res
Cogn Brain Res. 14, 147-52.
346
Sharp, S. P., McGowan, A., Wood, M. J., Hatchwell, B. J., (2005). Learned kin recognition
cues in a social bird. Nature. 434, 1127-30.
Sheinberg, D. L., Logothetis, N. K., (1997). The role of temporal cortical areas in perceptual
organization. Proc Natl Acad Sci U S A. 94, 3408-13.
Shimojo, S., Shams, L., (2001). Sensory modalities are not separate modalities: plasticity and
interactions. Curr Opin Neurobiol. 11, 505-9.
Sinha, P., Poggio, T., (1996). Role of learning in three-dimensional form perception. Nature.
384, 460-3.
Slutsky, D. A., Recanzone, G. H., (2001). Temporal and spatial dependency of the
ventriloquism effect. Neuroreport. 12, 7-10.
Sokhi, D. S., Hunter, M. D., Wilkinson, I. D., Woodruff, P. W., (2005). Male and female
voices activate distinct regions in the male brain. Neuroimage. 27, 572-8.
Sowden, P. T., Schyns, P. G., (2006). Channel surfing in the visual brain. Trends Cogn Sci.
10, 538-45.
Spence, C., Driver, J., (1997). Audiovisual links in exogenous covert spatial orienting.
Percept Psychophys. 59, 1-22.
Spence, C., Driver, J., (2000). Attracting attention to the illusory location of a sound:
reflexive crossmodal orienting and ventriloquism. Neuroreport. 11, 2057-61.
Spence, C., Nicholls, M. E., Gillespie, N., Driver, J., (1998). Cross-modal links in exogenous
covert spatial orienting between touch, audition, and vision. Percept Psychophys. 60,
544-57.
Spitsyna, G., Warren, J. E., Scott, S. K., Turkheimer, F. E., Wise, R. J., (2006). Converging
language streams in the human temporal lobe. J Neurosci. 26, 7328-36.
Summerfield, Q., (1992). Lipreading and audio-visual speech perception. Philos Trans R Soc
Lond B Biol Sci. 335, 71-8.
Sweet, R. A., Dorph-Petersen, K. A., Lewis, D. A., (2005). Mapping auditory core, lateral
belt, and parabelt cortices in the human superior temporal gyrus. J Comp Neurol. 491,
270-89.
Tamura, H., Tanaka, K., (2001). Visual response properties of cells in the ventral and dorsal
parts of the macaque inferotemporal cortex. Cereb Cortex. 11, 384-99.
Tanaka, J., Farah, M. J., The Holistic representation of faces. In: M. A. Peterson, G. Rhodes,
Eds., Perception of faces objects and scene. vol. Oxford University Press, 2003, pp.
21-53.
Tanaka, J., Luu, P., Weisbrod, M., Kiefer, M., (1999). Tracking the time course of object
categorization using event-related potentials. Neuroreport. 10, 829-35.
Tanaka, J. W., (2001). The entry point of face recognition: evidence for face expertise. J Exp
Psychol Gen. 130, 534-43.
Tanaka, J. W., Curran, T., (2001). A neural basis for expert object recognition. Psychol Sci.
12, 43-7.
Tanaka, J. W., Curran, T., Porterfield, A. L., Collins, D., (2006). Activation of preexisting and
acquired face representations: the N250 event-related potential as an index of face
familiarity. J Cogn Neurosci. 18, 1488-97.
Tanaka, J. W., Farah, M. J., (1993). Parts and wholes in face recognition. Q J Exp Psychol A.
46, 225-45.
Tanaka, J. W., Sengco, J. A., (1997). Features and their configuration in face recognition.
Mem Cognit. 25, 583-92.
Tanaka, K., (1992). Inferotemporal cortex and higher visual functions. Curr Opin Neurobiol.
2, 502-5.
Tanaka, K., (1993). Neuronal mechanisms of object recognition. Science. 262, 685-8.
347
Tanaka, K., (1996). Representation of Visual Features of Objects in the Inferotemporal
Cortex. Neural Netw. 9, 1459-1475.
Tanaka, K., Saito, H., Fukada, Y., Moriya, M., (1991). Coding visual images of objects in the
inferotemporal cortex of the macaque monkey. J Neurophysiol. 66, 170-89.
Tarr, M. J., Gauthier, I., (2000). FFA: a flexible fusiform area for subordinate-level visual
processing automatized by expertise. Nat Neurosci. 3, 764-9.
Taylor, M. J., (2002). Non-spatial attentional effects on P1. Clin Neurophysiol. 113, 19031908.
Taylor, M. J., Edmonds, G. E., McCarthy, G., Allison, T., (2001). Eyes first! Eye processing
develops before face processing in children. Neuroreport. 12, 1671-1676.
Taylor, M. J., George, N., Ducorps, A., (2001). Magnetoencephalographic evidence of early
processing of direction of gaze in humans. Neurosci Lett. 316, 173-7.
Taylor, M. J., Itier, R. J., Allison, T., Edmonds, G. E., (2001). Direction of gaze effects on
early face processing: eyes-only versus full faces. Brain Res Cogn Brain Res. 10, 33340.
Teder-Salejarvi, W. A., McDonald, J. J., Di Russo, F., Hillyard, S. A., (2002). An analysis of
audio-visual crossmodal integration by means of event-related potential (ERP)
recordings. Brain Res Cogn Brain Res. 14, 106-14.
Thierry, G., Boulanouar, K., Kherif, F., Ranjeva, J. P., Demonet, J. F., (1999). Temporal
sorting of neural components underlying phonological processing. Neuroreport. 10,
2599-603.
Thivard, L., Belin, P., Zilbovicius, M., Poline, J. B., Samson, Y., (2000). A cortical region
sensitive to auditory spectral motion. Neuroreport. 11, 2969-72.
Thompson, P., (1980). Margaret Thatcher: a new illusion. Perception. 9, 483-4.
Tian, B., Reser, D., Durham, A., Kustov, A., Rauschecker, J. P., (2001). Functional
specialization in rhesus monkey auditory cortex. Science. 292, 290-3.
Tiitinen, H., Alho, K., Huotilainen, M., Ilmoniemi, R. J., Simola, J., Naatanen, R., (1993).
Tonotopic auditory cortex and the magnetoencephalographic (MEG) equivalent of the
mismatch negativity. Psychophysiology. 30, 537-40.
Tiitinen, H., Sivonen, P., Alku, P., Virtanen, J., Naatanen, R., (1999). Electromagnetic
recordings reveal latency differences in speech and tone processing in humans. Brain
Res Cogn Brain Res. 8, 355-63.
Titova, N., Naatanen, R., (2001). Preattentive voice discrimination by the human brain as
indexed by the mismatch negativity. Neurosci Lett. 308, 63-5.
Tovée, M. J., Cohen-Tovée, E. M., (1993). The neural substrates of face processing models: a
review. Cogn Neuropsychol. 10, 505-528.
Tovee, M. J., Rolls, E. T., Ramachandran, V. S., (1996). Rapid visual learning in neurones of
the primate temporal visual cortex. Neuroreport. 7, 2757-60.
Troje, N. F., Huber, L., Loidolt, M., Aust, U., Fieder, M., (1999). Categorical learning in
pigeons: the role of texture and shape in complex static stimuli. Vision Res. 39, 35366.
Tsao, D. Y., Freiwald, W. A., Tootell, R. B., Livingstone, M. S., (2006). A cortical region
consisting entirely of face-selective cells. Science. 311, 670-4.
Turati, C., Simion, F., Milani, I., Umilta, C., (2002). Newborns' preference for faces: what is
crucial? Dev Psychol. 38, 875-82.
Valentine, T., (1988). Upside-down faces: a review of the effect of inversion upon face
recognition. British Journal of psychology. 79, 471-491.
Valentine, T., Bruce, V., (1986). The effect of race, inversion and encoding activity upon face
recognition. Acta Psychol (Amst). 61, 259-73.
348
Van Essen, D. C., Anderson, C. H., Felleman, D. J., (1992). Information processing in the
primate visual system: an integrated systems perspective. Science. 255, 419-23.
Van Lancker, D. R., Cummings, J. L., Kreiman, J., Dobkin, B. H., (1988). Phonagnosia: a
dissociation between familiar and unfamiliar voices. Cortex. 24, 195-209.
Van Lancker, D. R., Kreiman, J., Cummings, J., (1989). Voice perception deficits:
neuroanatomical correlates of phonagnosia. J Clin Exp Neuropsychol. 11, 665-74.
Verkindt, C., Bertrand, O., Thevenet, M., Pernier, J., (1994). Two auditory components in the
130-230 ms range disclosed by their stimulus frequency dependence. Neuroreport. 5,
1189-92.
von Kriegstein, K., Eger, E., Kleinschmidt, A., Giraud, A. L., (2003). Modulation of neural
responses to speech by directing attention to voices or verbal content. Brain Res Cogn
Brain Res. 17, 48-55.
von Kriegstein, K., Kleinschmidt, A., Giraud, A. L., (2006). Voice recognition and crossmodal responses to familiar speakers' voices in prosopagnosia. Cereb Cortex. 16,
1314-22.
von Kriegstein, K., Kleinschmidt, A., Sterzer, P., Giraud, A. L., (2005). Interaction of face
and voice areas during speaker recognition. J Cogn Neurosci. 17, 367-76.
Vroomen, J., Bertelson, P., de Gelder, B., (2001). Directing spatial attention towards the
illusory location of a ventriloquized sound. Acta Psychol (Amst). 108, 21-33.
Vroomen, J., Driver, J., de Gelder, B., (2001). Is cross-modal integration of emotional
expressions independent of attentional resources? Cogn Affect Behav Neurosci. 1, 3827.
Vuilleumier, P., (2000). Faces call for attention: evidence from patients with visual extinction.
Neuropsychologia. 38, 693-700.
Vuilleumier, P., Sagiv, N., Hazeltine, E., Poldrack, R. A., Swick, D., Rafal, R. D., Gabrieli, J.
D., (2001). Neural fate of seen and unseen faces in visuospatial neglect: a combined
event-related functional MRI and event-related potential study. Proc Natl Acad Sci U
S A. 98, 3495-500.
Wada, Y., Kitagawa, N., Noguchi, K., (2003). Audio-visual integration in temporal
perception. Int J Psychophysiol. 50, 117-24.
Walker, J. T., Scott, K. J., (1981). Auditory-visual conflicts in the perceived duration of
lights, tones and gaps. J Exp Psychol Hum Percept Perform. 7, 1327-39.
Warren, J. D., Griffiths, T. D., (2003). Distinct mechanisms for processing spatial sequences
and pitch sequences in the human auditory brain. J Neurosci. 23, 5799-804.
Warren, J. D., Scott, S. K., Price, C. J., Griffiths, T. D., (2006). Human brain mechanisms for
the early analysis of voices. Neuroimage. 31, 1389-97.
Welch, R. B., Warren, D. H., (1980). Immediate perceptual response to intersensory
discrepancy. Psychol Bull. 88, 638-67.
Wessinger, C. M., Buenocore, M. H., Kussmaul, C. L., Mangun, G. R., (1997). Tonotopy in
human auditory cortex examined with functionnal magnetic resonance imaging. Hum
Brain Mapp. 5, 18-25.
Wessinger, C. M., VanMeter, J., Tian, B., Van Lare, J., Pekar, J., Rauschecker, J. P., (2001).
Hierarchical organization of the human auditory cortex revealed by functional
magnetic resonance imaging. J Cogn Neurosci. 13, 1-7.
Whiteside, S. P., (1998). Identification of a speaker's sex: a study of vowels. Percept Mot
Skills. 86, 579-84.
Wigan, A. L. (Ed.) (1844). The duality of the mind: Proved by the structure, functions, and
diseases of the brain, and by the phenomena of mental derangement, and shown to be
essential to moral responsibility., London.
349
Wright, D. B., Sladden, B., (2003). An own gender bias and the importance of hair in face
recognition. Acta Psychol (Amst). 114, 101-14.
Wright, T. M., Pelphrey, K. A., Allison, T., McKeown, M. J., McCarthy, G., (2003).
Polysensory interactions along lateral temporal regions evoked by audiovisual speech.
Cereb Cortex. 13, 1034-43.
Xu, Y., (2005). Revisiting the role of the fusiform face area in visual expertise. Cereb Cortex.
15, 1234-42.
Xu, Y., Liu, J., Kanwisher, N., (2005). The M170 is selective for faces, not for expertise.
Neuropsychologia. 43, 588-97.
Yamaguchi, M. K., Hirukawa, T., Kanazawa, S., (1995). Judgment of gender through facial
parts. Perception. 24, 563-75.
Yarbus, A. L., (1961). Eye movements during the examination of complicated objects.
Biofizika. 6(2), 52-6.
Yarbus, A. L., Eye movements during perception of complex objects. In: L. A. Riggs, Ed.,
Eye Movements and Vision. vol. Plenum Press, New York, 1967, pp. 171-196.
Yin, R. K., (1969). Looking at upside-down faces. Journal of Experimental Psychology. 81,
141-145.
Young, A. W., Flude, B. M., Ellis, A. W., Hay, D. C., (1987). Interference with face naming.
Acta Psychol (Amst). 64, 93-100.
Young, A. W., Hellawell, D., Hay, D. C., (1987). Configurational information in face
perception. Perception. 16, 747-59.
Yovel, G., Kanwisher, N., (2004). Face perception: domain specific, not process specific.
Neuron. 44, 889-98.
Yovel, G., Kanwisher, N., (2005). The neural basis of the behavioral face-inversion effect.
Curr Biol. 15, 2256-62.
Zatorre, R. J., Belin, P., (2001). Spectral and temporal processing in human auditory cortex.
Cereb Cortex. 11, 946-53.
Zatorre, R. J., Belin, P., Penhune, V. B., (2002). Structure and function of auditory cortex:
music and speech. Trends Cogn Sci. 6, 37-46.
Zatorre, R. J., Bouffard, M., Ahad, P., Belin, P., (2002). Where is 'where' in the human
auditory cortex? Nat Neurosci. 5, 905-9.
Zatorre, R. J., Evans, A. C., Meyer, E., Gjedde, A., (1992). Lateralization of phonetic and
pitch discrimination in speech processing. Science. 256, 846-9.
Zion-Golumbic, E., Bentin, S., (2006). Dissociated Neural Mechanisms for Face Detection
and Configural Encoding: Evidence from N170 and Induced Gamma-Band Oscillation
Effects. Cereb Cortex.
350

Documentos relacionados