Reconnaissance des formes
Formes et reconnaissance
La forme
• Forme • Il s’agit de l’objet porteur d’information (signal), d’où l’importance d’étudier la forme (et ses propriétés) en psychologie cognitive • Elle est délimitée par des contours
• Contour • Dénote les endroits dans l’espace où s’observent des contrastesassociés à des changements de luminance (quantité de lumière retransmise par une surface), ou de couleur
click to edit
La reconnaissance
Il s’agit de l’étape de traitement durant laquelle la forme est catégorisée, ou identifiée
Paradoxalement, cette tâche demeure en revanche très difficile pour les ordinateurs, qui sont susceptibles aux moindres altérations du signal (de moins en moins vrai avec les algorithmes d'apprentissage profond)
Le système visuel humainest très flexible et efficace dans cette tâche; on peut rapidement et aisément reconnaître différents objets à travers diverses conditions de visionnement (p.ex., obstruction partielle, éclairage, rotation, changement des couleurs)
• En fait, la reconnaissance des formes est tellement efficace chez l’humain qu’il faut, pour l’étudier, soit • Utiliser les temps de réponses, car les sujets font trop peu d’erreurs (donc on les force à répondre rapidement)
Ajouter beaucoup de bruit ou altérer le signal, afin d'entraîner la commission d’erreur
Les qualités d’une bonne théorie
• Vérifiabilité
Parcimonie
• Possibilité de valider (ou invalider) avec des faits observables(positivisme; Semaine 1)
• Principe philosophique et scientifique qui consiste à n’utiliser qu’un minimum de causes explicatives pour expliquer un phénomène • Autrement dit, on cherche la théorie qui expliquera un phénomène de la manière la plus simple possible
La description des formes
Description des formes
•Notre mémoire à long terme contient les représentations de nombreuses formes (p.ex., un chat, un chien; un berger Allemand, un labrador)
• La catégorisation s’effectue en comparant la « description visuelle » de la forme perçue à des représentations stockées en mémoire(p.ex., ce chien que je perçois est-il un labrador ou un berger Allemand?) • Ici, nous nous intéressons à la manière avec laquelle les formes sont « décrites » par notre système cognitif
Théorie des gabarits
Chaque forme perçue est mémorisée et devient un gabaritqui aidera à la reconnaissance des prochaines formes qui seront perçues
Appariement au gabarit (template-matching)
Les gabarits sont très rigides, c.-à-d. que la forme perçue doit pratiquement être identique (de même taille, couleur, orientation, occlusion partielle) au gabarit pour qu’il y ait reconnaissance
Un peu comme dans un casse-tête, où chaque pièce (forme) ne peut aller qu'à un seul endroit (être appariée qu’à un seul gabarit)
C’est le processus par lequel un gabarit est superposé à une formepour vérifier la correspondance entre les deu
Les systèmes de reconnaissance automatisée (comme ceux utilisés pour lire les chèques) fonctionnent par appariement au gabarit
Quelques problèmes pour la théorie des gabarits
La cognition humaine est très flexibleet traite sans problème des altérations qui mettent à mal les systèmes qui fonctionnent par appariement au gabarit; la théorie n’explique pas comment cela est possible
Un manque de parcimonie qui mène à l’absurde; en effet, le gabarit doit être identique à la forme, ce qui implique qu’il faille pratiquement une infinité de gabarits juste pour fonctionner au quotidien
Parfois on utilise une même forme pour désigner différents objets(p.ex., I = 1, i, L), ce que la théorie ne permet pas d’explique
Théorie des prototypes
• Il s’agit d’une version plus souple de la théorie des gabarits • Ici les formes rencontrées vont alimenter un prototype stocké en mémoire, c.-à-d. une représentation relativement abstraite qui peut être manipulée de manière élémentaire • Cela confère une certaine flexibilité et rend possible la comparaison avec des formes non identiques (p.ex., différence de taille, de position spatiale, d’orientation, d’occlusion partielle)
Avantage de la théorie des prototypes
Quelques problèmes pour la théorie des prototypes
Confère une certaine flexibilité dans la reconnaissance des formes, p.ex., AAAAAAAAAAAA Aseraient tous suffisamment similaires au prototype de « la lettre A » pour être reconnues comme tel
Un manque de parcimonie, car la reconnaissance repose toujours sur une forme d’appariement au gabarit, soit entre le prototype et la forme perçue; requiert donc tout de même de nombreux prototypes
Dans certains cas, des visages caricaturés sont mieux reconnus que des visages non caricaturés, ce que n’explique pas la théorie des prototypes
N’explique toujours pas comment on parvient à utiliser une même forme pour dénoter différents objets
Théorie des caractéristiques
Selon cette théorie, les formes complexes seraient décrites avec des caractéristiques élémentaires • Le système cognitif, lorsqu’il perçoit une forme, procéderait d’abord à une extraction des caractéristiques élémentaires, suivie d’une comparaison des caractéristiques de la forme à celles des représentations stockées en mémoire • Il y aurait reconnaissance lorsque les caractéristiques de la forme et d’une représentation concordent • Cette théorie a été développée pour la reconnaissance des lettres, mais des travaux suggèrent que la logique s’applique pour d’autres objets (p.ex., les visages, les expressions faciales)
• Les caractéristiques des lettres (Gibson, 1968-69) • L’idée, c’est que chaque lettre possède une combinaison de traits qui lui est propre
Les caractéristiques des lettres (Gibson, 1968-69) • Utilisation d’unetâche de discrimination de lettres • Deux lettres apparaissent côte-à-côte (750 ms) et le participant doit dire s’il s’agit de la même lettre ou non • Prédiction—plus deux lettres possèdent de caractères communs, plus elles devraient être difficiles à différencier
• Résultats • Plus les lettres possèdent de caractères communs, plus elles sont différenciées lentement • Au total, on observe une différence d’environ 110ms entre les lettres les plus différentes (460 ms) et les lettres les plus similaires (570 ms)
• Apprentissage des formes • Pour Gibson, apprendre à reconnaître une forme, c’est apprendre les caractéristiques de cette forme, de même que leur combinaison • Une importance particulière est donnée à ce qu’on appelle les caractéristiques distinctives, c.-à-d. aux caractéristiques qui permettent de différencier deux formes • Afin de faciliter leur apprentissage, surtout celles avec un haut degré de similitude, on devrait donner une attention particulière aux caractéristiques distinctives
click to edit
click to edit
Avantages de la théorie des caractéristiques
Problèmes de la théorie des caractéristiques
Permet une reconnaissance très flexible des formes, sans égard à la taille, la position ou l’occlusion (sauf si une caractéristique distinctive est complètement cachée) • Il s’agit d’une théorie parcimonieuse; en effet, ce système réduit les représentations des formes à quelques caractéristiques de base avec lesquelles on peut construire n’importe quelle forme—une espèce d’alphabet des formes—ce qui représente une économie cognitive importante
La théorie des caractéristiques ne dit rien sur les relations entre les caractéristiques(ex., organisation); la conséquence de cette omission est que la théorie des schémas prédit mieux les erreurs commises (70% de prédiction) que la théorie des caractéristiques (50% de prédiction)! • Des travaux ont montré que les erreurs d’omission (ex., voir un O plutôt qu’un Q) sont plus fréquentes que les erreurs d’hallucination (ex., voir un Q plutôt qu’un O); or, selon la théorie des caractéristiques, les deux types d’erreurs devraient avoir la même fréquence
L’importance des relations entre les caractéristiques des lettres (Fisetet al., 2006) • Utilisation de la méthode des bulles afin d’identifier les traits qui, lorsque traités, facilitent la reconnaissance des lettres majuscules et minuscules
Résultats • L’information diagnostique des lettres se trouve dans les terminaisons des traits, de même qu’aux jonctions entre les différents traits
click to edit
Théorie de la reconnaissance par composantes
Théorie de la reconnaissance par composantes (RPC; Biederman, 1987) • Biedermans’intéresse particulièrement à la reconnaissance d’objets tridimensionnels • Selon sa théorie, environ 35 à 40 géons(ions géométriques, c.-à-d. des formes géométriques simples) suffiraient à décrire toutes les formes dans l’environnement; comme une espèce d’alphabet des formes 3D
• Étapes de traitement • 1. Extraction des contours, basée sur des changements de luminance, de texture ou de couleur, sert à générer une esquisse (line drawing) de la forme • 2. Identification des composantes, comprend une analyse de la configuration des différents géonsde la forme • 3. Appariement, soit une comparaison entre les composantes de la formes et les représentations d’objets stockées en mémoire
L’importance de l’identification des composantes (Biederman, 1985) • Une prédiction importante de la RPC est que plus les composantes sont difficiles à identifier, plus la reconnaissance sera difficile, puisqu’on empêche aussi l’analyse de la configuration et donc, l’appariement • Dégradation visuellede 65% des contours; dans une première condition, les jonctions (configuration) sont préservées, alors que dans une seconde condition, les jonctions sont altérées
Avantages de la RPC
• Théorie parcimonieuse—relativement peu d’éléments pour décrire l’ensemble des formes • Explique en quoi la reconnaissance visuelle est résistante à la dégradation visuelle—tant que les jonctions et donc, la relation entre les géons, peuvent être extraites, la reconnaissance sera facile • Résistance au changement de point de vue—les géons et leurs relations peuvent être identifiés peu importe le point de vue (ex., de devant, derrière, etc.) • Accorde une grande importance aux relations entre les composante
L’importance du contexte
Traitement descendant
Bas/haut niveau • Le système cognitif possède une organisation hiérarchique de différents niveaux d’abstraction • Certains modules cognitifs sont spécialisés dans le traitement de bas niveau, c.-à-d. des propriétés brutes (ex., luminance, couleur, position), moins abstraites • D’autres modules cognitifs sont plutôt spécialisés dans le traitement dehaut niveau, c.-à-d. des propriétés sémantiques (ex., ovale, visage, Justin), plus abstraite
Traitement ascendant (bottom-up) • C’est lorsque l’information est traitée de manière hiérarchique (data-driven); mais l’information ne circule jamais à sens unique! • Traitement descendant (top-down) • C’est l’effet du contexte ou de nos connaissances sur le traitement de l’information à des plus bas niveaux d’abstraction
Le traitement descendant explique comment deux objets identiques peuvent être identifiés de différente manière, selon le contexte • Ci-dessous, le mot « Mathématique » crée un contexte qui informe les processus impliqués dans la reconnaissance des lettres A et H
La notion de traitement descendant pose une question importante… • Percevons-nous vraiment les objets tels qu’ils sont? • Est-ce que la perception d’intensité lumineuse est strictement une affaire de luminance? • Est-ce que la perception de couleur est strictement une affaire de longueur d’onde?
L’influence du traitement descendant a une implication cruciale pour nos mécanismes cognitifs—on ne fait pas simplement percevoir les objets tels qu’ils sont • En effet, plusieurs illusions perceptives dépendent presque entièrement du traitement descendant • En conséquence, une théorie qui prétend expliquer la reconnaissance des formes doit tenir compte de l’influence du traitement descendantet ne peut s’en tenir uniquement aux propriétés intrinsèques de l’objet
Théories structurales
Théories structurales (Gestaltisme) • Le système cognitif est indissociable de son environnement; il existe en conséquence un isomorphisme entre le monde et le système perceptif, c.-à-.d. qu’ils ont une structure et des principes d’organisation similaires • Importance accordée aux relations • La forme ne se réduit pas uniquement à ses caractéristiques, mais également à leurs relations, formalisées par des principes d’organisation • Il y a des principes de regroupement, qui servent à amalgamer certains traits; puis il y a des principes séparation, qui servent à isoler l’objet de l’arrière-plan
click to edit
- Principe de proximité • Les caractéristiques rapprochées ont tendance à être regroupées
• 2. Principe de similarité • Les objets similaires tendent à être regroupés
• 3. Principe de fermeture • Les caractéristiques formant une figure fermée sont regroupées
• 4. Principe de continuité • Les objets sont regroupés de manière à minimiser les interruptions de lignes continues
- Principe de symétrie • Les traits symétriques tendent à être perçus comme les contours d’une forme, ce qui la sépare de l’arrière-plan
Effet de supériorité du mot
- Effet d’appréhension du mot (Cattell, 1885) • Présentation rapide (10 ms) de séries de lettres dans un format ABCD EFGH IJKL • Lorsque les lettres sont aléatoires (ex., SIKA LADS MAES), les participants peuvent en moyenne nommer 4,5 lettres • Lorsque les lettres forment des mots (ex., CAMP LOUP MOTS), les participants peuvent en nommer une douzaine • Une lettre est donc plus facile à traiter à l’intérieur d’un mot que lorsque présentée parmi des lettres aléatoires; c’est l’effet d’appréhension du mot
• Explications alternatives à l’effet d’appréhension du mot • D’une part, il est possible d’imaginer que les participants devinent les lettres qu’ils n’ont pas eu le temps de reconnaîtrelorsqu’elles sont à l’intérieur d’un mot • Lorsque les lettres forment un mot, p.ex. RAM_, les chances de correctement deviner la lettre manquante (E) sont élevées • D’autre part, il est également possible qu’un mot soit plus facile à mémoriser qu’une séquence de lettres aléatoires de mêmelongueur • Si le participant a mémorisé le mot, alors il n’a qu’à récupérer les lettres du mot en mémoire
Vérification de l’effet d’appréhension du mot (Reicher, 1969)
• Vise à tester les explications alternatives à l’effet d’appréhension du mot • Présentations rapides (50ms) de séquences de lettres (mot ou non-mot) et le sujet doit rapporter la lettre indiquée
• Possibilité de deviner • Afin de tester la possibilité de deviner la lettre, on donne deux choix de réponsesau sujet • Si le participant devine, alors sa performance sera identique peu importe si la séquence forme un mot ou non, puisqu’il aura toujours 50% de chance de se tromper
Facilité à mémoriser le mot • Afin de tester cette possibilité, le choix de réponse est présenté soit avant la présentation des lettres (indicateur pré-stimulus; le sujet n’a à mémoriser qu’une lettre), ou après la présentation des lettres (indicateur post-stimulus; le sujet doit mémoriser toutes les lettres) • Si le participant mémorise le mot, mais pas la séquence de lettres aléatoires, l’indicateur pré devrait grandement améliorer la performance lorsque la séquence ne forme pas de mot
Une lettre est mieux reconnue si elle est placée à l’intérieur d’un mot, malgré la même probabilité de correctement deviner
De plus, une lettre est également mieux reconnue lorsqu’elle est placée à l’intérieur d’un mot, même lorsque le participant n’a pas à mémoriser l’ensemble des lettres
Ces résultats montrent donc qu’une lettre est mieux reconnue à l’intérieur d’un mot que d’une séquence aléatoire de lettres et confirment donc l’effet d’appréhension du mot
Phénomène mot-lettre (Reicher, 1969)
Les participants commettent en moyenne près de 40% d’erreurs, un taux équivalent à la condition non-mot
Ainsi, une lettre est plus facilement reconnaissable à l’intérieur d’un mot que de manière isolée; c’est le phénomène mot-lettre
Explication à l’aide du modèle connexionniste d’activation interactive (McClelland& Rumelhart, 1981)
Un modèle connexionniste est essentiellement un réseau neuronal artificiel, un programme informatique qui simule des processus cognitifs et est utile pour tester nos hypothèses sur leur fonctionnement • L’activité des neurones du cerveau peut être excitatrice, c.-à-d. qu’elle va stimuler les neurones adjacents; ou inhibitrice, c.-à-d. qu’elle va calmer les neurones adjacents • Les unités d’un modèle connexionniste fonctionnent de la même manière que les neurones, c.-à-d. qu’ils vont exciter ou inhiber d’autres unités
Les trois niveaux du modèle
Détecteurs de lettres, p.ex., les caractères \/ \/ exciteront l’unité de la lettre W, mais inhiberont l’unité de la lettre D
Détecteurs de mots, p.ex., la lettre W activera l’unité du mot WORD ou du mot WORK, mais inhibera l’unité du mot FORK
Détecteurs de caractères, p.ex., la lettre W activera les unités des caractères \/, mais inhibera les unités des caractères —| ( ), etc.
Comment expliquer l’effet de supériorité du mot, donc?
Ainsi, les caractères \/ \/ iront d’une part exciter l’unité de la lettre W par traitement ascendant
Mais si, en plus, une unité de mot est activée (p.ex., le mot WORK), celle-ci ira également, par traitement descendant, stimuler l’unité de la lettre W
Le modèle d’activation interactive simule également le traitement descendant