Reconnaissance des formes

Formes et reconnaissance

La forme

• Forme • Il s’agit de l’objet porteur d’information (signal), d’où l’importance d’étudier la forme (et ses propriétés) en psychologie cognitive • Elle est délimitée par des contours

• Contour • Dénote les endroits dans l’espace où s’observent des contrastesassociés à des changements de luminance (quantité de lumière retransmise par une surface), ou de couleur

click to edit

La reconnaissance

Il s’agit de l’étape de traitement durant laquelle la forme est catégorisée, ou identifiée

Paradoxalement, cette tâche demeure en revanche très difficile pour les ordinateurs, qui sont susceptibles aux moindres altérations du signal (de moins en moins vrai avec les algorithmes d'apprentissage profond)

Le système visuel humainest très flexible et efficace dans cette tâche; on peut rapidement et aisément reconnaître différents objets à travers diverses conditions de visionnement (p.ex., obstruction partielle, éclairage, rotation, changement des couleurs)

• En fait, la reconnaissance des formes est tellement efficace chez l’humain qu’il faut, pour l’étudier, soit • Utiliser les temps de réponses, car les sujets font trop peu d’erreurs (donc on les force à répondre rapidement)

Ajouter beaucoup de bruit ou altérer le signal, afin d'entraîner la commission d’erreur

Les qualités d’une bonne théorie

• Vérifiabilité

Parcimonie

• Possibilité de valider (ou invalider) avec des faits observables(positivisme; Semaine 1)

• Principe philosophique et scientifique qui consiste à n’utiliser qu’un minimum de causes explicatives pour expliquer un phénomène • Autrement dit, on cherche la théorie qui expliquera un phénomène de la manière la plus simple possible

La description des formes

Description des formes

•Notre mémoire à long terme contient les représentations de nombreuses formes (p.ex., un chat, un chien; un berger Allemand, un labrador)

• La catégorisation s’effectue en comparant la « description visuelle » de la forme perçue à des représentations stockées en mémoire(p.ex., ce chien que je perçois est-il un labrador ou un berger Allemand?) • Ici, nous nous intéressons à la manière avec laquelle les formes sont « décrites » par notre système cognitif

Théorie des gabarits

Chaque forme perçue est mémorisée et devient un gabaritqui aidera à la reconnaissance des prochaines formes qui seront perçues

Appariement au gabarit (template-matching)

Les gabarits sont très rigides, c.-à-d. que la forme perçue doit pratiquement être identique (de même taille, couleur, orientation, occlusion partielle) au gabarit pour qu’il y ait reconnaissance

Un peu comme dans un casse-tête, où chaque pièce (forme) ne peut aller qu'à un seul endroit (être appariée qu’à un seul gabarit)

C’est le processus par lequel un gabarit est superposé à une formepour vérifier la correspondance entre les deu

Les systèmes de reconnaissance automatisée (comme ceux utilisés pour lire les chèques) fonctionnent par appariement au gabarit

Quelques problèmes pour la théorie des gabarits

La cognition humaine est très flexibleet traite sans problème des altérations qui mettent à mal les systèmes qui fonctionnent par appariement au gabarit; la théorie n’explique pas comment cela est possible

Un manque de parcimonie qui mène à l’absurde; en effet, le gabarit doit être identique à la forme, ce qui implique qu’il faille pratiquement une infinité de gabarits juste pour fonctionner au quotidien

Parfois on utilise une même forme pour désigner différents objets(p.ex., I = 1, i, L), ce que la théorie ne permet pas d’explique

Théorie des prototypes

• Il s’agit d’une version plus souple de la théorie des gabarits • Ici les formes rencontrées vont alimenter un prototype stocké en mémoire, c.-à-d. une représentation relativement abstraite qui peut être manipulée de manière élémentaire • Cela confère une certaine flexibilité et rend possible la comparaison avec des formes non identiques (p.ex., différence de taille, de position spatiale, d’orientation, d’occlusion partielle)

Avantage de la théorie des prototypes

Quelques problèmes pour la théorie des prototypes

Confère une certaine flexibilité dans la reconnaissance des formes, p.ex., AAAAAAAAAAAA Aseraient tous suffisamment similaires au prototype de « la lettre A » pour être reconnues comme tel

Un manque de parcimonie, car la reconnaissance repose toujours sur une forme d’appariement au gabarit, soit entre le prototype et la forme perçue; requiert donc tout de même de nombreux prototypes

Dans certains cas, des visages caricaturés sont mieux reconnus que des visages non caricaturés, ce que n’explique pas la théorie des prototypes

N’explique toujours pas comment on parvient à utiliser une même forme pour dénoter différents objets

Théorie des caractéristiques

Selon cette théorie, les formes complexes seraient décrites avec des caractéristiques élémentaires • Le système cognitif, lorsqu’il perçoit une forme, procéderait d’abord à une extraction des caractéristiques élémentaires, suivie d’une comparaison des caractéristiques de la forme à celles des représentations stockées en mémoire • Il y aurait reconnaissance lorsque les caractéristiques de la forme et d’une représentation concordent • Cette théorie a été développée pour la reconnaissance des lettres, mais des travaux suggèrent que la logique s’applique pour d’autres objets (p.ex., les visages, les expressions faciales)

• Les caractéristiques des lettres (Gibson, 1968-69) • L’idée, c’est que chaque lettre possède une combinaison de traits qui lui est propre

Les caractéristiques des lettres (Gibson, 1968-69) • Utilisation d’unetâche de discrimination de lettres • Deux lettres apparaissent côte-à-côte (750 ms) et le participant doit dire s’il s’agit de la même lettre ou non • Prédiction—plus deux lettres possèdent de caractères communs, plus elles devraient être difficiles à différencier

• Résultats • Plus les lettres possèdent de caractères communs, plus elles sont différenciées lentement • Au total, on observe une différence d’environ 110ms entre les lettres les plus différentes (460 ms) et les lettres les plus similaires (570 ms)

• Apprentissage des formes • Pour Gibson, apprendre à reconnaître une forme, c’est apprendre les caractéristiques de cette forme, de même que leur combinaison • Une importance particulière est donnée à ce qu’on appelle les caractéristiques distinctives, c.-à-d. aux caractéristiques qui permettent de différencier deux formes • Afin de faciliter leur apprentissage, surtout celles avec un haut degré de similitude, on devrait donner une attention particulière aux caractéristiques distinctives

click to edit

click to edit

Avantages de la théorie des caractéristiques

Problèmes de la théorie des caractéristiques

Permet une reconnaissance très flexible des formes, sans égard à la taille, la position ou l’occlusion (sauf si une caractéristique distinctive est complètement cachée) • Il s’agit d’une théorie parcimonieuse; en effet, ce système réduit les représentations des formes à quelques caractéristiques de base avec lesquelles on peut construire n’importe quelle forme—une espèce d’alphabet des formes—ce qui représente une économie cognitive importante

La théorie des caractéristiques ne dit rien sur les relations entre les caractéristiques(ex., organisation); la conséquence de cette omission est que la théorie des schémas prédit mieux les erreurs commises (70% de prédiction) que la théorie des caractéristiques (50% de prédiction)! • Des travaux ont montré que les erreurs d’omission (ex., voir un O plutôt qu’un Q) sont plus fréquentes que les erreurs d’hallucination (ex., voir un Q plutôt qu’un O); or, selon la théorie des caractéristiques, les deux types d’erreurs devraient avoir la même fréquence

L’importance des relations entre les caractéristiques des lettres (Fisetet al., 2006) • Utilisation de la méthode des bulles afin d’identifier les traits qui, lorsque traités, facilitent la reconnaissance des lettres majuscules et minuscules

Résultats • L’information diagnostique des lettres se trouve dans les terminaisons des traits, de même qu’aux jonctions entre les différents traits

click to edit

Théorie de la reconnaissance par composantes

Théorie de la reconnaissance par composantes (RPC; Biederman, 1987) • Biedermans’intéresse particulièrement à la reconnaissance d’objets tridimensionnels • Selon sa théorie, environ 35 à 40 géons(ions géométriques, c.-à-d. des formes géométriques simples) suffiraient à décrire toutes les formes dans l’environnement; comme une espèce d’alphabet des formes 3D

• Étapes de traitement • 1. Extraction des contours, basée sur des changements de luminance, de texture ou de couleur, sert à générer une esquisse (line drawing) de la forme • 2. Identification des composantes, comprend une analyse de la configuration des différents géonsde la forme • 3. Appariement, soit une comparaison entre les composantes de la formes et les représentations d’objets stockées en mémoire

L’importance de l’identification des composantes (Biederman, 1985) • Une prédiction importante de la RPC est que plus les composantes sont difficiles à identifier, plus la reconnaissance sera difficile, puisqu’on empêche aussi l’analyse de la configuration et donc, l’appariement • Dégradation visuellede 65% des contours; dans une première condition, les jonctions (configuration) sont préservées, alors que dans une seconde condition, les jonctions sont altérées

Avantages de la RPC

• Théorie parcimonieuse—relativement peu d’éléments pour décrire l’ensemble des formes • Explique en quoi la reconnaissance visuelle est résistante à la dégradation visuelle—tant que les jonctions et donc, la relation entre les géons, peuvent être extraites, la reconnaissance sera facile • Résistance au changement de point de vue—les géons et leurs relations peuvent être identifiés peu importe le point de vue (ex., de devant, derrière, etc.) • Accorde une grande importance aux relations entre les composante

L’importance du contexte

Traitement descendant

Bas/haut niveau • Le système cognitif possède une organisation hiérarchique de différents niveaux d’abstraction • Certains modules cognitifs sont spécialisés dans le traitement de bas niveau, c.-à-d. des propriétés brutes (ex., luminance, couleur, position), moins abstraites • D’autres modules cognitifs sont plutôt spécialisés dans le traitement dehaut niveau, c.-à-d. des propriétés sémantiques (ex., ovale, visage, Justin), plus abstraite

Traitement ascendant (bottom-up) • C’est lorsque l’information est traitée de manière hiérarchique (data-driven); mais l’information ne circule jamais à sens unique! • Traitement descendant (top-down) • C’est l’effet du contexte ou de nos connaissances sur le traitement de l’information à des plus bas niveaux d’abstraction

Le traitement descendant explique comment deux objets identiques peuvent être identifiés de différente manière, selon le contexte • Ci-dessous, le mot « Mathématique » crée un contexte qui informe les processus impliqués dans la reconnaissance des lettres A et H

La notion de traitement descendant pose une question importante… • Percevons-nous vraiment les objets tels qu’ils sont? • Est-ce que la perception d’intensité lumineuse est strictement une affaire de luminance? • Est-ce que la perception de couleur est strictement une affaire de longueur d’onde?

L’influence du traitement descendant a une implication cruciale pour nos mécanismes cognitifs—on ne fait pas simplement percevoir les objets tels qu’ils sont • En effet, plusieurs illusions perceptives dépendent presque entièrement du traitement descendant • En conséquence, une théorie qui prétend expliquer la reconnaissance des formes doit tenir compte de l’influence du traitement descendantet ne peut s’en tenir uniquement aux propriétés intrinsèques de l’objet

Théories structurales

Théories structurales (Gestaltisme) • Le système cognitif est indissociable de son environnement; il existe en conséquence un isomorphisme entre le monde et le système perceptif, c.-à-.d. qu’ils ont une structure et des principes d’organisation similaires • Importance accordée aux relations • La forme ne se réduit pas uniquement à ses caractéristiques, mais également à leurs relations, formalisées par des principes d’organisation • Il y a des principes de regroupement, qui servent à amalgamer certains traits; puis il y a des principes séparation, qui servent à isoler l’objet de l’arrière-plan

click to edit

  1. Principe de proximité • Les caractéristiques rapprochées ont tendance à être regroupées

• 2. Principe de similarité • Les objets similaires tendent à être regroupés

• 3. Principe de fermeture • Les caractéristiques formant une figure fermée sont regroupées

• 4. Principe de continuité • Les objets sont regroupés de manière à minimiser les interruptions de lignes continues

  1. Principe de symétrie • Les traits symétriques tendent à être perçus comme les contours d’une forme, ce qui la sépare de l’arrière-plan

Effet de supériorité du mot

  1. Effet d’appréhension du mot (Cattell, 1885) • Présentation rapide (10 ms) de séries de lettres dans un format ABCD EFGH IJKL • Lorsque les lettres sont aléatoires (ex., SIKA LADS MAES), les participants peuvent en moyenne nommer 4,5 lettres • Lorsque les lettres forment des mots (ex., CAMP LOUP MOTS), les participants peuvent en nommer une douzaine • Une lettre est donc plus facile à traiter à l’intérieur d’un mot que lorsque présentée parmi des lettres aléatoires; c’est l’effet d’appréhension du mot

• Explications alternatives à l’effet d’appréhension du mot • D’une part, il est possible d’imaginer que les participants devinent les lettres qu’ils n’ont pas eu le temps de reconnaîtrelorsqu’elles sont à l’intérieur d’un mot • Lorsque les lettres forment un mot, p.ex. RAM_, les chances de correctement deviner la lettre manquante (E) sont élevées • D’autre part, il est également possible qu’un mot soit plus facile à mémoriser qu’une séquence de lettres aléatoires de mêmelongueur • Si le participant a mémorisé le mot, alors il n’a qu’à récupérer les lettres du mot en mémoire

Vérification de l’effet d’appréhension du mot (Reicher, 1969)

• Vise à tester les explications alternatives à l’effet d’appréhension du mot • Présentations rapides (50ms) de séquences de lettres (mot ou non-mot) et le sujet doit rapporter la lettre indiquée

• Possibilité de deviner • Afin de tester la possibilité de deviner la lettre, on donne deux choix de réponsesau sujet • Si le participant devine, alors sa performance sera identique peu importe si la séquence forme un mot ou non, puisqu’il aura toujours 50% de chance de se tromper

Facilité à mémoriser le mot • Afin de tester cette possibilité, le choix de réponse est présenté soit avant la présentation des lettres (indicateur pré-stimulus; le sujet n’a à mémoriser qu’une lettre), ou après la présentation des lettres (indicateur post-stimulus; le sujet doit mémoriser toutes les lettres) • Si le participant mémorise le mot, mais pas la séquence de lettres aléatoires, l’indicateur pré devrait grandement améliorer la performance lorsque la séquence ne forme pas de mot

Une lettre est mieux reconnue si elle est placée à l’intérieur d’un mot, malgré la même probabilité de correctement deviner

De plus, une lettre est également mieux reconnue lorsqu’elle est placée à l’intérieur d’un mot, même lorsque le participant n’a pas à mémoriser l’ensemble des lettres

Ces résultats montrent donc qu’une lettre est mieux reconnue à l’intérieur d’un mot que d’une séquence aléatoire de lettres et confirment donc l’effet d’appréhension du mot

Phénomène mot-lettre (Reicher, 1969)

Les participants commettent en moyenne près de 40% d’erreurs, un taux équivalent à la condition non-mot

Ainsi, une lettre est plus facilement reconnaissable à l’intérieur d’un mot que de manière isolée; c’est le phénomène mot-lettre

Explication à l’aide du modèle connexionniste d’activation interactive (McClelland& Rumelhart, 1981)

Un modèle connexionniste est essentiellement un réseau neuronal artificiel, un programme informatique qui simule des processus cognitifs et est utile pour tester nos hypothèses sur leur fonctionnement • L’activité des neurones du cerveau peut être excitatrice, c.-à-d. qu’elle va stimuler les neurones adjacents; ou inhibitrice, c.-à-d. qu’elle va calmer les neurones adjacents • Les unités d’un modèle connexionniste fonctionnent de la même manière que les neurones, c.-à-d. qu’ils vont exciter ou inhiber d’autres unités

Les trois niveaux du modèle

Détecteurs de lettres, p.ex., les caractères \/ \/ exciteront l’unité de la lettre W, mais inhiberont l’unité de la lettre D

Détecteurs de mots, p.ex., la lettre W activera l’unité du mot WORD ou du mot WORK, mais inhibera l’unité du mot FORK

Détecteurs de caractères, p.ex., la lettre W activera les unités des caractères \/, mais inhibera les unités des caractères —| ( ), etc.

Comment expliquer l’effet de supériorité du mot, donc?

Ainsi, les caractères \/ \/ iront d’une part exciter l’unité de la lettre W par traitement ascendant

Mais si, en plus, une unité de mot est activée (p.ex., le mot WORK), celle-ci ira également, par traitement descendant, stimuler l’unité de la lettre W

Le modèle d’activation interactive simule également le traitement descendant