Please enable JavaScript.
Coggle requires JavaScript to display documents.
Deep Learning - Mermillod - Coggle Diagram
Deep Learning - Mermillod
1-Introduction
Machine Learning
DL
Les origines des RNA (artificiels)
A. Turing - Machine de Turing
CPU : computer processing units
W.McCulloch et A.Pitt - 1943 - invention du 1er neurone formel
--> neurone binaire
notion de F° transfert
2 étapes
Agrégation
activation
Hodkin et Huxley - 1952 - Amélioration de la F° transfert
info entrante syncho pour avoir spike en sortie
Loi de Hebb -1949
- 2ème brique fond de la cognit°
efficacité de C° entre les N en F° de leur CO° pré et post Synpt
**F.Rosenblatt - 1958 - Création du PERCEPTRON - 1er RNA
1er algo d'apprentissage de l'hist du DL
Neurone binaire + loi de Hebb = 2 règles assemblés qui permettent de créer de l'IA et simuler de manière sommaire ce qu'il se passe dans le cerveau humain (boîte noire)
Perceptron trouve les para W afin d'obtenir les sorties Y qui nous convienne
Minsky et Papert - pb de non linéarité - lim du P
McCarthy - père de l'IA symbolique et du langage LISP - 70'-80
2-Du P au PMC
Règle de Widrow et Hoff - 1960
Correction des poids synaptiques locaux - méthode des moindres carrées - évolu° Loi de Hebb
ADALINE - RN à 1 couche
Descente de Gradient:
F° qui fait des liens entre E et S associée via un
F° d'apprentissage
(F° de transition) - pour faire de la modif synaptique (mod des poids de C°)
PCM-Rumelhart, McClelland et Hinton
6 étapes d'apprentissage du PMC
2) le paramétrage du Réseau
3) chargement des données d'E et S
4) la diffusion feed-forward de l'info de C en C
W1 et W2 complètement aléatoire au début puis
Normalisation
Application de la F° transfert
Différentes F° transfert
: dep du type de réseau, de la tâche, des données
F° sigmoïde
RELU: unité linéaire rectifié
MIH: self regularized Non-Monotonic Neural Activation Function
F° TANH (hyperbolique)
F° de perte = LOS function : évalue l'écart entre PE réalisées par le RN et les valeurs réelles des obset° utilisées pd Apptge
5) Descente du Gradient
pb en RN: trouver une C° synap qui red l'erreur au max -->
Minimisation de l'erreur
6) Apprentissage itératif
apprentissages et généralisation = processus itératif
- RN cap d'apprendre et surtout de généraliser son apprentissage à de nouv stimuli
1) La transduction
Bassin attracteur
Faux pb de minima locaux
- reproche au RN lié à l'IH (RN à 2 synapse n'existe pas, pas de bassin attracteur mais plutôt une selle de cheval pour aller vers le min global
différentes mesures d'accuracy (VD)
Soft max
Winner-take-all (prendre le N le + fort)
Matrices de confusion
Phéno d'entrenchment (enracinement)
: + RN apprend, + spécialisation sur certaines valeurs, au bout d'un moment RN ne peux plus modifier ses C° = saturation (plafond de la sigmoïde) ---> au début poids aléatoire entre les C° synap puis au cours de l'apprentissage, spécialisation (augt° ou dimt° de certains poids) --->analogie avec phéno d'ascquisition (perceptual narrowing) / rétrogenèse / oubli catastrophique = perte des 1er mots appris, stocke en mémoire des derniers mots
autres para d'optimisation
Learning rate
: vit à laquelle un mod d'Apge automatique apprend
Momentum
: pareil que LR + construit une inertie dans le RN
Fahlman offset
: permet d'éviter le phéno d'entrenchment en ajoutant une Cste qui va changer le poids de C° synap et ainsai rajouter de la plasticité sur les RN ( :warning: si augt° plasticité ++++ alors oubli catastrophique du RN)
Variante du PCM
Tmt de données dynamique avt les RN
Ex chaînes de Markov (renforcement): cerveau = machine à faire des PE sur l'evt
Réinjections
permet de prédire des données tempt: réinjection de la CC créer effet boule de neige --> préférable d'avoir CC en RN
Influence massive du top down (C°TD+++ dans le cerveau humain
SRN (simple recurrent network) - Elman
apprentissage de seq temp et de seq complexes par le RN --> SRN anticipe le futur en F° apprentissages passés
impact +++ RN 80'-90' en psycho cog
3-P au PMC au DL
DL: descendant direct du PMC
DNN encore un lien avec le cerveau humain ?
Champs récepteur neuronal, quel rapport avec la convolution?
processus de pooling
: rassembler des infos ayant des prop similaires. ibtention de différences de pooling permettant d'avoir
différentes gaussiennes
en sortie de la rétine
celles-ci permettent de produire une
image améliorée
au niv de la rétine = obtention du
blanchissement du spectre
2 types pooling
cellules
simples
CGl codant la même info vont se regrouper sur la
même cell simple au niv de V1
(ex: codage de la même orientation à des positions visuelles différentes)<
sensibles aux stimuli
ayant une certaine orientation et une certaine feq avec des posit° spé dans le champs visuel
complexes
convergences de plusieurs cell simples
ayant la même orientation préférée sur une cell à champs récepteur complexe: CS codant la même orientation convergent sur une meme CC
insensible à la phase (contrairement aux CS) = répondent qqles soient l'orientation du champs visuel
convolution dans le dom spatiale = multiplication dans le dom spectrale
CRN
: région sur la rétine qui, stimulée, a un effet max sur le déclenchement de cette cell
Filtre de Gabor
dans le dom freq permet de reproduire la rep visuelle prim = bien simuler la réponse de V1, simulent les col de neurones de V1 (prouvé chez le chat)
Cortex Inféro Temporal
V2 = entrée CIF - voix ventrale, voix parvo cell, impliquée dans la reco visuelle
neurones codent pour des
catégories spécifiques
(prouvées car plus de spikes visibles)
chez le
singe: invariance
pour la taille, position et indices de forme
chez
l'homme
: on a retrouvé des neurones pour des catégo spé mais invariance ?
répondent à un concept quelque soit la modalité -->
**reco consciente (iEEG)
--> processus de convolution / pooling aboutit à l'extraction de concept au niv de l'hippocampe cérébral)
CCL: cell répondent ) des features / catégo (rôle de cortex IF) MAIS pas de cell grand-mères --> débat entre
Attaques adverses
explication: le cerveau prédictif?
DL simule le fctmt de la voie ventral (parvo cell, reco visuelle) de la
P° vers des processus de + en + abstrait = proc bottom-up
mais dans cerveau humain --> C° top-dow +++ : utile pour prédire l'evmt (modèle de Ledoux = LSF, bâtonnets, magnocellulaires)
Modèle de Barr
on aurait une activité très rapide du cortex OF, permettraient de générer des prédictions via LSF, sur ce qu'on perçoit (calcul de l'erreur de prédiction)
nous aussi on en a!
basées sur des illusions d'optiques, Adv,
générées par nos prédictions et nos erreurs de prédictions
en tant qu'humain!
4-La belle histoire de DL
3/12/2012, conf NIPS sur RNA - Geoffrey Hinton
présentation d'une méthode où les perfs d'u
RN écrasent
de plusieurs dizaine de % toutes les autres perf des méthodes pré-existantes
accepté au sein de la pop stf grâce à la conjonction de 3 facteurs
Marketing
(application des RN)
CPU (carte graphiques)
: décompose image en pleins de petites composantes, utilisées gammers, accélèrent le tmt vidéo
big data
: utile pour le tmt des grosse base de données
révolution de 2012- catégorisation visuelle
classifier l'image nette avec des taux de fiabilité jamais atteints (montrent les perf du DL pour la reco faciale)
syst qui apprennent par eux-mêmes
: RN paramètres les filtres de convolution et pooling
Génératif Adverses Network
de la reco à l'imagination visuelle sur des stimuli stat :
RN3 = discriminateur (détective)
RN1 (CNN) classique (ex: un classifieur)
RN2= génératif adverse = faussaire
de la
P° à l'intelligence
/ intelligence et jeux
apprentissage par renforcement
: syst qui apprennent sur des maps comt ne pas perdre par ex, et généralise ensuite à d'autres maps avec le même objectif -->
syst cap de généraliser l'Ig dev sur un pb pour le dev sur de nvx pb
Deep Mind
: RN avec un apprentissage par renforcement
aller plus-loin que ce qu'on font les humains?
RN cap de battre les humains en créant de nouvelles stratégies, ex application d'un algo génératif reproduit à la génération suivante, algo va se confronter entre eux, et chaque génération va modifier légèrement ses C° synap pour reproduire la variabilité.
pb de l'oubli catastrophique
: le RN va oublier la 1ère tâche apprise, lors de l'apprentissage d'une 2ème tâche.
IA, pas bons pour plusieurs choses (uniq 1 tâche). aujrd'h on veut tester si le RN est cap de faire du renforcement sur une tâche, sans oublier ce qu'il a fait à la tâche précédente
intelligence sociale
meilleure que les humains pour com avec les humains!
5- L'histoire honteuse du DL
Après le 3/12/2012
qu'elle évolution des CNN depuis 2012
7-Les avantages bio et computationnels de syst PDP pour la cognition hum
Caricature du neurones GM
Quiroga (2008) - Modèle // et distribué
Neurones "Halle Berry" = N. Amodaux
CCL: pour l'auteur pas de co dans les N, mais peuvent se spécialoser --> reconstruction de la co à partir de C° synap restante même si N dédruit)
Bower (2010) - Modèle Localiste (neurones spécialisés)
Résistance à l'altération
syst // distribués moins sensibles à la destruction de neurones --> résistance à la dégration
hydroencephalie et conscience
syst de prédiction de série temporelle
plasticité cérébrale: quand une tumeur se dev de façon lente -->
plasticité
+++
Données neurophysiologiques
caractéristiques des primates
travaux chauffeurs de taxi
relation de causalité acquise
données neuropsycho
études sur les choix politiques
relation entre QI et préjugés racistes et homophobes
F° cognitives impactées
résistance au bruit inhérents des RN bio
la
struc // et distribuée
du syst permet un fonctionemment efficient magré le taux d'échec et de bruit de la atrice synaptique
proba d'émission spontanée d'un spike
60-80% activités cerveau lié à l'act spontanée
proba d'échec d'émission s'un spike
echec 50% à 90% des cas
6-Limites
de l'IHum
approche cognitive
: pb de David Wechsler, mesurer un concept qui est en faite une illusion --> rejet d'une conception idélae de l'I au profit d'une conception composite et statistique
Approche neurosciences
: en réalité pas de zone dédié à l"IH, parler de RN avec diff aires et diff RN qui fonctionnent entre eux pour prod qqle chose
CNN actuels
Apprentissage supervisé!!