Please enable JavaScript.
Coggle requires JavaScript to display documents.
Hopfield models (The Hopfield network (Energy function (låter oss…
Hopfield models
The Hopfield network
-
-
-
gamla, men är grunden för nyare algoritmer som Boltzmann machines and deep-belief networks
kan också lösa optimiseringsproblem, resulterande algoritmer nära relerade till Markov-chain Monte-Carlo algorithms
vi förstår också effekterna av brus på dessa, denna förståelse användbar för mer avancerade modeller där vi inte förstår effekterna av brus matematiskt
-
Energy function
-
låter oss analysera konvergensen hos Hopfield-dynamik
"More generally, energy functions are important tools in analysing
the convergence of different kinds of neural networks"
-
-
-
-
-
Spurious states
Eftersom H är invariant under \(\mathbf{S}\rightarrow-\mathbf{S}\), så är \(-\mathbf{x}^{(\mu)}\) en attraktor om \(\mathbf{x}^{(\mu)}\) är en attraktor
Finns även andra typer av spurious states, som linjärkombinationer av udda antal mönster, kallade mixed states:
Svårt förutsäga när ett nätverk konvergerar till ett särskilt mixed state, men givet ett mixed state \(x_{i}^{(\textrm{mix})}\) kan vi säga om det känns igen av nätverket. Låt\[x_{i}^{(\textrm{mix})}=\textrm{sgn}\left(x_{i}^{(1)}+x_{i}^{(2)}+x_{i}^{(3)}\right)\]
För att se om det är igenkänt måste vi som vanligt avgöra huruvida
är sant
-
-
Stochastic
lättare beräkna felsannolikheterna om lite brus (utöver det redan använda random patterns) introduceras
Nära relaterat till statistical mechanics-teori om spin glasses
-
-
-
Den stokastiska är istället:
med
Idén: Kör med en mycket låg brusnivå (ett högt \(\beta\)). Vi får då en dynamik väldigt lik den deterministiska varianten, men: bruset låter systemet ibland röra sig uppåt, så att det går att ta sig ur spurious minima.
Order parameters
Om vi matar in ett lagrat mönster så vill vi att nätverket stannar i närheten av detta mönster. Hur bra detta går mäts med order-parametern \(m_{\mu}\):
där
- Poängen för genomsnittsbit är 1 vid t=0
- Sedan efter en transient lägger den sig i ett steady state där den fluktuerar kring ett medelvärde med en definit fördelning som är oberoende av T.
- "This mean value is usually a bit lower than unity, an
effect of the noise." <alltså vanligtvis inte helt rätt mönster?>
-
Storage capacity*
Den tidigare analysen ersatte summan i mean-field-ekvationerna # med sin första term \(x_{i}^{(1)}m_{1}\), dvs cross-talk-termen negligerades, vilket fungerar då \(\alpha=\frac{p}{N}\) är tillräckligt litet.
För den stokastiska versionen kan vi undersöka felsannolikheten för många fler än ett steg även när \(\alpha\) är stort.
-
Nu kan inte de andra termerna negligeras, utan vi behöver utvärdera alla \(m_{\mu}\) för att kunna beräkna \(\left\langle b_{i}\right\rangle \)
Vi har \(\left\langle S_{i}\right\rangle =\tanh(\beta\left\langle b_{i}\right\rangle )=\tanh(\beta\sum_{\mu}x_{i}^{(\mu)}m_{\mu})\)
och om vi sätter in detta i uttrycket för \(m_{v}\) får vi:
\[m_{v}=\frac{1}{N}\sum_{i}x_{i}^{(v)}\left\langle S_{i}\right\rangle =\frac{1}{N}\sum_{i}x_{i}^{(v)}\tanh(\beta\sum_{\mu}x_{i}^{(\mu)}m_{\mu})\]
-
Lösa systemet
Vi antar att nätverket stannar nära mönstret \(x_{i}^{(1)}\) i sitt steady state, så att \(m_{1}\approx1\). Samtidigt låter vi de andra order-parametrarna förbli ändliga (yet possibly small). Vi antar slumpmönster så att \(m_{\mu}\) blir slumpvariabler som fluktuerar kring 0 med varians \(\left\langle m_{\mu}^{2}\right\rangle \). Denna varians kan approximativt beräknas med ekvation #. I \(\mu\)-summan måste vi separera ut fallet \(\mu=v\) (eftersom \(v\) finns även på vänstersidan). Vi måste också behandla termen \(\mu=1\) separat som innan. Det blir nödvändigt att skilja mellan fallet \(v=1\) och \(v\neq1\) (så vi inte räknar dubbelt då).
-
-
-
-
Stochastic optimization*
Monte-Carlo simulation
-
Detailed-balance condition
Hamming distance mellan mönster µ och testmönstret
-
-
-
-
Alltså vikter som beror på de inkommande neuronerna på ett sånt sätt att de cancelleras ut.
Eller nej, de beror ju på bitarna i det lagrade mönstret (konstant)
-
-
(Hebbs teori: viktningen mellan två neuron ökar ifall bägge neuron aktiveras simultant och minskar ifall de aktiveras separat)
-
-
-
-
-
-
Finns så här många mixed states:
-
-
"It may be that the network produces satisfactory results for a given number of patterns (and bits). But if one tries to store just one more pattern, the network may fail to recognise anything."
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
const kanske är de där i=j, som ju inte räknas med i summan? (Si*Si=1 så beror ej på Si,Sj som det står)
-
-
-
-
-
-
-
- kan också visa normalitet med Bernoulli-försök
- genom att integrera den gråa ytan får vi \(P_{\textrm{error}}^{t=1}\)
- beror endast på p och N genom \(\alpha=\frac{p}{N}\)
-
-
-
-
-
\[m_{\mu}=\textrm{lim}_{T\rightarrow\infty}\frac{1}{T}\sum_{t=1}^{T}\left(S_{1}(t)\underbrace{x_{1}^{(\mu)}}_{\textrm{kan flyttas ut}}\right)=\left\langle S_{1}\right\rangle x_{1}^{(\mu)}\]
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-