Please enable JavaScript.
Coggle requires JavaScript to display documents.
Reti Neurali (per scienze biochimiche) - Coggle Diagram
Reti Neurali
(per scienze biochimiche)
Reti Neurali
trasforma input in output
layer di neuroni
metodologia non perforza conoscibile
presenza di hidden layer
Predizione per sliding, muting windows
dare in pasto al primo layer una intrera finestra per predire un elemento centrale
metodo 2w+1
per gli amminoacidi iniziali, si aggiungono dati davanti ad esso per avere una finestra anche per loro
usually 0 per i primari e C per le secondarie
oppure elemento GAP
Data Set
90% training set
10% test set
divido il training set
80%
20% validation test
addestro 5 volte, cambiando il validation test tutte le volte
CROSS
VALIDATION
per avere una standard deviation della performance
Il Leave One Out non viene più utilizzato
si fa una clusterizzazione prima per avere elementi simili tutti da una parte
Protein Data Bank
prendo proteine con struttura terziaria nota
(immagino per il test set)
selezione strutture con qualità alta (<35 A fino agli anni 90, oggi ancora meno)
rimuovo proteine con chain break
rimuovo ridondanze
(uso BLAST per filtrarle)
Uso DSSP program per assegnare struttura secindaria ad ogni residuo
è preferibile standard o comunque pubblico,
per poter valutare l'algoritmo in termini di efficienza
Passo alla macchina il data set
formato one hot
matrice in cui ogni riga indica una determinata lettera ed ogni colonna la posizione
1 se e solo se si trova quella lettera in quella posizione, 0 altrimenti
Hidden layer fa un ulteriore trasformazione attraverso un modello matematico
crea input per l'output layer,
il cui output sarà una likelihood di essere H, L o E
somma output finale deve essere ragionevolmente vicina ad 1
efficienti perchè possono gestire
grandi data set di training
ben diversificati
PHD APPROACH
nearest neighbour attravero reti neurali
prendo qualunque sequenza simile alla mia con BLAST
elimino quelle troppo simili
allineamento multiplo
creo un profilo
PROFILO
derivato da matrice di probabilità
frequenza di ogni struttura secondaria per ogni residuo della proteina studiata
calcolo score
formula semplice:
score u,a = log ( f u,a / p_a)
f u,a = frequenza di a nella colonna u,
p_a= freq a nell'allineamento
se f=0 avremo problemi quindi
f u,a = (n u,a +1)/ (N sequenze +20)
f u,a= (n u,a + Beta p_a) /(N sequenze + Beta)
MATRICE PSSM
matrice punteggi specifici per ogni posizione
per rappresentare matematicamente un allineamento multiplo
SOFTWARE
PHD
PSI-PRED
JPRED, JNET
CAVEATS
limite intrinseco di accuratezza
anche sperimentalmente lo abbiamo (15%)
casi estremi di proteine che in determinate condizioni cambiano completamente la propria struttura
mucca pazza
(prion protein)