Reti Neurali
(per scienze biochimiche)
Reti Neurali
trasforma input in output
layer di neuroni
metodologia non perforza conoscibile
presenza di hidden layer
Predizione per sliding, muting windows
dare in pasto al primo layer una intrera finestra per predire un elemento centrale
metodo 2w+1
Data Set
90% training set
10% test set
divido il training set
80%
20% validation test
addestro 5 volte, cambiando il validation test tutte le volte
CROSS
VALIDATION
per avere una standard deviation della performance
si fa una clusterizzazione prima per avere elementi simili tutti da una parte
Il Leave One Out non viene più utilizzato
Protein Data Bank
prendo proteine con struttura terziaria nota
(immagino per il test set)
selezione strutture con qualità alta (<35 A fino agli anni 90, oggi ancora meno)
rimuovo proteine con chain break
rimuovo ridondanze
(uso BLAST per filtrarle)
Uso DSSP program per assegnare struttura secindaria ad ogni residuo
Passo alla macchina il data set
formato one hot
matrice in cui ogni riga indica una determinata lettera ed ogni colonna la posizione
1 se e solo se si trova quella lettera in quella posizione, 0 altrimenti
per gli amminoacidi iniziali, si aggiungono dati davanti ad esso per avere una finestra anche per loro
usually 0 per i primari e C per le secondarie
oppure elemento GAP
Hidden layer fa un ulteriore trasformazione attraverso un modello matematico
crea input per l'output layer,
il cui output sarà una likelihood di essere H, L o E
somma output finale deve essere ragionevolmente vicina ad 1
efficienti perchè possono gestire
grandi data set di training
ben diversificati
PHD APPROACH
nearest neighbour attravero reti neurali
prendo qualunque sequenza simile alla mia con BLAST
elimino quelle troppo simili
allineamento multiplo
creo un profilo
PROFILO
derivato da matrice di probabilità
frequenza di ogni struttura secondaria per ogni residuo della proteina studiata
calcolo score
formula semplice:
score u,a = log ( f u,a / p_a)
se f=0 avremo problemi quindi
f u,a = frequenza di a nella colonna u,
p_a= freq a nell'allineamento
f u,a = (n u,a +1)/ (N sequenze +20)
f u,a= (n u,a + Beta p_a) /(N sequenze + Beta)
MATRICE PSSM
matrice punteggi specifici per ogni posizione
per rappresentare matematicamente un allineamento multiplo
è preferibile standard o comunque pubblico,
per poter valutare l'algoritmo in termini di efficienza
SOFTWARE
PHD
PSI-PRED
JPRED, JNET
CAVEATS
limite intrinseco di accuratezza
anche sperimentalmente lo abbiamo (15%)
casi estremi di proteine che in determinate condizioni cambiano completamente la propria struttura
mucca pazza
(prion protein)