Reti Neurali
(per scienze biochimiche)

Reti Neurali

trasforma input in output

layer di neuroni

metodologia non perforza conoscibile

presenza di hidden layer

Predizione per sliding, muting windows

dare in pasto al primo layer una intrera finestra per predire un elemento centrale

metodo 2w+1

Data Set

90% training set
10% test set

divido il training set

80%
20% validation test

addestro 5 volte, cambiando il validation test tutte le volte

CROSS
VALIDATION

per avere una standard deviation della performance

si fa una clusterizzazione prima per avere elementi simili tutti da una parte

Il Leave One Out non viene più utilizzato

Protein Data Bank

prendo proteine con struttura terziaria nota
(immagino per il test set)

selezione strutture con qualità alta (<35 A fino agli anni 90, oggi ancora meno)

rimuovo proteine con chain break

rimuovo ridondanze
(uso BLAST per filtrarle)

Uso DSSP program per assegnare struttura secindaria ad ogni residuo

Passo alla macchina il data set

formato one hot

matrice in cui ogni riga indica una determinata lettera ed ogni colonna la posizione

1 se e solo se si trova quella lettera in quella posizione, 0 altrimenti

per gli amminoacidi iniziali, si aggiungono dati davanti ad esso per avere una finestra anche per loro

usually 0 per i primari e C per le secondarie

oppure elemento GAP

Hidden layer fa un ulteriore trasformazione attraverso un modello matematico

crea input per l'output layer,
il cui output sarà una likelihood di essere H, L o E

somma output finale deve essere ragionevolmente vicina ad 1

efficienti perchè possono gestire
grandi data set di training
ben diversificati

PHD APPROACH

nearest neighbour attravero reti neurali

prendo qualunque sequenza simile alla mia con BLAST

elimino quelle troppo simili

allineamento multiplo

creo un profilo

PROFILO

derivato da matrice di probabilità

frequenza di ogni struttura secondaria per ogni residuo della proteina studiata

calcolo score

formula semplice:
score u,a = log ( f u,a / p_a)

se f=0 avremo problemi quindi

f u,a = frequenza di a nella colonna u,
p_a= freq a nell'allineamento

f u,a = (n u,a +1)/ (N sequenze +20)

f u,a= (n u,a + Beta p_a) /(N sequenze + Beta)

MATRICE PSSM

matrice punteggi specifici per ogni posizione

per rappresentare matematicamente un allineamento multiplo

è preferibile standard o comunque pubblico,
per poter valutare l'algoritmo in termini di efficienza

SOFTWARE

PHD

PSI-PRED

JPRED, JNET

CAVEATS

limite intrinseco di accuratezza

anche sperimentalmente lo abbiamo (15%)

casi estremi di proteine che in determinate condizioni cambiano completamente la propria struttura

mucca pazza
(prion protein)