Please enable JavaScript.
Coggle requires JavaScript to display documents.
techniques analyses biologie moderne - Coggle Diagram
techniques analyses biologie moderne
approches omiques
génomique, transcriptomique, protéomique, métabolomique
moyens
techniques à haut débit
protéomique
chromatographie en couche liquide
couplée avec
spectrométrie de masse
génomique
puces à ADN
NGS
transcriptomique
RT-PCR
temps record, coût moindre, séquençage génome entier
bioinformatique
logiciels statistiques
spécialisés mais accessibles
recueil de données
permet utilisation de mégadonnées
enjeux
nombre de variables largement > au nombre d'individus
données manquantes
données hétérogènes: quantitatives et qualitatives
normalisation
choix des paramètres
algorithmes rapides
machine learning
2 types d'apprentissage
supervisé
3 étapes
utilisation en routine
training set
: ordi apprend avec les données observées et les résultats
validation set
: données observées => prédiction => comparaison avec la réalité
algorithmes utilisés
régressions logistiques
approche bayésienne
arbre de décision
forêts aléatoires
gradient boosting
machine à vecteur de support
non supervisé
ordi utilise toutes les info et cherche une structure dans les données
clustering
: statistiquement possible de de créer des clusters à partir de 3 variables ou plus
pharmacocinétique: calcul AUC des immunosupresseurs
3 méthodes
équation de régression multilinéaire
estimation bayésienne
validation et utilisation en routine
nouveau patient avec dose et 3 concentrations sanguines => reconstitution de la courbe en entier
apprentissage
prend en compte petits nombre de patients avec des profils de concentrations complets => détermination de paramètres pharmacocinétiques moyens
permet de d’optimiser et personnaliser le traitement pour chaque patient à l’aide d’une stratégie utilisant un nombre limité de prélèvements
méthode des trapèzes
: besoin de nombreux prélèvements, gold standard
analyse exploratoire des données
analyse en composantes principales: méthode non supervisée
L’objectif est de
résumer
et
visualiser
un tableau de données
individus x variables
.
ex: résumer 5 variables en 2 composantes principales
rappels
variance
: caractérise la dispersion d'un échantillon
covariance
: plus elle est élevée plus les 2 variables sont liées
ACP crée une
composante
qui est la
combinaison linéaire des variables initiales
Les
coefficients optimaux
seront calculés pour que chaque composante représente le
maximum de variance
génomique en cancérologie
machine à vecteur de support
Consiste à trouver un
hyperplan
qui
sépare « au mieux » les observations dans l’espace des
variables explicatives
utilisée à partir de 3 variables ou plus
recherche de biomarqueurs
volcano plot
Le volcano plot est un
nuage de points
combinant
effet statistique
(différence statistique) sur l’axe des ordonnées et
effet biologique
(différence biologique) sur l’axe des abscisses.
appliqué que pour examiner les différences entre les modalités de
variables qualitatives explicatives à 2 modalités
forêt aléatoire
consiste à agréger un grand nombre d’arbres
volontairement différents
aléatoire car les arbres sont construits sur des
échantillons différents
gradient boosting
1er arbre => construction 2ème arbre en se concentrant sur les erreurs du 1er
prédiction se fait par l'application de plusieurs arbres
transcriptomique du rejet de greffe
clustering (non supervisé)
C’est la recherche d’une
typologie
, ou
segmentation
, c’est à dire d’une
partition
, ou
répartition
des individus en
classes homogènes, ou catégories
.
Classification Ascendante Hiérarchique
Il s’agit de regrouper itérativement les individus, en commençant par le bas (les deux plus proches) et en construisant progressivement un arbre
K means
séquençage génome entier
deep learning
fait appel au
réseau de neurones artificiels profond
Les réseaux de neurones sont entrainés avec une multitude de
données d’entrées
(input) couplée à leurs
données de sortie respectives.
Par des algorithmes mathématiques, ils
calculent
ensuite
la donnée de sortie
(output) output), ils la
comparent
à la
donnée de sortie réelle connue
et
se mettent à jour en permanence