Please enable JavaScript.

Coggle requires JavaScript to display documents.

Clustering - Coggle Diagram

- - - - 🔹À quoi sert la classification hiérarchique ?
        
        Ne nécessite pas de préciser le nombre de groupes
        
        Met en évidence les relations entre les ensembles de données
        
        Offre une vue d’ensemble de la structure des données (faire un visulalisation )
      - Types de classifications hiérarchiques :
        Il existe deux types principaux de classifications hiérarchiques : la classification ascendante
        (Agglomerative NESting- AGNES) et la classification descendante (DivisiveANAlysis- DIANA).
        
        La classification ascendante (Agglomerative) « CAH » : commence par considérer chaque élément comme un groupe individuel, puis regroupe progressivement les éléments similaires pour former des groupes plus larges.
        
        La classification descendante (Divisive) « CDH » : commence par considérer tous les éléments comme un seul groupe, puis divise progressivement ce groupe en sous-groupes spécifiques en fonction des caractéristiques communes
      - Dans ce cours nous nous intéressons a la ClassificationAscendante Hiérarchique (CAH)
        Principe CAH :
        
        1.Initialisation : Chaque point est considérécomme un cluster individuel. Au départ, le
        nombre de clusters est égal au nombre de points.
        
        2.Calcul des distances : Calculez les distancesentre tous les clusters. Les distances peuvent êtrecalculées de différentes manières, telles que ladistance euclidienne.
        
        3.Fusion des clusters : Fusionnez les deux clusters les plus proches en un seul cluster.
        
        4.Mise à jour des distances : Les distances entre le nouveau cluster fusionné et les autres clusters sont recalculées, en utilisant la méthode spécifiée, comme la distance min, max, etc.
        
        5.Répétition : Répétez les étapes 3 et 4 jusqu'àce qu'il ne reste qu'un seul cluster contenant tousles points, ce qui forme l'arbre hiérarchique complet.
        
        4.3.1. Méthodes d'Agrégation
        Lors de l'agglomération, des méthodes d'agrégation sont utilisées pour calculer la similarité
        entre les clusters. Voici quelques méthodes courantes :
        A. Simple (Single Link) : Utilisez la distance la plus courte entre les paires de points des
        clusters.
        B. Complète (Complete Link) : Utiliser la distance la plus grande entre les paires de points
        des clusters.
        C. Moyenne (Average Link) : Utiliser la moyenne des distances entre les paires de points des
        clusters.
        
        cette methods utiliser dans etape de mise ajour distance
        
        Résultat de CAH : Le résultat principal de la méthode de Classification Ascendante Hiérarchique est un : Dendrogramme, qui montre les relations hiérarchiques entre les Clusters .
        
        Découpage d’un Dendrogramme : Une fois le Dendrogramme (Arbre) est construit : Ildoit être coupé pour montrer des Clusters (Classes)
        Un Principe : Chercher la plus longue ligne verticale, qui ne peut pas etre découpée par une ligne horizontale
        
         Si les individus d’une même classe sont proches.
        
         Si les individus de deux classes différentes sont éloignées
        
        Mathématiquement ça se traduit comme suit :
         Variabilité Intra-Classes est petite.
         Variabilité Inter-Classes est grande.
      - Avantages et Inconvénients de la Classification Hiérarchique :
        avantage :
        
        Ne nécessite pas de préciser le nombre de clusters à l'avance.
        
        Donne une vue d'ensemble des relations entre les clusters.
        
        Convient aux données où la structure hiérarchique est pertinente
        Inconvénients :
        
        Peut être informatiquement coûteux pour de grandes données.
        
        Le choix de la méthode d'agrégation peut influencer les résultats.
        
        Une mauvaise compréhension du dendrogramme peut
        conduir a des nterprétations erronées