Concepts Fondamentaux en Statistique

Techniques Exploratoires Multivariées :

Classification Ascendante Hiérarchique, k-Moyennes

et Classification Conjointe



Sommaire :


Principes Fondamentaux

Le terme Classifications (utilisé pour la première fois par Tryon, 1939) regroupe en fait différents algorithmes de classification. Une question essentielle qui se pose à de nombreux chercheurs dans différents domaines est de savoir comment organiser des données observées dans des structures (groupes) explicites, ce qui implique le développement de taxonomies. Par exemple, les biologistes doivent organiser les différentes espèces animales avant de pouvoir décrire les différences entre les animaux. Selon le système moderne employé en biologie, l'homme fait partie des primates, des mammifères, des amniotes, des vertébrés, et des animaux. Notez que dans cette classification, plus le niveau d'agrégation est élevé et moins les membres de classe respective sont semblables. L'homme a plus en commun avec les autres primates (par exemple, anthropoïdes) qu'avec ses cousins mammifères plus éloignés (par exemple, les chiens).

Tester la Significativité Statistique

Notez que les différentes rubriques de l'Introduction font référence aux algorithmes de classification, sans évoquer le problème de significativité statistique. En fait, les classifications sont moins un test statistique qu'une collection de différents algorithmes "plaçant des objets dans des classes" (pour réaliser une typologie). La différence avec d'autres procédures statistiques, réside dans le fait que les méthodes de classification sont davantage utilisées lorsque nous n'avons pas d'hypothèse a priori, et que nous n'en sommes qu'à la phase exploratoire de notre recherche. Dans un sens, les classifications trouvent la "solution la plus significative possible". C'est pourquoi, tester la significativité statistique au sens traditionnel du terme n'est pas adapté ici, même si les niveaux p sont reportés (comme dans pour l'analyse des k-moyennes).

Domaines d'Application

Les techniques de classification ont trouvé des applications dans de nombreux domaines. Hartigan (1975) a fourni une excellente synthèse des nombreuses études publiées et donnant les résultats de classifications. Par exemple, dans le domaine médical, les classifications de maladies, de traitements curatifs de ces maladies ou de symptômes pour ces maladies peuvent mener à des typologies très utiles. En psychiatrie, un diagnostic correct de groupes de symptômes comme la paranoïa, la schizophrénie, etc... est indispensable à la réussite de la thérapie. En archéologie, les chercheurs ont tenté d'établir des typologies d'outils en pierre, objets funéraires, etc... en utilisant des techniques de classification. D'une manière générale, lorsqu'il est nécessaire de répartir une "montagne" d'informations en masses explicables, les classifications sont d'une grande utilité.

Résultats de la Classification Conjointe

Nous avons jusqu'à présent abordé cette méthode en termes "d'objets" à agréger (voir la rubrique Classification Ascendante Hiérarchique). Dans tous les autres types d'analyse de STATISTICA, le problème est souvent posé en termes d'individus (observations) ou de variables. Il s'avère qu'une classification conjointe des individus et des variables produit parfois des résultats intéressants. Par exemple, imaginez une étude dans laquelle un chercheur en médecine a collecté des données sur diverses mesures d'aptitude physique (variables) dans un échantillon de patients cardiaques (observations). Le chercheur peut vouloir créer des classes d'observations (patients) afin de détecter les groupes de patients présentant des symptômes similaires. Dans le même temps, le chercheur peut vouloir réaliser des classes de variables (mesures de l'aptitude physique) afin de détecter les classes de mesures qui semblent révéler les mêmes capacités physiques. Dans le module Classifications, vous pouvez choisir de classifier des observations ou des variables.

Classification conjointe. Pour reprendre notre présentation, et pour savoir s'il faut classer des observations ou des variables, nous pouvons nous demander, pourquoi ne pas classifier les deux simultanément ? Le module Classifications comporte une procédure de classification dite "conjointe". La classification conjointe est utile dans les cas (relativement rares) où l'on suppose que les observations et les variables contribuent simultanément à la mise en évidence de structures explicites de classes. En reprenant l'exemple ci-dessus, le chercheur en médecine peut vouloir identifier des classes de patients présentant les mêmes caractéristiques, tout en prenant en compte les classes particulières de mesures similaires des capacités physiques. La difficulté pour interpréter ces résultats réside dans le fait que les proximités entre classes peuvent être imputables à plusieurs sous-ensembles distincts de variables. C'est pourquoi la structure obtenue (classes) est par nature hétérogène. Cela peut sembler un peu confus à première vue, sans compter que par rapport aux autres méthodes de classification décrites précédemment (voir les rubriques Classification Ascendante Hiérarchique et K-Moyennes), la classification conjointe est probablement l'une des moins utilisées. Toutefois, certains chercheurs considèrent que cette méthode constitue un outil d'analyse exploratoire puissant (pour plus d'informations, vous pouvez vous reporter à la description détaillée de cette méthode dans Hartigan, 1975).

K-Moyennes

Cette méthode de classification est très différente des méthodes de Classification Ascendante Hiérarchique et de Classification Conjointe. Supposez que vous ayez déjà des hypothèses concernant le nombre de classes d'observations ou de variables. Vous pouvez souhaiter que l'ordinateur génère exactement 3 classes aussi différentes que possible les unes des autres. C'est le type de problème que l'on peut résoudre grâce à l'algorithme des k-moyennes. D'une manière générale, les k-moyennes produisent exactement k classes aussi différentes entre elles que possible.

Exemple. Dans l'exemple sur les capacités physiques (voir la méthode Classification Conjointe), le chercheur en médecine peut conjecturer, sur la base d'expériences cliniques, que ses patients cardiaques peuvent être classés selon trois grandes catégories par rapport à leurs capacités physiques. Le médecin peut se demander si son intuition est quantifiable, c'est-à-dire si une classification par les k-moyennes sur les mesures de capacités physiques produirait effectivement les trois classes de patients attendues. Si tel est le cas, les moyennes des différentes mesures de capacité physique de chaque classe représenteraient un moyen de quantifier les hypothèses ou intuitions exprimées par notre chercheur (c'est-à-dire que les patients de la classe 1 ont une mesure 1 élevée, une mesure 2 faible, etc...).

Calculs. Du point de vue des calculs, vous pouvez considérer cette méthode comme une analyse de variance (ANOVA) "à l'envers". Le programme démarre avec k classes aléatoires, puis déplace les objets entre ces classes dans le but (1) de minimiser la dispersion intra-classe et (2) de maximiser la dispersion inter-classes (voir aussi la rubrique Différences des Algorithmes des k-Moyennes entre le module de Classification Généralisée EM & k-Moyennes et le module de Classifications). C'est la même chose qu'une "ANOVA à l'envers" en ce sens que le test de significativité dans l'ANOVA évalue la dispersion entre les groupes, en fonction de la dispersion au sein des groupes lors du calcul de significativité de l'hypothèse d'hétérogénéité des moyennes des groupes. Dans les k-moyennes, le programme tente de déplacer les objets (par exemple, les observations) dans les groupes et à l'extérieur de ces groupes (classes) afin d'obtenir les résultats d'ANOVA les plus significatifs possibles (les résultats de l'ANOVA faisant partie des sorties standards des k-moyennes, vous pouvez vous reporter au module ANOVA/MANOVA pour une description plus détaillée de cette méthode).

Interprétation des résultats. Le plus souvent, à l'issue d'une analyse par les k-moyennes, nous examinons les moyennes de chaque classe sur chacune des dimensions pour estimer dans quelle mesure nos k classes sont différentes. Idéalement, nous devrions obtenir des moyennes très différentes pour presque toutes les dimensions utilisées dans l'analyse, voire même toutes. La valeur du F dans l'analyse de variance réalisée sur chacune des dimensions constitue une autre indication pour savoir si la dimension respective discrimine bien les classes.

Classification Ascendante Hiérarchique

Les exemples donnés dans l'Introduction illustrent bien le but de l'algorithme des classifications hiérarchiques. L'objectif de cet algorithme est de rassembler des objets (par exemple, des animaux) dans des classes de plus en plus larges, en utilisant certaines mesures de similarité ou de distance. Les résultats de ce type de classification sont habituellement représentés sous la forme d'un dendrogramme (arbre de la classification hiérarchique).

Dendrogramme

Considérons un Dendrogramme Horizontal, accessible par l'onglet Base de la boîte de dialogue Résultats de la Classification. À gauche du tracé, chaque objet individuel représente une classe unique. Puis, petit à petit, nous assouplissons notre critère de classement de sorte que cet objet ne soit plus seul dans sa classe. En d'autres termes, nous abaissons notre seuil pour décider que deux ou plusieurs objets appartiennent à la même classe. Ainsi, de plus en plus d'objets sont regroupés dans des classes de plus en plus larges, et donc, nous constituons des classes avec des éléments de plus en plus dissemblables. Finalement, à la dernière étape, tous les objets ne forment plus qu'une seule classe. Dans ces tracés, l'axe horizontal représente la distance d'agrégation (dans le Dendrogramme Vertical, également accessible par l'onglet Base de la boîte de dialogue Résultats de la Classification, c'est l'axe vertical qui représente cette distance d'agrégation). C'est pourquoi, pour chaque nœud du graphique (le lieu de formation d'une nouvelle classe) nous pouvons lire rapidement la distance du critère à laquelle les éléments sont agrégés dans une même classe. Lorsque les données contiennent une "structure" claire en termes de classes d'objets similaires, cette structure est souvent restituée par l'arbre hiérarchique dans des branches distinctes. Le résultat d'une analyse réussie par la méthode de classification ascendante hiérarchique est aisément interprétable et les classes (branches) peuvent être expliquées et qualifiées simplement.

Pour une présentation des deux autres méthodes de classification, voir les méthodes Classification Conjointe et K-Moyennes.

Mesure des Distances

La Classification Ascendante Hiérarchique (CAH) utilise des mesures de dissemblance ou de distance entre les objets pour former des classes. Ces distances peuvent être basées sur une ou plusieurs dimensions. Par exemple, si nous devions classer des plats culinaires, nous pourrions prendre en compte le nombre de calories qu'ils contiennent, leur prix, un indicateur subjectif de goût, etc... La méthode la plus directe pour calculer des distances entre objets dans un espace multidimensionnel consiste à calculer les distances Euclidiennes. Si nous avons un espace à deux ou trois dimensions, cette mesure est celle des distances géométriques normales entre les objets dans l'espace (c'est-à-dire comme si elle était mesurée à l'aide d'une règle). L'algorithme de la CAH ne tient pas compte de la nature des distances qui lui sont indiquées ; peu importe donc qu'il s'agisse de véritables distances, ou d'autres mesures dérivées qui peuvent être plus explicites pour un chercheur. Ce sera au chercheur de choisir la méthode adaptée à son application spécifique. Le module Classifications permet de calculer de nombreux types de mesures de distances, mais l'utilisateur peut aussi calculer une matrice de distances par ses propres moyens afin de l'utiliser directement dans la procédure.

Distance Euclidienne. C'est probablement le type de distance le plus couramment utilisé. Il s'agit simplement d'une distance géométrique dans un espace multidimensionnel. Elle se calcule ainsi :

distance(x,y) = {Si (xi - yi)2 }½

Notez que les distances Euclidiennes (et Euclidiennes au carré) sont calculées à partir des données brutes, et non des données centrées-réduites. C'est la méthode de calcul qui est habituellement utilisée, et elle présente certains avantages (en particulier, la distance entre deux objets quelconques n'est pas affectée par l'introduction de nouveaux objets dans l'analyse, qui peuvent être des points atypiques). Toutefois, les distances peuvent être largement affectées par les différences d'unités de mesure des dimensions pour lesquelles ces distances sont calculées. Ainsi, si l'une des dimensions représente une taille en centimètres, que vous décidez de convertir en millimètres (en multipliant les valeurs par 10), les distances Euclidiennes ou distances Euclidiennes au carré résultantes (calculées sur de multiples dimensions) pourront s'en trouver largement affectées, et par conséquent, les résultats de la classification pourront être très différents. Naturellement, vous avez la possibilité d'effectuer tout type de standardisation ou de changement d'échelle en utilisant les fonctionnalités de gestion des données de STATISTICA.

Distance Euclidienne au carré. Vous pouvez élever la distance Euclidienne standard au carré afin de "sur-pondérer" les objets atypiques (éloignés). Cette distance se calcule ainsi (voir également la note du précédent paragraphe) :

distance(x,y) = Si (xi - yi)2

Distance du City-block (Manhattan). Cette distance est simplement la somme des différences entre les dimensions. Dans la plupart des cas, cette mesure de distance produit des résultats proches de ceux obtenus par la distance euclidienne simple. En revanche, notez qu'avec cette mesure, l'effet des différences simples importantes (points atypiques) est atténué (puisque ces distances ne sont pas élevées au carré). Cette distance se calcule ainsi :

distance(x,y) = Si |xi - yi|

Distance de Tchebychev. Cette mesure de distance est adaptée lorsque nous considérons deux objets comme étant "différents" à partir du moment où ils sont différents sur l'une des dimensions. La distance de Tchebychev se calcule ainsi :

distance(x,y) = Maximum|xi - yi|

Distance à la puissance. Nous pouvons parfois souhaiter augmenter ou diminuer la pondération progressive associée à des dimensions pour lesquelles les objets respectifs sont très différents. Cette opération est rendue possible par la distance à la puissance. La distance à la puissance se calcule ainsi :

distance(x,y) = (Si |xi - yi|p)1/r

r et p sont des paramètres définis par l'utilisateur. Vous verrez rapidement comment fonctionne cette mesure à l'aide d'exemples. Le paramètre p contrôle la pondération progressive affectée aux différences entre les dimensions individuelles, tandis que le paramètre r contrôle la pondération progressive affectée aux grandes différences entre les objets. Si r et p sont égaux à 2, cette distance équivaut à la distance euclidienne.

Percent disagreement. Cette mesure est particulièrement utile si les données des dimensions utilisées dans l'analyse sont de nature catégorielle. Cette distance se calcule ainsi :

distance(x,y) = (Nombre de xi ¹ yi)/i

Règles d'Agrégation

À la première étape, lorsque chaque objet représente sa propre classe, les distances entre ces objets sont définies par la mesure de distance choisie. En revanche, une fois l'agrégation de plusieurs objets, comment déterminer les distances entre ces nouvelles classes ? En d'autres termes, nous avons besoin d'une règle d'agrégation pour déterminer le moment où deux classes seront suffisamment similaires pour n'en former qu'une seule. Plusieurs possibilités sont offertes : par exemple, nous pourrions lier deux classes ensemble lorsque chacun des deux objets dans les deux classes est plus proche de l'autre que la distance d'agrégation respective. Ou encore, nous pouvons utiliser les "plus proches voisins" au sein des classes pour déterminer les distances entre classes ; cette méthode est appelée "saut minimum" ou "single linkage". Elle produit des "chaînes" de classes, ce qui signifie que les classes sont liées les unes aux autres comme les maillons d'une chaîne, par de simples objets qui sont proches les uns des autres. Nous pouvons également utiliser les voisins entre classes mais qui seront cette fois les plus éloignés les uns des autres ; cette méthode est appelée "méthode du diamètre" ou "complete linkage". De nombreuses autres règles d'agrégation existent et le module Classifications vous en propose un large choix.

Saut minimum ou "single linkage" (distance minimum). Comme nous l'avons décrit ci-dessus, la distance entre deux classes est ici déterminée par la distance entre les deux objets les plus proches (les plus proches voisins) dans les différentes classes. Cette règle provoque des chaînes d'objets assemblés en classes, et les résultats obtenus ressemblent à de longues chaînes.

Diamètre ou "complete linkage" (distance maximum). Dans cette méthode, les distances entre classes sont déterminées par la plus grande distance existant entre deux objets de classes différentes (c'est-à-dire les "voisins les plus éloignés"). Cette méthode donne souvent de bons résultats lorsque les objets forment déjà naturellement des "groupes" bien distincts. Si les classes ont plutôt une forme allongée, ou sont en forme de "chaîne", cette méthode sera mal adaptée.

Moyenne non pondérée des groupes associés. Ici, la distance entre deux classes est calculée comme la distance moyenne entre tous les objets deux à deux dans les deux classes différentes. Cette méthode est efficace lorsque les objets forment déjà naturellement des "groupes" bien distincts, mais se révèle également bien adaptée dans le cas de classes allongées, de type "chaîne". Notez que dans leur ouvrage, Sneath et Sokal (1973) ont introduit l'abréviation UPGMA pour Unweighted Pair-Group Method using Arithmetic averages.

Moyenne pondérée des groupes associés. Cette méthode est identique à la méthode moyenne non pondérée des groupes associés, à la différence près que la taille des classes respectives (c'est-à-dire le nombre d'objets qu'elle comporte) est utilisée ici comme pondération. C'est pourquoi cette méthode (plutôt que la précédente) est préférée lorsque les tailles de classes sont assez inégales. Notez que dans leur ouvrage, Sneath et Sokal (1973) ont introduit l'abréviation WPGMA pour Weighted Pair-Group Method using Arithmetic averages.

barycentre non pondéré des groupes associés. Le barycentre d'une classe est le point moyen d'un espace multidimensionnel, défini par les dimensions. C'est en quelque sorte le centre de gravité de la classe respective. Dans cette méthode, la distance entre deux classes est déterminée par la distance entre les barycentres respectifs. Sneath et Sokal (1973) ont utilisé l'abréviation UPGMC pour Unweighted Pair-Group Method using the Centroid average.

barycentre pondéré des groupes associés (médiane). Cette méthode est identique à la précédente, à la différence près qu'une pondération est introduite dans les calculs afin de prendre en compte les tailles des classes (c'est-à-dire le nombre d'objets contenu dans chacune). C'est pourquoi, lorsqu'il existe, ou que l'on suppose l'existence de tailles de classes assez différentes, cette méthode sera préférée à la précédente. Sneath et Sokal (1973) ont utilisé l'abréviation WPGMC pour Weighted Pair-Group Method using the Centroid average.

Méthode de Ward (méthode du moment d'ordre 2). Cette méthode se distingue de toutes les autres en ce sens qu'elle utilise une analyse de la variance approchée afin d'évaluer les distances entre classes. En résumé, cette méthode tente de minimiser la Somme des Carrés (SC) de tous les couples (hypothétiques) de classes pouvant être formés à chaque étape. Référez-vous à Ward (1963) pour les détails concernant cette méthode. En général, cette méthode est très efficace, même si elle tend à créer des classes de petite taille.