Document sans nom

Accueil

Hébergement

Ressources

Boutique

Aide


Ressources pédagogiques sur les enquêtes
Vous trouverez ci-dessous de nombreux articles et dossiers pédagogiques sur les enquêtes. Ces ressources sont mises à votre disposition gratuitement. Elles peuvent être utilisées librement à des fins d'enseignement. Toute utilisation commerciale ou diffusion de ces contenus est prohibée, sauf autorisation écrite de Soft Concept.

Retour à la liste des thèmes

Qu'est-ce que l'analyse
multivariée

Pour comprendre intuitivement

Comment lire
une ACP

Choisir une
méthode d'analyse multivariée

Lectures
conseillées

Qu'est-ce que l'analyse multivariée

L'analyse multivariée recouvre un ensemble de méthodes destinées à synthétiser l'information issue de plusieurs variables, pour mieux l'expliquer

Il existe deux grandes catégories de méthodes : les méthodes descriptives et les méthodes explicatives.Les méthodes descriptivesCes méthodes visent à structurer et simplifier les données issues de plusieurs variables, sans privilégier l'une d'entre elles en particulier.
Les méthodes les plus utilisées dans le traitement des enquêtes sont : - l'analyse en composantes principales (ACP),- l'analyse factorielle des correspondances (AFC),- l'analyse des correspondances multiples (ACM),- la typologie et les méthodes de classification.Le choix de l'une ou de l'autre de ces méthodes dépend des objectifs poursuivis et du type de données à analyser.L'analyse en composantes principales L'ACP s'applique à un ensemble de variables numériques. Elle permet de positionner les individus sur un plan en deux dimensions, en fonction de la proximité de leurs réponses aux questions sélectionnées. Les variables sont également représentées sur le mapping, mais de manière indépendante des points-individus.
L'ACP permet ainsi de mettre en évidence la structuration des réponses en montrant le regroupement des individus selon des combinaisons de réponses aux questions prises en compte.
Les axes du mapping ne correspondent généralement pas à l'une ou l'autre des variables mais à un regroupement optimal de plusieurs variables (ex : revenu et niveau d'études peuvent participer ensemble à la formation d'un axe dans la mesure où elles peuvent être fortement corrélées).
L'ACP est très pratique lorsque l'on travaille sur un ensemble limité et identifié d'individus statistiques. Ainsi, si l'on souhaite analyser des points de vente en fonction de différents critères numériques (surface, personnel, CA, nombre de pièces vendues…), l'ACP permet d'obtenir une cartographie intéressante, qui regroupe les points de vente selon tous les critères retenus et qui permet ainsi de les catégoriser et d'identifier notamment, d'un coup d'œil, les cas hors norme (ex : surface et personnel importants mais CA faible…).
Le tableau de départ de l'ACP comporte les individus en ligne et les variables en colonne, avec, dans chaque case, la réponse numérique de l'individu à la question correspondante. Les questions qualitatives ordinales, c'est-à-dire, celles dont les réponses peuvent être ordonnées entre elles (échelles, fréquences...) peuvent être recodifiées pour entrer dans le tableau de l'ACP.
Cette recodification doit être généralement préparée à l'avance. Toutefois, certains logiciels d'analyse statistique comme STAT'Mania, permettent de réaliser cette recodification en direct, lors du choix des variables à faire entrer dans l'ACP. L'algorithme de l'ACP effectue sur la matrice individus/variables différentes opérations (centrage-réduction des données, diagonalisation de la matrice, extraction de valeurs propres et de vecteurs propres…), en vue de passer du nombre de variables initial à un petit nombre de variables obtenues par combinaison des premières.
Ces nouvelles composantes forment les axes du mapping. La première composante est celle qui résume le mieux les informations contenues dans le tableau. La deuxième apporte un pourcentage inférieur mais complémentaire d'information, et ainsi de suite.
Le mapping d'ACP représente d'abord la première composante (axe horizontal) et la seconde (axe vertical). La somme des pourcentages d'explication des deux composantes renseigne sur le taux de déperdition d'information à partir des données de base. Ainsi, si la première composante résume 62% du tableau et la seconde 21%, l'information représentée sur le mapping est de 83%. L'information « perdue » est donc de 17%.
Les points-individus sont représentés sur le mapping en fonction de leur coordonnées sur les facteurs. Les points proches correspondent à des individus ayant des profils proches, a priori, quant aux réponses aux variables prises en compte dans l'analyse.
Les points-variables sont également représentés sur le mapping, mais de manière complètement indépendante des individus.
Leur représentation indique leur corrélation avec les facteurs, à l'intérieur d'un cercle de rayon 1 défini avec une échelle arbitraire (qui peut être changée à loisir sans affecter la représentation des points-individus).
Ces points variables renseignent sur le sens à donner aux axes. Ainsi, une variable proche du cercle de corrélation (corrélation forte) et proche d'un axe participe beaucoup à la formation de cet axe.
Les angles inter-variables (en partant de l'origine) renseignent sur les corrélations entre elles. Ainsi, deux variables formant un petit angle sont fortement corrélées, alors qu'un angle droit signifierait qu'elles sont indépendantes.L'analyse des correspondances L'analyse factorielle des correspondances s'applique à deux variables qualitatives (nominales). Elle permet de positionner sur un mapping les modalités de réponses des deux questions. L'analyse des correspondances Multiples (ACM) généralise l'AFC à un nombre quelconque de variables et permet donc de représenter sur le même mapping les modalités de réponses de plus de deux variables.
Comme pour l'ACP, le but de ces analyses est de dégager des dimensions cachées contenues dans les réponses aux variables sélectionnées, pour faciliter l'interprétation de tableaux pas toujours lisibles au départ.

Mapping d'Analyse Factorielle des Correspondances

Les mappings d'analyse des correspondances affichent donc des points-modalités. Ainsi, on peut positionner une série de marques et afficher sur le même plan des caractéristiques de clients (tranches d'âges, CSP…), ce qui permet de repérer les affinités entre chaque marque et les différentes cibles.
Le tableau de départ de l'AFC simple est un tableau croisé (tableau de contingence) présentant la ventilation d'une population sur les modalités de réponses de deux questions qualitatives (ex : diplôme et profession).
L'ACM quant à elle, part d'un tableau disjonctif complet (tableau de burt) qui présente en ligne les individus et en colonne toutes les modalités des variables qualitatives retenues. Les cases d'intersection comportent la valeur 1 si l'individu répond au critère en colonne et 0 dans le cas contraire.
Comme en ACP, les deux premiers axes fournissent une partie généralement importante de l'information contenue dans le tableau initial (l'axe horizontal étant, par convention, le plus significatif).
La proximité des points renseigne, a priori, sur leurs associations. La disposition des modalités de chaque variable les unes par rapport aux autres aide à donner un sens à chaque axe (ce qui n'est pas toujours évident, à la seule observation du graphique).La typologie L'analyse typologique s'applique à tous types de variables (numériques, qualitatives…). Elle permet de répartir la population de l'enquête en un nombre défini de sous-groupes aussi différents que possibles les uns des autres et dans lesquels les individus sont aussi semblables que possible entre eux. Les différentes méthodes d'analyse typologique partent des individus eux-mêmes et essaient de les classer progressivement selon la ressemblance de leurs réponses aux variables sélectionnées.
Il existe plusieurs méthodes d'analyse typologique dont la méthode K-means et la méthode des nuées dynamiques. Leur deux algorithmes sont proches à la différence que le deuxième part d'une sélection d'un noyau d'individus au lieu de prendre des individus isolés pour constituer les partitions de démarrage (ce qui est censé donner de meilleurs résultats).
En final, les calculs itératifs des analyses typologiques aboutissent au classement des individus dans le nombre de groupes défini initialement. L'effectif de ces groupes peut être très différent. La visualisation graphique du résultat de l'analyse typologique est un mapping qui met en évidence les différents groupes. Le groupe central (le plus près du centre des axes) est le moins « typé » par rapport aux variables sélectionnées.
Certains logiciels d'analyse statistique permettent de créer à partir des résultats de la typologie, une nouvelle variable indiquant, pour chaque individu, son numéro de groupe d'appartenance. Cette question peut alors être croisée par les autres variables du questionnaire pour qualifier précisément le profil de chaque groupe.Les méthodes de classification Comme la typologie, la classification est une méthode de regroupement des individus selon leurs ressemblances. La différence est que le nombre de groupes n'est pas à fixer a priori et que le résultat est représenté sous la forme d'un arbre de classification.
L'élaboration de cet arbre peut être ascendante (méthode la plus fréquemment utilisée), par regroupements successifs des individus ou descendante, par divisions successives.
L'arbre de classification relie un individu à un autre ou à un sous-groupe d'individu issus eux-mêmes de regroupements. Lorsque l'on coupe l'arbre au niveau du dernier regroupement, on obtient deux groupes d'individus. Si la division est effectuée au niveau de l'avant-dernier regroupement, on obtient trois groupes.
Certains logiciels permettent d'effectuer ce découpage visuellement, sur l'arbre de classification, puis de générer dans le fichier de données la variable de groupe correspondante.
Il faut noter qu'il est également possible d'appliquer une classification pour regrouper des questions plutôt que des individus. On obtient ainsi des groupes de variables dont les profils des réponses se ressemblent (ex : dans une batterie d'items).Les méthodes explicatives Ces méthodes visent à expliquer une variable à l'aide de deux ou plusieurs variables explicatives.
Nous verrons ci-dessous les principales méthodes utilisables dans les enquêtes que sont la régression multiple, l'analyse discriminante et la segmentation.La régression multiple La régression multiple permet d'expliquer une variable numérique par plusieurs autres variables numériques indépendantes. Elle modélise la relation entre la variable à expliquer et les variables explicatives sous la forme d'une équation de type Y = a + b1X1 + b2X2 + ... où Y est la variable à expliquer, Xn les variables indépendantes, a une constante et bn les coefficients de régression partiels.
On peut ainsi, si le modèle de régression est satisfaisant, prédire les valeurs de la variable dépendante en fonction des valeurs des variables explicatives.
Par exemple, cette application est très intéressante pour évaluer le niveau de satisfaction globale en fonction des appréciations données à différents items intermédiaires (ex : appréciation de l'accueil, du confort du magasin, des prix…). L'utilisation de la régression multiple doit toutefois s'accompagner de plusieurs précautions.
Ainsi, les variables explicatives doivent être indépendantes. Leurs corrélations deux à deux doivent être nulles ou proches de 0. A défaut (si le calcul aboutit quand même, ce qui n'est pas toujours le cas), le modèle obtenu sera imprécis et manquera de stabilité (valeurs très différentes d'un échantillon à l'autre).
Par ailleurs, l'appréciation de la qualité de la régression se fait grâce à plusieurs indicateurs :- Le premier d'entre eux est le coefficient de détermination multiple R2 ajusté qui calcule le pourcentage de variation de la variable à expliquer dû aux variables explicatives. Ainsi un R2 de 0,35 signifie que les variables indépendantes ne contribuent qu'à 35% de la variation de la variable à expliquer ce qui indique que la qualité du modèle obtenu est relativement faible. - Le coefficient de corrélation multiple R mesure la liaison entre la variable à expliquer et les différentes variables explicatives : si sa valeur est inférieure à 0,85 la liaison est médiocre et le modèle de régression peu satisfaisant. - Le test F de Fisher permet d'estimer la qualité de l'ajustement dans la population. La probabilité de l'hypothèse nulle (que les variables indépendantes n'aient aucun un effet sur la variable dépendante dans la population) est donnée par la table de Fisher. Si la valeur du F calculé est supérieure à la valeur du F de la table à un seuil défini (ex : 5%), le coefficient R obtenu est considéré comme significatif à ce seuil, ce qui veut dire que le modèle de régression est valable dans la population. Certains logiciels comme STAT’Mania calculent directement la probabilité de l'hypothèse nulle (i.e. le seuil de confiance à partir duquel l'hypothèse nulle est à rejeter, qui doit donc être très faible pour conclure que l'ajustement est valable). Pour résumer ces indicateurs de qualité de la régression multiple, un modèle valable et généralisable à la population présente un R2 élevé (proche de 1), un R élevé (proche de 1) et une probabilité de Fisher très faible (proche de 0).L'analyse discriminante L'analyse discriminante est une méthode factorielle qui cherche à expliquer une variable qualitative par plusieurs variables numériques. Comme la régression multiple qui permet de mettre en équation une variable numérique à expliquer et des variables numériques explicatives, c'est une méthode prédictive dans la mesure où elle permet de déterminer quelle modalité prendra un individu pour la variable qualitative à expliquer, si on connaît ses réponses aux questions numériques.
Cette propriété permet à l'analyse discriminante d'être appliquée par exemple pour « scorer » un client bancaire en déterminant automatiquement un niveau de risque en fonction de différents paramètres connus (surface financière, revenus, endettement…).
L'analyse discriminante est également utilisée fréquemment en prolongement d'une méthode descriptive comme l'ACP ou la typologie pour apporter des précisions complémentaires aux résultats obtenus (par exemple, repérage des variables qui ont permis de créer les groupes de typologie).
Les résultats de l'analyse discriminante peuvent être visualisés sur un mapping similaire à celui de l'ACP où les points-individus sont réunis en fonction de leur appartenance aux groupes.La segmentation La segmentation partage les mêmes objectifs que l'analyse discriminante mais s'applique lorsque les variables explicatives sont qualitatives. Cette méthode consiste à découper une population en sous-groupes homogènes, mais uniquement par rapport à la variable à expliquer.
Le processus de la segmentation est itératif. A chaque étape l'algorithme choisit la variable explicative la plus corrélée avec la variable à expliquer pour réaliser une partition à partir des modalités de la première. Le découpage distingue à chaque étape les deux segments qui présentent la variance inter-segments la plus forte et les variances intra-segment les plus faibles.
Le résultat de la segmentation est une sorte d'arbre de décision, avec un découpage de chaque groupe en deux sous-groupes. La première partition permet d'obtenir les deux premiers groupes. Chacun de ces deux groupes est ensuite divisé en deux à l'aide de la variable permettant la meilleure partition et qui n'est généralement pas la même pour les deux groupes. Le processus se poursuit ainsi avec des interruptions lorsque la taille du groupe tombe en dessous d'un seuil ou quand le découpage optimal expliquerait un faible pourcentage de la variance.
Outre les trois méthodes explicatives d’analyse multivariée que nous avons vues ci-dessus, il convient de citer les méthodes d’analyse des mesures conjointes dont le trade-off, qui permettent d’expliquer les préférences des individus pour des produits déterminés. Ces méthodes supposent une structuration adéquate du questionnaire et ne sont pas toujours facile à mettre en oeuvre.
Citons également parmi les méthodes explicatives l'analyse de la variance plus généralement utilisée en analyse univariée ou bivariée, et qui permet d'expliquer une variable qualitative par plusieurs variables numériques.