AccueilHébergementRessourcesBoutique Aide  
 
Ressources pédagogiques sur les enquêtes 
Vous trouverez ci-dessous de nombreux articles et dossiers pédagogiques sur les enquêtes.
Ces ressources sont mises à votre disposition gratuitement. Elles peuvent être utilisées librement à des fins d'enseignement.
Toute utilisation commerciale ou diffusion de ces contenus est prohibée, sauf autorisation écrite de Soft Concept.
 
 
 Retour à la liste des thèmes
Faut-il croire aux statistiques ?

Les statistiques jouent un rôle essentiel dans toutes les sphères de la société : les politiques les utilisent pour guider et légitimer leurs actions ; les sociologues y ont recours pour décrypter les interactions humaines ; les scientifiques s'en servent pour valider leurs hypothèses et produire leurs conclusions ; les entreprises, elles, se basent sur les statistiques d'études pour définir leurs produits et orienter leur stratégie.
Référence centrale de nombreuses décisions, la statistique fait souvent l'objet de critiques et de controverses. Chaque publication de données officielles s'accompagne de son lot de polémiques. Les sondages électoraux suscitent autant de sarcasmes et de doutes que d'intérêt. L'usage de la statistique dans les sciences humaines trouve de nombreux détracteurs. Et même la statistique scientifique, longtemps épargnée, fait l'objet de réserves grandissantes. D'où viennent ces doutes ? Doit-on continuer à se fier aux études statistiques pour orienter nos décisions et éclairer nos choix ?

L'approche statistique

La statistique (du latin « status », état) comprend deux branches complémentaires : la statistique descriptive et la statistique inférentielle.
- Les méthodes descriptives ont pour objectif d'apporter l'image la plus fidèle possible d'une population, à partir de l'observation des caractères disponibles. Les comptages, calculs de moyennes et indicateurs d'écart-type et de dispersion entrent dans ce cadre descriptif. Des méthodes sophistiquées comme l'analyse factorielle font également partie de cette branche.
- L'inférence statistique vise à tester des hypothèses, mettre en évidence des liaisons et effectuer des extrapolations générales à partir des observations recueillies. Les tests d'hypothèse, les méthodes d'analyse de la variance et de régression font partie de la panoplie des statistiques inférentielles.
La statistique descriptive s'attache à ce qui peut être déduit des données alors que l'inférence statistique cherche à déterminer ce que les données induisent. Toutes les méthodes mises en oeuvre se basent sur des concepts et des calculs mathématiques rigoureux. Et pourtant …

Statistiques bikini

L'idée que l'on peut faire dire ce que l'on veut aux statistiques est très répandue. Beaucoup de statisticiens s'en s'ont amusés comme Georges Gallup qui affirmait « Je peux prouver l'existence de Dieu... statistiquement » ou Aaron Levenstein pour qui « Les statistiques, c'est comme les bikinis. Ce qu'elles révèlent est suggestif mais ce qu'elles dissimulent est essentiel ». Il est vrai que dans ce domaine, il est facile de tricher par omission ou tout simplement, de se tromper d'indicateurs ou d'interprétation. Une entreprise peut se prévaloir d'un salaire moyen de 4.000 €, alors que 8 employés sur 10 reçoivent moins de 2.000 € et 2 sur 10 plus de 11.000 €. Une étude peut se focaliser sur le développement important des ventes d'un produit alors que, parallèlement, les parts de marché correspondantes sont en train de s'effondrer (sur un marché en forte expansion). La suspicion n'est jamais aussi forte que lorsqu'il s'agit de statistiques officielles. Ainsi, les chiffres du chômage font systématiquement l'objet de polémiques (plutôt intenses ces derniers mois). La publication des statistiques sur la criminalité suscite également les mêmes critiques. Au delà de la méfiance qu'inspire à tort ou à raison toute donnée officielle, des chercheurs en sciences sociales vont jusqu'à réfuter la légitimité des statistiques comme mode de mesure dans tout ce qui touche les phénomènes humains. Ce mouvement a été porté depuis les années 60 par des sociologues comme l'ethno-méthodologue américain Aaron Cicourel qui affirmait par exemple que les statistiques sur la délinquance ne reflétaient en réalité que l'activité de l'appareil répressif d'état et non la réalité des faits délictueux. Le raisonnement se base ici sur le fait qu'en la matière la classification indispensable à toute statistique est forcément subjective et réductrice. Comme l'indique Alain Desrosières, directeur de recherches à l'Insee, « le développement du réseau statistique est lié à celui d'un système d'institutions. Cet investissement analogue à celui d'un réseau routier ou ferroviaire, crée des catégories qui deviennent ensuite incontournables ». Cela finit par limiter le champ d'investigation des chercheurs et leur capacité à rendre compte de la réalité des phénomènes observés. Tout comme la décomposition d'un tableau en pixels ou d'un livre en mots ne permettent pas d'expliquer l'œuvre, la classification puis l'analyse statistique des phénomènes et des individus ne nous feraient pas avancer efficacement dans la compréhension de nos sociétés.

Paradoxe Intox

Au delà des représentations partielles ou partiales des données, le raisonnement statistique peut être facilement sujet à des écueils dans lesquels même des utilisateurs au dessus de tout soupçon peuvent tomber. Le paradoxe de Simpson met en évidence l'un de ces pièges. Pour l'illustrer, prenons le cas d'une entreprise ayant recruté durant l'année 30 hommes et 8 femmes. La première impression est qu'il y a une forte discrimination entre hommes et femmes (79% vs 21%). Si on sait toutefois que l'entreprise avait reçu 122 candidatures masculines et 42 candidatures féminines, on peut dire qu'un homme qui se présente a 25% (20/122) de chances d'être recruté contre seulement 19% pour une femme (8/42), ce qui reste anormal. Peut-on accuser cette entreprise de sexisme et d'hostilité aux femmes ? En réalité, c'est tout à fait le contraire si on sait qu'il y a eu 2 recrutements différents, l'un en début d'année et l'autre en fin d'année. Comme le montre le tableau ci-contre, 95 hommes se sont présentés au 1er recrutement et 28 ont été retenus (29%). 6 des 20 femmes candidates ont également été embauchées (30%). Lors du 2ème recrutement, 27 hommes et 22 femmes se sont présentés. 2 hommes et 2 femmes ont été retenus (soit respectivement 7 et 9% des candidats). On voit bien dans cet exemple qu'à chacun de ses recrutements, l'entreprise a embauché plus de femmes que d'hommes en proportion des candidats alors que l'agrégation des données laissait à penser le contraire. L'intuition statistique peut être mise à défaut dans bien d'autres situations, conduisant à de faux calculs et/ou de fausses conclusions. Le cas du taxi énoncé par les prix Nobel d'Economie Kahneman et Tversky illustre par exemple la propension courante à négliger les probabilités à priori et à surévaluer ainsi la représentativité d'un échantillon. Dans cet exemple, dans une ville où 15% des taxis sont bleus (les autres étant jaunes), un piéton est renversé par un taxi qui prend la fuite. Un témoin indique que le taxi était bleu. Après l'avoir testé dans des conditions de visibilité similaires, on calcule que ce témoin se trompe seulement 1 fois sur 5. Pouvons-nous affirmer avec certitude, au regard de ces éléments, que le taxi était effectivement bleu ? A première vue, on est tenté de répondre oui, en avançant une probabilité de 80%. En y regardant de plus près (et en appliquant le théorème de Bayes), la probabilité pour que le taxi soit effectivement bleu est de 41% seulement. Il y a donc plus de chances que le taxi soit d'une autre couleur. En effet, la probabilité a priori que le taxi soit bleu est de 15%. En tenant compte de la fiabilité du témoin, la probabilité que le témoin ait jugé le taxi bleu alors qu'il est vraiment bleu est de 80%. La probabilité qu'il l'ait vu bleu alors qu'il était jaune est de 20%. La probabilité a posteriori que le taxi soit vraiment bleu alors qu'il a été vu ainsi est de (15%*80%)/(15%*80%+85%*20%)= 41%.

Corrélation n'est pas raison

Il est fâcheux que l'on se trompe dans la mise en œuvre ou l'interprétation des données statistiques. Mais ce n'est jamais aussi grave que lorsque les erreurs concernent des domaines scientifiques et médicaux. Or selon des chercheurs américains près de la moitié des articles publiés dans des revues scientifiques et faisant appel à des méthodes statistiques comporte des erreurs d'interprétation, ce qui est inattendu mais pas forcément incroyable au vu du type d'erreurs relevées et que l’on retrouve fréquemment dans tous les autres domaines d’utilisation de la statistique et notamment les études marketing. La principale de ces erreurs est la conclusion abusive de causalité entre différents événements pour lesquels une corrélation a été établie. Pourtant, il est une évidence qu’aucun utilisateur de statistiques ne doit ignorer et a fortiori pas un scientifique : deux variables peuvent être parfaitement corrélées sans pour autant avoir une quelconque relation ou influence l'une sur l'autre. Ainsi, il existe une corrélation quasi parfaite entre l'évolution de l'âge d'un groupe de personnes et le cours de l'Euro depuis 2001 (les deux augmentent régulièrement). On peut difficilement envisager dans ce cas que l'un des éléments ait pu influer sur l'autre. Il arrive aussi que des éléments très corrélés proviennent d'une cause commune, tout en étant parfaitement indépendants. Ainsi, le psychologue et sociologue Paul Watzlawick rapporte que l'on avait retrouvé dans les années 50 une très forte corrélation entre la mortalité infantile au Japon et la consommation de bière sur la côte ouest des Etats-Unis. Ces deux phénomènes qui n'avaient rien à voir l'un avec l'autre étaient en fait dûs tous deux à la vague de chaleur dans le pacifique qui avait causé des problèmes sanitaires importants dans un Japon à peine remis de la 2ème guerre mondiale et avait par ailleurs poussé les américains à consommer plus de boissons fraîches. De nombreuses études tombent dans cet écueil : la corrélation entre l'utilisation de crèmes solaires et les cancers de la peau ne signifie pas que les premières causent les seconds. C'est un troisième facteur, l'exposition au soleil, qui entraîne probablement les deux. On voit bien, au delà des erreurs de raisonnement, les manipulations qui peuvent être effectuées par ce biais : on peut facilement trouver des corrélations entre la consommation d’un aliment et un caractère positif recherché (longévité, taux de cholestérol, nombre de cancers, etc.) sans qu’il n’y ait pour autant une véritable causalité. Certains scientifiques remettent par exemple en question (à tort ou à raison) les études ayant conclu à un lien de causalité concernant la consommation de vin, d’huile d’olive ou plus globalement le régime méditerranéen d’une part et les risques cardio-vasculaires d’autre part. Alors qui et que croire ? Doit-on rejeter en bloc les statistiques au nom de l’absurde principe de précaution en passe de devenir la religion dominante des oisifs de la pensée et des régressionistes en tous genres. Ce serait bien entendu une erreur de raisonnement au moins égale à celles évoquées ci-dessus et qui sont là pour témoigner plutôt de la mauvaise utilisation des statistiques que du danger intrinsèque de la technique elle-même. La bonne conclusion est double : les producteurs de statistiques (scientifiques, chercheurs en sciences humaines, chargés d’études...) doivent bien connaître les risques d’erreurs ci-dessus pour essayer à tout prix de les éviter en blindant leurs raisonnements à la lumière des bonnes règles mais aussi du bon sens. Pour leur part, les destinataires des statistiques (politiciens, économistes, décideurs en entreprise...) doivent manipuler les données avec recul, en se rappelant toujours qu’en statistiques aussi, le risque zéro n’existe pas.

Lectures conseillées :