Les
statistiques jouent un rôle essentiel dans toutes les sphères de la société :
les politiques les utilisent pour guider et légitimer leurs actions ; les sociologues
y ont recours pour décrypter les interactions humaines ; les scientifiques s'en
servent pour valider leurs hypothèses et produire leurs conclusions ; les entreprises,
elles, se basent sur les statistiques d'études pour définir leurs produits et
orienter leur stratégie. Référence centrale de nombreuses décisions, la statistique
fait souvent l'objet de critiques et de controverses. Chaque publication de données
officielles s'accompagne de son lot de polémiques. Les sondages électoraux suscitent
autant de sarcasmes et de doutes que d'intérêt. L'usage de la statistique dans
les sciences humaines trouve de nombreux détracteurs. Et même la statistique scientifique,
longtemps épargnée, fait l'objet de réserves grandissantes. D'où viennent ces
doutes ? Doit-on continuer à se fier aux études statistiques pour orienter nos
décisions et éclairer nos choix ? L'approche
statistique La statistique
(du latin « status », état) comprend deux branches complémentaires : la statistique
descriptive et la statistique inférentielle. -
Les méthodes descriptives ont pour objectif d'apporter l'image la plus fidèle
possible d'une population, à partir de l'observation des caractères disponibles.
Les comptages, calculs de moyennes et indicateurs d'écart-type et de dispersion
entrent dans ce cadre descriptif. Des méthodes sophistiquées comme l'analyse factorielle
font également partie de cette branche. - L'inférence statistique vise à tester
des hypothèses, mettre en évidence des liaisons et effectuer des extrapolations
générales à partir des observations recueillies. Les tests d'hypothèse, les méthodes
d'analyse de la variance et de régression font partie de la panoplie des statistiques
inférentielles. La statistique descriptive s'attache à ce qui peut être déduit
des données alors que l'inférence statistique cherche à déterminer ce que les
données induisent. Toutes les méthodes mises en oeuvre se basent sur des concepts
et des calculs mathématiques rigoureux. Et pourtant … Statistiques
bikini L'idée que l'on
peut faire dire ce que l'on veut aux statistiques est très répandue. Beaucoup
de statisticiens s'en s'ont amusés comme Georges Gallup qui affirmait « Je peux
prouver l'existence de Dieu... statistiquement » ou Aaron Levenstein pour qui
« Les statistiques, c'est comme les bikinis. Ce qu'elles révèlent est suggestif
mais ce qu'elles dissimulent est essentiel ». Il est vrai que dans ce domaine,
il est facile de tricher par omission ou tout simplement, de se tromper d'indicateurs
ou d'interprétation. Une entreprise peut se prévaloir d'un salaire moyen de 4.000
€, alors que 8 employés sur 10 reçoivent moins de 2.000 € et 2 sur 10 plus de
11.000 €. Une étude peut se focaliser sur le développement important des ventes
d'un produit alors que, parallèlement, les parts de marché correspondantes sont
en train de s'effondrer (sur un marché en forte expansion). La suspicion n'est
jamais aussi forte que lorsqu'il s'agit de statistiques officielles. Ainsi, les
chiffres du chômage font systématiquement l'objet de polémiques (plutôt intenses
ces derniers mois). La publication des statistiques sur la criminalité suscite
également les mêmes critiques. Au delà de la méfiance qu'inspire à tort ou à raison
toute donnée officielle, des chercheurs en sciences sociales vont jusqu'à réfuter
la légitimité des statistiques comme mode de mesure dans tout ce qui touche les
phénomènes humains. Ce mouvement a été porté depuis les années 60 par des sociologues
comme l'ethno-méthodologue américain Aaron Cicourel qui affirmait par exemple
que les statistiques sur la délinquance ne reflétaient en réalité que l'activité
de l'appareil répressif d'état et non la réalité des faits délictueux. Le raisonnement
se base ici sur le fait qu'en la matière la classification indispensable à toute
statistique est forcément subjective et réductrice. Comme l'indique Alain Desrosières,
directeur de recherches à l'Insee, « le développement du réseau statistique est
lié à celui d'un système d'institutions. Cet investissement analogue à celui d'un
réseau routier ou ferroviaire, crée des catégories qui deviennent ensuite incontournables
». Cela finit par limiter le champ d'investigation des chercheurs et leur capacité
à rendre compte de la réalité des phénomènes observés. Tout comme la décomposition
d'un tableau en pixels ou d'un livre en mots ne permettent pas d'expliquer l'œuvre,
la classification puis l'analyse statistique des phénomènes et des individus ne
nous feraient pas avancer efficacement dans la compréhension de nos sociétés.
Paradoxe Intox Au
delà des représentations partielles ou partiales des données, le raisonnement
statistique peut être facilement sujet à des écueils dans lesquels même des utilisateurs
au dessus de tout soupçon peuvent tomber. Le paradoxe de Simpson met en évidence
l'un de ces pièges. Pour l'illustrer, prenons le cas d'une entreprise ayant recruté
durant l'année 30 hommes et 8 femmes. La première impression est qu'il y a une
forte discrimination entre hommes et femmes (79% vs 21%). Si on sait toutefois
que l'entreprise avait reçu 122 candidatures masculines et 42 candidatures féminines,
on peut dire qu'un homme qui se présente a 25% (20/122) de chances d'être recruté
contre seulement 19% pour une femme (8/42), ce qui reste anormal. Peut-on accuser
cette entreprise de sexisme et d'hostilité aux femmes ? En réalité, c'est tout
à fait le contraire si on sait qu'il y a eu 2 recrutements différents, l'un en
début d'année et l'autre en fin d'année. Comme le montre le tableau ci-contre,
95 hommes se sont présentés au 1er recrutement et 28 ont été retenus (29%). 6
des 20 femmes candidates ont également été embauchées (30%). Lors du 2ème recrutement,
27 hommes et 22 femmes se sont présentés. 2 hommes et 2 femmes ont été retenus
(soit respectivement 7 et 9% des candidats). On voit bien dans cet exemple qu'à
chacun de ses recrutements, l'entreprise a embauché plus de femmes que d'hommes
en proportion des candidats alors que l'agrégation des données laissait à penser
le contraire. L'intuition statistique peut être mise à défaut dans bien d'autres
situations, conduisant à de faux calculs et/ou de fausses conclusions. Le cas
du taxi énoncé par les prix Nobel d'Economie Kahneman et Tversky illustre par
exemple la propension courante à négliger les probabilités à priori et à surévaluer
ainsi la représentativité d'un échantillon. Dans cet exemple, dans une ville où
15% des taxis sont bleus (les autres étant jaunes), un piéton est renversé par
un taxi qui prend la fuite. Un témoin indique que le taxi était bleu. Après l'avoir
testé dans des conditions de visibilité similaires, on calcule que ce témoin se
trompe seulement 1 fois sur 5. Pouvons-nous affirmer avec certitude, au regard
de ces éléments, que le taxi était effectivement bleu ? A première vue, on est
tenté de répondre oui, en avançant une probabilité de 80%. En y regardant de plus
près (et en appliquant le théorème de Bayes), la probabilité pour que le taxi
soit effectivement bleu est de 41% seulement. Il y a donc plus de chances que
le taxi soit d'une autre couleur. En effet, la probabilité a priori que le taxi
soit bleu est de 15%. En tenant compte de la fiabilité du témoin, la probabilité
que le témoin ait jugé le taxi bleu alors qu'il est vraiment bleu est de 80%.
La probabilité qu'il l'ait vu bleu alors qu'il était jaune est de 20%. La probabilité
a posteriori que le taxi soit vraiment bleu alors qu'il a été vu ainsi est de
(15%*80%)/(15%*80%+85%*20%)= 41%. Corrélation
n'est pas raison Il est
fâcheux que l'on se trompe dans la mise en œuvre ou l'interprétation des données
statistiques. Mais ce n'est jamais aussi grave que lorsque les erreurs concernent
des domaines scientifiques et médicaux. Or selon des chercheurs américains près
de la moitié des articles publiés dans des revues scientifiques et faisant appel
à des méthodes statistiques comporte des erreurs d'interprétation, ce qui est
inattendu mais pas forcément incroyable au vu du type d'erreurs relevées et que
l’on retrouve fréquemment dans tous les autres domaines d’utilisation de la statistique
et notamment les études marketing. La principale de ces erreurs est la conclusion
abusive de causalité entre différents événements pour lesquels une corrélation
a été établie. Pourtant, il est une évidence qu’aucun utilisateur de statistiques
ne doit ignorer et a fortiori pas un scientifique : deux variables peuvent être
parfaitement corrélées sans pour autant avoir une quelconque relation ou influence
l'une sur l'autre. Ainsi, il existe une corrélation quasi parfaite entre l'évolution
de l'âge d'un groupe de personnes et le cours de l'Euro depuis 2001 (les deux
augmentent régulièrement). On peut difficilement envisager dans ce cas que l'un
des éléments ait pu influer sur l'autre. Il arrive aussi que des éléments très
corrélés proviennent d'une cause commune, tout en étant parfaitement indépendants.
Ainsi, le psychologue et sociologue Paul Watzlawick rapporte que l'on avait retrouvé
dans les années 50 une très forte corrélation entre la mortalité infantile au
Japon et la consommation de bière sur la côte ouest des Etats-Unis. Ces deux phénomènes
qui n'avaient rien à voir l'un avec l'autre étaient en fait dûs tous deux à la
vague de chaleur dans le pacifique qui avait causé des problèmes sanitaires importants
dans un Japon à peine remis de la 2ème guerre mondiale et avait par ailleurs poussé
les américains à consommer plus de boissons fraîches. De nombreuses études tombent
dans cet écueil : la corrélation entre l'utilisation de crèmes solaires et les
cancers de la peau ne signifie pas que les premières causent les seconds. C'est
un troisième facteur, l'exposition au soleil, qui entraîne probablement les deux.
On voit bien, au delà des erreurs de raisonnement, les manipulations qui peuvent
être effectuées par ce biais : on peut facilement trouver des corrélations entre
la consommation d’un aliment et un caractère positif recherché (longévité, taux
de cholestérol, nombre de cancers, etc.) sans qu’il n’y ait pour autant une véritable
causalité. Certains scientifiques remettent par exemple en question (à tort ou
à raison) les études ayant conclu à un lien de causalité concernant la consommation
de vin, d’huile d’olive ou plus globalement le régime méditerranéen d’une part
et les risques cardio-vasculaires d’autre part. Alors qui et que croire ? Doit-on
rejeter en bloc les statistiques au nom de l’absurde principe de précaution en
passe de devenir la religion dominante des oisifs de la pensée et des régressionistes
en tous genres. Ce serait bien entendu une erreur de raisonnement au moins égale
à celles évoquées ci-dessus et qui sont là pour témoigner plutôt de la mauvaise
utilisation des statistiques que du danger intrinsèque de la technique elle-même.
La bonne conclusion est double : les producteurs de statistiques (scientifiques,
chercheurs en sciences humaines, chargés d’études...) doivent bien connaître les
risques d’erreurs ci-dessus pour essayer à tout prix de les éviter en blindant
leurs raisonnements à la lumière des bonnes règles mais aussi du bon sens. Pour
leur part, les destinataires des statistiques (politiciens, économistes, décideurs
en entreprise...) doivent manipuler les données avec recul, en se rappelant toujours
qu’en statistiques aussi, le risque zéro n’existe pas. |