Supposons que l'on réalise un sondage dont l'unique question est la
suivante:
Quelle est la boisson que vous consommez le plus
fréquemment avec le repas du soir ?
Les réponses peuvent être choisies dans la liste suivante:
eau limonade bière
vin café thé alcool autre (divers) |
E L
B V C T A D |
(cas discret)
Les résultats bruts de l'enquête sont notés sur des formulaires
nominatifs (dans ce cas):
Delphine Rose Jean-Philippe Marylin Maude Stéphanie Julie Olivier Johanne
Julien Sandrine Justine Anita Stéphanie Christine Kristel Aurore
Jean-Yves François-Michael Fabian Louise Stéphane Anthony
Barbara Macha |
L V L C E B B D B E V V L B B V
A B E B L A E B B |
La liste détaillée des résultats ne se prête pas bien à une
interprétation globale.
Les réponses peuvent être regroupées sous forme de
tableau permettant une meilleure vue
d'ensemble.

Une telle représentation où chaque individu est représenté par un cercle
est un peu lourde et devient fastidieuse dès que la taille des
échantilllons croît.
On remplace les empilements de cercles par des
barres dont la hauteur est proportionnelle au
nombre d'individus repris dans cette catégorie.
C'est le diagramme à barres.

Ce diagramme à barres peut aussi donner le
pourcentage d'individus dans
chaque catégorie.
Le diagramme sectoriel ou
"camembert" se prête très bien à la
représentation des pourcentages.
On dessine un disque découpé en secteurs ou
"morceaux de tarte".
L'angle au centre de
chaque secteur est proportionnel au pourcentage d'individus dans la
catégorie correspondante.

2. Variables discrètes et continues
Les cas que nous avons rencontrés jusqu'à présent correspondent à des
variables discrètes, car les résultats peuvent
seulement prendre des valeurs bien
spécifiques, qui ne sont généralement pas numériques (eau, vin,...)
On rencontre aussi des variables continues.
Dans ce cas, les résultats (numériques)
peuvent prendre n'importe quelle valeur
(éventuellement entre des limites inférieure et supérieure).
Exemple: études de la taille d'un ensemble
d'individus
Si on effectue les mesures avec suffisamment de précision, il sera rare que
deux individus aient exactement la même taille.
Soit une partie des résultats:
Alain: Jacques: Marie: Pol: Catherine: ..... |
1,748 m 1,805 m 1,718 m 1,707 m 1,769 m ..... |
Une représentation graphique conservant toute la précision de la mesure
sera peu utile, et d'interprétation difficile.

|
On regroupera les mesures par classes
judicieusement choisies (p.ex.,
2 cm) et on comptera le nombre d'individus par classe.
|

1,701 à 1,720 m :
1,721 à 1,740 m : 1,741 à 1,760 m :
1,761 à 1,780 m : 1,781 à 1,800 m : 1,801 à 1,820 m : |
3 3 5 6 4 3 |
On peut alors représenter les résultats comme dans le cas discret.
En particulier, on rencontrera souvent le diagramme à barres (accolées,
dans ce cas) aussi appelé histogramme.
Les classes sont généralement repérées par leur
centre, mais elles doivent être définies
par leurs extrémités.
3. Choix de la largeur des classes
La largeur choisie pour les classes dépendra:
-
de la finesse de la représentation désirée
(si on veut faire la distinction entre des individus dont la taille
diffère de 5 cm, on ne va pas choisir des classes plus larges, par
exemple 10 cm!)
-
de la taille de l'échantillon étudié
Pour que la représentation ait suffisamment de précision, il faut que
chaque classe contienne, en général, un nombre suffisant d'individus.
Exemple:
Les cotes obtenues à un examen par 50 élèves sont données dans le tableau
suivant:
0.0 0.0 0.5 1.2 1.7 |
2.1 3.2 4.5 5.3 5.3 |
6.1 6.2 7.2 7.2 7.4 |
7.8 8.2 9.1 9.1 9.5 |
9.5 9.6 9.9 9.9 10.1 |
10.4 10.5 11.1 11.8 11.9 |
12.1 12.4 12.5 12.6 12.6 |
12.8 12.8 12.9 13.0 13.7 |
13.9 14.2 14.6 14.7 14.7 |
14.8 15.5 16.1 16.8 18.2 |
|
Choisissez la largeur des classes et examinez son effet sur l'allure de
l'histogramme:

Largeur des classes:
1
2
4
5
10
toutes les classes
4. Polygone des fréquences ou des effectifs
Pour obtenir ce polygone, on raccorde les sommets des barres, au centre de
chaque classe, par des segments de droite.
On obtient donc une série de points reliés par des segments de droite.
L'abscisse de chaque point
correspond au centre de la classe. La hauteur
de chaque point (son ordonnée) correspond au
nombre d'individus dans la classe
(polygone des effectifs) ou au
pourcentage d'individus dans la classe
(polygone des fréquences).
5. Bien interpréter les graphes
Il est courant d'entendre déclarer que l'on fait dire aux statistiques
ce que l'on veut. Par exemple, il est possible de présenter les résultats
de manière à amener le lecteur peu attentif à accepter une conclusion
erronée.
Le but de ce chapitre est d'illustrer cette pratique par quelques exemples,
afin de vous aider à interprèter correctement les graphes parfois
trompeurs.
Cas étudiés:
1. Tirage de journaux concurrents

|
Le graphique suivant est paru en 1981 dans le
New Yorker Post, sous le titre
"Ascension du Post, le quotidien préféré des
New-Yorkais".

Le but de ce graphique est de convaincre le lecteur que la croissance du
tirage du Post va bientôt l'amener
en première position, devant le News, qui
périclite.
On remarque deux artifices utilisés pour exagérer la tendance:
-
L'échelle verticale ne démarre pas en zéro.
C'est une présentation acceptable, mais qui renforce les variations
apparentes.
-
L'échelle verticale est discontinue.
Alors que deux graduations successives sont séparées de 100.000 unités,
on passe brutalement de 800.000 à 1.500.000 dans l'intervalle séparant le
POST du NEWS. Les tirages des deux journaux paraissent, de ce fait,
beaucoup plus proches que dans la réalité.
Une telle
présentation ne serait
admissible que si la discontinuité de l'échelle était clairement
indiquée, par exemple par des pointillés:

La version correcte, plus "honnête",
du graphique, est la suivante:
On constate immédiatement qu'il reste au Post
bien du chemin à parcourir avant d'accéder à la première place.
2. Le baril de pétrole
géant

|
La figure de gauche, parue dans le magazine
Time du 9 avril 1979, est destinée à illustrer
l'augmentation du prix du pétrole suite à la crise déclenchée par la guerre
du Kippour.
De 1973 à1979, le prix du pétrole a été multiplié par 6. Or, le baril
"1979", qui est 6 fois plus haut que le baril "1973" contient
6×6×6 = 216 fois plus de
pétrole que celui-ci
Ce n'est pas la hauteur du baril, mais son volume, que le lecteur associera
généralement au prix (le pétrole se vend au litre,
pas au mètre !)
On a donc exagéré d'un facteur 36
l'augmentation du prix du pétrole.
Si, de plus, on tient compte de l'inflation (figure de droite), le prix du
pétrole n'a augmenté que d'un facteur 3,5
entre 1973 et 1979.
L'exagération est de 60 fois !
3. Dépenses gouvernementales aux
Etats-Unis

|
Le graphique de gauche illustre l'accroissement des dépenses
gouvernementales US de 1930 à 1980. On constate une augmentation régulière
si on mesure ces dépenses en dollars, avec un
petit pic correspondant à la seconde guerre mondiale.
Cependant, la mesure des dépenses en dollars n'a pas beaucoup de sens car
elle ne tient pas compte de l'inflation.
Ce qui est plus significatif dans ce cas, c'est l'évolution des dépenses
gouvernementales par rapport à toutes les autres dépenses, mesurées ici par
le Produit National Brut (PNB).
4. Production alimentaire mondiale

|
Le graphe suivant, publié dans l'hebdomadaire
Business Week le 16 juin 1975, est destiné à
illustrer la variation de la production alimentaire, comparée à celle de la
population mondiale.
La plupart des personnes examinant ce graphe vont conclure que la
production alimentaire a augmenté moins vite
que la population. Le piège réside dans le fait de comparer la production
alimentaire par tête (=par individu) à
la population totale. Si la production
alimentaire par tête augmente, cela
signifie forcément que la production totale augmente plus vite que la
population totale.
Une version plus claire de ce graphe est présentée ci-dessous:
NB: Il faut bien se garder d'interprèter les
graphe au-delà de ce qu'ils
présentent. Du graphe ci-dessus, on ne peut pas déduire, par exemple, que
le problème de la faim dans le monde était moins aigu en 1974 qu'en 1954.
En effet, ce problème dépend de bien d'autres facteurs, comme la
répartition des denrées alimentaires entre pays et entre couches de la
population.
5. Le camembert en perspective

|
Le diagramme sectoriel suivant présente les pourcentages obtenus par 4
partis politiques lors d'une élection.
Exercice: Sur base de ce graphe,
indiquez lequel de ces
4 partis a obtenu le plus de suffrages et lequel en a obtenu le
moins ?
6. Choix de l'année de base

|
L'évolution du marché boursier à Wall Street avant 1954 est illustrée sur
le graphiques ci-dessous:
En regardant le graphe de gauche, on a l'impression que l'indice Dow Jones
n'a pas évolué. Par contre, le graphe de
droite suggère une forte progression.
Ces deux graphiques, trop schématiques, donnent une vue tronquée de
l'évolution du marché boursier. En examinant l'évolution complète de
celui-ci, on constate que les années 1929 et 1932 prise comme références
correspondent en fait à un pic et un creux de la courbe, la grande crise de
1930 ayant provoqué l'effondrement du cours des actions.
6. Echelle logarithmique
Lorsque la grandeur à représenter varie fortement (p.ex., plus d'un facteur
100), l'échelle habituelle (linéaire) n'est pas bien adaptée à la
représentation des petites quantités.
Exemple: Les dimensions caractéristiques des
objets suivants sont:
mouche: homme: terrain
de football: village: pays: planète terre: |
5 mm = 0.005 m 2 m 100 m
1 km = 1000 m 1000 km = 1 000 000 m 12 000 = 12 000 000 m |
Représentation linéaire
Dans une représentation linéaire, où une
longueur donnée (entre deux graduations successives) correspond à
l'addition d'une quantité fixée (p.ex.,
2000 km), les petites variations sont indiscernables. Ainsi, le
graphique ci-dessus ne permet pas de distinguer la dimension d'une mouche
de celle d'un terrain de football.
Dans la représentation logarithmique, une
longueur fixe (entre deux graduations successives) correspond à la
multiplication par un nombre donné (p.ex.,
100).
Représentation logarithmique
7. Evolution temporelle d'une grandeur
Une utilisation courante de la (des)
statistique(s) concerne l'étude de la
variation d'une quantité quelconque au cours du temps (chiffre d'affaires
d'une société, prix d'une denrée, produit national brut, audience d'une
chaîne de télévision,...)
Exemple: on étudie le nombre annuel de décès
dans une paroisse ardennaise (Rahier) vers la fin du XVIIIe
siècle en dépouillant les registres paroissiaux. Cette étude donne les
résultats suivants:
1766: 1767: 1768: 1769: 1770: 1771:
1772: 1773: 1774: 1775: |
13 décès 13 décès 10
décès 6 décès 10 décès 14
décès 10 décès 21 décès 17 décès 6 décès |
Le nombre total de décès sur cette période de 10 ans est de
120, soit une moyenne de
12 décès par an, ou encore
1 décès par mois.
L'histogramme et le polygone des effectifs sont présentés ci-dessous:

On se pose alors la question suivante:
Y-a-t'il une année pour laquelle le nombre de décès
est anormalement faible ou élevé ?
La Théorie nous enseigne que si le nombre
moyen de décès est de 12 par an, on peut
s'attendre, chaque année, à un nombre de décès variant de
5 à 19, avec un
intervalle de confiance de 95 %.
Autrement dit, les fluctuations statistiques vont,
normalement (dans 19 cas sur 20) faire varier
le nombre de décès de 5 à
19 chaque année.
Une seule année sort de cet intervalle: 1773, avec
21 décès.
Cette différence est-elle significative ?
(Après tout, 1 fois sur 20, on s'attend à un nombre de décès inférieur à
5 ou supérieur à
19)
Examinons les données en détail.
Pour 1766, une année "moyenne"
(13 décès),
le prêtre a consigné dans son registre les décès suivants:
-
le 5 janvier, Jeanne, fille de Mathieu Pichay
-
le 9 janvier, Bartholomé, fils de Bartholomé Caporal
-
le 22 janvier, Catherine Capon, épouse de François Boutet
-
le 27 janvier, Jean Henri Cola
-
le 11 février, un enfant de Mathieu Collinet
-
le 23 avril, Pierre Calais
-
le 10 mai, Marie Joseph Sauvage, veuve de Jean Boutet
-
le 14 mai, Jean Joseph, fils de Joseph Grégoire
-
le 18 juin, Marie Piette, veuve de Joseph Xhardé
-
le 20 novembre, Martine N., mendiante
-
le 4 décembre, Toussaint Charrette
-
le 8 décembre, Marie Jeanne Helman; épouse de Gilles Lerus
-
le 27 décembre, Aubin Jacquet
Soient 9 adultes, 4 enfants
Pour 1776, le registre porte les 21 décès
suivants:
-
le 13 janvier, Catherine, fille de Joseph Malhache
-
le 26 janvier, Marie Anne Donneau; veuve de Joseph Chauveheid
-
le 13 février, Jean Helman
-
le 27 février, Marie Jeanne Quenech, veuve de Jean Helman
-
le 28 mars, Elisabeth Marly, épouse de Servais Rasquin
-
le 15 avril, un enfant de Querin Chauveheid
-
le 17 avril, Anne Marie Charette, épouse de Henri Jacquemin
-
le 18 avril, un enfant de Querin chauveheid
-
le 22 avril, un enfant de Pierre Jacquet
-
le 23 avril, un enfant, veveu de Mathieu Deroanne
-
le 24 avril, un enfant de Henri Goffin
-
le 26 avril, un enfant de Jean François Reharmont
-
le 8 mai, un enfant de Louis Dorquet
-
le 16 mai, Anne Marie, fille de Jean François Deroanne
-
le 2 juin, un enfant de François Santkin
-
le 7 juin, Jacques Laffru
-
le 18 juin, Mathieu, fils de Jean Debatty
-
le 21 juin, un enfant de Guillaume Smettre
-
le 4 juillet, une enfant de Louis Dorquet
-
le 14 novemvre, un enfant de Jean Pierre Boutet
-
le 14 décembre, Marie Ursule Deremouchamps, épouse de Henri Neuforge
Soient 7 adultes, 14 enfants
En particulier, on relève 14 décès entre le 15
avril et le 4 juillet, dont 10 enfants.
soient 5 décès/mois au lieu de 1
Entre le 15 avril et le 26 avril, on note 7
décès, dont 6 enfants
soient 20 décès/mois au lieu de 1
Ces indices sont suffisants pour conclure à une épidémie touchant surtout
les enfants, par exemple: dysenterie
L'examen détaillé des données a donc confirmé la
conclusion théorique.
Chapitre:
1
2
3
4
5
6
7