V.1.2.1 - Dernière mise à jour : 19/10/2016
Elles mesurent l'hétérogénéité d'un caractère
C'est-à-dire, si la distribution est concentrée ou non autour d'une valeur centrale
- Ne pas confondre dispersion statistique et géographique
Leur signification est opposée :
- La dispersion statistique est grande lorsque
la dispersion géographique est minimale (concentration spatiale)
fig. 1 - Dispersion statistique forte / Dispersion géographique faible
- La dispersion statistique est faible lorsque
la dispersion géographique est maximale (dispersion spatiale = phénomène uniformément réparti)
fig. 2 - Dispersion statistique faible / Dispersion géographique forte
- La dispersion statistique peut être absolue ou relative
La dispersion absolue est exprimée dans l'unité de mesure du caractère
Elles n'utilisent pas explicitement une valeur centrale pour être déterminées
Synonyme : amplitude*
C'est un intervalle de variation* (en anglais range)
E = xi max - xi min
- Inconvénient : ne dépend que des valeurs extrêmes
Il n'est donc pas toujours significatif
- Il faut limiter l'emploi de l'étendue* aux séries dont on reconnaît une signification aux valeurs extrêmes comme
certains paramètres climatiques tels que :
l'amplitude thermique annuelle
Où les extrema sont déjà des valeurs lissées (des moyennes) écrêtées des irrégularités annuelles
- L'étendue est également très utilisée pour discrétiser une série
Synonyme : intervalle interfractiles* ou interquantiles*
- Les quantiles ou fractiles sont des paramètres de position
Mais, l'écart interquantile est un paramètre de dispersion absolue
L'écart interquantile est une étendue au sein de la série
- Les 2 plus connus sont :
- L'intervalle de Kelley (Ik)
Ik = D9 - D1
- comprend 80 p.100 de l'effectif
- permet d'éliminer les valeurs extrêmes
(par exemple : les pluviométries exceptionnelles)
- L'intervalle interquartile (IIQ)
IIQ = Q3 - Q1
- comprend 50 p.100 de l'effectif
- permet de ne travailler que sur le centre de la série
(par exemple : les classes moyennes)
L'écart interquantile permet des mesures d'étendue partielle
- L'approche visuelle de la dispersion par l'écart interquantile,
passe par le diagramme en Boite et Moustaches (ou Box plot)
Reprendre l'exemple du Tableau 1 (mem32sta.htm) - PIB par habitant des régions de France, d'Italie et d'Espagne en 1991 - (Sources : Eurostat, 1992, in SAINT-JULIEN 1999, p.23).
Ce fichier est au format EXCEL 5.0 et "pèse" 97 Ko.
Calculer pour l'Europe du sud, feuille : Tab1b
- l'étendue
- l'intervalle interquartile
formule n°1 (mem41sta.htm)
Avec :
l'écart à la moyenne arithmétique ;
la moyenne arithmétique ;
l'écart, en valeur absolue, à la moyenne arithmétique ;
N l'effectif total, la somme des ni.
et pour les distributions groupées
formule n°2 (mem41sta.htm)
Avec :
xi qui devient le centre de classe ;
ni effectif de la modalité i ;
j le nombre de modalités.
L'écart à la moyenne conserve l'unité de la série
- Les applications les plus usuelles sont d'ordre :
- cartographique
- climatologique
Exemple n°2 :
Reprendre le Tableau 2 (mem24sta.htm) - Distribution des précipitations en Mauritanie entre 1940 et 1990 - (Sources : ASECNA, ORSTOM).
Ce fichier est au format EXCEL 5.0 et "pèse" 97 Ko.
- Calculer les écarts à la moyenne pour chaque station
- Puis calculer :
- la moyenne moins un écart à la moyenne ;
-
- la moyenne plus un écart à la moyenne ;
+
- Tracer les trois courbes en trois graphiques séparés ;
- Reporter les droites :
-
+
pour chaque station.
- Quelles sont les années excédentaires ?
- Quelles sont les années déficitaires ?
- De combien d'écart à la moyenne ?
- Il en va de même pour l'écart-médian absolu
- Cet écart correspond à la médiane des écarts
- il y a 50 p.100 des écarts de part et d'autre de l'écart-médian absolu
-il se calcule en remplaçant la moyenne par la médiane (of course !)
La variance* notée () est la moyenne arithmétique des carrés des écarts à la moyenne.
formule n°3 (mem41sta.htm)
et pour les distributions groupées
formule n°4 (mem41sta.htm)
Avec :
xi qui devient le centre de classe ;
ni effectif de la modalité i ;
j le nombre de modalités.
Le carré de l'écart à la moyenne donne un résultat non nul et positif.
- Prendre le carré des écarts à la moyenne c'est :
renforcer le poids des valeurs extrêmes
donc notre perception de la dispersion
De ce fait, les valeurs extrêmes ont un poids :
- majoré dans le calcul de la dispersion absolue par la variance
- minoré par l'utilisation des quantiles
L'utilisation de la variance est conditionnée par une distribution proche d'une distribution normale,
dont la forme est une courbe en cloche sans asymétrie
Il faut donc contrôler la forme de la distribution
Synonyme : écart quadratique moyen ou déviation standard
L'écart-type* est noté () c'est la racine carrée de la variance
formule n°5 (mem41sta.htm)
Note :
- l'écart moyen absolu est égal à l'écart-type dans le cas d'une distribution gaussienne*
c'est donc très rare en géographie
- ne pas confondre dans EXCEL (et dans une moindre mesure pour les calculettes) les fonctions :
ECARTYPE
calculées sur un échantillon
ECARTYPEP
calculées sur l'ensemble de la population
- la variance est un intermédiaire de calcul sans valeur descriptive concrète
l'écart-type est son expression descriptive
lui seul porte l'unité de mesure de cette variable
- l'écart-type est la caractéristique de dispersion la plus courante
Pourtant, il n'est pas toujours adapté à la forme de la distribution
Mais, il a une valeur probabiliste dans les distributions normales.
Reprendre l'exemple du Tableau 1 (mem32sta.htm) - PIB par habitant des régions de France, d'Italie et d'Espagne en 1991 - (Sources : Eurostat, 1992, in SAINT-JULIEN 1999, p.23).
Calculer pour l'Europe du sud, feuille : Tab1b
- l'écart moyen absolu
- l'écart-type
- Quels sont les avantages respectifs et les limites de l'étendue, de l'intervalle interquartile, de l'écart moyen absolu et de l'écart-type ?
La dispersion relative sert à comparer plusieurs distributions
- Elle permet d'éliminer les problèmes :
- d'échelle lors de comparaison de distributions trop différentes ;
- d'unités de mesures lorsque les distributions sont "incompatibles".
- Les caractéristiques de dispersion relative sont :
- en général des quotients (caractéristique de dispersion absolue / valeur centrale)
- toujours sans unité, voire exprimées en %.
Enfin, il est préférable que la variable soit :
- positive
- dotée d'une origine non arbitraire
Par exemple, il est préférable d'avoir 0 °K plutôt que 0 °C (273 °K) !
sinon il faut réaliser des transformations pour rendre les calculs cohérents.
Une seule courante : Le minimax
- Mêmes qualités et les mêmes défauts que l'étendue :
sa référence aux extrema de la distribution
- C'est le rapport entre le maximum et le minimum de la distribution
Le minimax = xi max / xi min
Très utilisée pour comparer des salaires d'une entreprise à l'autre
C'est la plus connue
Le coefficient de variation* est noté (CV), il se calcule comme suit :
formule n°6 (mem41sta.htm)
Note :
- Il est souvent exprimé en % (CV * 100)
- Si le coefficient de variation est égal à 18 %
cela signifie que l'écart-type vaut 18 % de la moyenne
- Le coefficient de variation est très sensible à la valeur de la moyenne
Plus la moyenne est proche de 0
moins le CV est exploitable, car il tend vers l'infini
Le plus connu est le coefficient interquartile
Le coefficient interquartile* est noté (CIQ), il se calcule comme suit :
formule n°7 (mem41sta.htm)
c'est l'intervalle interquartile divisé par la médiane
Note :
- La variabilité relative est donc proportionnelle à la valeur centrale
- Ces coefficients peuvent être difficilement interprétables dès que :
la moyenne et la médiane sont proches de 0
- Ces coefficients ont l'inconvénient de ne pas avoir de limite supérieure
Reprendre l'exemple du Tableau 1 (mem32sta.htm) - PIB par habitant des régions de France, d'Italie et d'Espagne en 1991 - (Sources : Eurostat, 1992, in SAINT-JULIEN 1999, p.23).
- Pour chaque pays, caractériser la distribution du PIB par habitant à l'aide (feuille : Tab1c) :
- de la moyenne
- de l'écart-type
- du coefficient de variation
- Quel est le pays le plus homogène pour le PIB par habitant ?
- Quel est le pays où ce caractère induit les plus fortes disparités ?
- Réaliser le découpage des écarts à la moyenne globale du PIB qui tienne compte :
- de la moyenne comme limite de classe ;
- de l'écart-type comme amplitude de classe.
- Construire le tableau de dénombrement issu de ce découpage
- Représenter la distribution à l'aide d'un diagramme en barres (fonction histogramme d'EXCEL)
- Est-elle en cloche ?
- Réaliser une carte à l'aide du découpage précédent
Téléchargement du fond de carte
(Sources : Code et localisation des régions de France, d'Italie et d'Espagne, in : SAINT-JULIEN 1999, p.25).
Ce fichier est au format ".TIF" et "pèse" 290 Ko.
- Quelle analyse faites-vous de cette carte ?
- Quelles différences voyez-vous entre cette carte et les mesures de dispersion ?
- Quelles différences voyez-vous entre cette carte et la cartographie de la variable elle-même ?
Communiquez-moi par courrier électronique les réponses aux questions suivantes Question n°4.1.1. Quel paramètre de dispertion tient compte d'une valeur centrale :
Question n°4.1.2. Quel paramètre de dispertion absolue est combiné à la moyenne pour calculer le coefficient de variation :
Question n°4.1.3. En cas de distribution asymétrique, il est préférable d'utiliser :
|
NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.