V.4.1 - Dernière mise à jour : 28/02/2022
Pour représenter les données quantitatives repérées (échelles d'intervalles), les ratios et pourcentages (échelles de rapport) et les données qualitatives exprimant la chronologie, la hiérarchie, ... (échelles ordinales).
Variable visuelle utilisée : la Valeur
Objectif : faire varier la valeur d'un figuré pour traduire l'ordre (hiérarchie relative) entre les objets
- En implantation ponctuelle
variation du "niveau de gris" à l'intérieur de surfaces de taille constante
- En implantation linéaire
variation du "niveau de gris" à l'intérieur de lignes de largeur constante
- En implantation surfacique (cas le plus simple)
variation du "niveau de gris" à l'intérieur des polygones
Synonyme : découper en classes, partitionner
Discrétiser c'est regrouper en classes, de manière pas trop arbitraire, des données quantitatives (sous certaines conditions qualitatives)
- Données quantitatives
- échelles :
- mesurées ou dénombrées ;
- repérées ;
- échelle :
- de rapport (les ratios et pourcentages).
On passe d'une variable continue a une variable discrète
- Données qualitatives
- On ne parle pas de discrétisation
- On peut évoquer un regroupement de modalités
Les données qualitatives identifiées par leur échelle ordinale sont déjà en classes
=> classes des grands ou des petits, etc.
- Que discrétise-t-on ?
une distribution
Colette CAUVIN considère qu'il y a 4 familles de distribution (cf. CAUVIN 1987, p.16)
- distributions normales (ou proche de la loi normale) où :
- le + grand nombre d'individus est dans les classes centrales
- ce nombre s'amenuise vers les pieds de courbes
fig. 1 - Concentration des individus dans une distribution normale
- la répartition des individus est connue de part et d'autre de la moyenne* quelque soit la valeur de l'écart-type* , par exemple :
- 68,3 % des individus appartiennent à l'intervalle [ - ; + ] ;
- 95,4 % des individus appartiennent à l'intervalle [ - 2 * ; + 2 *] ;
- 99,7 % des individus appartiennent à l'intervalle [ - 3 * ; + 3 *] ;
- etc.
(cf. CHADULE 1997, p.193, Annexe K)
La loi normale est bien connue. Elle sert de référentiel pour comparer les distributions, mais c'est un référentiel parmi d'autres.
Mais cette distribution est rare en géographie
- distributions asymétriques* (modérément ou non)
Synonyme : dissymétrique*
- concentration dans les petites ou grandes valeurs
- asymétrie par rapport aux valeurs centrales*
Exemple : nombre de salariés (Y) en fonction des revenus (X) !
=> asymétrie gauche
Indique que le phénomène augmente de façon multiplicative dans une direction, contrairement aux phénomènes additifs qui suivent une loi normale (accroissement additif). On ne peut normalement pas utiliser les paramètres usuels de discrétisation sur les distributions asymétriques.
Ce sont les distributions les plus fréquentes en géographie
- distributions uniformes
- quelque soit la valeur de l'abscisse X toutes les valeurs de l'ordonnée Y sont égales
- phénomènes discrets
fig. 4 - Distribution uniforme
Exemple : nombre d'élus (Y) en fonction de la population de la circonscription (X) !
Ce sont des distributions rares en géographie
- distributions plurimodales
- variables composées de sous populations + ou - imbriquées
fig. 5 - Distribution plurimodale
Les paramètres statistiques classiques sont sans signification
Il faut décomposer cette distribution en plusieurs distributions avant de l'étudier.
Donc avant de discrétiser :
On visualise la structure de la variable par son diagramme de distribution*
- Le diagramme de distribution* :
- n'a pas de signification mathématique
- permet de visualiser la forme de la distribution
L'axe des X doit être le plus détaillé possible
- A titre d'exemple, on peut prendre le vote écologiste aux élections régionales de 1998 (Paris + Seine-Saint-Denis)
fig. 6 - Diagramme de distribution
Un point représente une commune
- L'histogramme
A partir de ce diagramme, on peut tracer un histogramme
ou mieux :
- Une courbe des fréquences cumulées
fig. 8 - Courbe des fréquences cumulées
Donne une idée :
- de la fonction d'ajustement ;
- des limites de classes.
- Prendre l'exemple : Répartition de la surface boisée par département en France métropolitaine - (Sources : Inventaire forestion national - IFN).
Ce fichier est au format EXCEL ".xls" et "pèse" 97 Ko.
- prendre l'onglet Tab1b ;
- calculer les minimum, maximum, etc.
- calculer les matrices des fréquences ;
- calculer les fréquences relatives simples (en pourcentages) ;
- calculer les fréquences relatives cumulées (en pourcentages) ;
- tracer l'histogramme (le diagramme en bâtons dans EXCEL) des fréquences relatives cumulées (en pourcentages) sur la matrice (E3:E9) ;
- tracer la courbe des fréquences relatives cumulées (en pourcentages) sur la matrice (E13:E55).
- Quelle est la forme de la distribution ?
Il faut maintenant s'interroger sur le nombre optimal de classes d'une discrétisation.
- Il n'y a pas de règles universelles, que des solutions empiriques et pragmatiques.
Mais l'objectif est de :
1) conserver à la distribution sa forme générale
2) apporter le maximum d'information
- Il faut naviguer entre un :
- découpage trop fin (trop grand nombre de classes)
où l'effectif par classe risque d'être trop faible et sa répartition aléatoire (car fonction du découpage)
- découpage trop grossier (trop petit nombre de classes)
avec une perte d'information et une schématisation extrême
Que ce soit à des fins
cartographiques ou statistiques
- Pour constituer un découpage significatif, deux méthodes sont proposées :
qui tiennent compte de l'effectif* total de la distribution
elles sont décrites (entre autre) dans le CHADULE 1974 p.32
Pour Brooks-Carruthers, le nombre de classes K1 doit être :
K1 < 5 log10 M
avec M le nombre d'individus (nb. de départements de l'exemple)
Pour Huntsberger, le nombre de classes K2 doit être :
K2 = 1 + 3,3 log10 M
- Qu'en est-il pour les 95 départements de l'exemple ?
K1 < 5 log10 M < 5 log10 95 < 5 * 1,98 < 9,89
K2 = 1 + 3,3 log10 M = 1 + 3,3 log10 95 = 7,52
Un nombre de 8 classes semble pouvoir convenir.
- Reprendre l'exemple du tableau 1
- prendre l'onglet Tab1b ;
- vérifier le nombre de départements en C104 avec la fonction "nombre" (NB) ;
- calculer le nombre de classes avec les deux méthodes empiriques précédentes (en C106 et C107) ;
- Combien de classes retenez-vous ?
- 8 classes semble être un bon compromis !
Cela explique que :
- pour une amplitude de 626 450 (C102) ;
- et 8 classes ;
on ait un pas de 78 306,25 (E3:E10) efficace (pour montrer que la distribution n'est pas normale !).
- Toutefois, d'autres raisons peuvent guider le choix du nombre de classes :
- Des raisons techniques
la cartographie infographique ou "manuelle" est difficile au delà de 5 ou 7 paliers
le découpage à l'aide de la moyenne et de l'écart-type est cohérent en 5 ou 7 paliers
- Des raisons pratiques
un résumé de la distribution est parfois suffisant en 3 ou 4 classes
- Quelques indices sont proposés au chapitre 2 de la fm3.2.2 pour faciliter le choix du nombre de classes.
Il répond comme le nombre de classes à certaines conditions :
- Par convention des valeurs simples
retenir des paliers "ronds", "naturels"
- Une borne appartient à une classe et une seule
- La borne inférieure est incluse
- La borne supérieure est exclue
- Les bornes sont, de préférence :
- là où il y a des seuils*, des discontinuités*
- là où la variable a un faible effectif
- Certaines valeurs significatives comme :
- "zéro" pour le taux d'accroissement
- "2,1" pour l'indice de fécondité
- pour certains auteurs, la moyenne dans le cadre d'un distribution normale
Les quatre méthodes les plus courantes (utiles)
Synonyme : Discrétisation en classes d'égale fréquence
Repose sur une étude de la fréquence de la variable et non de ses valeurs
Caractérise des classes contenant un même nombre d'unités statistiques mais de taille variable
effectif égaux par classe K (à ± 1 près)
Mk = M / K
où
Mk est l'effectif par classe
M est le nombre d'unités statistiques
K est le nombre de classes
Permet de faire des groupes équilibrés mais :
- ignore les particularités de la distribution
- regroupe des individus très éloignés (par exemple les dix 1er, puis les dix suivants, etc.)
- d'amplitude inégale
Conseillées lorsque la distribution :
- n'offre pas de seuils nets ;
- est uniforme (mais également normale) ;
- contient des valeurs douteuses (!)
Peu sensibles aux valeurs exceptionnelles, car on considère les observations selon leur ordre et non selon leur valeur.
Cette méthode :
- Fait des classes équilibrées ;
- Apporte un maximum d'information (autant d'individus pour chaque classe).
- Prendre l'exemple : Surface des terrains forestiers domaniaux
- Téléchargement du tableau "cfm32ta2b.xls"
Ce fichier est au format .xls et "pèse" 97 Ko.
- prendre l'onglet Tab2b ;
- pour révision, refaire le calcul de la matrice intervalles
- prendre l'onglet Tab2c ;
- vérifier le nombre de départements en D99 ;
- calculer le nombre de classes avec les deux méthodes empiriques précédentes (en D102 et D103) ;
- Combien de classes retenez-vous ?
- toujours dans l'onglet Tab2c ;
- calculer le nombre de départements par classe en D107 ;
- après avoir trié les colonnes A, B, C et D sur les surfaces (colonne C), tracer en colonne E avec des plages de couleurs (de valeurs croissantes en théorie) les partitions ;
- inscrire les seuils retenus (comme en D16).
Synonyme : Discrétisations selon la moyenne et l'écart-type
Implique en principe une distribution normale (ou normalisée)
Les classes :
- ont en générale la même étendue, sauf (souvent) les extrêmes
- encadrent la moyenne
[minimum ; - 2 * [ ;
[ - 2 * ; - 1 *[ ;
[ - 1 * ; [ ;
[ ; + 1 *[ ;
[ + 1 * ; + 2 *[
etc.
- ou englobent la moyenne
[minimum ; - 1,5 * [ ;
[ - 1,5 * ; - 0,5 *[ ;
[ - 0,5 * ; + 0,5 *[ ;
[ + 0,5 * ; + 1,5 *[ ;
etc.
Préférable d'englober la moyenne, car on regroupe les valeurs peu significativement différentes de celle-ci dans la même classe.
- sont au nombre de :
- 3, 5 ou 7 quand elles englobent ;
- 4, 6 ou 8 quand elles encadrent ;
- Conseillées :
- pour leur valeur probabiliste
Par exemple :
- 68,3 % des individus appartiennent à l'intervalle [ - ; + ] (cf. supra)
- pour des comparaisons indépendantes des valeurs de la variables
lorsqu'on exprime les paliers par rapport à la moyenne et l'écart-type.
Mais alors, la double légende s'impose !!!
- Déconseillées lorsque :
- les distributions sont dissymétriques (et non transformées, cf. fm322.);
- il y a des valeurs exceptionnelles (influence sur les calculs de la moyenne et de l'écart-type).
- Reprendre l'exemple : Surface des terrains forestiers domaniaux
- reprendre l'onglet Tab2c ;
- calculer la moyenne et l'écart-type en F109 et F110 ;
- calculer pour 7 classes les seuils :
- 2,5 * (en F112) ;
- 1,5 * (en F113) ;
- 0,5 * (en F114) ;
etc.
- tracer en colonne F avec des plages de couleurs (de valeurs croissantes en théorie) les partitions ;
- inscrire les seuils calculés.
Implique que la moyenne est une "valeur" qui sépare deux ensembles.
Qu'elle traduit un point d'équilibre dans la distribution.
C'est une démarche itérative.
- 1ère étape :
- calcul de la moyenne de premier ordre moy1 sur l'ensemble de la distribution
- partition en deux sous ensembles
- [minimum ; moy1[
- [moy1 ; Maximum]
- 2e étape :
- calcul des moyennes de deuxième ordre moy2a et moy2b sur chaque sous partie
- partition en quatre sous ensembles
- [minimum ; moy2a[
- [moy2a ; moy1[
- [moy1 ; moy2b[
- [moy2b ; Maximum]
- 3e étape :
- calcul des moyennes de troisième ordre moy3a , moy3b , moy3c et moy2d sur chaque sous partie
- partition en huit sous ensembles
On peut réitérer l'opération indéfiniment.
- Avantages :
- fréquences également réparties dans les classes ;
- étendues des classes assez proches avec :
- intervalles assez étroits dans les zones modales ;
- intervalles assez lâches dans les secteurs de faible fréquence.
- pour une distribution asymétrique gauche
donne des classes comparables à une discrétisation par progression géométrique
- Inconvénients :
- nombre de classes :
- imposé ;
- qui croît par un facteur deux et pas arithmétiquement.
- l'ajout d'un individu impose un recalcul complet ;
- impossibilité de faire une classe moyenne (!) ;
- oppose des valeurs de part et d'autre des moyennes (alors qu'elles peuvent être proches !).
Il existe d'autres discrétisations statistiques (ou probabilistes) comme :
- la méthode de Jenks (fondée sur la notion de variance, voir la section 2.2 de la fm3.2.2) ;
- discrétisation en classes équiprobables [construction des classes par rapport à une distribution théorique (comme la loi normale)] ;
- etc.
- Reprendre l'exemple : Surface des terrains forestiers domaniaux.
- prendre l'onglet Tab2c ;
- calculer les moyennes de deuxième ordre moy2a et moy2b (en G122 et G123) ;
- calculer les moyennes de troisième ordre moy3a, moy3b, moy3c et moy3d (de G126 à G129) ;
- tracer en colonne G avec des plages de couleurs (de valeurs croissantes en théorie) les partitions ;
- inscrire les seuils calculés.
Synonyme : Classes d'égale étendue*
- La progression est à intervalles constants
Caractérise des classes de pas constant contenant un nombre d'unités statistiques variables
e = (Y max - Y min) / K
où
e est l'étendue de chaque classe ;
Y max est la valeur maximale de l'effectif ;
Y min est la valeur minimale de l'effectif ;
K est le nombre de classes.
- La 1ère classe vaut [ Y min ; Y min + e[
qui se lit : va de Y min inclus à Y min + e exclu
- La 2e classe vaut [ Y min + e ; Y min + 2e[
etc. jusqu'à Ke classe
- La Ke classe vaut [ Y min + (K - 1) * e ; Y min + K * e]
avec
Y min + K * e = Y max
- Permet de faire des paliers "ronds"
mais
- si la distribution est discontinue => risque de classes vides ;
- si la distribution est asymétrique => effet de masse en début ou fin de distribution ;
- si la distribution est normale => effet de masse au centre de la distribution.
Conseillées lorsque :
- la distribution est relativement uniforme* ou normale
- le min et le max sont significatifs
- Reprendre l'exemple : Surface des terrains forestiers domaniaux.
- prendre l'onglet Tab2c ;
- calculer l'étendue (en H133) ;
- pour 8 classes les seuils :
min + e (en H135) ;
min + 2e (en H136) ;
min + 3e (en H137) ;
etc.
- tracer en colonne H avec des plages de couleurs (de valeurs croissantes en théorie) les partitions ;
- inscrire les seuils calculés.
- La progression est arithmétique, logarithmique ou géométrique
Discrétisation à utiliser sur des séries asymétriques à gauche pour détailler les petites valeurs
Plus complexe à mettre en œuvre et surtout à expliquer au lecteur
Préférer les moyennes emboîtées par exemple ou les transformations
- Méthode des seuils naturels
Synonyme : Discrétisation selon les seuils observés (ou naturels)
On repère sur :
- le diagramme de distribution ou l'histogramme des fréquences
les minimum
- la courbe des fréquences cumulées
les paliers
Elle est parfois simple à réaliser, c'est un "découpage naturel"
mais
- souvent difficile à justifier
- n'est pas très scientifique (reproductibilité aléatoire !)
Elle est parfois utilisée pour finaliser les précédentes :
- recherche de paliers "ronds" ;
- légères translations des limites vers les vides de la distribution ;
- etc.
C'est la seule qui fonctionne sur les distributions plurimodales*.
Communiquez-moi sur la plateforme Moodle, à la rubrique "Questions de cours", les réponses aux questions suivantes :
Question n°3.2.1.1. Dans le cas d'une distribution ayant une forte asymétrie gauche, il n'est pas "scientifiquement" admis d'utiliser une discrétisation par :
a) seuils naturels
d) moyennes emboîtées
b) égale fréquence
e) égale amplitude
c) standardisation
f) égal effectif
Question n°3.2.1.2. On réservera la discrétisation par la méthode des seuils naturels pour les distributions :
a) avec une asymétrie droite
d) uniformes
b) avec une asymétrie gauche
e) en cloche
c) bi-modales
f) pluri-modales
Question n°3.2.1.3. On réservera la discrétisation par la méthode de la moyenne et de l'écart-type pour les distributions :
a) avec une asymétrie droite
d) uniformes
b) avec une asymétrie gauche
e) en cloche
c) bi-modales
f) pluri-modales
NB : les mots suivis de "*" font partie du vocabulaire géographique, donc leur définition doit être connue. Faites-vous un glossaire.