Vincent GODARD

Département de Géographie

Université de Paris 8


V.2.1 - Dernière mise à jour : 18/10/2004

 

Fiche Mémo n°2.1. du cours de Statistique :

Construction du tableau de dénombrement

 

 

1. Tableau élémentaire contre tableau de dénombrement

- Quelles différences y-a-t-il entre un tableau élémentaire et un tableau de dénombrement* ?

Le tableau élémentaire :

- est un tableau brut, de collecte de l'information

- à chaque individu (unité spatiale) correspond une modalité de la variable

Le tableau de dénombrement :

- est un tableau élaboré, de construction de l'information

- à chaque modalité de la variable correspond un certain nombre d'unités statistiques

appelées effectif* de la modalité

En général,

- il y a autant de tableaux de dénombrement qu'il y a de variables

- les unités statistiques deviennent anonymes regroupées dans leur modalité

 

2. Analyse d'un exemple

Exemple : Tableau 2.1 - Évolution de la population camerounaise (1976 - 1987) - (Sources : RGP Cameroun, 1987, in SAINT-JULIEN 1999, p.11).

Téléchargement du tableau

Ce fichier est au format EXCEL 5.0 et "pèse" 97 Ko.

On se propose de réaliser un dénombrement des départements (unités spatiales) du Cameroun selon les modalités de chacun des caractères. Le nombre de ces modalités étant trop élevé, celles-ci vont être découpées en classes.

2.1 Limites du diagramme de distribution

On a vu comment réaliser le diagramme de distribution avec EXCEL à la fiche mémo 1.1.

Cependant, le nombre de modalités (surtout pour des données quatitatives continues) peut être très (trop) important.

Pour synthétiser et communiquer, on a intérêt à discrétiser* les modalités

 

2.2. Qu'est-ce que la discrétisation ?

Synonyme : découper en classes, partitionner

Discrétiser c'est regrouper en classes, de manière pas trop arbitraire, des données quantitatives

- Données quantitatives

- échelles :

- mesurées ou dénombrées ;

- repérées ;

- échelle :

- de rapport (les ratios et pourcentages).

On passe d'une variable continue a une variable discrète

- Données qualitatives

- On ne parle pas de discrétisation

- On peut évoquer un regroupement de modalités

 

2.3. Combien de classes doit-on réaliser ?

- Il n'y a pas de règles universelles, que des solutions empiriques et pragmatiques.

Mais l'objectif est de conserver à la distribution sa forme générale

- Il faut naviguer entre un :

- découpage trop fin (trop grand nombre de classes)

où l'effectif par classe risque d'être trop faible et sa répartition aléatoire (car fonction du découpage)

- découpage trop grossier (trop petit nombre de classes)

avec une perte d'information et une schématisation extrême

Que ce soit à des fins

cartographiques ou statistiques

- Pour constituer un découpage significatif, deux méthodes sont proposées :

elles tiennent compte de l'effectif* total de la distribution

elles sont décrites (entre autre) dans le CHADULE 1974 p.32

Pour Brooks-Carruthers, le nombre de classes K1 doit être :

K1 < 5 log10 N

Pour Huntsberger, le nombre de classes K2 doit être :

K2 = 1 + 3,3 log10 N

Si vous voulez en savoir plus sur les logarithmes, allez jeter un oeil sur a fiche mémo annexe mema3tel.htm.

- Qu'en est-il pour notre exemple ?

cf. Onglet Tab2 en G3 et G5

K1 < 5 log10 N < 5 log10 49 < 5 * 1,69 < 8,4

K2 = 1 + 3,3 log10 N = 1 + 3,3 log10 49 = 6,57

Un nombre de 7 ou 8 classes semble pouvoir convenir.

- Toutefois, d'autres raisons peuvent guider le choix du nombre de classes :

- Des raisons techniques

la cartographie manuelle est difficile au delà de 5 ou 7 paliers

- Des raisons pratiques

un résumé de la distribution est parfois suffisant en 3 ou 4 classes

- Combien de classes retient-on dans notre exemple ?

cf. Onglet Tab2 en G7

 

2.4. Le choix des limites

Il répond comme le nombre de classes à certaines conditions :

- Par convention des valeurs simples

retenir des paliers "ronds", "naturels"

- Une borne appartient à une classe et une seule

- La borne inférieure est incluse

- La borne supérieure est exclue

- Les bornes sont, de préférence, là où il y a des seuils*, des discontinuités*

là où la variable a un faible effectif

- Certaines valeurs significatives comme :

- zéro pour le taux d'accroissement

- 2,1 pour l'indice de fécondité

 

2.5. Quelques méthodes de partition (1er exemple)

Les deux plus courantes :

- Classes d'effectifs égaux*

Caractérise des classes contenant un même nombre d'unités statistiques mais de taille variable

effectif égaux par classe K (à ± 1 près)

ni = N / K

ni est l'effectif par classe

N est le nombre d'unités statistiques

K est le nombre de classes

Permet de faire des groupes équilibrés mais :

- ignore les particularités de la distribution

- regroupe des individus très éloignés (par exemple les dix 1er, puis les dix suivants, etc.)

- d'amplitude inégale

Conseillées lorsque la distribution n'offre pas de seuils nets, sans être cependant uniforme

et surtout lorsqu'elle est dissymétrique*

cf. Onglet Tab2 en G10

Pour remplir le tableau du découpage en classe d'égale fréquence (effectifs égaux) :

- Triez la colonne C (avec les col. A et B !)

- Reportez en G la valeur des paliers lue tous les 6 départements (valeur lue en G10) !

- Par quel miracle les effectifs se calculent-ils ?

- Complétez les bornes en F

 

- Classes d'égale amplitude*

Synonyme : Classes d'égale étendue*

Caractérise des classes de pas constant contenant un nombre d'unités statistiques variables

e = (xi max - xi min) / K

e est l'étendue de chaque classe ;

xi max est la valeur maximale de l'effectif ;

xi min est la valeur minimale de l'effectif ;

K est le nombre de classes.

- La 1ère classe vaut [xi min ; xi min + e[

qui se lit : va de xi min inclu à xi min + e exclu

- La 2e classe vaut [xi min + e ; xi min + 2e[

etc. jusqu'à Ke classe

- La Ke classe vaut [xi min + (K - 1) * e ; xi min + K * e]

avec

xi min + K * e = xi max

Permet de faire des paliers "ronds" mais si la distribution est :

- discontinue, cela crée des classes vides ;

- dissymétrique ou normale, certaines classes extrèmes sont presque vides alors que d'autres sont pléthoriques ;

Conseillées lorsque la distribution est relativement uniforme* ou que l'on veut renforcer une tendance !

cf. Onglet Tab2 en K10

Pour remplir le tableau du découpage en classe d'égale amplitude (égale étendue) :

- Complétez en K les formules !

- Par quel miracle les effectifs se calculent-ils ?

- Complétez les bornes en J.

 

3. Construction du tableau de dénombrement (2e exemple)

3.1. Quelle méthode de partition choisir ?

C'est d'abord un problème de forme des distributions

Mais lorsqu'il y a comparaison de distributions (dans l'espace, le temps)

le découpage est commun aux distributions et donc arbitraire

- même nombre de classes

- classes d'égale population (méthode la plus robuste*)

ou

- classes d'égale amplitude (méthode la plus courante)

 

3.2. Construction du tableau de dénombrement

- On va calculer pour chaque caractère et chaque classe retenue :

- l'effectif (col. B) ;

- l'amplitude (col. D) ;

- la fréquence relative simple* (col. C)

fi = ni / N

où :

fi est la fréquence relative simple de la modalité i ;

ni est l'effectif de la modalité i ;

N est l'effectif total.

cf. Onglet Tab3-Tab4 en B20

- Compléter d'abord le tableau :

Tab2.1.3 (b) Classes d'effectifs (approximativement) égaux

- Puis faire les autres sur le même principe

Laissez de côté la colonne D pour le moment.

- Comparez la forme des distributions

- Peut-on départager les deux méthodes décrites précédemment ?

- Conviennent-elles de la même manière à chacun des caractères ?

 

4. Construction du tableau de dénombrement (3e exemple)

En vous aidant du fond de carte, décrire les 49 départements camerounais selon le caractère qualitatif nominale "position frontalière" (le littoral est assimilé à une frontière).

- Quel tableau de dénombrement peut être construit ?

cf. Onglet Tab5

- Compléter d'abord le tableau élémentaire Onglet Tab1

- Quelles représentations graphiques peut-on proposer ?

Téléchargement du fond de carte

(Sources : Code et localisation des 49 départements camerounais en 1987, in : SAINT-JULIEN 1999, p.12).

Ce fichier est au format ".TIF" et "pèse" 92 Ko.

 

5. Test de compréhension

Communiquez-moi par courrier électronique les réponses aux questions suivantes

Question n°2.1.1. Quel tableau permet de répondre à la question suivante :"Combien d'individus prennent cette modalité ?" :

a) le tableau élémentaire

b) le tableau de dénombrement

Question n°2.1.2. Quel tableau permet de répondre à la question suivante "Quelle est la modalité de cette unité statistique ?" :

a) le tableau élémentaire

b) le tableau de dénombrement

Question n°2.1.3. Face à une distribution dissymétrique, quel mode de discrétisation est conseillé :

a) égale effectif

b) égale amplitude

 

Précisez à la rubrique objet :

EC statistique

puis dans le corps du message vos

n° d'étudiant, nom et prénom

puis vos

réponses

vgodard@univ-paris8.fr

 

 

Retour au début de la fiche Mémo

 

Fiche Mémo suivante

 

NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.