Vincent GODARD

Département de Géographie

Université de Paris 8


V.1.51 - Dernière mise à jour : 04/04/2011

Fiche Mémo n°2.4. du cours de Statistique :

Les fractiles

 

 

Synonyme : quantiles*

1. Diviser la distribution en effectifs égaux

Les fractiles* sont des paramètres de position

- Ils divisent la distribution en un certain nombre de parties égales (à plus ou moins un individu près)

sur le nombre d'individus et non sur leur valeur

Contexte :

caractères quantitatifs et, dans certains cas, qualitatifs ordonnables

Objectif :

partitionner la distribution en classes d'effectifs égaux pour :

- comparer le comportement de certaines sous populations

- éliminer les extrêmes

- cartographier

Réalisation :

- Classer les individus du plus petit au plus grand ;

cela pose un problème pour classer les ex-aequo !

- Diviser la distribution selon le nombre de classes voulues

 

2. Quelques fractiles particuliers

Les quantiles les plus utilisés portent des noms particuliers

 

2.1. Les 4 quantiles les plus connus

- Les quartiles* (effectif de la distribution divisé en 4 parties égales)

Q1 est le quartile inférieur

25 % des valeurs lui sont inférieures

75 % des valeurs lui sont supérieures

Q2 est la médiane*

50 % des valeurs lui sont inférieures

50 % des valeurs lui sont supérieures

Q3 est le quartile supérieur

75 % des valeurs lui sont inférieures

25 % des valeurs lui sont supérieures

- Les quintiles* (effectif de la distribution divisé en 5 parties égales)

Q1 est le quintile inférieur

20 % des valeurs lui sont inférieures

Q4 est le quintile supérieur

80 % des valeurs lui sont inférieures

L'intervalle [ Q2 ; Q3 ] contient la médiane

- Les déciles* (effectif de la distribution divisé en 10 parties égales)

Di découpe la distribution en tranche de 10 p.100

D5 correspond à la médiane

enfin,

- les centiles* (effectif de la distribution divisé en 100 parties égales)

Ci découpe la distribution en tranche de 1 p.100

C50 correspond à la médiane

 

2.2. Découpage pratique

2.2.1. Dans le cas des données non-groupées

- lorsque N est impair

formule n°1 (mem24sta.htm)

Qi est le quantile recherché (Q1, D3, C17, ...) ;

X est la valeur du quantile ;

i est le numéro du quantile recherché ;

N est l'effectif total ;

ni est l'effectif de la modalité i pour le quantile recherché ;

f(ni) est la fréquence de cette modalité ;

est la fraction (ou fréquence relative cumulée) du quantile recherché, exemple :

= 1/4 (ou 0,25) si on recherche Q1 le premier quartile ;

= 1/2 (ou 0,5) si on recherche Q2 le deuxième quartile ;

= 3/4 (ou 0,75) si on recherche Q3 le troisième quartile.

- lorsque N est pair

formule n°2 (mem24sta.htm)

Exemple :

Si l'on prend les températures de Paris, quelle est la valeur des quartiles ?

Mois

Moy T° à Paris

janv

3,0

fév

3,6

mars

6,6

avril

9,6

mai

13,0

juin

16,0

juil

17,9

août

17,7

sept

15,3

oct

11,2

nov

6,4

déc

3,7
Sources : Météo France

- Ordonner les températures

- Puis effectuer le calcul

Q1 = 5,05 °C

Q2 = 10,4 °C

Q3 = 15,65 °C

A Paris :

25% des t° moyennes mensuelles sont inférieures à 5,05 °C

25% des t° moyennes mensuelles sont supérieures à 15,65 °C

Donc 50% des t° moyennes mensuelles sont comprises dans l'intervalle [5,05° ; 15,65°]

 

2.2.2. Dans le cas des données groupées

Lorsque l'on n'a pas accès au tableau élémentaire

Cas fréquent des statistiques déjà publiées en tableau de dénombrement

et si l'on ne procède pas par interpolation, on peut utiliser la formule suivante (cf. DAGNELIE 1984, vol.1, p.44) :

formule n°3 (mem24sta.htm)

Qi est le quantile recherché (Q1, D3, C17, ...) ;

Xi inf est la valeur de la borne inférieure qui contient le quantile recherché ;

i est le numéro du quantile recherché ;

est l'étendue* de la modalité qui contient le quantile recherché ;

est la fréquence cumulée du quantile recherché, exemple :

- dans le cas des fréquences cumulées relatives

= 0,25 si on recherche Q1 le premier quartile ;

- dans le cas des fréquences cumulées absolues

= [(N + 1) * 1/4] si on recherche Q1 le premier quartile pour des effectifs impairs ;

= {[(N/4) + (N/4) + 1] * 1/2} si on recherche Q1 le premier quartile pour des effectifs pairs ;

f(ni) est la fréquence de cette modalité ;

ni est l'effectif de la modalité i pour le quantile recherché ;

est la fréquence cumulée de la classe directement inférieure à celle du quantile recherché.

 

- Certains auteurs préconisent l'utilisation des fréquences absolues, dans la formule,

le résultat serait moins approximatifs qu'avec les fréquences relatives

Exemple : Commune agricole du temps jadis !

SAU en ha

Nb de fermes

[0 ; 10[

4

[10 ; 20[

10

[20 ; 30[

14

[30 ; 40[

12

[40 ; 50[

10

A titre d'information, en 2004 en Île-de-France :

- La surface moyenne des presques 6 000 exploitations est de 98 ha ;

- Il y a presque 2 000 exploitations qui ont une surface comprise entre 100 et 200 ha.

Pour notre exemple :

- Quelle est la valeur du 4e quintile ?

Q4 = 40,5 ha

- Quelle est la valeur du 7e centile ?

C7 = 10 ha

 

2.3. Seuillages courants au sein de la série

Pour se concentrer sur la partie "utile" d'une distribution

- éliminer des années pluviométriques extrêmes jugés peu représentatifs

- étudier les individus les plus courants d'une distribution (la partie centrale)

On découpe une étendue au sein de la série

- Intervalle interdécile D9 - D1

- conserve 80% de la distribution

- difficile à utiliser sur moins de 40 individus dans la distribution

Distribution des salaires mensuels nets de tous prélèvements en euros courants en 2008

Déciles

Hommes

Femmes

Ensemble

(F-H)/H en %

D1

1 170

1 065

1 124

-9.0

D2

1 316

1 188

1 261

-9.7

D3

1 445

1 287

1 381

-10.9

D4

1 579

1 392

1 508

-11.8

Médiane (D5)

1 732

1 516

1 653

-12.5

D6

1 924

1 673

1 834

-13.0

D7

2 191

1 883

2 074

-14.1

D8

2 636

2 178

2 462

-17.4

D9

3 562

2 753

3 263

-22.7

D9/D1

3.0

2.6

2.9

///
/// : absence de résultat due à la nature des choses.

Lecture : en 2008, 10 % des salariés à temps complet du secteur privé et semi-public gagnent un salaire mensuel net inférieur à 1 124 euros.

Champ : France.

Source : Insee, DADS.

 

- Intervalle interquartile Q3 - Q1

- conserve 50% de la distribution

- difficile à utiliser sur moins de 20 individus dans la distribution

 

3. Analyse d'un 1er exemple

Exemple : Télécharger le Tableau 1 - Distribution des résidences secondaires dans les villes de plus de 250 000 habitants en France en 1990 - (Sources : RGP, 1990, in SAINT-JULIEN 1999, p.21).

Téléchargement du tableau

Ce fichier est au format EXCEL 5.0 et "pèse" 97 Ko.

 

3.1. Construction du tableau de dénombrement

A partir du tableau élémentaire (Tab. 1) :

- Construire les tableaux de dénombrements 2a et 2b de chacune des variables par la méthode des quintiles (5 classes de même effectif)

Pour compléter les colonnes, il faut :

a) Pour la colonne Classes

- Sur la 2e feuille de calcul "Travail"

déterminer les quintiles à l'aide de la fonction Centile d'EXCEL

- Sur la 1ère feuille de calcul "Tab 1 et 2"

En faire une matrice intervalle

- Remplir la colonne Classes avec les bornes précédemment trouvées

b) Pour la colonne Effectif

- La remplir à l'aide de la fonction Fréquence d'EXCEL

- Faire la somme qui doit être égale à 23 (=N)

c) Pour les colonnes Fréquences relatives simples et cumulées

- Procéder comme pour les exercices de la fiche mémo "mem23sta.htm"

 

3.2. Analyse du tableau 2a

A partir de la variable "Nombre de résidence secondaire en 1990"

- Peut-on répondre au questions suivantes ?

- Quel est le nombre de résidences secondaires tel que :

- 50 % des unités urbaines ont un nombre de résidences secondaires inférieur à ce nombre (et 50% un nombre supérieur) ?

- Entre quelles bornes de cette variable se trouvent les :

- 25% des unités urbaines concentrant les plus faibles nombres de résidences secondaires (adapter l'axe des ordonnées en conséquence) ?

- 25% des unités urbaines concentrant les plus fortes concentrations ?

- Est-il possible de tracer les courbes de fréquences cumulées avec EXCEL pour des données groupées en classes d'égale fréquence ?

 

3.3. Analyse du tableau 2b

Se référer à la variable "Nombre de résidences secondaires pour 1 000 hab. en 1990"

- Déterminer la proportion des unités urbaines pour lesquelles ce nombre dépasse 15 pour 1 000

- Calculer l'intervalle interdécile* (entre D1 et D9) soit la situation la moins extrême (80 % des cas)

- Calculer l'intervalle des situations les plus extrêmes (faibles et fortes)

 

4. Analyse d'un 2e exemple

Exemple : Télécharger le Tableau 2 - Distribution des précipitations en Mauritanie entre 1940 et 1990 - (Sources : ASECNA, ORSTOM).

Téléchargement du tableau

Ce fichier est au format EXCEL 5.0 et "pèse" 97 Ko.

 

4.1. Construction du tableau

Pour construire un graphique en "Boîtes et moustaches" (mis au point par J. Tukey)

A partir du tableau élémentaire (Tab. 2) :

- Compléter les cases laissées vides sur la feuille de calcul

- A la place des déciles, n'importe quel autre fractile pourrait être utilisé

On pourra consulter à ce sujet les descriptions qu'en donne Philippe WANIEZ (WANIEZ 91 p.57-58)

 

4.2. Construction du graphique en "Boîtes et moustaches"

- Sélectionner les données (sauf D9 - D1)

Mettre pour :

Ouverture => Quartile 1

Max => Centile 0,9

Min => Centile 0,1

Clôture => Quartile 3

- Dans l'assistant graphique, prendre le graphique dans

- Types standard

- Type de graphique : Boursier

- Sous type de graphique : en haut à droite

Faire suivant puis lignes au lieu de colonnes

- Les traits noirs (moustaches) correspondent aux extrêmes

- Le rectangle (la boîte) correspondent à l'intervalle interdécile

- Plutôt que d'utiliser les déciles comme moustaches, J. Tukey a préconisé de prendre pour la valeur des :

min => Q1 - [1,5 * (Q3 - Q1 )]

et

Max => Q3 + [1,5 * (Q3 - Q1 )]

et de représenter chaque individu en deçà du min et au delà du Max par une étoile ou un point sur le graphique.

 

4.3. Analyse du graphique

- Quelle est la station qui connaît les plus gros écarts de précipitation ?

- Quelle est la station qui connaît 90% des pluies les plus faibles ?

- Quelle est la station qui autorise la culture du mil pluviale (400 mm de pluie par an) dans plus de la moitié des années ?

 

5. Test de compréhension

Communiquez-moi par courrier électronique les réponses aux questions suivantes

Question n°2.4.1. A quoi correspond D5, le 5e décile ?

a) 25 % de la distribution

b) 50 % de la distribution

Question n°2.4.2. Quelle est la station mauritanienne qui connaît l'écart interdécile le plus important (Tab. 2) ?

a) Rosso

b) Kaédi

c) Kiffa

Question n°2.4.3. environ 80 % des unités urbaines du tableau 2a (onglet Tab1 et 2 de la feuille de calcul ta1fm24s.xls) ont moins de combien de résidences secondaires ?

a) 5 105

b) 16 240

c) 162 175

Précisez à la rubrique objet :

EC statistique

puis dans le corps du message vos

n° d'étudiant, nom et prénom

puis vos

réponses

vgodard@univ-paris8.fr

 

 

Retour au début de la fiche Mémo

 

Fiche Mémo suivante

 

NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.