Vincent GODARD

Département de Géographie

Université de Paris 8


V.1.10 - Dernière mise à jour : 10/03/2008

Fiche Mémo n°2 d'analyse de données pour le Master 2 :

L'analyse en composantes principales (ACP)

 

 

1. Principes

1.1. Contexte

- caractères quantitatifs

Qui peuvent être exprimés simultanément :

- dans la même unité (% ou surfaces, ...) ;

- dans différentes unités (% et surfaces, ...) ;

Regroupés dans un tableau de mesures*

Le tableau de mesures est constitué de :

- n individus statistiques ;

qui peuvent être des unités spatiales (tableau de données = tableau d'information géographique)

- p variables quantitatives.

 

1.2. Objectifs

Comme les autres analyses factorielles, l'ACP va surtout s'intéresser à l'étude des colonnes (variables) du tableau d'information pour confronter les différentes distributions et permettre :

- de découvrir des irrégularités dans ces distributions ;

- d'analyser des interrelations entre les variables ;

- de mettre en évidence des combinaisons plus ou moins systématiques entre les variables ;

En bref, de dégager les composantes sous-jacentes qui structurent l'espace géographique étudié.

Cela passe par une simplification de l'information d'origine

 

1.3. Les différentes phases d'une ACP

Les calculs, qui relèvent de la distance euclidienne*, tiennent en trois phases :

- Constitution d'une matrice d'information (spatiale ou non)

- Les "n" individus doivent former un ensemble cohérent

pas d'individus exceptionnels

- Les "p" variables peuvent être hétérogènes

- en valeurs absolues ;

- en valeurs relatives ;

- dans des unités de mesures différentes, ...

 

- Transformation des données d'origines

- par simple centrage* des données

mais, il faut que toutes les données aient la même unité

la matrice d'information devient :

=> une matrice des covariances* entre variables

- par centrage et réduction* des données (standardisation*)

la matrice d'information devient :

=> une matrice des corrélations* entre variables

En général, on réalise des ACP normée*. Cela signifie que :

- les variables sont standardisées ;

- la projection utilisée est orthogonale ;

- le critère d'ajustement est celui des moindre carrés*.

Alors, la matrice de relations (dite matrice d'inertie*), ex matrice d'information, est devenue :

- une matrice des corrélations* entre variables

- C'est une matrice carrée d'ordre "p" ("p" lignes sur "p" colonnes)

avec une diagonale qui vaut 1

 

- Recherche des axes factoriels*

Cette recherche se fait sur la matrice d'inertie

- Chaque axe factoriel est défini par un vecteur dit

vecteur propre*

Ils définissent les différentes directions du nuage d'information

- La part d'information prise par chaque vecteur propre est appelée

valeur propre*

Elle définie la hiérarchie de l'axe factoriel.

 

1.4. Les résultats d'une ACP

Ils sont de quatre types pour chaque axe factoriel :

- part d'information totale prise en compte par l'axe ;

- valeur propre = part de variance (d'information) du nuage prise en compte par l'axe

- généralement exprimée en pourcentage

on parle indifféremment de pourcentages :

- d'inertie

- d'information

- de variance

Les trois résultats suivants sont différents selon que l'on s'intéresse aux variables ou aux individus.

 

1.4.1. Les résultats sur les sorties relatives aux variables

Résultats en général symétriques à ceux des individus

- Les coordonnées (ou saturation) des variables sur les axes factoriels :

- sont le coefficient de corrélation entre la variable et cet axe ;

- varient entre +1 et -1 (+ 1 000 et - 1 000 selon les logiciels) ;

- peuvent être toutes du même côté (axe d'intensité).

 

- Les contributions (CTR) des variables aux axes factoriels :

- mesurent le rôle relatif de chaque variable dans la construction (la caractérisation) de l'axe factoriel

Elles permettent de repérer quelles sont les variables les plus contributives par axe

- la somme des contributions vaut 1

- généralement exprimée en pourcent ou pour mille

Elles permettent :

- d'identifier les variables qui définissent le mieux les axes ;

les plus contributives !

- d'isoler les variables qui ont un comportement exceptionnel (ou aberrant).

 

- La qualité (QLT ou Cos2) de représentation d'une variable sur un axe factoriel :

- est donnée par le carré de sa coordonnée sur cet axe ;

- mesure la part de la variable expliquée par l'axe ;

Additionner le carré de sa coordonnée pour deux axes, c'est obtenir la part de la variable expliquée sur ce plan factoriel.

 

1.4.2. Les résultats sur les sorties relatives aux individus

- Les coordonnées* (ou scores) des individus sur les axes factoriels :

- permettent de situer les individus le long des axes

- peuvent être positifs ou négatifs (marquent des oppositions).

 

- Les contributions* (CTR) des individus aux axes factoriels :

- indiquent comment les individus contribuent à la formation (la caractérisation) de l'axe factoriel

- la somme des contributions vaut 1

- généralement exprimée en pourcent ou pour mille

Elles permettent :

- d'identifier les individus qui définissent le mieux les axes

- d'isoler les individus qui ont un comportement exceptionnel (ou aberrant).

Ceux qui concentrent la moitié ou presque des contributions

 

- La qualité* (QLT ou Cos2) de représentation des individus sur les axes factoriels :

- permet de caractériser les individus par les axes

- mesure la part de l'écartement d'un individus au centre de gravité prise en compte par un axe

QLT = cos2 (de l'angle entre le vecteur-individu et l'axe)

cos2 (0°) = 1

=> individu sur l'axe

(description parfaite de l'individu par l'axe)

cos2 (90°) = 0

=> individu perpendiculaire à l'axe

(description nulle de l'individu par l'axe)

- généralement exprimée en pourcent ou pour mille

Dans SPAD entre 0 et 1 !

 

Remarques :

- Les résultats ne sont affirmés que pour les valeurs ayant les plus fortes coordonnées

Plus on est proche du barycentre :

- plus les variables sont étrangères à la définition de l'axe ;

- moins les points sont concernés par l'opposition des variables ;

ou

- moins la qualité de leur représentation est bonne (ils sont loin du facteur)

- Scores et saturations ne sont pas exprimés dans les mêmes unités de mesure

Cependant les vecteurs-individus et vecteurs-variables ont la même direction

Par convention, on peut superposer sur les nuages de points, tracées sur les cartes factorielles, des flèches représentant chaque vecteur-variable.

Chaque flèche d'une longueur quelconque passe par le barycentre* (0;0) et les coordonnées du vecteur-variable.

 

2. Analyse d'un 1er exemple

Exemple n°1 : Tableau 2.1a - Dix mesures relatives à la qualité de la vie dans 18 grandes métropoles américaines (Sources : M.V. JONES and M.J. FLEX, The quality of life in Washington D.C., The Urban Institute, Washington D.C, 1970. in SANDERS 1989, p. 57)

Téléchargement du fichier de données

Ce fichier est au format EXCEL 5.0 et "pèse" 97 Ko.

 

2.1. Procédure

- Créer une nouvelle filière

Menu Filière + Nouvelle Filière (ou Ctrl + N)

- Insertion d'une première méthode

Dans la fenêtre Filière 1 : ( sans nom)

- Choisir une base

Filière + Sélectionner base

D:\geo\Votre_nom\villeus\ta1fm02d.sba

- Méthode + Insérer méthode (ou Ctrl + I)

- Méthode + Choisir méthode (ou Ctrl + C)

- Groupes de méthodes : Analyse factorielle

- Méthode : Composantes principales (COPRI)

- Méthode + Paramètres ... (ou Shift + F6)

Onglet Variables

- Sélection des variables : Continues actives

=> toutes

Onglet Individus

- Choix des individus

=> tous

Onglet Pondération

=> Uniforme

Onglet Paramètres

- Paramètres de fonctionnement :

Analyse normée

Coordonnées conservées toutes

- Paramètres d'édition :

Matrice permutée selon F1 Non

Coordonnées éditées toutes

Résultats pour les individus tous

Nombre de décimales 2

- Fichier pour application tableur : Oui

- Cliquer sur Option

Résultats pour les individus Oui

- Insertion d'une deuxième méthode

Toujours dans la fenêtre Filière 1 : ( sans nom)

- Méthode + Insérer méthode (ou Ctrl + I)

- Méthode + Choisir méthode (ou Ctrl + C)

- Groupes de méthodes : Analyse factorielle

- Méthode : Description des facteurs (DEFAC)

- Méthode + Paramètres ... (ou Shift + F6)

Onglet Commande de description

- Liste des axes à décrire : 1-6

- Avec les éléments :

Variables continues Actives seules

Individus Actifs seuls

- Fichier pour application tableur : Oui

- Cliquer sur Option

Résultats pour les individus Oui

- Enregistrement et exécution de la filière

- Filière + Enregistrer filière sous ...

D:\geo\Votre_nom\villesus\copri1.fil

Donner un titre "causant", car il apparaîtra sur le bandeau de la fenêtre

- Filière + Exécuter filière (ou F5)

Vous devez obtenir ça :

fig. 1 - La filière après exécution

 

2.2. Analyse

2.2.1. Analyse des valeurs de la matrice des corrélations

- Où trouver la matrice des corrélations ?

- Double clique sur le plan du rapport

- Listage de l'analyse en composantes principales

- Double clique sur la matrice des corrélations

- Quelles sont les variables corrélées entre elles ?

- Quelle est l'intensité de la liaison ?

- Qu'est-ce que cela signifie ?

tab. 1 - Matrice des corrélations

INCO

UNEM

LOWI

HCOS

MENT

INFM

SUIC

POLL

ROBB

TRAF

INCO

1

UNEM

0.11

1

LOWI

0.11

0.35

1

HCOS

-0.05

-0.12

-0.48

1

MENT

0.10

-0.18

-0.11

-0.06

1

INFM

-0.03

-0.15

0.07

-0.31

0.42

1

SUIC

0.45

0.64

0.49

-0.04

-0.18

-0.43

1

POLL

-0.03

0.13

-0.35

0.37

0.36

0.25

-0.16

1

ROBB

0.45

0.26

-0.07

0.05

0.56

0.15

0.19

0.33

1

TRAF

0.37

0.38

0.51

-0.51

-0.26

0.01

0.62

-0.54

0.05

1

- Il est parfois utile de faire un graphique pour voir les liens :

- opposition positif / négatif ;

- épaisseur variable du trait en fonction de l'intensité:

- trait épais quand

Coef. de cor. > 0,8

- trait fin quand

0,6 < Coef. de cor. < 0,8

- pas de liaisons dessinées en deçà (les limites sont données à titre d'exemple, les adapter au cas étudié)

 

- Il est également utile d'analyser la matrice des valeurs tests

Surtout pour les grands tableaux

tab. 2 - Matrice des valeurs tests

INCO

UNEM

LOWI

HCOS

MENT

INFM

SUIC

POLL

ROBB

TRAF

INCO

99.99

UNEM

0.47

99.99

LOWI

0.47

1.57

99.99

HCOS

-0.22

-0.51

-2.24

99.99

MENT

0.44

-0.79

-0.46

-0.24

99.99

INFM

-0.12

-0.66

0.29

-1.36

1.91

99.99

SUIC

2.08

3.20

2.29

-0.17

-0.78

-1.94

99.99

POLL

-0.13

0.55

-1.57

1.63

1.58

1.09

-0.68

99.99

ROBB

2.05

1.13

-0.30

0.22

2.67

0.64

0.82

1.45

99.99

TRAF

1.63

1.68

2.41

-2.41

-1.12

0.04

3.10

-2.56

0.21

99.99

Elle permet :

- de tester la significativité des coefficients de corrélation

C'est un test statistique exprimé en nombre d'écart-types d'une loi normale (cf. aide de SPAD)

En clair :

- si la valeur lue est supérieure à 2, le coeff. est significatif avec un risque d'erreur de 5% ;

- plus la v-test est grande (en valeur absolue)

- plus la liaison entre variables est significative ;

- moins le hasard a de chance d'être responsable de celle-ci.

Pour plus de détails sur les tests, voir la fiche mémo les introduisant (cf. Annexe n°2 du cours d'enquête)

- de classer par ordre d'importance les liens entre les variables

- Quelles corrélations entre variables retenez-vous au seuil de 0,05 ?

Reproduire la matrice des corrélations dans EXCEL en coloriant les cellules qui satisfont aux conditions de la matrice des valeurs tests.

 

2.2.2. Analyse des valeurs propres

Pour savoir où trouver l'information

- Où trouver les valeurs propres ?

- Double clique sur le plan du rapport

- Listage de l'analyse en composantes principales

- Double clique sur Valeurs propres

On obtient cela :

fig. 2 - Matrice des valeurs propres

- La colonne VALEUR PROPRE indique l'inertie le long de chaque axe factoriel.

La somme est l'inertie globale du nuage et vaut 10 (le nombre de variables actives dans une ACP normées).

- La colonne POURCENT. exprime le pourcentage d'inertie porté par chaque axe.

- La colonne POURCENT. CUMULE donne le pourcentage cumulé d'inertie.

- Quelle est la répartition de la variance sur les facteurs ?

- 31 % de l'information du nuage de points est résumé par le premier axe !

- 80 % de l'information est sur les 4 premiers axes !

- Combien d'axes faut-il retenir ?

- il n'y a pas de réponses automatiques !

- si toutes les variables sont très corrélées, peu d'axes suffiront !

- les axes discriminants ne sont pas forcément les premiers !

 

2.2.3. Analyse des axes

Objectif : rechercher les associations de variables

Pour caractériser les facteurs

- Où trouver les informations sur les axes ?

- Analyse du plan du rapport :

Double clique sur le plan du rapport

- Listage de l'analyse en composantes principales

- Double clique sur Coordonnées des variables de 1 à 5

- Quelles sont les variables qui qualifient chaque axe ?

- Où sont les Contributions et qualités ?

tab. 3 - Coordonnées, contributions et qualités des variables sur les cinq 1er facteurs

VARIABLES

COORDONNEES

CORRELATIONS VARIABLE-FACTEUR

ANCIENS AXES UNITAIRES

IDEN

1

2

3

4

5

1

2

3

4

5

1

2

3

4

5

INCO

-0.40

0.54

-0.14

0.58

-0.30

-0.40

0.54

-0.14

0.58

-0.30

-0.22

0.37

-0.11

0.57

-0.39

UNEM

-0.58

0.31

-0.33

-0.59

-0.09

-0.58

0.31

-0.33

-0.59

-0.09

-0.33

0.21

-0.25

-0.58

-0.11

LOWI

-0.72

0.00

0.32

-0.27

0.25

-0.72

0.00

0.32

-0.27

0.25

-0.41

0.00

0.24

-0.26

0.33

HCOS

0.48

0.00

-0.74

0.08

-0.02

0.48

0.00

-0.74

0.08

-0.02

0.27

0.00

-0.56

0.08

-0.03

MENT

0.36

0.70

0.33

0.08

0.43

0.36

0.70

0.33

0.08

0.43

0.21

0.48

0.25

0.08

0.56

INFM

0.25

0.36

0.74

-0.19

-0.37

0.25

0.36

0.74

-0.19

-0.37

0.14

0.25

0.56

-0.19

-0.48

SUIC

-0.81

0.24

-0.43

-0.04

0.10

-0.81

0.24

-0.43

-0.04

0.10

-0.46

0.16

-0.33

-0.04

0.13

POLL

0.54

0.53

-0.26

-0.43

-0.23

0.54

0.53

-0.26

-0.43

-0.23

0.30

0.37

-0.20

-0.43

-0.29

ROBB

-0.02

0.88

-0.10

0.13

0.13

-0.02

0.88

-0.10

0.13

0.13

-0.01

0.61

-0.07

0.13

0.17

TRAF

-0.87

0.04

0.21

0.14

-0.19

-0.87

0.04

0.21

0.14

-0.19

-0.49

0.02

0.16

0.14

-0.24

Interprétation :

- La colonne COORDONNEES donne la projection des variables sur les 5 premiers axes factoriels.

On peut constater qu'elles sont toutes positives sur l'axe 2.

- le nuage est décentré ;

- c'est un axe d'intensité (facteur de taille).

- La colonne CORRELATIONS VARIABLE-FACTEUR permet d'apprécier la qualité du positionnement des variables sur les 5 premiers axes factoriels.

- En ACP normée, les Cos2 coïncident avec le carré des coordonnées des variables ;

- Quand la valeur d'un Cos2 est-elle élevée ?

Là non plus, la réponse n'est pas automatique,

Pour déterminer les variables bien représentés, il faut comparer les sommes des Cos2 plan par plan.

- sur le 1er plan, axe 1 et 2, INCO est mieux représentée que HCOS

INCO => 0,94 = | -0,40 + 0,54 |  

HCOS => 0,48 = | 0,48 + 0,00 |

- HCOS est mieux représenté sur l'axe 3 (-0,74).

La somme du Cos2 atteint 1 dans le meilleur des cas.

- La colonne CONTRIBUTION donne la contribution des variables à l'inertie portée sur les 5 premiers axes factoriels.

- sert à détecter les variables qui contribuent le plus à la formation des axes ;

- la contribution est :

CTR = (ANCIENS AXES UNITAIRES)2

La somme des contributions est égale à 1 (ou 100 en pourcentage).

Pour s'y retrouver, il vaut mieux calculer les contributions et les qualités sur le fichier tableur.

- double clic sur l'icône Excel de la filière ;

ou

- télécharger ce même fichier mais "préparé"

Exemple n°1 : Tableau 2.1b - Dix mesures relatives à la qualité de la vie dans 18 grandes métropoles américaines (Sources : M.V. JONES and M.J. FLEX, The quality of life in Washington D.C., The Urban Institute, Washington D.C, 1970. in SANDERS 1989, p. 57)

Téléchargement du fichier de résultats

Ce fichier est au format EXCEL 98 et "pèse" 55 Ko.

Voir les :

- Matrice des corrélations en COPRI-2 ;

- en rouge les corrélations > 50 %

- en bleu les corrélations < - 50 %

- Matrice des valeurs-tests en COPRI-3 ;

- en rouge les corrélations > 2

- en bleu les corrélations < - 2

- Valeurs propres en COPRI-4 ;

- Coordonnées, COS2 et CTR des variables en COPRI-6 ;

Complétez les tableaux !

- Coordonnées, COS2 et CTR des individus en COPRI-9 ;

Complétez les tableaux !

 

- Analyse graphique d'un plan factoriel :

Double clique sur le graphique

- Présélections pour un nouveau graphique : variables continues actives

Valider par OK

- Menu Sélection + De tous les points

- Menu Habillage + Ecrire les libellés

On obtient cela :

fig. 3 - 1er plan factoriel

- Menu Habillage + Informations sur les points

- Cliquer sur chaque pointe de flèches

- Noter les CTR, avec les signes des coordonnées, dans une fenêtre EXCEL !

C'est plus simple pour les individus !

Interprétation :

- 2 variables proches forment un angle aigu.

cela correspond à un Coefficient de corrélation positif élevé (UNEM et SUIC, r = +0,64) ;

- 2 variables avec un fort Coefficient de corrélation négatif

sont diamétralement opposées (HCOS et LOWI, r = -0,49) ;

- 2 variables indépendantes auront un Coefficient de corrélation nul

et formeront un angle droit (TRAF et INFM, r = +0,01) ;

- toutes les variables sont positives sur l'axe 2

le nuage des variables n'est pas centré !

 

2.2.4. Analyse des individus

Pour caractériser les groupes d'individus

2.2.4.1. Par l'analyse du plan du rapport

- Double clique sur le plan du rapport

- Listage de l'analyse en composantes principales

- Double clique sur Coordonnées, contributions et cosinus

- Quels sont les individus qui qualifient chaque axe ?

tab. 4 - Coordonnées, contributions et qualités des individus sur les cinq 1er facteurs

INDIVIDUS

COORDONNEES

CONTRIBUTIONS

COSINUS CARRES

IDENTIFICATEUR

P.REL

DISTO

1

2

3

4

5

1

2

3

4

5

1

2

3

4

5

New York

5.56

14.76

2.27

2.56

-0.55

0.12

0.41

9.1

17.3

1.0

0.1

1.5

0.35

0.45

0.02

0.00

0.01

Los Angeles

5.56

17.27

-3.32

1.43

-1.61

-0.64

-0.20

19.5

5.4

8.3

2.2

0.4

0.64

0.12

0.15

0.02

0.00

Chicago

5.56

9.12

1.78

1.88

0.17

0.57

-1.07

5.6

9.3

0.1

1.8

10.6

0.35

0.39

0.00

0.04

0.13

Philadelphie

5.56

6.57

1.05

0.49

1.59

-0.98

-0.44

2.0

0.6

8.1

5.2

1.8

0.17

0.04

0.39

0.15

0.03

Détroit

5.56

5.37

0.07

1.45

-0.01

0.32

-1.11

0.0

5.5

0.0

0.6

11.3

0.00

0.39

0.00

0.02

0.23

Boston

5.56

12.64

2.51

-1.43

-1.84

0.54

0.10

11.2

5.4

10.8

1.6

0.1

0.50

0.16

0.27

0.02

0.00

San Francisco

5.56

24.04

-4.07

1.09

-2.24

0.30

0.53

29.3

3.1

16.1

0.5

2.6

0.69

0.05

0.21

0.00

0.01

Washington D.C.

5.56

10.47

1.78

1.32

0.00

1.44

1.36

5.6

4.6

0.0

11.1

17.2

0.30

0.17

0.00

0.20

0.18

Pittsburgh

5.56

6.06

-0.62

-0.49

0.20

-1.73

-0.57

0.7

0.6

0.1

16.2

3.0

0.06

0.04

0.01

0.50

0.05

St Louis

5.56

4.42

-0.47

-0.03

1.15

-0.58

-0.94

0.4

0.0

4.2

1.8

8.2

0.05

0.00

0.30

0.08

0.20

Cleveland

5.56

11.05

1.71

-1.02

-0.96

-1.92

1.07

5.2

2.7

2.9

19.9

10.6

0.27

0.09

0.08

0.34

0.10

Baltimore

5.56

5.83

0.16

1.53

1.31

-0.14

0.15

0.0

6.2

5.5

0.1

0.2

0.00

0.40

0.29

0.00

0.00

Houston

5.56

8.21

-1.65

-0.26

1.90

0.04

1.30

4.8

0.2

11.6

0.0

15.6

0.33

0.01

0.44

0.00

0.20

Minneapolis

5.56

8.67

-0.38

-1.93

-0.74

1.79

-0.57

0.3

9.7

1.8

17.3

3.0

0.02

0.43

0.06

0.37

0.04

Dallas

5.56

15.14

-1.78

-1.34

2.73

1.48

0.10

5.6

4.7

23.7

11.7

0.1

0.21

0.12

0.49

0.14

0.00

Cincinnati

5.56

5.58

0.23

-1.38

0.15

-0.36

0.95

0.1

5.0

0.1

0.7

8.4

0.01

0.34

0.00

0.02

0.16

Milwaukee

5.56

7.41

0.58

-1.98

-1.35

0.80

-0.67

0.6

10.3

5.8

3.4

4.1

0.05

0.53

0.25

0.09

0.06

Buffalo

5.56

7.37

0.13

-1.89

0.10

-1.05

-0.40

0.0

9.4

0.0

5.9

1.5

0.00

0.49

0.00

0.15

0.02

Interprétation :

- La colonne P. REL indique le poids donné à chaque individu (ville US) qui est dans ce cas uniforme (5,56 = 100 / 18).

- La colonne DISTO donne la distance au carré de chaque de chaque individu (ville US) au centre de gravité du nuage. Cela permet de trouver les individus les plus :

- moyens => les plus proches du centre de gravité (St. Louis et Detroit) ;

- originaux => les plus loins du centre de gravité (LA et SF).

C'est un critère d'originalité !

- La colonne COORDONNEES donne la projection des individus (ville US) sur les 5 premiers axes factoriels.

- La colonne CONTRIBUTIONS (en %) donne la contribution des individus (ville US) à l'inertie portée sur les 5 premiers axes factoriels.

- sert à détecter les individus (ville US) qui contribuent le plus à la formation des axes ;

- Quand la valeur d'une contribution est-elle élevée ?

- si toutes les villes avaient la même contribution, elle tournerait autour de 6% (5,6 = 100 / 18) ;

- sur le 1er axe SF (29,3) et LA (19,5) ont une contribution supérieure à la moyenne ;

- sur le 2e axe NY (17,5) a une contribution supérieure à la moyenne ;

Les individus (ville US) sont représentés sur la figure 4 proportionnellement à leur contribution.

La somme des contributions est égale à 100.

- La colonne COSINUS CARRES permet d'apprécier la qualité du positionnement des individus (ville US) sur les 5 premiers axes factoriels.

- l'addition des Cos2, par plan factoriel, sert à détecter les individus (ville US) qui sont les mieux représentés sur ce sous-espace défini par ces 2 axes ;

- Quand la valeur d'un Cos2 est-elle élevée ?

Là non plus, la réponse n'est pas automatique,

Pour déterminer les individus (ville US) bien représentés, il faut comparer les sommes des Cos2 plan par plan.

- sur le 1er plan, axe 1 et 2, NY est mieux représenté que Pittsburgh

NY => 0,8 = 0,35 + 0,45

Pittsburgh => 0,10 = 0,04 + 0,06

- Pittsburgh est mieux représenté sur l'axe 4.

Les individus (ville US) sont représentés sur la figure 5 proportionnellement à leur qualité.

La somme du Cos2 atteint 1 dans le meilleur des cas.

 

2.2.4.2. Par l'analyse graphique des Contributions (CTR)

- Modification des Couleurs et symboles

- Double clique sur le graphique

- Présélections pour un nouveau graphique : individus actifs

Valider par OK

- Menu Sélection + De tous les points

- Menu Habillage + Ecrire les libellés

- Menu Habillage + Couleurs et symboles

Symboles = cercle

Couleur = rose

Taille proportionnelle = contributions

Valider par OK

- Paramétrage de la proportionnalité

- Menu Dessin + Paramétrer la proportionnalité

Taille minimale des symboles en pixels = 1

Taille maximale des symboles en pixels = 16

Ce paramétrage permet d'accentuer la différence entre individus caractérisés par les axes

fig. 4 - Contribution des villes (individus) sur le 1er plan factoriel

 

2.2.4.3. Par l'analyse graphique des qualité (Cos2)

- Modification des Couleurs et symboles

- Double clique sur le graphique

- Présélections pour un nouveau graphique : individus actifs

Valider par OK

- Menu Sélection + De tous les points

- Menu Habillage + Ecrire les libellés

- Menu Habillage + Couleurs et symboles

Symboles = cercle

Couleur = rose

Taille proportionnelle = cos2

Valider par OK

- Paramétrage de la proportionnalité

- Menu Dessin + Paramétrer la proportionnalité

Taille minimale des symboles en pixels = 1

Taille maximale des symboles en pixels = 16

Ce paramétrage permet d'accentuer la différence entre individus caractérisés par les axes

- Filtrage statistique de la sélection

L'objectif est de restreindre la sélection aux points réellement significatifs

Pour nous : la qualité (cos2)

- Menu Sélection + De tous les points

- Menu Sélection + Filtrage statistique de la sélection

Premier axe = axe 1

Deuxième axe = axe 2

Sélection du bouton cos2

Seuil en pourcentage de la valeur maximale = 50%

(correspond à 45°)

Ne seront représentées que les villes qui ont un cos2 qui atteint ou dépasse 50 p.100 sur un des axes (pas forcément celui du plan factoriel représenté).

Cliquer sur Calculer

indique 7 points sélectionnés

Valider par OK

- Mise en évidence des points réellement retenus

- Menu Sélection + Inversion de la sélection

- Menu Habillage + Mettre en fantôme

- Menu Dessin + Rafraîchir

fig. 5 - Qualité (Cos2) des villes (individus) 1er plan factoriel

Ne sont donc représentées que les villes qui ont un cos2 qui atteint ou dépasse 50 p.100 sur un des axes (pas forcément celui du plan factoriel représenté).

On ne peut interpréter avec sécurité les proximités entre les villes que si elles sont bien représentées sur le plan factoriel.

C'est le cas, une fois les "fantômes" masqués.

- Ajouter du texte

Pour mettre un titre au graphique ou des titres aux secteurs du plan factoriel

- Menu Dessin + Insérer un texte

Cliquer avec la souris à l'endroit où vous souhaitez insérer le texte

- Saisir le titre du graphique dans la fenêtre d'Édition de texte

Valider par OK

Il est possible de déplacer ou de modifier le texte

- Que faire si vous êtes "sec" pour décrire les plans factoriels (les axes par les variables) ?

Allez lire les résultats de la procédure DEFAC

Vous y trouverez les deux variables qui "comptent", axe par axe

- Changer les axes

Pour permettre l'analyse visuelles des autres composantes

- Menu Graphique + Changer les axes

- Choisir pour l'axe horizontal : axe 3

- Choisir pour l'axe vertical : axe 4

Le taux d'inertie sous chaque axe s'affiche

Valider par OK

Ce sont les textes du précédent plan factoriel qui s'affichent :

- Faut-il les modifier ?

N'oubliez pas, à l'issue de chaque analyse, de copier-coller dans votre traitement de textes les documents réalisés. Ils vous permettront d'étayer votre développement, même en l'absence du logiciel.

- Ne faudrait-il pas tester la même analyse en mettant Los Angeles et San Francisco en individus illustratifs ?

Refaire tourner une ACP en ce sens, à l'aide d'une nouvelle filière, et comparer !

 

N'oubliez pas de revenir aux données brutes pour l'analyse et le commentaire.

 

3. Analyse d'un 2e exemple

Exemple n°2 : Tableau 2.2 - Données démographiques et économiques sur les communes de Nouvelle-Calédonie (Sources : RP 1983. in WANIEZ 1991, p. 9)

Téléchargement du fichier

Ce fichier est au format EXCEL 5.0 et "pèse" 97 Ko.

Le choix de ces données repose, non sur l'intérêt intrinsèque qu'elles représentent, mais sur la complexité de leur distribution statistique (valeurs exceptionnelles, distribution non symétrique, etc.), comme le précise lui-même Ph. WANIEZ, ainsi que par la gestion des données manquantes qu'elles entraînent et la présence de données nominales.

L'objectif de cet exemple est de voir comment l'ajout d'une variable nominale modifie l'analyse.

Identification des variables :

CODE

Code des communes

PROVINCE

Province d'appartenance

NOM

Nom des communes

POPNC

Part de la pop néo-Calédonienne pour 1000 hab

VAR76-84

Évolution de la pop communale entre 76 et 84 (%)

0-14ANS

Part des 0 - 14 ans dans la pop communale (%)

FEMMES

Part des femmes dans la pop communale (%)

NENC

Part des pers. nées en NC dans la pop communales (%)

AGRIC

Part des agriculteurs dans la pop communales en activité (%)

SALPUBLIC

Part des salariés du public dans la pop communales en activité (%)

ECRITFR

Part des pers. Sachant écrire le français dans la pop communales en activité (%)

POP/RESID

Nombre de personnes par résidence principale

DEPEN

Nombre de personnes pour 100 personnes en activité

EAU

Part des résidences principales équipées de l'eau (%)

 

3.1. La conversion au format .txt

- Sélectionner les données utiles dans la feuille "DonnéesDémoNOCAL"

de B1 à N33

- Les coller par Collage spécial du menu Edition

en A1 de la feuille "Txt"

- Mettre le fichier au norme SPAD

- Corriger de blancs et les caractères spéciaux dans les intitulés de variables

- Remplacer les données manquantes par 999999

- Recoder les Provinces :

N => 1

S => 2

I => 3

- Faire un Enregistre sous du menu Fichier

Le type de fichier doit être en :

Texte tabulé (*.txt)

L'enregistrer en :

D:\geo\Votre_nom\NeoCal\ta2fm02d.txt

3.2. Procédure

- Importer les données [comme décrit précédemment, (cf. mem01dea.htm, section 3.2.)] sauf qu'il faut :

- Spécifier pour la variable

PROVINCE => Nominale

NOM => Identificateur

Pour les autres => Continue

- Éditer la base pour voir les spécificités dues à la variable nominale

- Comment apparaît-elle ?

- Créer une filière [comme décrit précédemment, (cf. section 2.1.)] sauf qu'il faut :

- Spécifier pour les variables lorsque l'on paramètre la méthode COPRI

Onglet Variables

- Sélection des variables : Continues actives

=> toutes

- Sélection des variables : Nominales illustratives

=> PROVINCE

Le reste ne change pas.

- Enregistrement et exécution de la filière

- Filière + Enregistrer filière sous ...

D:\geo\Votre_nom\NeoCal\copri1.fil

Donner un titre "causant", car il apparaîtra sur le bandeau de la fenêtre

- Filière + Exécuter filière (ou F5)

 

3.2. Analyse

3.2.1. Analyse des valeurs de la matrice des corrélations

- Où trouver la matrice des corrélations ?

- Double clique sur :

- Le plan du rapport

- Puis sur Analyse en composantes principales

- Quelles sont les variables corrélées entre elles ?

- Quelle est l'intensité de la liaison ?

- Qu'est-ce que cela signifie ?

- Faire le graphique des corrélations [comme décrit précédemment, (cf. paragraphe 2.2.1.)]

- Construire dans EXCEL la matrice des corrélations à l'aide de la matrice des valeurs tests [comme décrit précédemment, (cf. paragraphe 2.2.1.)]

 

3.2.2. Analyse des valeurs propres

Pour déterminer sur quels axes trouver l'information

- Quelle est la répartition de la variance sur les facteurs ?

- 36,5 % de l'information du nuage de points est résumé par le premier axe !

- 78,5 % de l'information est sur les 4 premiers axes !

- Comment cela se traduit-il sur les axes ?

 

3.2.3. Analyse des axes

Pour caractériser les facteurs

- Rechercher les Coordonnées des variables de 1 à 5

- Quelles sont les variables qui qualifient chaque axe ?

- Où sont les Contributions et qualités ?

- Double clique sur le graphique

- Présélections pour un nouveau graphique : variables continues actives

Valider par OK

- Menu Sélection + De tous les points

- Menu Habillage + Ecrire les libellés

- Menu Habillage + Informations sur les points

- Cliquer sur chaque pointe de flèches

- Noter les CTR dans une fenêtre EXCEL !

 

3.2.4. Analyse des Modalités

Pour caractériser les Variables nominales

- Rechercher les Coordonnées et valeurs tests des modalités

- Quelles sont les coordonnées significatives ?

- Peut-on les rapprocher de celles des variables continues actives ?

- Que nous apprend DISTO ?

 

3.2.5. Analyse des individus

Pour caractériser les groupes d'individus

3.2.5.1. Par l'analyse du plan du rapport

- Retour au plan du rapport

- Listage de l'Analyse en composantes principales jusqu'à :

Coordonnées, contributions et cosinus

- Quels sont les individus qui qualifient chaque axe ?

 

3.2.5.2. Par l'analyse du graphique

- Double clique sur le graphique

Présélection pour un nouveau graphique

- Variable nominales illustratives

- Individus actifs

- Affichage des noms de provinces

- Menu Sélection + Des variables par liste

types => nominales illustratives (ici pas d'autres choix)

variables disponibles (1) : PROVINCE

variables sélectionnées => toutes

En cliquant sur modalité, on peut désélectionner une ou plusieurs modalités de la variable.

Valider par OK

- Menu Habillage + Ecrire les libellés

- Affichage des noms de communes

- Menu Sélection + Des individus par liste

individus disponibles (32)

individus sélectionnés => tous

Valider par OK

- Menu Habillage + Ecrire les libellés

- Déplacer les libellés et rafraîchir le dessin

- positionnement de la souris sur un libellé puis faire un cliqué-glissé

Si certaines parties du dessin sont effacées

- Menu Dessin + Rafraîchir

- Modifier les Couleurs et les symboles en fonction de la qualité (cos2) [comme décrit précédemment, (cf. point 2.2.4.3.)]

- Paramétrage de la proportionnalité [comme décrit précédemment, (cf. point 2.2.4.2.)]

Ce paramétrage permet d'accentuer la différence entre individus caractérisés par les axes

- Habillage des individus par groupe

- Menu Habillage + Des individus par groupe

Ici en fonction d'une variable nominale

Sélectionner :

- la variable PROVINCE

- le bouton couleurs

Choisir trois couleurs visuellement équilibrées

Valider par OK

- Par rapport à la carte, la position des provinces reflète-t-elle la position des communes ?

Une façon d'y répondre (non subjective ?) est d'utiliser la notion de parangon

- Sélection des parangons

Les parangons sont les meilleurs représentants d'un groupe

les plus proches du point moyen

Sélectionner la variable nominale : province du nord

- Menu Habillage + Parangons + Calcul et affichage

Sélectionner :

- premier axe => axe 1

- dernier axe => axe 10

- critères de sélection => nombre de points

- valeurs => 5

- affichage => faisceau + cercle

Valider par OK

- Filtrage statistique de la sélection [comme décrit précédemment, (cf. point 2.2.4.2.)]

L'objectif est de restreindre la sélection aux points réellement significatifs

Pour nous : la qualité (cos2)

- Mise en évidence des points réellement retenus [comme décrit précédemment, (cf. point 2.2.4.2.)]

- Faire cette analyse pour tous les axes

N'oubliez pas, à l'issue de chaque analyse, de copier-coller dans votre traitement de texte les documents réalisés. Ils vous permettront d'étayer votre développement, même en l'absence du logiciel.

 

 

4. Analyse d'un 3e exemple

Exemple n°3 : AMAT (J.-P.), GODARD (V.), HOTYAT (M.) - 2003 - Milieu, gestion, histoire et scénarios de reconstitution dans les sylvosystèmes touchés par les tempêtes de décembre 1999, GIP-ECOFOR, Min. agriculture, 115 p.

Analyse des dégâts en Forêt de Fontainebleau

Téléchargement du fichier brut

Ce fichier est au format texte tabulé et "pèse" 5 Ko.

Téléchargement d'un fichier résultat

Ce fichier est au format .xls et "pèse" 97 Ko.

Téléchargement de la carte des limites et points d'enquête

Ce fichier est au format .gif et "pèse" 386 Ko.

Téléchargement du rapport

Ce fichier est au format .pdf et "pèse" 4,5 Mo !!.

Exemple n°4 : Tableau 4.1 - La structure pastorale éthiopienne par awrajas (en nombre de têtes), [Sources : EASTMAN (J.R.) - 1997 - 10. Database Workshop. in : IDRISI for Windows. Tutorial Exercises. Version 2.0. Worcester (MA, USA), Clark University, pp. 69-79 et traduction française GODARD, 2003]

Téléchargement du fichier

Ce fichier est au format Excel (.xls) et "pèse" 51 Ko.

Ce tableau est le support d'un exercice détaillé sur la fiche guide 1.8 du cours de SIG.

L'import des données se fait comme expliqué sur la fiche mémo mem04dea.htm du cours de Master 2 recherche.

Exemple n°5 : Évaluation de la vulnérabilité socio-économique par rapport aux tempêtes extrêmes et aux inondations qui les accompagnent (Revere, Massachussetts, USA)

Ce tableau est le support d'un exercice détaillé sur la fiche guide 6.2 du cours de Master 2 recherche.

Téléchargement du fichier brut

Ce fichier est au format Excel (.xls) et "pèse" 46 Ko.

Téléchargement du fichier résultat

Ce fichier est au format Excel (.xls) et "pèse" 46 Ko.

Pour la cartographie de la typologie, s'inspirer du TD de télédétection "mtd42tel.htm" et particulièrement du passage qui traite de cartographie (à la section 5.5 Cartographie des UEA ) et de l'enregistrement en DBASE ".dbf" qui rend le fichier EXCEL directement importable dans Idrisi.

 

Récapitulatif :

- Quelques soient les mises en formes retenues, ils faut passer par les trois étapes suivantes :

- Déterminer le nombre d'axes factoriels qui comptent

- Caractériser les axes avec les variables

- Caractériser les individus avec les axes

- Pour constituer la typologie, n'oubliez pas d'asseoir votre commentaire sur les données du tableau d'origine (c'est plus parlant que les données centrées réduites !)

Assurez-vous que :

- chaque groupe d'individus (voire chaque individu) est qualifié ;

- toutes les variables ont été vues (elles ne sont pas toutes forcément qualifiantes).

- Vous n'aurez jamais un résultat unique à l'issue d'une ACP car, il dépend :

- des variables et individus que vous avez retenus ;

- de votre interprétation des plans factoriels.

 

Retour au début de la fiche Mémo

 

Fiche Mémo suivante

 

NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.