mem01dea.htm

Vincent GODARD

Département de Géographie

Université de Paris 8

V.1.8 - Dernière mise à jour : 10/10/2008

Fiche Mémo n°1 du cours d'analyse de données pour le Master 2 :

Présentation de l'analyse des données multivariées et du logiciel SPAD

1. L'analyse des données multivariées

Groupes de techniques permettant :

- de traiter simultanément un ensemble nombreux de variables ;

- de ne pas faire d'hypothèses contraignantes a priori ;

- de faire ressortir une structure latente, profonde, non immédiatement décelable ;

- de simplifier et d'organiser l'information.

- On distingue deux grands groupes en fonction de leur finalité.

Ceux qui servent plutôt à :

- former des groupes de variables et à hiérarchiser l'information ;

=> analyse factorielle*

- former des groupes d'individus ;

=> classifications multivariées*

- L'ensemble de ces méthodes est adapté à l'analyse de l'organisation de l'espace

- Ces méthodes nécessitent :

- une organisation de l'information géographique en matrice d'information spatiale* ;

- une réflexion sur le choix des unités spatiales élémentaires* (nature et échelle du problème traité) ;

- une réflexion sur le choix des variables* (homogénéité de l'information).

- Ces méthodes ne supposent pas :

- d'hypothèses sur la distribution statistique des variables ;

- ni de connaissances de modèles probabilistes particuliers ;

contrairement aux méthodes classiques de la statistique.

- Quelles que soient les dimensions de la matrice d'information :

- Ces méthodes descriptives servent à :

- affiner les descriptions ;

- éliminer les "bruits" qui parasitent notre perception ;

- révéler les associations et les interactions ;

- éliminer la part d'arbitraire des comparaisons de cartes.

Donc à réaliser des typologies*

C'est à dire, constituer des groupes d'individus plus semblables entre eux qu'ils ne le sont avec les autres (au regard des variables étudiées).

1.2. Les analyses factorielles (en 2 mots lapidaires)

- Une analyse factorielle sert à :

- résumer ;

- hiérarchiser ;

l'information contenue dans un tableau de :

- n lignes (les individus) ;

- p colonne (les variables).

Les n individus sont décrits par un nuage de p variables.

1.2.1. Résumer l'information

- L'information représentée par ce nuage,

c'est la dispersion des n points.

- Produire un résumé de cette information c'est

projeter ces points dans un espace de dimension inférieure à p.

- Les axes de ce sous-espace sont dits "axes factoriels*" ou "facteurs*".

- Le résumé est possible dans la mesure où

les variables ne sont pas totalement indépendantes

- Chaque variable "p" porte en elle :

- une part d'information originale ;

- une part d'information redondante avec les autres.

C'est cette part d'information redondante que l'on va regrouper dans le résumé factoriel.

- Chaque facteur est la combinaison linéaire des "p" variables.

A chaque variable est associé un coefficient "a".

Ce coefficient "a" est proportionnel à l'intensité qui lie la variable au facteur.

Ces facteurs, ou axes, rendent compte des associations entre les variables.

Leur nombre apparaît bien plus réduit que celui des variables d'origine.

1.2.2. Hiérarchiser l'information

Les facteurs sont hiérarchisés :

- le 1^er axe concentre le maximum de l'information ;

- c'est l'axe de la plus grande dimension du nuage de points

- c'est le meilleur résumé dans un espace à une dimension

- mais il laisse des résidus (de l'information)

- le 2^e axe concentre le maximum de l'information restante ;

- il est orthogonal au premier (par construction)

- c'est l'axe de la plus grande dimension résiduelle du nuage de points

- associé au 1^er axe, c'est le meilleur résumé dans un espace à deux dimension

- mais il laisse aussi des résidus

- le 3^e axe prend encore une part d'information moindre ;

- il est orthogonal au deux premiers (toujours par construction)

- ainsi de suite

1.3. Les grands types d'analyse factorielle

Objectif principal : former et hiérarchiser des groupes de variables

- L'analyse en composantes principales (ACP)

C'est la technique la plus ancienne

- S'applique principalement aux tableaux de mesures*

=> variables quantitatives (données brutes, ratio, %, ...)

tab. 1 - Variables démographiques et économiques pour 27 pays européens (DUMOLARD 2005, tab. 2.2) => matrice d'information spatiale

- l'Analyse factorielle des correspondances (AFC)

- S'applique principalement aux tableaux de contingence*

=> variables quantitatives (données brutes sommables en lignes et en colonnes)

- Mais également aux tableaux disjonctifs complets*

=> variables qualitatives (nominales en présence / absence)

tab. 2 - Précipitations moyennes mensuelles de 12 villes guinéennes (DUMOLARD 2005, tab. 2.3) => matrice d'information spatio-chronologique

1.4. Les grands types de classification multivariée

Objectif principal : former des groupes d'individus

- Les classifications ascendantes hiérarchiques (CAH)

Une des techniques les plus utilisées en géographie.

Permet :

- d'effectuer des typologies emboîtées ;

puis

- des cartographies.

- Les classifications autour de centres mobiles, type nuées dynamiques

- Méthodes utilisées sur de très grosses populations

- Permet de rechercher le nombre de classes optimales le plus stable (robuste)

repose sur un grand nombre d'itérations

- Les classifications à limites mobiles ou floues

- Quand les classes obtenues :

- ne sont pas disjointes ;

- reposent sur des probabilités d'appartenance...

Ces deux dernières ne seront pas abordées ici.

Les analyses factorielles et les techniques de classification sont complémentaires.

On sera donc amené à les utiliser conjointement.

Elles permettent de tester de nombreuses hypothèses,

mais n'ont aucun pouvoir explicatif !

2. Principes généraux de SPAD

- Quelles sont les étapes d'une analyse avec SPAD ?

2.1. Construire une base SPAD

Une base SPAD est un ensemble de données numériques au format SPAD

Le menu Base gère les opérations de création et d'édition des bases

- Pour créer une base SPAD

- Nouvelle base

à la main à l'aide de l'éditeur de base

- Importer

- tout fichier texte ASCII en alphanumérique* avec :

- individus* en lignes

- variables* en colonnes

- une table SAS (format XPORT)

- un fichier SPSS (*.sav)

- Pour modifier une base SPAD

- Un tableur permet de saisir ou modifier :

- les libellés de variables ou des modalités*

- un tableau de valeurs

- Le menu outil permet de créer de nouvelles variables par :

- recodage => mise en classes, croisement, opération, ...

- quantile* => pour mettre en classes d'effectifs égaux* des données continues*

- redressement* => pour créer et conserver une variable poids par ajustement à des distributions*

2.2. Les filières d'analyse

Une filière est une suite de méthodes statistiques cohérentes entres elles.

Toutes s'appliquent à la même base SPAD

- Paramétrage des méthodes de la filière

Depuis le menu Filière choisir :

- Filières prédéfinies

permet de créer une nouvelle filière utilisant une ou plusieurs méthodes statistiques cohérentes entre elles

fig. 1 - Exemple d'une filière prédéfinie - Analyse factorielle - Composantes principales

Sources : Document Cisia

- Nouvelle filière

- ouverture d'une fenêtre Filière sans_nom qui ne contient, au départ, aucune méthode ;

- choisir une base en double cliquant sur l'icône base ;

- insérer une méthode

Menu Méthode + Insérer méthode (ou Ctrl + I)

- choisir une méthode

Menu Méthode + Choisir méthode (ou Ctrl + C)

- Paramétrage proprement dit de la méthode

Sur la figure n°1, la filière n'est pas exécutable

il faut d'abord paramétrer les méthodes

fig. 2 - Une méthode paramétrée est jaune

Sources : Document Cisia

- pour paramétrer une méthode il faut aller dans :

Menu Méthode + Paramètres (ou Shift + F6)

ou double clique sur l'icône de la méthode

- effectuer les choix demandés dans la boîte de dialogue

- cliquer sur OK

fig. 3 - Exemple d'une filière paramétrée (les méthodes sont jaunes)

Sources : Document Cisia

- Enregistrement de la filière

Toute filière doit être enregistrer avant d'être exécuter

Menu Filière + Enregistrer filière sous ...

- Donner un nom à la filière pour la rappeler

- Exécution de la filière

Menu Filière + Exécuter filière (ou F5)

fig. 4 - Exemple d'une filière exécutée (apparition des icônes listages et écrans)

Sources : Document Cisia

- Consultation des résultats

En double cliquant sur l'icône listage ou sur l'icône écran

3. La préparation des données

- Le tableau EXCEL est-il compatible avec SPAD ?

Exemple n°1 : Tableau 2.1 - Dix mesures relatives à la qualité de la vie dans 18 grandes métropoles américaines (Sources : M.V. JONES and M.J. FLEX, The quality of life in Washington D.C., The Urban Institute, Washington D.C, 1970. in SANDERS 1989, p. 57)

Téléchargement du fichier

Ce fichier est au format EXCEL 5.0 et "pèse" 97 Ko.

Exemple n°2 : AMAT (J.-P.), GODARD (V.), HOTYAT (M.) - 2003 - Milieu, gestion, histoire et scénarios de reconstitution dans les sylvosystèmes touchés par les tempêtes de décembre 1999, GIP-ECOFOR, Min. agriculture, 115 p.

Téléchargement du fichier

Ce fichier est au format texte tabulé et "pèse" 5 Ko.

Exemple n°3 : Tableau 4.1 - La structure pastorale éthiopienne par awrajas (en nombre de têtes), [Sources : EASTMAN (J.R.) - 1997 - 10. Database Workshop. in : IDRISI for Windows. Tutorial Exercises. Version 2.0. Worcester (MA, USA), Clark University, pp. 69-79 et traduction française GODARD, 2003]

Téléchargement du fichier

Ce fichier est au format Excel (.xls) et "pèse" 51 Ko.

Ce tableau est le support d'un exercice détaillé sur le fiche guide 1.8 du cours de SIG.

L'import des données se fait comme expliqué sur la fiche mémo mem04dea.htm du cours de Master 2 recherche.

Exemple n°4 : Pauvreté sur la GulfCost

Téléchargement du fichier

Ce fichier est au format Excel (.xls) et "pèse" 46 Ko.

3.1. La conversion au format .txt

- Sélectionner les données utiles dans la feuille "brut"

de A2 à K21

Pas de blancs ni de caractères spéciaux dans les intitulés de variables

- Les coller par Collage spécial du menu Edition

en A1 de la feuille "txt"

- Faire un Enregistre sous du menu Fichier

Le type de fichier doit être en :

Texte tabulé (*.txt)

L'enregistrer en :

D:\geo\Votre_Nom\villesus\ta1fm02d.txt

3.2. La conversion des données au format SPAD

- Comment passer d'un tableau EXCEL à une base SPAD ?

- Lancer SPAD

- Modifier les répertoires par défaut

Menu Option + Paramètres généraux ...

Répertoires utilisés par défaut

pour les bases => D:\geo\Votre_Nom\villesus\

pour les modèles => D:\geo\Votre_Nom\villesus\

pour les filières => D:\geo\Votre_Nom\villesus\

la zone temporaire => D:\geo\Votre_Nom\temp

les importations => D:\geo\Votre_Nom\villesus\

Ne mettez pas d'accent (ou de caractère spéciaux) à dea ou ailleurs !

- Importer les données

Importation fichier ASCII... du sous menu Importer du menu Base

Cliquer sur Nouveau

Entrer le nom de l'importation => Villes US

SPAD demande :

- de localiser le fichier ".txt"

sélectionner ta1fm02d.txt

- le format du fichier

- délimité

- séparateur tabulation

- décimale point

- de cocher :

- si la 1^ère ligne contient la variable

- Utiliser les X premier caractères ....

valider en cochant Suivant

SPAD râle (version antérieure à la 5.5) car il y a un blanc après la variable INCO !

Retourner dans EXCEL enlever l'importun !!!

- de définir les variables en :

- Type

Cliquer sur Aide puis Description en format délimité des variables importées et enfin sur type (puis Pour choisir le type)

- Que doit-on mettre comme type pour villes ?

villes => choisir Identificateur

sous cette colonne se trouve le nom des individus

- Que doit-on mettre comme type pour INCO et les suivantes ?

INCO => choisir Continue

sous cette colonne se trouve les modalités prisent par chaque individu.

La zone de cases à cocher, juste en dessous de la liste des variables, permet, après une sélection multiple par les chiffres en gris, d'affecter le même Type à plusieurs variables.

- Libellé

- facultatif, remplace en 60 caractères maxi le titre dans la base

- Code Id.

- option pour les QCM ;

- pour recoder des variables (nominales ou alphabétiques) de même type.

- d'Exécuter l'importation

- enregistrement de la base au format ".sba"

- si l'importation se passe bien, consulter :

- les statistiques de la bases

- l'édition des résultats

- l'édition du compte-rendu qui signale toutes les anomalies lors de l'importation

- codes inattendus,

- variables transformées, ...

- si l'importation comporte des erreurs :

- la base n'est pas générée

- cliquer sur le bouton "Il y a des erreurs" qui édite le compte rendu ;

- corriger (!!!) puis relancer l'exécution.

- Enfin, cliquer sur OK, puis Fermer.

3.3. Édition de la base

- Éditer une base

Menu Base + Editer base ... (ou Ctrl + T)

Notons que :

villesus\ta1fm02d.txt est devenu villesus\ta1fm02d.sba

- Trois tableaux apparaissent :

- les variables

- les individus

- les valeurs

Il est donc possible d'intervenir sur ces trois tableaux

4. Création d'une 1^ère analyse (univariée)

4.1. Procédure

- Créer une nouvelle filière

Menu Filière + Nouvelle Filière (ou Ctrl + N)

- Insertion d'une première méthode

Dans la fenêtre Filière 1 : ( sans nom)

- Choisir une base

Filière + Sélectionner base

D:\geo\Votre_Nom\villeus\ta1fm02d.sba

- Méthode + Insérer méthode (ou Ctrl + I)

- Méthode + Choisir méthode (ou Ctrl + C)

- Groupes de méthodes : Description statistique

- Méthode : Caractérisation d'une variable continue

[ou faire glisser, depuis la fenêtre des méthodes (cf. fig n°5) l'icône de "Caractérisation d'une variable continue" (la 2a) sur l'icône de la méthode, dans la fenêtre Filière 1 : ( sans nom)]

fig. 5 - La fenêtre des méthodes

Sources : Document Cisia

- Méthode + Paramètres ... (ou Shift + F6)

pour choisir les variables à caractériser et caractérisantes

Onglet Variables

- Sélection des variables : continues à caractériser

=> toutes

- Sélection des variables : continues caractérisantes

=> toutes

- Insertion d'une deuxième méthode

Toujours dans la fenêtre Filière 1 : ( sans nom)

- Méthode + Insérer méthode (ou Ctrl + I)

- Méthode + Choisir méthode (ou Ctrl + C)

- Groupes de méthodes : Description statistique

- Méthode : Tris-à-plat, histogrammes

ou faire glisser l'icône de "Tris-à-plat, histogrammes" sur l'icône de la méthode

Attention "Tri-à-plat" est réservée aux variables qualitatives* (nominales*)

- Méthode + Paramètres ... (ou Shift + F6)

Onglet Histogrammes - Discrétisation

Pour choisir les Variables

- Sélection des variables : Pour histogrammes/Statistiques sommaires

("Pour discrétisation" ne fonctionne pas sur des variables continues)

- Variables sélectionnées :

- => toutes

- Insertion d'une troisième méthode

Toujours dans la fenêtre Filière 1 : ( sans nom)

- Méthode + Insérer méthode (ou Ctrl + I)

- Méthode + Choisir méthode (ou Ctrl + C)

- Groupes de méthodes : Description statistique

- Méthode : Analyse bivariée

ou faire glisser l'icône de "Analyse bivariée" sur l'icône de la méthode

- Méthode + Paramètres ... (ou Shift + F6)

Onglet Variables

Pour choisir les Variables AXES

- Variable 1 : UNEM

- Variable 2 : SUIC

Pour choisir les Variables de description

- Continues illustratives

- => toutes

- Enregistrement et exécution de la filière

- Filière + Enregistrer filière sous ...

D:\geo\Votre_Nom\ villesus\desco1.fil

Donner un titre "causant", car il apparaîtra sur le bandeau de la fenêtre

- Filière + Exécuter filière (ou F5)

Vous devez obtenir ça :

fig. 6 - La filière après exécution

4.2. Galerie de graphiques

- Double clique sur la galerie de graphiques

Pour choisir les Variables

- => toutes

Pour choisir la Galerie

- Lignes : 10

- Colonnes : 10

(il y a 10 variables, le pavage graphique fera 10*10 = 100 histogrammes !)

Agrandir la fenêtre si nécessaire !

- Information sur les individus

- Déplacez le pointeur sur lui !

- Dans la barre d'état

- le nom à gauche

- la valeur pour les deux variables à droite

- Information sur une cellule

- Double clique sur la cellule

On obtient par variable :

- moyenne

- écart-type

- nombre de valeurs manquantes

- coeff. de corrélation (r)

- coeff. de régression (a)

- ordonnée à l'origine (b)

du "y=ax+b" qui décrit la droite de régression

- Le balayage

Pour désigner des points que l'on veut localiser sur tous les graphiques

- Sélectionner le bouton balayage

(ou Menu Outils + Balayage)

- Sélectionner sur un graphique les points (villes) :

- Los Angeles

- San Francisco

(déjà isolés sur la variable SUICide)

Un clique bouton droit dans une zone balayée indique les individus présents

- Modifier la configuration du balayage

Menu Outils + Configuration du balayage

La fenêtre Couleur et habillage pour le balayage apparaît.

Modifier les paramètres

- Les histogrammes

Pour obtenir les "histogrammes" des variables de la galerie

- Sélectionner le bouton histogrammes

(ou Menu Outils + Histogramme)

La fenêtre Configuration de l'histogramme apparaît.

- Déterminer le nombre de barres

- Combien faut-il de barres ?

Si vous ne savez pas comment le déterminer, cliquez là !

- Sélectionner le bouton Histogrammes et courbes de densité normale

- Sélectionner le bouton Valeurs

Cliquer sur OK

- Comment interpréter cela ?

- Coeff. de symétrie : mesure la symétrie de la courbe par rapport à la loi normale centrée réduite (Coeff. de symétrie = 0) :

- Coeff. de symétrie < 0

la courbe est tronquée à droite et décalée à gauche

- Coeff. de symétrie > 0

la courbe est tronquée à gauche et décalée à droite

- Coeff. d'aplatissement : mesure l'aplatissement de la courbe par rapport à la loi normale centrée réduite (Coeff. d'aplatissement = 3) :

- Coeff. d'aplatissement < 3

la courbe est plus aplatie que la loi normale centrée réduite

- Coeff. d'aplatissement > 3

la courbe est plus élevée que la loi normale centrée réduite

- La valeur-test : fait référence aux tests statistiques,

si :

- La valeur-test > 2

l'hypothèse nulle "la distribution de la variable est une loi normale centrée réduite" est rejetée au seuil 0,05

(on prend un risque inférieur à 5% en estimant que la variable ne suit pas une loi normale centrée réduite)

Pour en savoir plus sur les tests statistiques, cliquez ici

On utilisera la moyenne et l'écart-type pour décrire une variable quand VT < 2

- Qu'en est-il de la distribution des SUICides ?

- Et pour les autres, s'éloignent-elles significativement de la loi centrée réduite ?

- Sont-elles pour autant proche de cette loi (cf. coef. sym. et applat.) ?

- La régression linéaire

Pour afficher la droite de régression linéaire sur toutes les cellule de la galerie de graphique

- Sélectionner le bouton Régression linéaire

(ou Menu Outils + Régression linéaire)

4.3. Analyse

- Double clique sur les rapports

- Qu'est-ce que le coefficient de variation* (CV) ?

- Qu'est-ce que le coefficient de corrélation* ?

- Double clique sur le graphe

Faire :

- Graphique + Nouveau (Ctrl + N)

- Sélectionner toutes les options

Puis à titre d'exercice

- mettre un nom aux différentes villes

- Menu Sélection + De tous les points

- Menu Habillage + Ecrire les libellés

- relier les villes "géographiquement" proches

- Menu Dessin + Segments

- Le chômage et le suicide sont-ils liés (corrélés) ?

- Y a-t-il une spatialisation du suicide ou du chômage ?

- Les chômeurs se suicident-ils beaucoup ?

Notion d'erreur écologique* pour en savoir sur plus l'EC cliquer ici

Retour au début de la fiche Mémo

Fiche Mémo suivante

NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.