V.1.22 - Dernière mise à jour : 29/10/2009
On étudie leurs interrelations
Pourquoi et comment les étudier 2 à 2 ?
Étudier la relation entre 2 variables revient à étudier si :
le passage d'1 modalité à 1 autre sur 1 variable
s'accompagne d'1 changement de modalité sur l'autre variable
Par exemple :
Est-ce que le fait de passer des électeurs de l'UMP à ceux du FN s'accompagne d'un changement :
- de sexe ?
- de profession ?
- de comportement vis-à-vis du mariage ? du PACS ?
- de comportement vis-à-vis de la peine de mort ? , ....
Si oui,
on peut penser qu'il y a une relation (lien, dépendance*) entre :
le vote et la profession exercée ou les valeurs défendue, etc.
Si non,
il y a indépendance* (absence de lien ou de relation)
entre ces deux domaines
Si chaque unité statistique est le support de 2 observations
alors la distribution est bi-variée*
- Relation qui peut aller de :
- l'Indépendance parfaite (relation nulle) :
distribution des observations identique sur 1 variable
quelque soit les modalités de l'autre variable
- à la Dépendance parfaite (relation totale) :
distribution des observations strictement différente sur 1 variable
selon les modalités de l'autre variable
Lorsque l'on étudie la relation entre 2 variables
on s'intéresse à sa force, sa forme et sa direction
- La force ou l'intensité d'une relation caractérise le lien qui unit les 2 variables
+ il est fort, + la prédiction est aisée (sous certaines conditions)
- Une liaison peut être ou non monotone*
les 2 variables sont croissantes ou décroissantes
- Une liaison peut être ou non linéaire*
liaison linéaire si elle garde le même taux d'accroissement
- Une liaison peut être positive
Les 2 variables sont croissantes ou décroissantes
Exemple : taille des parents et taille des enfants
relation linéaire monotone et positive
- Une liaison peut être négative
L'un des 2 variables croît quand l'autre décroît
Exemple : durée d'études post-universitaires et temps mis pour trouver un 1er emploi
relation linéaire monotone et négative
- Si la relation n'est pas monotone, on détermine dans quels intervalles elle est positive et dans quels intervalles elle est négative
Face à une liaison statistique, on a souvent tendance à rechercher un lien causal
Or plusieurs types de relations causales existes
- Causalité directe
à partir de quelle quantité de cyanure le coeur s'arrète-t-il de battre ?
- Pourriez-vous trouver un exemple "géographique" ?
- Causalité indirecte
les deux variables sont liées par une 3e
(diabète/hypertension et obésité)
- Pourriez-vous trouver un exemple "géographique" ?
- Présence d'un intermédiaire causal
là encore les 2 variables sont liées par une 3e
(forêt/Borréliose de Lyme et tiques <= intermédiaire causal)
- Une relation statistique ne suffit pas pour parler de causalité
Le lien causal est difficile à mettre en évidence en géographie (cf. infra)
La concordance* est un cas particulier de liaison
Quand on passe d'une modalité à l'autre sur une variable, cela se traduit par :
le même changement sur l'autre variable
- Y a-t-il concordance entre deux stations de ski pour les niveaux d'alerte avalanche ?
En cas de mesures répétées, type avant/après
2 questions sont possibles :
1) existe t-il 1 différence entre les résultats avant et après ?
2) existe t-il 1 relation entre les résultats avant et après ?
Quoi qu'il en soit,
étudier la relation entre 2 variables, c'est :
comparer la distribution des observations de l'une sur les différentes modalités de l'autre
La caractérisation des variables étudiées se fait sous 2 critères :
- l'échelle de mesure (type de caractères : nominal, ordinal, ..)
- le statut (repérées ou manipulées)
5 échelles de mesures possibles pour chacune des 2 variables considérées
Tab. n°1 - Les combinaisons possibles entre les échelles de mesure
Échelle de mesure Nominale Ordinale d'Intervalle - dichotomique > 2 modalités en classes classement cardinale dichotomique 1 2 3 4 5 > 2 modalités - 6 7 8 9 en classes - - 10 11 12 classement - - - 13 14 cardinale - - - - 15
15 combinaisons sont possibles
A titre d'exemple :
1) sexe et l'échec ou la réussite à 1 examen
2) sexe et CSP
3) sexe et taille exprimée en tranches (P, M et G)
4) sexe et classement au contrôle de statistique
5) sexes et note à 1 examen
6) département de résidence et CSP
7) section du bac et mention obtenue
8) nationalité et classement à 1 concours
9) spécialité du service hospitalier et durée du séjour
10) tranches des revenus et tranches d'âges
11) classes de salaires des parents et classement au concours d'entrée à l'X
12) rang de naissance et note de statistique
13) classement des universités pour la qualité des cours et l'ambiance
14) ordre d'arrivée au Tour de France et taille en cm
15) hauteur des précipitations et hauteur du relief
- Seriez-vous capable de trouver 15 exemples "géographiques" pour le tableau précédent ?
Nous n'étudierons pas tous ces cas
Surtout : 1, 2, 5, 6, 7 et 15
- Différence entre les variables repérées (invoquées) et manipulées ou contrôlées (provoquées)
- En géographie, le + souvent les variables sont repérées
Le chercheur n'a pas de prise sur l'observation
Il observe ou constate
- taille des grains de sables
- présence de telle essence d'arbres sur la station
- sexe des employés
- Mais parfois, le chercheur :
- manipule les variables
Surtout le cas des sciences expérimentales
- variation de la dose de pesticide, de lumière ou d'eau...
Ou encore,
- contrôle certaines variables pour qu'elles n'interfèrent pas
- Différence entre les variables explicatives ou expliquées
Notion d'asymétrie dans la relation de certaines variables
Exemple : la relation entre le taux de cancer et le tabagisme
Quel est le statut de ces variables ?
- repérées si c'est chez l'homme
- manipulées pour le tabac chez l'animal
De plus chez l'homme, impossible d'établir une causalité stricte
car ces 2 variables sont peut être liées par une 3e
l'anxiété par exemple (causalité indirecte)
La suppression du tabac ne changerait rien
Mais,
- le tabagisme est la variable explicative par hypothèse
- le taux de cancer, la variable expliquée
On parle parfois de variable régressante et régressée
En conclusion, avant toute recherche de liaison déterminer :
- l'intitulé de chaque variable
- son échelle de mesure
- son statut
Communiquez-moi par courrier électronique les réponses aux questions suivantes Question n°4.1.1. La liaison entre un pourcentage de chablis (arbres couchés par la tempête) et la présence d'une lisière mixte (feuillus et résineux) est de type :
Question n°4.1.2. La lisière est la variable :
Question n°4.1.3. Le pourcentage de chablis est une variable :
|
NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.