Régression multiple

Scherrer: p.690; Sokal & Rohlf: p. 617; Legendre & Legendre (1998) p. 517

Il arrive souvent qu'on veuille expliquer une variable dépendante par l'action de plusieurs variables explicatives. Exemple: l'abondance de Bidonia exemplaris (Y) est influencée par le taux d'humidité (X1) et par le pourcentage de matière organique dans le sol (X2). Lorsqu'on a des raisons de penser que la relation entre ces variables est linéaire, on peut étendre la méthode de régression linéaire simple à plusieurs variables explicatives; s'il y a deux variables explicatives, le résultat peut être visualisé sous la forme d'un plan de régression dont l'équation est:

Le plan est ajusté selon le principe des moindres carrés où les sommes des carrés des erreurs d'estimation de la variable dépendante (on a donc affaire à une régression de modèle I) sont minimisées.

S'il y a plus que deux variables explicatives (p. ex. p-1), on peut étendre la méthode en ajoutant les variables et leurs paramètres:

Cette équation est celle d'un hyperplan à p dimensions.

La régression multiple peut être utilisée à plusieurs fins:

- trouver la meilleure équation linéaire de prévision et en évaluer la précision et la signification;
- estimer la contribution relative de deux ou plusieurs variables explicatives sur une variable à expliquer; déceler l'effet complémentaire ou, au contraire, antagoniste entre diverses variables explicatives;
- estimer l'importance relative de plusieurs variables explicatives sur une variable dépendante, en relation avec une théorie causale sous-jacente à la recherche (attention aux abus: une corrélation n'implique pas toujours une causalité; cette dernière doit être postulée a priori).

Le calcul des coefficients de régression est détaillé par Scherrer (p. 693-699). Il se base sur un système de p-1 équations à p-1 inconnues (bas p. 695) qui permet dans un premier temps d'obtenir les "coefficients de régression centrés et réduits" (voir plus bas: c'est comme si on calculait la régression sur les variables centrées-réduites). Attention: dans la notation de Scherrer, la p-ième variable est la variable dépendante. Les valeurs des coefficients de régression pour les variables originales sont ensuite obtenues par multiplication par le rapport des écarts-types de la variable dépendante et de la variable explicative considérée (voir bas p. 698). Finalement, on calcule la valeur de l'ordonnée à l'origine.

Pour les tests, la régression multiple est soumise aux mêmes contraintes que la régression linéraire simple en ce qui concerne la distribution (normale) des variables, l'équivariance et l'indépendance des résidus.

Exemple (voir figures plus bas):

Abond. Bidonia = 0.5543 x Humid. + 0.7211 x M.O. - 41.6133

Comme en régression linéaire simple, on mesure la variance expliquée par la régression à l'aide du coefficient de détermination multiple R2:

Remarques:
- Scherrer (paragr. 18.3.3 p.699) appelle le R2 "coefficient de corrélation multiple". C'est faux. Le coefficient de corrélation multiple est défini comme la racine carrée du coefficient de détermination multiple;
- l'équation du R2 donnée par Scherrer dans le même paragraphe est fausse. C'est celle ci-dessus qui est la bonne.

La signification du modèle de régression multiple peut être testée par un F à (p-1) et (N-p) degrés de liberté.

Les hypothèses du test sont:

H0: la variable Y est linéairement indépendante des variables Xj

H1: la variable Y est linéairement liée à au moins une des variables Xj

L'expression la plus commode de la variable auxiliaire F est basée sur le coefficient de détermination (Scherrer, équ. 18-47 p. 701):

Rappelons que dans cette notation (celle de Scherrer), p désigne le nombre de variables plus une, c'est-à-dire le nombre de paramètres de l'équation: coefficients de régression plus l'ordonnée à l'origine.

Note: l'interdépendance entre la variable à expliquer Y et l'ensemble des variables explicatives pourrait se mesurer par un coefficient de "corrélation multiple" défini comme la racine carrée du coefficient de détermination R2. Par définition (puisqu'on prend la racine carrée d'un nombre réel), la corrélation obtenue ne peut pas être négative. En fait, la notion de corrélation, associée à la régression multiple, a une interprétation douteuse et doit être manipulée avec beaucoup de prudence.

Point important, les coefficients de régressions obtenus par régression multiple sont en fait des coefficients de régression partielle, en ce sens que chacun mesure l'effet de la variable concernée lorsque la ou les autres variables explicatives sont tenues constantes.

Cette propriété est très intéressante. En effet, si on désire connaître l'influence d'un groupe de facteurs sur une variable-cible donnée, en contrôlant l'effet d'un autre groupe (p. ex. l'effet de la teneur en matière organique du sol sur l'abondance de Bidonia exemplaris, en ôtant l'effet de l'humidité), on peut calculer une régression intégrant toutes les variables explicatives, et examiner les coefficients de régression du groupe de variables voulu, en sachant que ces coefficients expliquent la variance de la variable dépendante en contrôlant pour l'effet de l'autre groupe.

Cette démarche n'est pas triviale. En effet, les influences combinées des diverses variables en jeu aboutissent quelquefois à des effets apparents contraires à ceux qui sont en jeu. Dans notre exemple, en régression simple, Bidonia a l'air de réagir négativement à l'augmentation de la teneur en matière organique (voir figure). Par contre, si l'on tient constant l'effet de l'humidité, le coefficient de régression partielle de la matière organique est positif (0.7211). Cela tient à ce que dans l'échantillonnage, les prélèvements les plus humides sont aussi ceux où le taux de matière organique est le plus faible. On voit donc qu'il est important, lorsqu'on dispose de plusieurs variables explicatives, de les intégrer ensemble dans une analyse plutôt que d'avoir recours à une série de régressions simples. Non seulement on peut alors mesurer leur effet combiné sur la variable dépendante, mais encore on peut tester globalement cet effet.

 

Régression sur variables centrées-réduites

Une pratique courante en régression consiste à interpréter les coefficients de régression centrés-réduits, c'est-à-dire ceux qu'on obtient en centrant-réduisant toutes les variables (y compris la variable dépendante). En exprimant toutes les variables en unités d'écart-type, on rend les coefficients de régression insensibles à l'étendue de variation des variables explicatives, leur permettant ainsi d'être interprétés directement en termes de "poids" relatif des variables explicatives. Noter aussi que la plupart des logiciels courants fournissent de toute manière les "coefficients de régression centrés-réduits" (standardised regression coefficients) en plus des coefficients calculés pour les variables brutes. On peut remarquer aussi que, si on fait le calcul à l'aide de la méthode montrée par Scherrer (p. 696 et suivantes), on obtient de toute manière d'abord les coefficients centrés-réduits (sans avoir à centrer-réduire les variables pour faire le calcul!).

Le centrage-réduction n'affecte pas la corrélation entre les variables, ni les coefficients de détermination (R2) des régressions simples et multiples.

L'exemple de Bidonia exposé plus haut devient ainsi:

Abondance Bidoniacr = 1.6397 x Hum.cr + 0.9524 x M.O.cr

L'ordonnée à l'origine vaut 0 puisque toutes les variables sont centrées.

Dans ce contexte, mentionnons que le coefficient de détermination peut aussi s'exprimer (équation 18-46 p.699 de Scherrer):

Les a'j sont les coefficients de régression des variables centrées-réduites. Donc, chaque élément a'jrjp représente la contribution partielle de la variable Xj à l'explication de la variance de Y. Dans notre exemple, la contribution de l'humidité et celle de la matière organique s'élèvent à

1.6397 x 0.8251 = 1.3529 et 0.9524 x -0.4498 = -0.4284

R2 = 1.3529 - 0.4284 = 0.9245

Voir aussi l'exemple 8.17 de Scherrer (p. 700).

Remarque: en régression linéaire simple (uniquement!), lorsque les deux variables sont centrées-réduites, le coefficient de régression a (c'est-à-dire la pente) est égal à la corrélation r entre les deux variables X et Y.

Voir aussi le texte sur la régression polynomiale.

 

Partitionnement de la variation (Legendre & Legendre (1998) p. 531)

Dans la grande majorité des cas, les variables explicatives intégrées à une régression multiple ne sont pas linéairement indépendantes entre elles (orthogonales). Le R2 total de la régression multiple n'est donc pas la somme des R2 d'une série de régressions simples impliquant tour à tour toutes les variables explicatives, mais une valeur généralement inférieure à cette somme:

Dans cet exemple, la barre grasse représente toute la variation de la variable dépendante. Comme les variables X1 et X2 ne sont pas linéairement indépendantes, une partie de leur pouvoir explicatif va expliquer la même part de variation de Y. Cette fraction commune est appelée fraction [b]. La contribution unique de la variable X1 est la fraction [a], et la contribution unique de la variable X2 est la fraction [c]. La fraction [d] constitue la partie non expliquée, soit le résidu de la régression multiple.

On peut obtenir les R2 de chacune de ces fractions de la manière suivante:

(1) Régression linéaire simple de Y sur X1: le R2 vaut [a]+[b].

(2) Régression linéaire simple de Y sur X2: le R2 vaut [b]+[c].

(3) Régression linéaire multiple de Y sur X1 et X2: le R2 vaut [a]+[b]+[c].

(4) La valeur de [a] peut donc être obtenue en soustrayant le résultat de l'opération (2) de celui de (3).

(5) La valeur de [c] peut être obtenue en soustrayant le résultat de (1) de celui de (3).

(6) La valeur de [b] s'obtient de diverses manières, p. ex. (1) - (4), ou (2) - (5).

(7) La fraction [d] (variation non expliquée) s'obtient en faisant 1-([a]+[b]+[c]).

 

Remarque: on ne peut ajuster de modèle de régression sur la fraction [b], dont la valeur ne peut être obtenue que par soustraction. Elle peut même être négative s'il y a antagonisme entre les effets de certaines variables explicatives (c'est le cas dans notre exemple de Bidonia montré plus haut). C'est pourquoi on parle ici de variation et non de variance au sens strict.

 

Le problème de la multicolinéarité

Lorsque plusieurs, voire toutes les variables explicatives sont fortement corrélées entre elles (0.8 et plus), les estimations des coefficients de régression deviennent instables (fluctuent beaucoup d'un échantillon à l'autre). Leur interprétation devient donc dangereuse. Il y a plusieurs solutions possibles:

- créer une nouvelle variable synthétique (combinant les variables interreliées) et l'utiliser à la place des autres;
- choisir une seule des variables hautement interreliées et s'en servir comme indicatrice des autres;
- utiliser d'autres méthodes (régression à partir des composantes principales, régression pseudo-orthogonale);

Remarque: si le seul but de la régression multiple est la prédiction, la multicolinéarité ne dérange pas.

Les figures ci-dessous illustrent l'exemple de régression multiple "Bidonia exemplaris / humidité / matière organique":

- deux diagrammes illustrent des régressions linéaires simples montrant Bidonia expliqué par chacune des deux variables explicatives;

- un troisième diagramme de régression simple, de type II cette fois (AMDC), illustre la relation entre l'humidité et la teneur en matière organique;

- un dernier montre Bidonia expliqué par le résidu d'une régression linéaire simple (MCO) expliquant la matière organique par l'humidité. Cette manière de faire montre comment réaliser une régression partielle expliqant Bidonia par la part de variation de la matière organique non expliquée par l'humidité.

 

 

La corrélation partielle

Au contraire du coefficient de "corrélation multiple" évoqué ci-dessus, on peut définir un coefficient de corrélation partielle qui a le même sens que le coefficient de corrélation ordinaire (ou total).

Un coefficient de corrélation partielle mesure la liaison entre deux variables lorsque l'influence d'une troisième est gardée constante. Cela rappelle donc l'interprétation des coefficients de régression partielle montrés plus haut. On rapellera cependant qu'une corrélation ne mesure que la liaison entre deux variables, sans se préoccuper de modèles fonctionnels ou de capacité de prédiction ou de prévision.

Le calcul d'une corrélation partielle fait intervenir les corrélations ordinaires entre les paires de variables considérées. L'exemple ci-dessous vaut dans le cas où on a deux variables explicatives X1 et X2 (équ. 18-50 de Scherrer, p. 704):

Ce coefficient se teste à l'aide d'un F obéissant à une loi de Fisher-Snedecor à 1 et n-p degrés de liberté (rappel: p désigne ici tous les paramètres de l'équation de régression multiple: coefficients de régression plus ordonnée à l'origine). La construction du test et les règles de décision figurent aux pages 705 et 706 de Scherrer.

Le carré du coefficient de corrélation partielle mesure la proportion de la variation de Y non expliquée par X2, X3, etc., mais expliquée par X1. Cela correspond donc au rapport des fractions de variation [a]/([a]+[d]) dans le cadre du partitionnement expliqué plus haut.

L'exemple de Bidonia et de sa relation avec l'humidité et la teneur en matière organique du sol est assez parlant:

Un chercheur qui se contenterait d'une matrice de corrélations simples (à gauche) penserait que la relation entre Bidonia et la teneur en M.O. est négative. Par contre, s'il prenait la précaution de calculer une matrice de corrélations partielles, il verrait que cette illusion est due à l'effet masquant de l'humidité dans l'échantillon. La corrélation partielle forte et positive entre Bidonia et la M.O. mesure la relation entre la matière organique et la partie de la variation de Bidonia qui n'est pas expliquée par l'humidité.

 

Quelques remarques sur la régression pas à pas

On rencontre parfois des situations dans lesquelles on dispose de trop de variables explicatives (par rapport au nombre d'observations, par exemple). Une technique est parfois employée pour "faire le ménage" et sélectionner un nombre réduit de variables qui explique pourtant une quantité raisonnable de variation. Cette régression pas à pas (stepwise regression en anglais) est expliquée par Scherrer (paragr. 18.3.6, p. 708). La procédure la plus complète consiste à faire entrer les variables l'une après l'autre dans le modèle (selon leur contribution partielle) et, à chaque étape, à vérifier si l'ensemble des variables déjà introduites sont encore significatives (une variable qui ne le serait plus serait rejetée).

La régression pas à pas présente quelques dangers. En particulier, lorsqu'on a fait entrer une variable donnée dans le modèle, elle conditionne bien sûr la nature de la variation qui reste à expliquer. De ce fait, rien ne garantit au bout du compte qu'on a choisi la combinaison de variables qui explique le plus de variation. De plus, le modèle devient hautement instable en présence de (multi-)colinéarité entre les variables explicatives, ce qui veut dire que les paramètres déterminés par la méthode (les poids attribués aux variables retenues), et même la liste des variables retenues elle-même, peuvent varier fortement si on change (même très peu) les données. L'utilisation la plus recommandée de la régression pas à pas se fait dans le cadre de la régression polynomiale.

Remarque: comme dans toutes les autres techniques de régression, les variables explicatives doivent être aussi indépendantes (linéairement) que possible!