Legendre et Legendre (1998) p. 526
Une variante de la régression multiple peut quelquefois être appliquée pour ajuster une variable explicative X (ou plusieurs variables explicatives Xj) à une variable dépendante Y de manière non-linéaire. Cette méthode consiste à ajouter à la variable X de nouvelles variables construites en mettant X au carré, au cube, etc. L'équation devient donc, pour un polynôme du k-ième ordre:
Une façon simple de se rappeler l'effet de l'ajout d'un ordre est la suivante: chaque nouvel ordre permet d'ajouter un pli à la courbe. Une équation du premier ordre est celle d'une droite, du deuxième ordre une parabole; le troisième ordre donne un S couché, etc.:
Cette figure montre comment l'ajout d'éléments de souplesse permet de mieux ajuster le modèle de régression aux données. Cependant, comme toujours, il faut savoir trouver un compromis entre un modèle trop rudimentaire et mal ajusté et un modèle ajustant bien les données, mais au prix d'un nombre excessif de termes (et donc de paramètres). Legendre et Legendre (1998, p. 526) recommandent de partir d'un modèle d'un ordre volontairement trop élevé (p. ex. du 6e ordre). Une première étape consiste alors à retirer un par un et dans l'ordre décroissant les termes des ordres supérieurs (en général non significatifs) jusqu'à ce qu'on rencontre un terme significatif. Les termes restants pourront ensuite si nécessaire être "élagués" à l'aide d'une régression pas à pas.
La régression à l'aide d'un polynôme du deuxième ordre (parabole) est d'un intérêt particulier pour les biologistes. Prenons pour exemple la distribution de Bidonia exemplaris le long d'un gradient d'humidité:
On constate que Bidonia semble préférer les conditions d'humidité moyennes. L'ajustement d'une droite n'aurait à l'évidence aucun sens ici: la droite serait quasiment horizontale et ne rendrait aucunement compte du phénomène biologique qu'on cherche à modéliser. Incidemment, la corrélation linéaire serait nulle elle aussi, ce qui montre qu'il ne suffit pas de calculer une corrélation linéaire entre n'importe quoi et n'importe quoi pour avoir tout dit!
Pour modéliser une telle situation, nous allons faire usage d'un artifice. Apparemment, il suffirait d'ajouter au modèle un terme en X2 pour obtenir une courbe adéquate: on fabriquerait une équation du deuxième degré, ou, en d'autres termes, on ajusterait une parabole au nuage de points:
Cette opération fournirait effectivement un bon ajustement, mais les paramètres de l'équation seraient difficilement interprétables biologiquement. De plus, une parabole prédirait des abondances négatives aux extrémités du spectre de l'espèce.
Il existe heureusement une manière très élégante de s'en sortir. Avant d'ajuster la parabole, on transforme les abondances d'espèces en logarithmes naturels [y' = ln(y+1)]. En effet, ajuster une parabole à des données d'abondances d'espèces logarithmiques revient à ajuster une courbe de Gauss sur les données brutes! Et la courbe de Gauss (difficile à ajuster directement), en plus d'être biologiquement réaliste, permet facilement le calcul de tous les paramètres recherchés par le biologiste: optimum et tolérance de l'espèce.
Remarque: il faut être très attentif à prendre suffisamment de décimales pour les calculs qui suivent, car les paramètres de l'équation de la parabole (surtout a2) sont souvent très petits. Au besoin, refaire la régression avec des logs multipliés par 10 ou 100, puis diviser les coefficients obtenus.
Pour Bidonia, l'ajustement donne ceci:
A l'évidence, ce modèle parabolique (dont l'équation figure au-dessus du graphe) donne une image assez fidèle de la situation. Le pourcentage de variation expliquée par la parabole (le R2) est de 0.875.
On peut lire graphiquement l'optimum u de l'espèce: environ 57% d'humidité. Mais on peut aussi le calculer à partir des paramètres a1 et a2 de la régression, par la formule suivante:
La tolérance t, quant à elle, définie comme une unité d'écart-type, s'obtient en faisant:
Finalement, on peut encore calculer la valeur du sommet c de la courbe (en abondances brutes), en faisant:
Dans notre exemple:
u = - 0.14064 / (2 * -0.00124) = 56.7
t = 1 / racine de (-2 * -0.00124) = 20.1
c = exp [-1.57616 + (0.14064 * 56.7) + (-0.00124 * 56.72)] = 11.2
Bidonia exemplaris a donc son optimum à 56.7% d'humidité, elle se tient de préférence entre 36.6 et 76.8% d'humidité, et sa densité à l'optimum est de 11 (individus par cm2, si c'est dans cette unité que les données brutes ont été utilisées).
Avec ces résultats, on peut écrire l'équation de la courbe de Gauss ajustant les données brutes:
z étant la valeur d'abondance (brute) de Bidonia et x la valeur d'humidité. Donc, dans notre exemple:
Le graphe de la courbe de Gauss aurait cette allure (avec l'illustration des divers paramètres que nous avons calculés):
Faut-il insister sur l'élégance de cette démarche? Apparemment oui, car il semble qu'elle soit méconnue... Les équations présentées ici sont tirées du manuel de Jongman, ter Braak et van Tongeren (1995).
Remarque: lorsque la variable explicative X est une coordonnée spatiale, on la centre sur sa moyenne avant de construire le polynôme et de faire la régression, pour éviter que les termes successifs soient trop corrélés entre eux. Idem pour l'analyse des surfaces théoriques exposée ci-dessous.
La régression polynomiale forme aussi la base de la méthode la plus simple d'analyse spatiale: l'analyse des surfaces théoriques (trend surface analysis en anglais). Cette technique consiste à modéliser la distribution spatiale d'une variable dépendante Z à l'aide d'un polynôme des coordonnées X et Y des observations. L'idée est d'estimer la valeur d'une variable sur la base de sa localisation.
La technique est la même que celle de la régression polynomiale ci-dessus, à ceci près que l'ajout d'un ordre doit se faire pour les deux dimensions spatiales:
Ordre 1:
Ordre 2:
Ordre 3:
Voici un exemple de surface de surface théorique du deuxième ordre (une parabole est ajustée sur chacune des deux variables explicatives):