Contents
La régression linéaire est un outil statistique qui détermine dans quelle mesure une ligne droite correspond à un ensemble de données appariées. La ligne droite qui correspond le mieux à ces données est appelée ligne de régression des moindres carrés. Cette ligne peut être utilisée de plusieurs façons. L’une d’entre elles consiste à estimer la valeur d’une variable de réponse pour une valeur donnée d’une variable explicative. A cette idée est liée celle d’un résidu.
Les résidus sont obtenus en effectuant une soustraction. Il suffit de soustraire la valeur prévue de y de la valeur observée de y pour un x particulier. Le résultat est appelé un résidu.
Formule pour les résidus
La formule pour les résidus est simple :
Résidu = observé y – prédit y
Il est important de noter que la valeur prédite provient de notre ligne de régression. La valeur observée provient de notre ensemble de données.
Exemples
Nous illustrerons l’utilisation de cette formule par un exemple. Supposons que l’on nous donne l’ensemble de données appariées suivant :
(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)
En utilisant un logiciel, nous pouvons voir que la ligne de régression des moindres carrés est y = 2x. Nous l’utiliserons pour prédire les valeurs de chaque valeur de x.
Par exemple, lorsque x = 5, nous voyons que 2(5) = 10. Cela nous donne le point le long de notre ligne de régression qui a une coordonnée x de 5.
Pour calculer le résidu aux points x = 5, nous soustrayons la valeur prédite de notre valeur observée. Puisque la coordonnée y de notre point de données était 9, cela donne un résidu de 9 – 10 = -1.
Dans le tableau suivant, nous voyons comment calculer tous nos résidus pour cet ensemble de données :
X
Observé y
Prévu y
Résidu
1
2
2
0
2
3
4
-1
3
7
6
1
3
6
6
0
4
9
8
1
5
9
10
-1
Caractéristiques des résidus
Maintenant que nous avons vu un exemple, il y a quelques caractéristiques des résidus à noter :
- Les résidus sont positifs pour les points qui se situent au-dessus de la ligne de régression.
- Les résidus sont négatifs pour les points qui se situent en dessous de la ligne de régression.
- Les valeurs résiduelles sont nulles pour les points qui se situent exactement le long de la ligne de régression.
- Plus la valeur absolue du résidu est grande, plus le point se trouve éloigné de la ligne de régression.
- La somme de tous les résidus doit être égale à zéro. Dans la pratique, il arrive que cette somme ne soit pas exactement nulle. La raison de cet écart est que les erreurs d’arrondi peuvent s’accumuler.
Utilisations des résidus
Il existe plusieurs utilisations des résidus. L’une d’entre elles consiste à nous aider à déterminer si nous disposons d’un ensemble de données présentant une tendance linéaire globale ou si nous devons envisager un modèle différent. La raison en est que les résidus aident à amplifier tout modèle non linéaire dans nos données. Ce qui peut être difficile à voir en regardant un nuage de points peut être plus facilement observé en examinant les résidus, et un diagramme résiduel correspondant.
Une autre raison de considérer les résidus est de vérifier que les conditions d’inférence pour la régression linéaire sont remplies. Après la vérification d’une tendance linéaire (en contrôlant les résidus), nous vérifions également la distribution des résidus. Afin de pouvoir effectuer l’inférence de régression, nous voulons que les résidus concernant notre ligne de régression soient approximativement distribués normalement. Un histogramme ou un stemplot des résidus permettra de vérifier que cette condition est remplie.