Contents
Dans l’étude des statistiques, il est souvent important d’établir des liens entre différents sujets. Nous en verrons un exemple dans lequel la pente de la droite de régression est directement liée au coefficient de corrélation. Comme ces deux concepts impliquent des lignes droites, il est tout à fait naturel de se poser la question suivante : « Quel est le rapport entre le coefficient de corrélation et la ligne des moindres carrés ?
Tout d’abord, nous allons examiner le contexte de ces deux sujets.
Détails concernant la corrélation
Il est important de se rappeler les détails relatifs au coefficient de corrélation, qui est désigné par r. Cette statistique est utilisée lorsque nous avons couplé des données quantitatives. À partir d’un nuage de données appariées, nous pouvons rechercher des tendances dans la distribution globale des données. Certaines données appariées présentent un schéma linéaire ou rectiligne. Mais en pratique, les données ne suivent jamais exactement une ligne droite.
Plusieurs personnes regardant le même nuage de points de données appariées ne seraient pas d’accord sur la mesure dans laquelle il est proche de montrer une tendance linéaire globale. Après tout, nos critères à cet égard peuvent être quelque peu subjectifs. L’échelle que nous utilisons pourrait également affecter notre perception des données. Pour ces raisons et d’autres encore, nous avons besoin d’une mesure objective pour déterminer dans quelle mesure nos données appariées sont proches d’une tendance linéaire. Le coefficient de corrélation nous permet d’atteindre cet objectif.
Voici quelques données de base sur la r :
- La valeur de r varie entre tout nombre réel de -1 à 1.
- Des valeurs de r proches de 0 impliquent qu’il y a peu ou pas de relation linéaire entre les données.
- Des valeurs de r proches de 1 impliquent qu’il existe une relation linéaire positive entre les données. Cela signifie que plus x augmente, plus y augmente aussi.
- Des valeurs de r proches de -1 impliquent qu’il existe une relation linéaire négative entre les données. Cela signifie que plus x augmente, plus y diminue.
La pente de la ligne des moindres carrés
Les deux derniers éléments de la liste ci-dessus nous indiquent la pente de la ligne des moindres carrés de la meilleure adéquation. Rappelons que la pente d’une ligne est une mesure du nombre d’unités qu’elle monte ou descend pour chaque unité que nous déplaçons vers la droite. Parfois, cela est exprimé comme la montée de la ligne divisée par la course, ou la variation des valeurs y divisée par la variation des valeurs x.
En général, les lignes droites ont des pentes qui sont positives, négatives ou nulles. Si nous devions examiner nos lignes de régression des moindres carrés et comparer les valeurs correspondantes de r, nous constaterions que chaque fois que nos données ont un coefficient de corrélation négatif, la pente de la ligne de régression est négative. De même, pour chaque fois que nous avons un coefficient de corrélation positif, la pente de la droite de régression est positive.
Il devrait ressortir de cette observation qu’il y a bien un lien entre le signe du coefficient de corrélation et la pente de la ligne des moindres carrés. Il reste à expliquer pourquoi cela est vrai.
La formule pour la pente
La raison du lien entre la valeur de r et la pente de la ligne des moindres carrés est liée à la formule qui nous donne la pente de cette ligne. Pour les données appariées (x,y), nous indiquons l’écart-type des données x par sx et l’écart-type des données y par sy.
La formule de la pente a de la ligne de régression est la suivante :
Le calcul d’un écart-type consiste à prendre la racine carrée positive d’un nombre non négatif. Par conséquent, les deux écarts types de la formule de la pente doivent être non négatifs. Si nous supposons qu’il y a une certaine variation dans nos données, nous pourrons ignorer la possibilité que l’un ou l’autre de ces écarts-types soit nul. Par conséquent, le signe du coefficient de corrélation sera le même que le signe de la pente de la droite de régression.