Contents
Les valeurs aberrantes sont des valeurs de données qui diffèrent grandement de la majorité d’un ensemble de données. Ces valeurs se situent en dehors d’une tendance générale présente dans les données. Un examen attentif d’un ensemble de données pour rechercher des valeurs aberrantes pose quelques difficultés. Bien qu’il soit facile de voir, éventuellement à l’aide d’un stemplot, que certaines valeurs diffèrent du reste des données, dans quelle mesure la valeur doit-elle être différente pour être considérée comme une valeur aberrante ? Nous examinerons une mesure spécifique qui nous donnera une norme objective de ce qui constitue une valeur aberrante.
Interquartile
L’écart interquartile est ce que nous pouvons utiliser pour déterminer si une valeur extrême est effectivement une valeur aberrante. L’intervalle interquartile est basé sur une partie du résumé en cinq chiffres d’un ensemble de données, à savoir le premier quartile et le troisième quartile. Le calcul de l’intervalle interquartile implique une seule opération arithmétique. Tout ce que nous avons à faire pour trouver l’écart interquartile est de soustraire le premier quartile du troisième quartile. La différence qui en résulte nous indique l’étendue de la moitié centrale de nos données.
Déterminer les valeurs aberrantes
En multipliant l’écart interquartile (IQR) par 1,5, on peut déterminer si une certaine valeur est une valeur aberrante. Si nous soustrayons 1,5 x IQR du premier quartile, toute valeur inférieure à ce nombre est considérée comme une valeur aberrante. De même, si nous ajoutons 1,5 x IQR au troisième quartile, toutes les valeurs de données qui sont supérieures à ce nombre sont considérées comme des valeurs aberrantes.
De fortes valeurs aberrantes
Certaines valeurs aberrantes montrent un écart extrême par rapport au reste d’un ensemble de données. Dans ces cas, nous pouvons prendre les mesures ci-dessus, en ne modifiant que le nombre par lequel nous multiplions l’IQR, et définir un certain type de valeur aberrante. Si nous soustrayons 3,0 x IQR du premier quartile, tout point qui se trouve en dessous de ce nombre est appelé une forte valeur aberrante. De la même manière, l’ajout de 3,0 x IQR au troisième quartile nous permet de définir de fortes valeurs aberrantes en examinant les points qui sont supérieurs à ce nombre.
Faibles valeurs aberrantes
Outre les valeurs aberrantes fortes, il existe une autre catégorie pour les valeurs aberrantes. Si la valeur d’une donnée est une valeur aberrante, mais pas une valeur aberrante forte, alors nous disons qu’il s’agit d’une valeur aberrante faible. Nous examinerons ces concepts en explorant quelques exemples.
Exemple 1
Tout d’abord, supposons que nous ayons l’ensemble de données {1, 2, 2, 3, 3, 4, 5, 5, 9}. Le chiffre 9 semble certainement être une valeur aberrante. Il est beaucoup plus grand que toute autre valeur du reste de l’ensemble. Pour déterminer objectivement si le chiffre 9 est une valeur aberrante, nous utilisons les méthodes ci-dessus. Le premier quartile est 2 et le troisième quartile est 5, ce qui signifie que l’écart interquartile est 3. Nous multiplions l’écart interquartile par 1,5, obtenant ainsi 4,5, puis nous ajoutons ce nombre au troisième quartile. Le résultat, 9,5, est supérieur à toutes les valeurs de nos données. Il n’y a donc pas de valeurs aberrantes.
Exemple 2
Nous examinons maintenant le même ensemble de données qu’auparavant, à l’exception du fait que la valeur la plus élevée est 10 plutôt que 9 : {1, 2, 2, 3, 3, 4, 5, 5, 10}. Le premier quartile, le troisième quartile et l’intervalle interquartile sont identiques à l’exemple 1. Lorsque nous ajoutons 1,5 x IQR = 4,5 au troisième quartile, la somme est de 9,5. Comme 10 est supérieur à 9,5, il est considéré comme une valeur aberrante.
Le chiffre 10 est-il une valeur aberrante forte ou faible ? Pour cela, il faut considérer 3 x IQR = 9. Lorsque nous ajoutons 9 au troisième quartile, nous obtenons une somme de 14. Comme 10 n’est pas supérieur à 14, il ne s’agit pas d’une valeur aberrante forte. Nous concluons donc que 10 est une valeur aberrante faible.
Raisons de l’identification des valeurs aberrantes
Nous devons toujours être à l’affût des valeurs aberrantes. Parfois, elles sont causées par une erreur. D’autres fois, les valeurs aberrantes indiquent la présence d’un phénomène inconnu auparavant. Une autre raison pour laquelle nous devons faire preuve de diligence dans la recherche de valeurs aberrantes est que toutes les statistiques descriptives sont sensibles aux valeurs aberrantes. La moyenne, l’écart-type et le coefficient de corrélation des données appariées ne sont que quelques-uns de ces types de statistiques.