Contents
Souvent, lorsque nous étudions un groupe, nous comparons en fait deux populations. Selon le paramètre de ce groupe qui nous intéresse et les conditions auxquelles nous sommes confrontés, plusieurs techniques sont disponibles. Les procédures d’inférence statistique qui concernent la comparaison de deux populations ne peuvent généralement pas être appliquées à trois populations ou plus. Pour étudier plus de deux populations à la fois, nous avons besoin de différents types d’outils statistiques. L’analyse de variance, ou ANOVA, est une technique d’interférence statistique qui nous permet de traiter plusieurs populations.
Comparaison des moyens
Pour voir quels problèmes se posent et pourquoi nous avons besoin de l’ANOVA, nous allons considérer un exemple. Supposons que nous essayions de déterminer si les poids moyens des bonbons M&M verts, rouges, bleus et orange sont différents les uns des autres. Nous indiquerons les poids moyens pour chacune de ces populations, μ1, μ2, μ3 μ4 et respectivement. Nous pouvons utiliser le test d’hypothèse approprié plusieurs fois, et le test C(4,2), ou six hypothèses nulles différentes :
- H0 : μ1 = μ2 pour vérifier si le poids moyen de la population des bonbons rouges est différent du poids moyen de la population des bonbons bleus.
- H0 : μ2 = μ3 pour vérifier si le poids moyen de la population des bonbons bleus est différent du poids moyen de la population des bonbons verts.
- H0 : μ3 = μ4 pour vérifier si le poids moyen de la population des bonbons verts est différent du poids moyen de la population des bonbons orange.
- H0 : μ4 = μ1 pour vérifier si le poids moyen de la population des bonbons orange est différent du poids moyen de la population des bonbons rouges.
- H0 : μ1 = μ3 pour vérifier si le poids moyen de la population des bonbons rouges est différent du poids moyen de la population des bonbons verts.
- H0 : μ2 = μ4 pour vérifier si le poids moyen de la population des bonbons bleus est différent du poids moyen de la population des bonbons orange.
Ce genre d’analyse pose de nombreux problèmes. Nous aurons six valeurs p. Même si nous pouvons tester chacune d’entre elles à un niveau de confiance de 95 %, notre confiance dans le processus global est inférieure à cela parce que les probabilités se multiplient : 0,95 x 0,95 x 0,95 x 0,95 x 0,95 x 0,95 est approximativement de 0,74, soit un niveau de confiance de 74 %. Ainsi, la probabilité d’une erreur de type I a augmenté.
À un niveau plus fondamental, nous ne pouvons pas comparer ces quatre paramètres dans leur ensemble en les comparant deux à la fois. Les moyennes des M&Ms rouge et bleu peuvent être significatives, le poids moyen du rouge étant relativement plus important que celui du bleu. Toutefois, si l’on considère les poids moyens des quatre types de bonbons, il se peut qu’il n’y ait pas de différence significative.
Analyse de l’écart
Pour faire face aux situations dans lesquelles nous devons faire de multiples comparaisons, nous utilisons l’ANOVA. Ce test nous permet de considérer les paramètres de plusieurs populations à la fois, sans entrer dans certains des problèmes auxquels nous sommes confrontés en effectuant des tests d’hypothèse sur deux paramètres à la fois.
Pour effectuer une ANOVA avec l’exemple M&M ci-dessus, nous testerions l’hypothèse nulle H0:μ1 = μ2 = μ3= μ4. Celle-ci indique qu’il n’y a pas de différence entre les poids moyens des M&M rouges, bleus et verts. L’hypothèse alternative est qu’il y a une certaine différence entre les poids moyens des M&M rouges, bleus, verts et oranges. Cette hypothèse est en fait une combinaison de plusieurs affirmations Ha :
- Le poids moyen de la population des bonbons rouges n’est pas égal au poids moyen de la population des bonbons bleus, OU
- Le poids moyen de la population des bonbons bleus n’est pas égal au poids moyen de la population des bonbons verts, OU
- Le poids moyen de la population des bonbons verts n’est pas égal au poids moyen de la population des bonbons orange, OU
- Le poids moyen de la population des bonbons verts n’est pas égal au poids moyen de la population des bonbons rouges, OU
- Le poids moyen de la population des bonbons bleus n’est pas égal au poids moyen de la population des bonbons orange, OU
- Le poids moyen de la population des bonbons bleus n’est pas égal au poids moyen de la population des bonbons rouges.
Dans ce cas particulier, pour obtenir notre p-value, nous utiliserions une distribution de probabilité connue sous le nom de distribution F. Les calculs impliquant le test ANOVA F peuvent être effectués à la main, mais sont généralement calculés avec un logiciel statistique.
Comparaisons multiples
Ce qui distingue l’ANOVA des autres techniques statistiques, c’est qu’elle est utilisée pour faire de multiples comparaisons. C’est une pratique courante dans le domaine des statistiques, car il arrive souvent que l’on veuille comparer plus que deux groupes. Généralement, un test global suggère qu’il y a une sorte de différence entre les paramètres que nous étudions. Nous faisons ensuite suivre ce test d’une autre analyse pour décider quel paramètre diffère.