Contents
Étant donné une séquence de données, on peut se demander si cette séquence est le fruit du hasard ou si les données ne sont pas aléatoires. Le caractère aléatoire est difficile à identifier, car il est très difficile d’examiner simplement les données et de déterminer si elles ont été produites par le seul hasard ou non. Une méthode qui peut être utilisée pour aider à déterminer si une séquence s’est réellement produite par hasard est appelée le test de marche.
Le test des runs est un test de signification ou un test d’hypothèse. La procédure de ce test est basée sur une série, ou une séquence, de données qui présentent une caractéristique particulière. Pour comprendre le fonctionnement du test de runs, nous devons d’abord examiner le concept de run.
Séquences de données
Nous commencerons par examiner un exemple de courses. Considérons la séquence suivante de chiffres aléatoires :
6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5
Une façon de classer ces chiffres est de les diviser en deux catégories, soit paires (y compris les chiffres 0, 2, 4, 6 et 8), soit impaires (y compris les chiffres 1, 3, 5, 7 et 9). Nous allons examiner la séquence des chiffres aléatoires et désigner les nombres pairs par E et les nombres impairs par O :
E E E E E E E E E E E E E E E O O
Les pistes sont plus faciles à voir si nous réécrivons ceci de manière à ce que tous les O soient ensemble et tous les E soient ensemble :
EE OE OO EEEEEE O EE OO
Nous comptons le nombre de blocs de nombres pairs ou impairs et nous voyons qu’il y a un total de dix passages pour les données. Quatre passages ont une longueur de un, cinq ont une longueur de deux et un a une longueur de cinq
Conditions
Pour tout test de signification, il est important de savoir quelles sont les conditions nécessaires pour effectuer le test. Pour le test des runs, nous pourrons classer chaque valeur de données de l’échantillon dans l’une des deux catégories. Nous compterons le nombre total de passages par rapport au nombre de valeurs de données qui entrent dans chaque catégorie.
Il s’agira d’un test bilatéral. La raison en est qu’un nombre trop faible de passages signifie qu’il n’y a probablement pas assez de variation et le nombre de passages qui se produirait à partir d’un processus aléatoire. Il y aura trop de passages lorsqu’un processus alterne entre les catégories trop fréquemment pour être décrit par hasard.
Hypothèses et valeurs P
Tout test de signification comporte une hypothèse nulle et une hypothèse alternative. Pour le test des runs, l’hypothèse nulle est que la séquence est une séquence aléatoire. L’hypothèse alternative est que la séquence des données de l’échantillon n’est pas aléatoire.
Un logiciel statistique peut calculer la valeur p qui correspond à une statistique de test particulière. Il existe également des tableaux qui donnent les nombres critiques à un certain niveau de signification pour le nombre total de passages.
Exemple de test
L’exemple suivant nous permettra de voir comment fonctionne le test de marche. Supposons que, pour un devoir, on demande à un élève de tirer à pile ou face 16 fois et de noter l’ordre des têtes et des queues qui sont apparues. Si nous nous retrouvons avec cet ensemble de données :
H T H H H T H T H T H H T H H H
Nous pouvons demander si l’étudiant a réellement fait ses devoirs ou s’il a triché et a écrit une série de H et T qui semblent aléatoires ? Le test des runs peut nous aider. Les hypothèses sont satisfaites pour le test des runs car les données peuvent être classées en deux groupes, soit une tête, soit une queue. Nous continuons en comptant le nombre de runs. En les regroupant, nous voyons ce qui suit :
H T HHH TT H TT H T H H H
Il y a dix runs pour nos données avec sept queues sont neuf têtes.
L’hypothèse nulle est que les données sont aléatoires. L’autre hypothèse est qu’elles ne sont pas aléatoires. Pour un niveau de signification de alpha égal à 0,05, nous constatons en consultant le tableau approprié que nous rejetons l’hypothèse nulle lorsque le nombre de passages est soit inférieur à 4, soit supérieur à 16. Comme nos données comportent dix passages, nous ne pouvons pas rejeter l’hypothèse nulle H0.
Approximation normale
Le test des runs est un outil utile pour déterminer si une séquence est susceptible d’être aléatoire ou non. Pour un grand ensemble de données, il est parfois possible d’utiliser une approximation normale. Cette approximation normale nous oblige à utiliser le nombre d’éléments dans chaque catégorie, puis à calculer la moyenne et l’écart-type de la distribution normale appropriée.