Qu’est-ce que le « bootstrapping » en matière de statistiques ?

Contents

Le bootstrapping est une technique statistique qui s’inscrit dans le cadre plus large du rééchantillonnage. Cette technique implique une procédure relativement simple mais répétée tellement de fois qu’elle dépend fortement des calculs informatiques. Le bootstrapping fournit une méthode autre que les intervalles de confiance pour estimer un paramètre de population. Le bootstrapping semble fonctionner comme par magie. Lisez la suite pour voir comment il obtient son nom intéressant.

Une explication du bootstrapping

L’un des objectifs des statistiques inférentielles est de déterminer la valeur d’un paramètre d’une population. Il est généralement trop coûteux, voire impossible, de la mesurer directement. C’est pourquoi nous utilisons l’échantillonnage statistique. Nous échantillonnons une population, nous mesurons une statistique de cet échantillon, puis nous utilisons cette statistique pour dire quelque chose sur le paramètre correspondant de la population.

Par exemple, dans une chocolaterie, on peut vouloir garantir que les barres de chocolat ont un poids moyen particulier. Il n’est pas possible de peser chaque barre de chocolat produite, c’est pourquoi nous utilisons des techniques d’échantillonnage pour choisir au hasard 100 barres de chocolat. Nous calculons la moyenne de ces 100 barres de chocolat et disons que la moyenne de la population se situe dans une marge d’erreur par rapport à la moyenne de notre échantillon.

Supposons que quelques mois plus tard, nous voulions savoir avec plus de précision – ou moins de marge d’erreur – quel était le poids moyen des barres de chocolat le jour où nous avons échantillonné la chaîne de production. Nous ne pouvons pas utiliser les barres de chocolat d’aujourd’hui, car trop de variables sont entrées en ligne de compte (différents lots de lait, de sucre et de fèves de cacao, différentes conditions atmosphériques, différents employés sur la ligne, etc.) ). Tout ce que nous avons du jour dont nous sommes curieux, ce sont les 100 poids. Sans machine à remonter le temps, il semblerait que la marge d’erreur initiale soit la meilleure que nous puissions espérer.

A lire :  Comment utiliser la règle du complément dans les statistiques

Heureusement, nous pouvons utiliser la technique du bootstrapping. Dans ce cas, nous procédons à un échantillonnage aléatoire avec remplacement parmi les 100 poids connus. Nous appelons alors cela un échantillon bootstrap. Comme nous autorisons le remplacement, cet échantillon bootstrap n’est probablement pas identique à notre échantillon initial. Certains points de données peuvent être dupliqués, et d’autres points de données parmi les 100 premiers peuvent être omis dans un échantillon bootstrap. Avec l’aide d’un ordinateur, des milliers d’échantillons bootstrap peuvent être construits en un temps relativement court.

Un exemple

Comme nous l’avons mentionné, pour utiliser véritablement les techniques de bootstrap, nous devons utiliser un ordinateur. L’exemple numérique suivant aidera à démontrer le fonctionnement du processus. Si nous commençons avec l’échantillon 2, 4, 5, 6, 6, alors tous les exemples suivants sont des exemples de bootstrap possibles :

  • 2 ,5, 5, 6, 6
  • 4, 5, 6, 6, 6
  • 2, 2, 4, 5, 5
  • 2, 2, 2, 4, 6
  • 2, 2, 2, 2, 2
  • 4,6, 6, 6, 6

Histoire de la technique

Les techniques de bootstrap sont relativement nouvelles dans le domaine des statistiques. La première utilisation a été publiée en 1979 dans un article de Bradley Efron. Avec l’augmentation de la puissance de calcul et la baisse des coûts, les techniques bootstrap se sont répandues.

Pourquoi le nom Bootstrapping ?

Le nom « bootstrapping » vient de la phrase « se soulever par ses bootstraps ». Il s’agit d’une chose absurde et impossible. Essayez autant que possible, vous ne pouvez pas vous soulever en l’air en tirant sur des morceaux de cuir de vos bottes.

A lire :  Quelle est la différence entre la variance et l'écart-type ?

Il existe une théorie mathématique qui justifie les techniques de bootstrapping. Cependant, l’utilisation du bootstrapping donne l’impression de faire l’impossible. Bien qu’il ne semble pas que vous puissiez améliorer l’estimation d’une statistique de population en réutilisant le même échantillon encore et encore, le bootstrapping peut, en fait, le faire.

Bouton retour en haut de la page

Adblock détecté

Veuillez désactiver votre bloqueur de publicités pour pouvoir visualiser le contenu de la page. Pour un site indépendant avec du contenu gratuit, c’est une question de vie ou de mort d’avoir de la publicité. Merci de votre compréhension!