Contents
Supposons que nous ayons un échantillon aléatoire d’une population d’intérêt. Nous avons peut-être un modèle théorique de la manière dont la population est distribuée. Cependant, il peut y avoir plusieurs paramètres de la population dont nous ne connaissons pas les valeurs. L’estimation de la probabilité maximale est une façon de déterminer ces paramètres inconnus.
L’idée de base de l’estimation du maximum de vraisemblance est que nous déterminons les valeurs de ces paramètres inconnus. Nous le faisons de manière à maximiser une fonction de densité de probabilité conjointe associée ou une fonction de masse de probabilité. Nous verrons cela plus en détail dans ce qui suit. Nous calculerons ensuite quelques exemples d’estimation du maximum de vraisemblance.
Étapes de l’estimation de la probabilité maximale
La discussion ci-dessus peut être résumée par les étapes suivantes :
- Commencez par un échantillon de variables aléatoires indépendantes X1, X2, . . . Xn à partir d’une distribution commune, chacune ayant une fonction de densité de probabilité f(x;θ1, . . .θk). Les thétas sont des paramètres inconnus.
- Comme notre échantillon est indépendant, la probabilité d’obtenir l’échantillon spécifique que nous observons est trouvée en multipliant nos probabilités ensemble. Cela nous donne une fonction de vraisemblance L(θ1, . . .θk) = f( x1 ;θ1, . . .θk) f( x2 ;θ1, . . .θk) . . . f( xn ;θ1, . . .θk) = Π f( xi ;θ1, . . .θk).
- Ensuite, nous utilisons le calcul pour trouver les valeurs des thêta qui maximisent notre fonction de vraisemblance L.
- Plus précisément, nous différencions la fonction de vraisemblance L par rapport à θ s’il n’y a qu’un seul paramètre. S’il y a plusieurs paramètres, nous calculons des dérivées partielles de L par rapport à chacun des paramètres thêta.
- Pour poursuivre le processus de maximisation, fixez la dérivée de L (ou dérivées partielles) égale à zéro et résolvez le thêta.
- Nous pouvons ensuite utiliser d’autres techniques (comme un test de dérivée seconde) pour vérifier que nous avons trouvé un maximum pour notre fonction de vraisemblance.
Exemple
Supposons que nous ayons un paquet de graines, dont chacune a une probabilité p constante de succès de germination. Nous en plantons n et comptons le nombre de celles qui germent. Supposons que chaque graine germe indépendamment des autres. Comment déterminons-nous l’estimateur de probabilité maximale du paramètre p ?
Nous commençons par noter que chaque graine est modélisée par une distribution de Bernoulli avec un succès de p. Nous laissons X être soit 0 soit 1, et la fonction de masse de probabilité pour une seule graine est f( x ; p ) = px (1 – p)1 – x.
Notre échantillon se compose de n Xi différents, chacun d’eux ayant une distribution de Bernoulli. Les graines qui germent ont Xi = 1 et les graines qui ne germent pas ont Xi = 0.
La fonction de vraisemblance est donnée par :
L ( p ) = Π pxi (1 – p)1 – xi
Nous voyons qu’il est possible de réécrire la fonction de vraisemblance en utilisant les lois des exposants.
L ( p ) = pΣ xi (1 – p)n – Σ xi
Ensuite, nous différencions cette fonction par rapport à p. Nous supposons que les valeurs de tous les Xi sont connues, et donc constantes. Pour différencier la fonction de vraisemblance, nous devons utiliser la règle du produit avec la règle de puissance :
L’ ( p ) = Σ xip-1 +Σ xi (1 – p)n – Σ xi – (n – Σ xi )pΣ xi (1 – p)n-1 – Σ xi
Nous avons réécrit certains des exposants négatifs et nous l’avons fait :
L’ ( p ) = (1/p) Σ xipΣ xi (1 – p)n – Σ xi – 1/(1 – p) (n – Σ xi )pΣ xi (1 – p)n – Σ xi
= [(1/p) Σ xi – 1/(1 – p) (n – Σ xi)]ipΣ xi (1 – p)n – Σ xi
Maintenant, afin de poursuivre le processus de maximisation, nous fixons cette dérivée à zéro et nous résolvons pour p :
0 = [(1/p) Σ xi – 1/(1 – p) (n – Σ xi)]ipΣ xi (1 – p)n – Σ xi
Puisque p et (1- p) sont non nuls, nous avons que
0 = (1/p) Σ xi – 1/(1 – p) (n – Σ xi).
En multipliant les deux côtés de l’équation par p(1- p), on obtient
0 = (1 – p) Σ xi – p (n – Σ xi).
Nous agrandissons le côté droit et nous voyons :
0 = Σ xi – p Σ xi – p n + pΣ xi = Σ xi – p n.
Ainsi Σ xi = p n et (1/n)Σ xi = p. Cela signifie que l’estimateur du maximum de vraisemblance de p est une moyenne d’échantillon. Plus précisément, il s’agit de la proportion de l’échantillon des graines qui ont germé. Cela correspond parfaitement à ce que l’intuition nous dirait. Afin de déterminer la proportion de graines qui germeront, il faut d’abord considérer un échantillon de la population étudiée.
Modifications des étapes
Il y a quelques modifications à la liste des étapes ci-dessus. Par exemple, comme nous l’avons vu ci-dessus, il est généralement utile de passer un peu de temps à utiliser un peu d’algèbre pour simplifier l’expression de la fonction de vraisemblance. La raison en est de rendre la différenciation plus facile à réaliser.
Une autre modification de la liste des étapes ci-dessus consiste à prendre en compte les logarithmes naturels. Le maximum de la fonction L se produira au même endroit que le logarithme naturel de L. Ainsi, maximiser ln L équivaut à maximiser la fonction L.
Souvent, en raison de la présence de fonctions exponentielles dans L, prendre le logarithme naturel de L simplifiera grandement certains de nos travaux.
Exemple
Nous voyons comment utiliser le logarithme naturel en reprenant l’exemple ci-dessus. Nous commençons par la fonction de vraisemblance :
L ( p ) = pΣ xi (1 – p)n – Σ xi .
Nous utilisons alors nos lois logarithmiques et nous voyons cela :
R( p ) = ln L( p ) = Σ xi ln p + (n – Σ xi) ln(1 – p).
On voit déjà que le dérivé est beaucoup plus facile à calculer :
R'( p ) = (1/p)Σ xi – 1/(1 – p)(n – Σ xi) .
Maintenant, comme auparavant, nous fixons cette dérivée à zéro et multiplions les deux côtés par p (1 – p) :
0 = (1- p ) Σ xi – p(n – Σ xi) .
Nous résolvons pour p et trouvons le même résultat qu’auparavant.
L’utilisation du logarithme naturel de L(p) est utile d’une autre manière. Il est beaucoup plus facile de calculer une dérivée seconde de R(p) pour vérifier que nous avons bien un maximum au point (1/n)Σ xi = p.
Exemple
Pour un autre exemple, supposons que nous ayons un échantillon aléatoire X1, X2, … Xn provenant d’une population que nous modélisons avec une distribution exponentielle. La fonction de densité de probabilité pour une variable aléatoire est de la forme f( x ) = θ-1 e -x/θ
La fonction de vraisemblance est donnée par la fonction de densité de probabilité conjointe. C’est le produit de plusieurs de ces fonctions de densité :
L(θ) = Π θ-1 e -xi/θ = θ-n e -Σ xi/θ
Une fois de plus, il est utile de considérer le logarithme naturel de la fonction de vraisemblance. La différenciation de cette fonction demandera moins de travail que la différenciation de la fonction de vraisemblance :
R(θ) = ln L(θ) = ln [θ-n e -Σ xi/θ]
Nous utilisons nos lois de logarithmes et obtenons :
R(θ) = ln L(θ) = – n ln θ + -Σxi_θ
Nous nous différencions par rapport à θ et nous l’avons fait :
R'(θ) = – n / θ + Σxi/θ2
Fixez cette dérivée à zéro et nous le voyons :
0 = – n / θ + Σxi/θ2.
Multipliez les deux côtés par θ2 et le résultat est :
0 = – n θ + Σxi.
Utilisez maintenant l’algèbre pour résoudre θ :
θ = (1/n)Σxi.
On voit donc que la moyenne de l’échantillon est ce qui maximise la fonction de vraisemblance. Le paramètre θ pour s’adapter à notre modèle devrait simplement être la moyenne de toutes nos observations.
Connexions
Il existe d’autres types d’estimateurs. Un autre type d’estimation est appelé estimateur sans biais. Pour ce type d’estimation, nous devons calculer la valeur attendue de notre statistique et déterminer si elle correspond à un paramètre correspondant.