ESTIMATION

Estimateurs

Intervalle de confiance

Distributions se rapportant au centrage et à la dispersion des échantillons

* Dans la vie courante, on est souvent amené à estimer quelque chose : la valeur d'un produit, le poids d'un paquet, la route et le cap à suivre pour un navigateur, le temps de trajet d'une ville à une autre, etc.

* Cela peut consister tout simplement à fournir une valeur qui, à notre avis, est la valeur réelle.; on fait alors une estimation ponctuelle.

* Pour affiner l'estimation, on propose parfois, plutôt qu'une valeur unique, un intervalle dans lequel la valeur estimée "a de grandes chances", de se trouver ; on fait une estimation par intervalle.

- 1 - Estimateur.


- 1-1 - Estimateur biaisé - efficace.

* un estimateur est un paramètre d'échantillon utilisé pour "estimer" la valeur d'un paramètre statistique de la population.

* si l'estimateur a même moyenne que le paramètre à estimer, on dit que cet estimateur est non biaisé. Dans le cas contraire, on dit qu'il est dit biaisé.

* exemple :

* de deux estimateurs non biaisés, le plus efficace est celui ayant la plus petite variance.

- 1-2 - Estimateur de l'écart type.

* On a déjà vu que l'on peut prendre la moyenne X d'échantillon comme estimateur de la moyenne m d'une population ; de plus cet estimateur est non biaisé.

* En ce qui concerne l'estimation de l'écart type s d'une population, on prendra aussi l'écart type s d'échantillon ; mais comme cet estimateur est biaisé (c'est à dire que sa moyenne n'est pas égale à s), on doit le corriger en le multipliant par un terme correctif : (n/(n-1))1/2 de telle sorte que s* = s n1/2/(n-1)1/2 ait pour moyenne s.

* On notera que pour les échantillons de taille supérieure à 100, le terme correctif n1/2/(n-1)1/2 = 1,005 est très proche de 1 ce qui peut justifier de prendre s* = s. En revanche , pour n = 30, limite basse prise plus haut pour la définition des "grands échantillons", le terme correctif vaut 1,017 et ne peut pas être systématiquement négligé.

- 2 - Intervalle de confiance

* considérons la statistique S (Xi ou si ou fi ) dont la distribution d'échantillonnage est normale. Le raisonnement développé ici restera cependant tout à fait valable pour toute autre distribution, dès lors qu'elle est tabulée.

* d'après la loi de distribution normale :

Les intervalles de confiance.

m(S) - s(S) < S < m(S) + s(S) ----> 68,27%

m(S) - 2s(S) < S < m(S) + 2s S) ---> 95,45%

m(S) - 3s(S) < S < m(S) + 3s(S) --> 99,73%

* Les intervalles symétriques par rapport au centre de symétrie(moyenne), sont appelés "intervalles de confiance" ; ainsi l'intervalle de confiance à 68,27 % est de largeur 2s , celui à 95,45 % de largeur 4s et celui à 99,73 % de largeur 6s.

* Les valeurs limites de ces intervalles, appelées "limites de confiance", sont respectivement : m(S) ± 1s (S) , m(S) ± 2s (S) , m(S) ± 3s (S).

On les note : m(S) ± Zc s (S) , avec Zc "coefficient de confiance".

* Les valeurs : 68,3% , 95,4% ", 99,73% sont les "seuils de confiance" ou aussi "niveaux de confiance"(Nc).

* Tableau de correspondance entre les seuils de confiance(Nc) et les coeff. de confiance(Zc), dans le cas de distributions normales et pour des intervalles de confiance bilatéraux symétriques.

Seuil de confiance Nc

99,73%

99,00%

98.00%

96,00%

95,45%

95.00%

90,00%

68,27%

50,00%

Zc

3,00

2,58

2,33

2,05

2,00

1,96

1,64

1,00

0,67

* On a défini ci dessus des intervalles de confiance bilatéraux, c'est à dire tels que la probabilité pour que la variable soit hors de cet intervalle est a = 1 - Nc ; de plus ces intervalles sont symétriques et ont des limites finies "centrées" sur la moyenne de la distribution.

Intervalle de confiance bilatéral.

* Si, "pour simplifier", on considère que toutes les valeurs de X sont comprises dans l'intervalle de confiance à Nc, on néglige d'office celles situées à l'extérieur de cet intervalle, dont la probabilité est égale à a = 1 - Nc. Cette probabilité a est le risque pris en restreignant les valeurs de X à celles comprises dans l'intervalle de confiance.

* Il arrive aussi parfois que, pour un niveau de confiance donné Nc, on veuille restreindre la distribution des valeurs d'un seul coté de la distribution (à droite ou à gauche). On définit alors un intervalle "unilatéral", limité d'un côté et comportant donc de l'autre côté une borne infinie.

Intervalle de confiance unilatéral.

* Le choix entre un intervalle bilatéral et un intervalle unilatéral dépend du problème

- 3 -Distributions se rapportant au centrage et à la dispersion des échantillons.

Centrage :

Population mère quelconque

Population mère normale

Intervalle de confiance

GRANDS ÉCHANTILLONS

 

Loi de distribution des X normale

m(X) = m   sX = s/n1/2

IDEM

X = m + Zcs / n1/2

PETITS ÉCHANTILLONS

////////

s connu 

s appartient à une loi normale de moyenne

m(X) = m et d'écart type      sX = s / n1/2

   

X = m + Zcs/n1/2

Zc paramètre de confiance associé 

au niveau de confiance Nc=1-a

////////

s inconnu

t = (X-m)(n-1)1/2/ s suit

la loi de STUDENT (*) tabulée. 

m = X + t s /(n-1)1/2

t est fourni par une table

(il dépend de a et de la population n de l'échantillon)

Dispersion

Population mère quelconque

Population mère  normale

Intervalle de confiance

GRANDS ÉCHANTILLONS

 

La loi de distribution des s est normale :

Ns(s ;s /(2n)1/2)

m(s) = s ; ss= s/(2n)1/2

IDEM

s = s +/-Zcs /(2n)1/2

PETITS ÉCHANTILLONS

///////

c2 = ns2/s2 suit la loi de Pearson (**)

Ceci conduit à un intervalle de confiance pour s dans lequel c2a/2 et c21-a/2 sont fournis par une table numérique et dépendent de a et de n

s ca/2 n-1/2

< s <

s c1-a/2 n-1/2

(*) STUDENT STUDENT est le pseudonyme de William Sealy Gosset (1876-1937), statisticien anglais qui a inventé le test de Student. (**) PEARSON Karl PEARSON(1857-1936), mathématicien britannique un des fondateurs des statistiques modernes.