Statistiques
Élaborer une série de statistiques consiste à choisir dans une population, un échantillon représentatif et à se poser une question : Qui est le caractère statistique ?
Afin de remplir le tableau des effectifs suivant :

Exemple : On à demandé à 125 personnes de qualifier la qualité de l'eau, on obtient les résultats suivants :

Il existe deux types de caractères :
Caractère qualitatif :
Lorsque le caractère étudié n'est pas un ensemble de nombres.
Exemple : On a demandé à 30 individus quel sport ils pratiquent, on obtient les résultats suivants :

On représente usuellement cette série statistique sous forme de diagramme circulaire:

Caractère quantitatif
Lorsque le caractère étudié est un ensemble de nombres.
On ordonne cette série en rangeant le caractère dans l'ordre croissant.
Il en existe deux types :
Caractère quantitatif discret
Une variable est dite discrète lorsque ce sont des valeurs isolées (pas des intervalles)
Exemple : On a demandé à 36 familles combien ils avaient d'enfants

On représente usuellement cette série statistique sous forme de diagramme bâton
Caractère quantitatif continu
Une variable est dite continue lorsqu'elle est sous forme d'un intervalle I.
Exemple : On relève la taille des élèves d'une classe de 30 élèves

On représente usuellement cette série statistique sous forme d'un histogramme

Remarques :
Les intervalles n'ont pas forcément la même amplitude : dans ce cas il faut réaliser un histogramme selon les aires
Une série statistiques donnée sous forme de classes n'est pas forcément à caractère continu. Si les observations d'une série sont nombreuse, on peut regrouper en intervalles pour "réduire" le tableau.
Paramètres de position et de dispersion
Mode
Le mode d'une série statistique est la valeur du caractère dont l'effectif est le plus grand. Il peut y avoir plusieurs modes
Exemples du nombre d'enfants :
L'effectif le plus grand est 15, son caractère est 2

Le mode de cette série est 2
Médiane
La médiane d'une série est une valeur m du caractère qui partage en deux groupes de même effectif. On obtient au moins 50% des effectifs en dessous de cette valeur m, et au moins 50% des effectifs au dessus de cette valeur m.
Pour obtenir la médiane, il suffit de déterminer si l'effectif total n est pair ou impair.
Si n est un nombre pair, on calcule n/2 = valeur à aller chercher (!)
Exemple :
On a obtenu la série statistique suivante :
1 ; 3 ; 3 ; 7 ; 8 ; 14 ; 15 ; 15 ; 15 ; 16 ; 17 ; 19 ; 23 ; 31
On a n = 14
Soit m = 14 / 2 = 7ème valeur
La 7ème valeur est 15, d'où m = 15
Si n est un nombre impair, on calcule ( n + 1 ) / 2 = valeur à aller chercher (!)
Exemple :
On a obtenu la série statistique suivante :
1,3 ; 1,4 ; 1,6 ; 2 ; 2,4 ; 2,4 ; 3,6 ; 3,8 ; 3,9
On a n = 9
Soit m = (9 + 1) / 2 = 10/2 = 5ème valeur
La 5ème valeur est 2,4, d'où m = 2,4
Quartiles
Pour trouver les quartiles, il suffit de réaliser 2 calculs
Premier quartile Q1
On commence par calculer
n x 1/4 = nombre de valeurs en dessous de Q1
n x 3/4 = nombre de valeurs au dessus de Q1
Il faut au moins 25% des effectifs en dessous de Q1 et au moins 75% des effectifs au dessus de Q1
Troisième quartile Q3
On commence par calculer
n x 1/4 = nombre de valeurs au dessus de Q3
n x 3/4 = nombre de valeurs en dessous de Q3
Il faut au moins 25% des effectifs au dessus de Q3 et au moins 75% des effectifs en dessous de Q3
Déciles
Pour trouver les déciles il suffit de réaliser 2 calculs
Premier décile d1
n x 1/10 = nombre de valeurs en dessous de d1
n x 9/10 = nombre de valeurs au dessus de d1
Il faut au moins 10% des effectifs en dessous de d1 et au moins 90% des effectifs au dessus de d1
Troisième quartile d9
On commence par calculer
n x 1/10 = nombre de valeurs au desus de d9
n x 9/10 = nombre de valeurs en dessous de d9
Il faut au moins 10% des effectifs au dessus de d9 et au moins 90% des effectifs en dessous de d9
(!) Dans le cas d'une variable quantitative continue (intervalles), pour trouver la médiane, les quartiles, les déciles, il faut réaliser un polygone des effectifs cumulés. Et de récupere les abscisses des points d'ordonnée 50% pour la médiane, 25% pour Q1, 75% pour Q3, 10% pour d1 et 90% pour d3 (!)
Pour trouver l'intervalle interquartile : Q3 - Q1
Boîte à moustache
La boîte à moustache est une représentation permettant de regrouper toutes les données calculées précédemment.
Exemple :
Soit la série suivante :
7 ; 10 ; 12 ; 12 ; 12 ; 14 ; 15 ; 17 ; 19 ; 19 ; 20
On commence par calculer la moyenne x = 14,27
On calcule la médiane:
n = 11 d'où m = (11 + 1) / 2 = 12 / 2 = 6ème valeur
Soit m = 14
On calcule Q1 :
n x 1/4 = 11/ 4 = 2,75 soit 3 valeurs
n x 3/4 = 33/4 = 8,25 soit 9 valeurs
Il faut donc 3 valeurs < Q1 et 9 valeurs > Q1
Q1 = 12
On calcule Q3 :
Il faut 3 valeurs > Q3 et 9 valeurs < Q3
Q3 = 19
On calcule d1 :
n x 1/10 = 11/10 = 1,1 soit 2 valeurs
n x 9/10 = 99/10 = 9,9 soit 10 valeurs
Il faut donc 2 valeurs < d1 et 10 valeurs > d1
d1 = 10
On calcule d9 :
n x 1/10 = 11/10 = 1,1 soit 2 valeurs
n x 9/10 = 99/10 = 9,9 soit 10 valeurs
Il faut donc 2 valeurs > d9 et 10 valeurs < d9
d9 = 19
On représente les résultas obtenus sous la forme d'une boîte à moustache

Variances et écarts types
La variance et l'écart type sont des caractéristiques de dispersion autour de la moyenne.
Soit x1, x2, x3......xp les valeurs prises par le caractère d'une série statistique d'effectifs respectifs n1, n2, n3......np
On note N l'effectif total
La variance est la moyenne arithmétique des carrés des écarts des valeurs à la moyenne, elle est donnée par :

La variance est donnée par V = 1/N x (n1 x (x1 - x̄1))² + (n2 x (x2 - x̄1)² + (n3 x (x3 - x̄1))² + ........ + (np x (xp - x̄1))²
L'écart type est la variance σ au carré σ = √ V