Le medie esprimono il bisogno di sintetizzare una serie di dati in uno solo. Danno un’idea di ‘intorno a dove’ si accentra la distribuzione.


Sai ched'è la statistica? È `na cosa
che serve pe' fa' un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che sposa.
Ma pe' me la statistica curiosa
è dove c'entra la percentuale,
pe' via che lì, la media è sempre uguale
puro co' la persona bisognosa.
Me spiego: da li conti che se fanno
seconno le statistiche d'adesso
risurta che te tocca un pollo all'anno,
e, se nun entra nelle spese tue,
t'entra ne la statistica lo stessa
perché c'è un antro che se ne magna due.

  Trilussa, Sonetti
 

In generale una media di dati è quel numero che si può sostituire a ciascun singolo dato conservando inalterata una predeterminata caratteristica globale di quei dati. Si può dimostrare (si veda B. de Finetti Paradossi sulle medie, Periodico di Metematiche 1966, ristampa INDUZIONI 1990) che tra le diverse medie sussiste la relazione d’ordine:
media armonica < media geometrica < media aritmetica < media quadratica.

Media aritmetica

Rappresenta il valore m che sostituito ai dati x1, x2, ..., xn mantiene invariata la somma. E' dunque la somma di tutti i dati divisa per il loro numero.
Date le frequenze fi dei dati xi si può scrivere m = S(xi·fi)/Sfi.
E' una buona misura di tendenza centrale per distribuzioni decisamente simmetriche ma può fuorviare in caso di distribuzioni non simmetriche poiché può essere influenzata grandemente dai dati estremi; in questi casi può essere più appropriata la mediana, ad esempio per distribuzioni come il tempo di reazione o i redditi delle famiglie. La somma dei quadrati delle deviazioni dei risultati dalla loro media è minore della somma dei quadrati delle deviazioni da qualunque altro numero. Per distribuzioni normali la media è la più efficiente e perciò meno sensibile alle fluttuazioni dei dati.

Se Y = bX + a, si calcola facilmente che la media di Y è b·mx , dove mx è la media di X.

Media quadratica

Rappresenta il valore m che dovrebbero avere i dati x1, x2, ..., xn se fossero tutti uguali perchè la somma dei loro quadrati resti invariata. Perciò è la radice quadrata della media dei quadrati dei dati: m = \|¯S(xi²·fi)/Sfi . E' utile la media quadratica degli scarti come indice di distribuzione.

Media geometrica

Rappresenta il valore m che dovrebbero avere i dati x1, x2, ..., xn se fossero tutti uguali perchè il prodotto dei loro valori resti invariato. E' dunque la radice n-esima dei prodotti dei dati. Il suo logaritmo è la media dei logaritmi dei dati. Se uno dei dati è negativo la media geometrica non ha senso; se uno dei dati è nullo, nulla è anche la media geometrica. E' meno sensibile della media ai dati estremi ed è un utile indice centrale per dati sbilanciati verso l'alto.

Media armonica

Rappresenta il valore che dovrebbero avere i dati x1, x2, ..., xn se fossero tutti uguali perchè la somma dei loro reciproci resti invariata. Dunque 1/m = 1/x1 + 1/x2 +...+1/ xn.

Mediana

E' il valore in mezzo: metà dei dati è maggiore della mediana, l'altra metà inferiori. La mediana è meno sensibile ai valori estremi della media aritmetica ed è così un indice centrale preferibile quando i dati sono fortemente sbilanciati. La somma delle deviazioni assolute dalla mediana è minore delle deviazioni assolute da qualunque altro numero. Nelle distribuzioni simmetriche, media, mediana e moda coincidono. La media è maggiore della mediana in distribuzioni sbilanciate verso l'alto, più bassa in quelle sbilanciate verso il basso. Per calcolare la mediana occorre innanzitutto ordinare i dati in modo crescente; nel caso i dati siano in numero dispari, la mediana è semplicemente il dato al centro della lista, altrimenti la media dei due dati centrali.

Moda o Norma

E' il dato che compare più frequentemente in una distribuzione. E' naturale dunque assumerlo come misura della tendenza, come indice centrale. Si tratta inoltre del dato più rappresentativo, sebbene sia fortemente soggetto a fluttuazioni: è sconsigliabile dunque utilizzarlo come unico indice centrale. Inoltre molte distribuzioni hanno più di una moda, e vengono dette perciò "multimodali". In unaa distribuzione normale, media, mediana e moda coincidono.

Percentile

Questo concetto generalizza quello di mediana, che è il valore che delimita il primo 50% dei dati -ordinati- dai rimanenti. Se p è un numero intero tra 0 e 100, il p° percentile è il valore che delimita il primo p% dei dati -ordinati- dai rimanenti. Una classificazione in percentili è la proporzione percentuale di dati che risultano minori di quel certo dato. Ad esempio avendo ottenuto il punteggio 95 in un test di Matematica, se è maggiore o uguale ai punteggi ottenuti dall'88% degli altri partecipanti al test, la classificazione in percentile sarà 88, cioè vi collocherete nell'88-esimo percentile

Media aggiustata

E' calcolata, dopo aver scartato una certa percentuale dei dati più bassi e più alti, come media dei rimanenti. Ad esempio una media aggiustata al 50% si calcola scartando il 25% dei dati minori e il 25% di quelli maggiori e calcolando poi la media dei restanti. La mediana è la media aggiustata al 100% mentre la media aritmetica è la media aggiustata allo 0%. Ovviamente una tale media, essendo meno sensibile ai dati estremi, è preferibile alla media per distribuzioni sbilanciate, meno efficace invece per distribuzioni normali. La media aggiustata è usata spesso nei punteggi finali di gara olimpiche per rendere minimo l'effetto di valutazioni di giudici non imparziali.

Trimedia

E' calcolata sommando il 25° percentile al doppio del 50° percentile e al 75° percentile e dividendo per quattro. La trimedia è resistente ai dati estremi quasi come la mediana, ma meno efficace della media per distribuzioni normali. In generale è comunque un buon indice centrale e probabilmente non è usata quanto si dovrebbe.


pagina a cura di Roberto Ricci , Liceo S. "A.Righi" Bologna. Ultima revisione