Indici di dispersione

Gli indici di dispersione esprimono quanto ciascun dato differisce dagli altri, in che misura nel complesso i dati si addensano intorno a un centro. Una piccola dispersione significa che i dati sono tutti circa uguali tra loro. Variabilità e diffusione sono sinonimi di dispersione.

Campo di variazione

E' il più semplice indice di dispersione, la differenza tra il valore più grande e quello più piccolo. Tuttavia è particolarmente sensibile ai dati estremi considerando per di più solo i due valori.Non è quasi mai usato come unico indice di dispersione ma affiancato alla deviazione standard o alla semidistanza interquartile. Si usa spesso al suo posto anche la sua metà, detta semidispersione.

Scarto semplice medio

La media degli scarti dalla media vale zero. Per scarto medio si intende la media dei valori assoluti delle differenze tra i dati e la media.

Varianza

E' la media dei quadrati degli scarti dalla media: s²= M( (X - M(X))² ). Viene solitamente usato il valore s² = S ( X-M)² /(N-1) con N numero dei dati - si vuole in questo modo trascurare uno dei dati, quello più vicino alla media -.

Scarto quadratico medio

E'la radice quadrata della varianza: s = \|¯s². Una sua caratteristica importante è che se media e scarto quadratico medio standard di una distribuzione normale sono noti è possibile calcolare il percentile associato a qualunque dato: circa il 68% dei dati stanno nell'intervallo M-s M+s e circa il 95% dei dati stanno nell'intervallo M-2s M+2s.
Se Y = bX + a, si calcola facilmente che lo scarto quadratico medio di Y è b·s_x, dove s_x è lo scarto quadratico medio di X.

Deviazione Standard

E' l'indice di dispersione più comunemente usato, poco diverso dallo scarto quadratico medio: s = \|¯s².
La deviazione standard è particolarmente usata - interviene inoltre in molte formule statistiche - anche perché è data da una formula matematicamente trattabile. Pur essendo meno sensibile del campo di variazione ai dati estremi, è più sensibile della distanza interquartile

Deviazione standard dalla media

La deviazione standard, calcolata su un gruppo di N misure, assolve bene il compito di incertezza da associare alla singola misura della grandezza in esame, mentre per quello che riguarda l'incertezza sulla media si ricorre ad un'altra grandezza ancor più idonea allo scopo.
Tale grandezza è la deviazione standard della media ed è definita come s_M = s/ \|¯N

Utilizzando questo indice d'incertezza da associare alla media di N misure si presuppone che i dati siano rilevazioni di una variabile che segue la distribuzione di Gauss considerando perciò la deviazione standard più come incertezza sulle singole misure che sulla media di quest'ultime.

La formula mostra che più grande è la dimensione del campione, più piccolo è l'errore standard della media. Aumentare la dimensione del campione di alcuni elementi fa una differenza grande quando la dimensione del campione è piccola, molto meno quando la dimensione del campione è grande. L'errore standard della media è utilizzata nel calcolo di intervalli dia fiducia e nei test di significatività perla media.

Distanza interquartile

E' calcolata come semidifferenza tra il 75° percentile [spesso indicato con (Q3)] e il 25° percentile [spesso indicato con (Q1)]; dunque : (Q3-Q1)/2. Poiché metà dei valori di una variabile aleatoria stanno tra Q3 e Q1, la semi-distanza interquartile è 1/2 della distanza necessaria per coprire metà dei dati. In una distribuzione simmetrica , un intervallo di una semi-distanza interquartile sotto la mediana e di una semi-distanza interquartile sopra la mediana conterrà metà dei dati; ciò non sarà vero invece per una distribuzione asimmetrica. La semi-distanza interquartile è poco sensibile ai valori estremi, così è una buona misura della dispersione per distribuzioni sbilanciate. Tuttavia è più sensibile alle fluttuazioni dei campioni in una distribuzione normale, più della deviazione standard e perciò non è molto usata per dati che siano distribuiti in modo approssimativamente normale.

Più in generale come indice di dispersione si può considerare lo scarto inter p-quantile, dato dal valore assoluto della differenza tra il p-quantile e l’ (1-p)-quantile:
s_p = |Q_p - Q_1-p|.
Il più utilizzato di tali indici è appunto quello che si ottiene per p=75%, lo scarto interquartile.

pagina a cura di Roberto Ricci , Liceo S. "A.Righi" Bologna. Ultima revisione