Pubblicato il 27 Settembre 2022Ultimo Aggiornamento: 24 Agosto 2022

La data visualization è una delle procedure più importanti quando si tratta di analizzare dei set di dati perché consente di visualizzare graficamente gli stessi e ricavarne informazioni essenziali per l’attività. Lo strumento principale a disposizione della data visualization è il grafico, che può essere declinato in varie tipologie a seconda delle singole esigenze di rappresentazione. 

Ogni grafico, infatti, può essere impiegato per un particolare tipo di dato, per sottolineare l’andamento dei dati nel tempo, per comparare categoria e così via. Tra i diversi tipi di grafico utilizzati nella data viz uno dei più interessanti, per quanto ancora poco diffuso, è il cosiddetto grafico Box and Whisker, conosciuto anche come Box Plot o con il suo nome italiano grafico a scatola e baffi.

L’obiettivo principale di un grafico a scatola e baffi è la rappresentazione della distribuzione di valori quantitativi. Rispetto al più comune istogramma, solitamente utilizzato per questo scopo, l Box Plot presenta alcuni inevitabili vantaggi, tra cui: la capacità di individuare a colpo d’occhio l’eventuale presenza di valori anomali, la possibilità di avere accesso immediatamente anche a una serie di indici di statistica descrittiva (media, mediana e percentili), la facilità nell’effettuare confronti tra più distribuzioni contemporaneamente. 

I diagrammi a scatola e baffi per la distribuzione dei valori

Ma come si presenta esattamente un box and whisker plot? Dal punto di vista grafico, in un diagramma a scatola e baffi è possibile individuare diverse parti che aiutano a rappresentare e comprendere i dati: il fulcro del grafico è la box, che raggruppa il 50% dei dati, precisamente quelli che vanno dal venticinquesimo al settantacinquesimo percentile. All’interno di questa box, una riga verticale rappresenta la mediana, vale a dire il valore corrisponde al dato centrale di tutta la distribuzione, mentre una x solitamente rappresenta la media della distribuzione e, come sappiamo, i valori di media e mediana difficilmente coincidono. 

I baffi rappresentano invece rispettivamente il quinto e il novantacinquesimo percentile: tutti i valori inferiori e superiori sono rappresentati da puntini e individuano gli outliers, dunque quei valori così estremi da essere considerati fondamentalmente anomali. 

Leggere un grafico Box and Whisker

A differenza di un banale istogramma o di uno strip plot, che ci consentono di identificare i punti e/o gli intervalli attorno o all’interno del quale si addensano determinati valori, il grafico Box Plot ci consente, in un certo senso, di fornire una serie di indicazioni aggiuntive utili all’analisi e all’interpretazione dei dati. Osservare la rappresentazione nell’insieme, infatti, consente di carpire in brevissimo tempo parecchie informazioni: si parla di distribuzione simmetrica dei valori nel caso in cui la lunghezza dei baffi e l’altezza del box sia proporzionale (in questo caso, probabilmente, media e mediana coincideranno). È molto più frequente, tuttavia, il caso delle distribuzioni asimmetriche in cui i baffi sono molto più lunghi o molto più corti della scatola, e magari anche di diversa grandezza tra loro. Nel caso di scatole molto strette, sapremo che la distribuzione è molto concentrata: il 50% dei casi rientra all’interno di un range molto piccolo, mentre gli altri si distribuiscono al di sopra o al di sotto dell’intervallo individuato. Al contrario, se la box è molto grande, sapremo che c’è un’enorme variabilità interna ai dati.

Confrontare Box Plot 

Il valore aggiunto dei grafici a scatola e baffi, tuttavia, risiede nella possibilità di operare confronti tra più distribuzioni in modo rapido ed efficace. Affiancando due o più Box Plot, potremmo agilmente confrontare l’ampiezza delle distribuzioni, la concentrazione delle stesse e il loro valore medio. Prendiamo, come esempio, il grafico qui sotto:

Confrontando le RAL di un gruppo fittizio di persone classificate in base alla posizione professionale, vedremo, ad esempio, che i dirigenti delle aziende private hanno mediamente stipendi più alti rispetto alle altre figure. Tuttavia sono anche quelli che hanno una distribuzione più ampia. Osserviamo invece i dipendenti di aziende pubbliche e quelli di aziende private: per quanto il valore minimo e quello massimo coincidano, i dipendenti pubblici hanno una scatola leggermente più “stretta”. Questo significa che c’è poca variabilità interna tra gli stipendi, soprattutto se confrontati ad esempio con i liberi professionisti.

Il grafico Scatole e Baffi, anche se poco diffuso, è in realtà molto utile per mostrare distribuzioni in modo sintetico ed efficace: d’altra parte, come tutti i grafici particolari, richiede un minimo di conoscenza del grafico per poter essere letto e apprezzato. Per questo motivo è solitamente utilizzato solo in contesti aziendali e non nelle comunicazioni esterne con il pubblico.

Se ti interessa esplorare il mondo dei grafici meno inflazionati, puoi leggere i nostri approfondimenti sui grafici di Pareto, su quelli a cascata, sui bullet graph o sui grafici radar. Continua a seguirci: presto ne racconteremo molti altri!

Condividi l'Articolo

Fabio Piccigallo

Un articolo scritto da Fabio Piccigallo

Articoli recenti

Categorie

Data Storytelling

"To find signals in data, we must learn to reduce the noise, not just the noise that resides in the data, but also the noise that resides in us. It is nearly impossible for noisy minds to perceive anything but noise in data.” Stephen Few

Ti suggeriamo questi articoli