La data visualization è una delle procedure più importanti quando si tratta di analizzare dei set di dati perché consente di visualizzare graficamente gli stessi e ricavarne informazioni essenziali per l’attività. Lo strumento principale a disposizione della data visualization è il grafico, che può essere declinato in varie tipologie a seconda delle singole esigenze di rappresentazione.
Ogni grafico, infatti, può essere impiegato per un particolare tipo di dato, per sottolineare l’andamento dei dati nel tempo, per comparare categoria e così via. Tra i diversi tipi di grafico utilizzati nella data viz uno dei più interessanti, per quanto ancora poco diffuso, è il cosiddetto grafico Box and Whisker, conosciuto anche come Box Plot o con il suo nome italiano grafico a scatola e baffi.
L’obiettivo principale di un grafico a scatola e baffi è la rappresentazione della distribuzione di valori quantitativi. Rispetto al più comune istogramma, solitamente utilizzato per questo scopo, l Box Plot presenta alcuni inevitabili vantaggi, tra cui: la capacità di individuare a colpo d’occhio l’eventuale presenza di valori anomali, la possibilità di avere accesso immediatamente anche a una serie di indici di statistica descrittiva (media, mediana e percentili), la facilità nell’effettuare confronti tra più distribuzioni contemporaneamente.
I diagrammi a scatola e baffi per la distribuzione dei valori
Ma come si presenta esattamente un box and whisker plot? Dal punto di vista grafico, in un diagramma a scatola e baffi è possibile individuare diverse parti che aiutano a rappresentare e comprendere i dati: il fulcro del grafico è la box, che raggruppa il 50% dei dati, precisamente quelli che vanno dal venticinquesimo al settantacinquesimo percentile. All’interno di questa box, una riga verticale rappresenta la mediana, vale a dire il valore corrisponde al dato centrale di tutta la distribuzione, mentre una x solitamente rappresenta la media della distribuzione e, come sappiamo, i valori di media e mediana difficilmente coincidono.
I baffi rappresentano invece rispettivamente il quinto e il novantacinquesimo percentile: tutti i valori inferiori e superiori sono rappresentati da puntini e individuano gli outliers, dunque quei valori così estremi da essere considerati fondamentalmente anomali.
Leggere un grafico Box and Whisker
A differenza di un banale istogramma o di uno strip plot, che ci consentono di identificare i punti e/o gli intervalli attorno o all’interno del quale si addensano determinati valori, il grafico Box Plot ci consente, in un certo senso, di fornire una serie di indicazioni aggiuntive utili all’analisi e all’interpretazione dei dati. Osservare la rappresentazione nell’insieme, infatti, consente di carpire in brevissimo tempo parecchie informazioni: si parla di distribuzione simmetrica dei valori nel caso in cui la lunghezza dei baffi e l’altezza del box sia proporzionale (in questo caso, probabilmente, media e mediana coincideranno). È molto più frequente, tuttavia, il caso delle distribuzioni asimmetriche in cui i baffi sono molto più lunghi o molto più corti della scatola, e magari anche di diversa grandezza tra loro. Nel caso di scatole molto strette, sapremo che la distribuzione è molto concentrata: il 50% dei casi rientra all’interno di un range molto piccolo, mentre gli altri si distribuiscono al di sopra o al di sotto dell’intervallo individuato. Al contrario, se la box è molto grande, sapremo che c’è un’enorme variabilità interna ai dati.
Confrontare Box Plot
Il valore aggiunto dei grafici a scatola e baffi, tuttavia, risiede nella possibilità di operare confronti tra più distribuzioni in modo rapido ed efficace. Affiancando due o più Box Plot, potremmo agilmente confrontare l’ampiezza delle distribuzioni, la concentrazione delle stesse e il loro valore medio. Prendiamo, come esempio, il grafico qui sotto:
Confrontando le RAL di un gruppo fittizio di persone classificate in base alla posizione professionale, vedremo, ad esempio, che i dirigenti delle aziende private hanno mediamente stipendi più alti rispetto alle altre figure. Tuttavia sono anche quelli che hanno una distribuzione più ampia. Osserviamo invece i dipendenti di aziende pubbliche e quelli di aziende private: per quanto il valore minimo e quello massimo coincidano, i dipendenti pubblici hanno una scatola leggermente più “stretta”. Questo significa che c’è poca variabilità interna tra gli stipendi, soprattutto se confrontati ad esempio con i liberi professionisti.
Il grafico Scatole e Baffi, anche se poco diffuso, è in realtà molto utile per mostrare distribuzioni in modo sintetico ed efficace: d’altra parte, come tutti i grafici particolari, richiede un minimo di conoscenza del grafico per poter essere letto e apprezzato. Per questo motivo è solitamente utilizzato solo in contesti aziendali e non nelle comunicazioni esterne con il pubblico.
Se ti interessa esplorare il mondo dei grafici meno inflazionati, puoi leggere i nostri approfondimenti sui grafici di Pareto, su quelli a cascata, sui bullet graph o sui grafici radar. Continua a seguirci: presto ne racconteremo molti altri!