Rappresentare dati vuol dire rappresentare relazioni: è un concetto che può sembrare banale, ma che in realtà è la chiave per individuare i grafici più efficaci a organizzare e mostrare i dati.
Quando parliamo di data visualization, infatti, non parliamo di dare una rappresentazione visiva a dati casuali, ma a dati che tra loro sono in una relazione ben precisa e che, nel complesso, descrivono un determinato fenomeno. Il tipo di relazione che intercorre tra questi dati può essere di tipo molto diverso (temporale, di classifica, di correlazione, ecc) e di conseguenza si presta ad essere rappresentato di volta in volta in modi molto diversi.
Alcuni semplici esempi possono aiutare a chiarire il concetto:
- Quando si mostra l’andamento di una certa variabile nel tempo (ad esempio, il fatturato di un’azienda) si ricorre, generalmente, a una linea disegnata su un piano cartesiano, con l’asse delle ascisse che rappresenta il tempo che scorre e quello delle ordinate che indica il valore che si vuole analizzare.
- Quando si vuole rappresentare il modo in cui si suddivide un insieme (ad esempio, da quali divisioni aziendali deriva il fatturato annuale complessivo) si ricorre di solito a un grafico a torta – e probabilmente non è la scelta più adeguata, ne parliamo qui.
Spesso la scelta del grafico viene demandata allo strumento di visualizzazione con cui si lavora: mettiamo i dati su Excel, per esempio, e lasciamo che sia lui a suggerirci il grafico migliore. O ancora, ne proviamo di diversi fino a che non troviamo quello che più ci convince. Non c’è nulla di più sbagliato: quella del grafico più appropriato dovrebbe essere una scelta consapevole. Di sicuro non è affatto semplice, in primo luogo perché le relazioni tra dati potrebbero non essere sempre così semplici da spiegare e rappresentare.
D’altra parte, si può scegliere tra diversi tipi di grafico anche per uno stesso set di dati; la scelta di un grafico piuttosto che un altro, però, non è neutra e permette di evidenziare aspetti diversi dello stesso fenomeno.
Ecco perché, in sintesi, un set di dati può essere ben rappresentato solo se si è ben compresa la relazione tra le variabili e se, allo stesso tempo, si ha ben chiaro cosa si vuole mettere in evidenza agli occhi dell’osservatore. In altre parole, cosa si vuole raccontare.
Show Me the Numbers
La relazione tra dati può non essere semplice da individuare. Fortunatamente, alcuni lavori recenti incentrati sulla data visualization aiutano a fare luce su questi aspetti.
In particolare, per orientarci in questo e nei prossimi articoli a riguardo, ricorreremo a un famoso lavoro di Stephen Few: Show Me the Numbers (ed. Analytics Press, Burlingame, 2012).
Nel suo libro, Few elenca le diverse tipologie di relazione che possono intercorrere tra i dati e suggerisce, di conseguenza, le modalità di rappresentazione più idonee a mostrare in modo chiaro ciascuna relazione.
Uno dei punti di forza del testo di Few è la completezza della tassonomia prevista, che molto probabilmente comprende davvero tutti i tipi di relazioni tra i dati possibili.
Si tratta quindi di una guida molto utile e molto approfondita, della quale ripercorreremo qui gli aspetti principali.
L’elenco delle relazioni tra dati secondo Few
Secondo Few, quindi, tra i dati possono intercorrere relazioni di questo tipo:
- Serie temporali
- Ranking
- Parti per il tutto
- Deviazioni
- Distribuzioni
- Correlazioni
- Rappresentazioni geospaziali
Capire le caratteristiche intrinseche di ciascuna relazione significa poter scegliere al meglio come rappresentarla, a partire dalla scelta del grafico di base. Fare una scelta errata significa, d’altra parte, produrre grafici poco chiari, di lettura faticosa o addirittura fuorviante: un esito che va evitato con cura, perché vanifica gran parte del lavoro di raccolta e analisi dei dati che è stato fatto precedentemente.
Le relazioni tra dati, in sintesi
Il primo step è avere ben chiaro in mente in cosa consistano le varie relazioni tra dati:
- Con serie temporali intendiamo quell’insieme di dati che osserva come una certa metrica (o più metriche) si muove nel tempo.
- Il Ranking è, in altre parole, una classifica. Abbiamo una relazione di ranking quando stiamo assegnando a ciascuna variabile un valore diverso, per poterle ordinare da quella che ha il valore più basso a quello più alto, o viceversa.
- Con “parti per il tutto” intendiamo il tipo di relazione che intercorre tra grandezze individuali che, messe insieme, compongono una certa unità.
- Si parla di analisi delle deviazioni quando il grafico vuole mostrare in che modo una o più serie di valori differiscono rispetto a una serie presa come benchmark di riferimento.
- Quando ricorriamo a un grafico di distribuzione, vogliamo vedere come i valori di una serie di dati disaggregati sono distribuiti, così da meglio comprendere un fenomeno attraverso individuazione anche di valori statistici come media, mediana, moda.
- I grafici di correlazione sono invece quelli che non prendono in esame un unico set di dati, ma cercano di evidenziare la presenza (o, al contrario, l’assenza) di correlazione tra due diversi fenomeni.
- Infine, ci riferiamo a rappresentazioni di dati di tipo geospaziale quando abbiamo dati che si riferiscono ad elementi che sono di carattere geografico.
Qual è allora il grafico più adatto per ciascuna relazione? Ne parliamo nei prossimi articoli, a partire dai grafici giusti per visualizzare le serie temporali, i ranking e le parti per il tutto!
Stay tuned!