Blog

Relazioni tra dati: come fare Data Storytelling

Questo blog si chiama Data Storytelling e, se hai avuto modo di leggerci altre volte, sai che ci piace parlare di big data, di analisi, di statistica e di data visualization, che è lo strumento principale attraverso cui fare Data Storytelling. Spesso però, tendiamo a dare per scontato che tutti sappiano cosa sia il Data Storytelling. Più o meno tutti sanno tradurlo con “raccontare storie con i dati”. Ma quali storie? E in che modo i dati raccontano storie? E se ti dicessimo che quelle storie, in fondo, non sono altro che relazioni tra dati? 

Come fare Data Storytelling: cosa raccontare?

Lo storytelling (letteralmente il raccontare storie) è uno dei maggiori trend in fatto di comunicazione da un bel po’ di anni a questa parte. Allo stesso modo, i Big Data sono stati spesso definiti la rivoluzione del terzo millennio: di sicuro, il futuro del mercato (ma non solo). Non c’è allora da stupirsi che ben presto le due cose si siano incontrate: il Data Storytelling, allora, potrebbe facilmente essere tradotto con il raccontare storie attraverso i dati. E la definizione è senza dubbio più che calzante. Ma la vera domanda è: raccontare cosa? Quali storie?

Se il Data Storytelling è un modo di raccontare, come può esserlo il cinema o la letteratura, allora, a ben vedere, si gioca tutto qui: prima ancora che nelle forme e nei modi, nel senso di ciò che viene raccontato. Nella solidità e nella qualità della storia. La validità di un lavoro di Data Storytelling, in ultima analisi, si misura nella capacità di individuare il giusto soggetto del nostro storytelling. E ciò che raccontiamo, in fondo, sono le relazioni tra dati. Fare Data Storytelling significa raccontare le relazioni tra dati, i loro rapporti, ciò che nascondono, ciò che mostrano, ciò che rivelano e che rappresentano.

Ogni volta che siamo davanti a una grossa quantità di numeri, quello che facciamo è cercargli un senso. Senso è esattamente il nome che diamo alle relazioni tra dati. Immaginiamo di avere davanti tutti i dati relativi alle vendite di una gelateria: ciò che faremo sarà cercare di capire se esista un trend nel tempo (le vendite sono in calo da settembre in poi), una certa distribuzione particolare (il 45% dei gelati viene venduto nel weekend), un ranking (il gelato al cioccolato è il più venduto, seguito dalla stracciatella e dalla nocciola; il meno amato è la fragola), o una correlazione (le vendite aumentano all’aumentare delle temperature). Insomma: cerchiamo relazioni tra dati che significhino qualcosa, che raccontino una storia. Sia che cerchiamo nei dati conferme a cose che ci aspettiamo (in estate si vendono più gelati che in inverno), sia che decidiamo di indagare numeri particolarmente sorprendenti e magari controintuitivi per scoprire cose che non ci aspettavamo (se la panna è omaggio, viene presa meno frequentemente di quando è a pagamento), fare Data Storytelling vuol dire scoprire rapporti tra numeri.

Relazioni tra dati: quante e quali sono

Quali sono allora le possibili relazioni tra dati che possiamo cercare, scoprire e illustrare ogni volta che vogliamo fare Data Storytelling? Quanti rapporti tra i dati esistono? Abbiamo provato a raccogliere i tipi di relazioni possibili e a farne una breve carrellata. E a te, ne vengono in mente altre?

Serie temporali

Quando parliamo di relazioni tra dati, le serie temporali sono tra le più diffuse e largamente ricercate. Il grafico per antonomasia, se ci pensi, è quello a linee che, in molte vignette umoristiche, si impenna verso l’alto o verso il basso. L’obiettivo è quello di scoprire, semplicemente, l’evoluzione di una serie di dati in base alla variabile tempo. La domanda, semplicissima, è: qual è la relazione tra dati nel corso dell’ultima settimana, mese, anno, decennio?  Ricorda: anche dei dati piatti possono nascondere una storia, ad esempio che nonostante gli investimenti cospicui, le vendite non aumentano.

Composizione

Una delle relazioni tra dati in cui ci si imbatte più di frequente, nonché una delle prime cose da esplorare come analisti e data storyteller, è la composizione, vale a dire come le varie parti formino il totale. Questo tipo di relazione ha un duplice valore: da una parte, permette di capire in che rapporto sono tra loro varie categorie e, dall’altra, in che modo ogni categoria “pesa” sul totale. Potremmo allora scoprire non solo che il cioccolato vende il doppio del gusto vaniglia, ma anche che il cioccolato, da solo, costituisce il 30% del gelato venduto.

Distribuzione

La distribuzione è una relazione tra dati particolarmente interessante (per quanto, nella sua rappresentazione grafica, anche un po’ insidiosa). Parliamo di distribuzione quando vogliamo comprendere in che modo i valori dei dati si distribuiscono nelle unità statistiche che compongono il collettivo oggetto di studio. Facciamo un esempio pratico: sappiamo che lo scontrino medio della nostra gelateria è di €4,80. Se andiamo ad osservare la distribuzione degli scontrini, però, scopriamo che il 74% di essi è compreso in una fascia di prezzo tra i €2,30 e i €3,30 e un ulteriore 20% si tiene sotto i €3,70. La ragione? La media viene alterata da una scuola che, il martedì pomeriggio, ordina il gelato per tutti i suoi alunni, pagando in un unico scontrino e influenzando di molto la media! Esplorare la distribuzione dei dati è fondamentale per poter raccontare una storia reale e non distorta.

Correlazione

La relazione tra dati forse più celebre è la correlazione: vale a dire il tentativo di comprendere l’esistenza di una relazione tra due variabili tale che le stesse covarino. Si parla invece di regressione quando è possibile individuare una variabile indipendente che incida in maniera significativa sulla variabile dipendente, tale da giustificare l’esistenza di un modello causa – effetto. Il data storytelling che racconta la correlazione tra dati è forse quello più bello e affascinante, perché stimola la curiosità umana. Non è un caso che molti progetti di Data Journalism si basino su analisi di correlazione. Un esempio? Facile dire che temperatura e aumento delle vendite di gelati sono correlate, ma quanto sarebbe più sorprendente scoprire, ad esempio, che la quantità di zucchero nei gusti di gelato è inversamente proporzionale alla loro vendita? Potremmo allora dedurre che i gusti troppo dolci non sono graditi alla clientela e decidere di ridurre la quantità di zucchero utilizzata. Ma probabilmente sarebbe un errore perché analisi più approfondite potrebbero invece rivelare una storia completamente diversa in cui la nostra gelateria, per cercare di aumentare l’appeal di quei gusti meno venduti, cerca di renderli più appetibili utilizzando guarnizioni e coloranti pieni di zuccheri. Anche questo significa saper cercare il senso delle relazioni tra dati…

Deviazione

Quando parliamo di deviazione, parliamo di una relazione tra dati decisamente meno conosciuta (almeno al grande pubblico: gli analisti la conoscono bene) ma decisamente importante per chi fa Data Storytelling. Si traduce più o meno così: come si discostano i dati a nostra disposizione da quelli di riferimento (siano essi dati previsti, ad esempio, ma anche dati passati)? O meglio, di quanto deviano e come? Un’analisi della deviazione potrebbe portarci a scoprire che negli ultimi quattro mesi abbiamo venduto meno gelati di quelli previsti sulla base delle vendite degli anni precedenti e, così, avere la possibilità di correre ai ripari ordinando meno materie prime o, perché no, facendo un po’ di pubblicità!

Ranking

Parliamo di ranking quando operiamo sui dati in modo tale da individuare una sorta di “classifica”, vale a dire il modo in cui una serie di categorie sono ordinate tra loro, solitamente dalla maggiore alla minore o viceversa. Tornando al nostro esempio, individuare un ranking tra i gusti di gelati (per vendite o per preferenze dei clienti, sperando che coincidano!) ci permette di capire quanto produrne di ciascun tipo, così da non trovarci a metà giornata avendo esaurito alcuni gusti e dovendone magari buttare degli altri.

Relazioni spaziali

Infine, un tipo di relazione tra dati molto particolare è quella di tipo spaziale. Una ricerca di relazione spaziale dev’essere fatta necessariamente ogni qual volta abbiamo delle coordinate di natura geografica per capire se ed in che modo il dato geospaziale possa essere significativo. Potremmo ad esempio scoprire che i punti vendita del centro Italia vendono di più di quelli del sud, o anche che la scorsa estate le gelaterie più lontane alla fabbrica di cioccolato da cui ci si rifornisce, sono quelle che hanno registrato gli indici di gradimento più bassi. Un dato del genere potrebbe nascondere una storia interessante: magari che il furgone frigorifero utilizzato per il trasporto della cioccolata ha subito un guasto tale per cui, non riuscendo a mantenere basse le temperature, consegnava ai punti vendita più lontani cioccolato parzialmente sciolto che presentava un sapore alterato. Ad un passo dal licenziare il personale delle sedi più lontane, potremmo allora capire che invece la soluzione è far riparare il furgone!

Queste sono le principali relazioni tra i dati che ci vengono in mente, ma potrebbero essercene altre che al momento ci sfuggono. La verità è che solo esplorando i numeri e rivoltandoli calzini possiamo scoprire relazioni tra dati che valgano la pena di essere raccontate con il Data Storytelling. Naturalmente, se il principale strumento del Data Storytelling è la Data Visualization, allora ogni tipo di relazione tra dati dev’essere visualizzata in maniera diversa. Insomma: ad ogni relazione, il suo grafico. Come scegliere il grafico giusto? Leggendo il nostro prossimo post 😉 E se vuoi essere sicuro di non perdertelo, ricordati di seguirci sulla nostra pagina Facebook!

2 Comments

  • Virginia on Nov 16, 2018 Rispondi

    Ciao! Seguo molto il vostro blog perché spiega in maniera semplice concetti straordinari ma che a volte possono apparire complicati.
    Ho un dubbio sul significato della correlazione come descritto qui. La correlazione esprime una relazione tra variabili nella misura in cui i valori di una di queste varia al variare dei valori di un’altra ma non spiega una relazione causa-effetto che porta ad identificare nettamente una VI e una VD, quella è la regressione! Corretto?

    • Data Storytelling on Nov 16, 2018 Rispondi

      Che bello quando riceviamo commenti così, Virginia: è la conferma che abbiamo lettori attenti, informati e curiosi. Effettivamente hai perfettamente ragione: quando due variabili covariano senza che sussista una relazione di dipendenza, allora parliamo di correlazione. Quando invece una dipende dall’altra e quindi possiamo individuare una relazione di causa-effetto, allora siamo davanti ad una regressione. I grafici di correlazione non mostrano quindi necessariamente una relazione di causa-effetto, ma solo la sussistenza di una relazione. In questo caso la nostra tendenza a semplificare e rendere accessibili i contenuti anche ai “profani” dell’analisi ci ha fatto commettere un’approssimazione che può generare confusione o dubbi. Per fortuna abbiamo lettori attenti come te.
      Correggiamo subito! Grazie <3

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *