Pubblicato il 23 Ottobre 2018Ultimo Aggiornamento: 14 Settembre 2021

Se c’è una cosa che ripetiamo di continuo fin dalla nascita di questo blog è che la visualizzazione dei dati non è un passaggio che subentra nel momento in cui bisogna reportare i risultati del lavoro fatto a qualcun altro. Al contrario, è indispensabile fin dal primo momento, fin dalla fase di esplorazione e poi di analisi. Non sempre, infatti, le analisi statistiche sono sufficienti: a volte falsano la nostra percezione. Per questo motivo visualizzare i dati diventa necessario. La dimostrazione perfetta di quelle che altrimenti potrebbero sembrare solo belle parole arriva direttamente dal 1973: è il quartetto di Anscombe a spiegarci, oggi, perché visualizzare i dati.

Il quartetto di Anscombe: quando la statistica falsa la percezione

Sì, lo diciamo da sempre e lo ripetiamo ancora una volta: visualizzare i dati è fondamentale fin dalle prime fasi dell’analisi. Eppure evidentemente ribadirlo fino allo sfinimento non basta se, a quanto pare, un concetto così semplice fa fatica ad entrare nella testa delle persone da almeno 45 anni.
È nel 1973, infatti, che lo statistico Francis Anscombe, stanco dei colleghi che sminuivano le rappresentazioni grafiche al suono di “i calcoli numerici sono esatti, ma i grafici sono rozzi” decise di dimostrare la centralità della visualizzazione dandone una prova indimenticabile.
Creò infatti quattro set di dati composti ciascuno da undici punti, definiti da coordinate x e y.

Consegnando questi dati in mano ad un amante della statistica pura, egli noterà sicuramente un dato interessante: le quattro serie di dati sono statisticamente identiche. Infatti, numeri alla mano, si può osservare che:

  • la media di x è 9
  • la varianza di x è 11
  • la media di y è 7,50
  • la varianza di y è 4,125
  • la correlazione di x e y è 0,816
  • la regressione lineare è y=3+5x

Limitandoci quindi all’esame delle proprietà statistiche, è possibile dire senza ombra di dubbio che valgono le stesse considerazioni (e probabilmente, per chiunque stesse analizzando questi dati per trarre delle indicazioni, anche le stesse conclusioni) per tutte e quattro le serie. Perché visualizzare i dati, allora? La risposta è un’altra domanda: siamo sicuri che sia corretto limitarci a questo? I numeri non mentono… o forse sì?

Perché visualizzare i dati: comprendere le informazioni

Sì, queste quattro serie sono statisticamente identiche. Dunque chiunque si limitasse a farne un’analisi “dati alla mano” potrebbe pensare che ciò che vale per una, vale per l’altra. Ma che succede se proviamo a visualizzare tutte e quattro le serie?

Pazzesco, no? Una volta messe su grafico, le quattro serie diventano tutto fuorché simili. Nei casi in basso, soprattutto, appare chiaro come un outlier possa falsare completamente i dati statistici. Naturalmente è adesso ovvio che i quattro casi sono totalmente differenti. Immaginiamo, ad esempio, le conseguenze se si trattasse dell’andamento delle vendite di un’attività commerciale: ci sarebbe una bella differenza tra gli esempi due e quattro, giusto? L’aspetto interessante è che, se ci fossimo limitati ad analizzare questi dati facendo affidamento solo sulle statistiche, non avremmo mai notato tutto questo. Ecco perché visualizzare i dati è strategico fin dai primi momenti dell’analisi: perché ci aiuta a “vedere”, in tutti i sensi. Vedere cose che erano sotto i nostri occhi e che non avremmo altrimenti mai notato.

Era proprio questo, del resto, l’obiettivo di Anscombe: dimostrare come la data visualization facesse parte a pieno titolo degli strumenti degli statistici. Uno strumento che non solo può essere usato. Ma DEVE essere usato. Pena la validità e la bontà dell’analisi stessa. E con una dimostrazione del genere, hai davvero ancora qualche dubbio sul perché visualizzare i dati sempre?

 

Condividi l'Articolo

Un articolo scritto da Fabio Piccigallo

Articoli recenti

Categorie

Data Storytelling

“Data is the new oil? No, data is the new soil.” David McCandless

Ti suggeriamo questi articoli