Pubblicato il 23 Ottobre 2018Ultimo Aggiornamento: 14 Settembre 2021

Se c’è una cosa che ripetiamo di continuo fin dalla nascita di questo blog è che la visualizzazione dei dati non è un passaggio che subentra nel momento in cui bisogna reportare i risultati del lavoro fatto a qualcun altro. Al contrario, è indispensabile fin dal primo momento, fin dalla fase di esplorazione e poi di analisi. Non sempre, infatti, le analisi statistiche sono sufficienti: a volte falsano la nostra percezione. Per questo motivo visualizzare i dati diventa necessario. La dimostrazione perfetta di quelle che altrimenti potrebbero sembrare solo belle parole arriva direttamente dal 1973: è il quartetto di Anscombe a spiegarci, oggi, perché visualizzare i dati.

Il quartetto di Anscombe: quando la statistica falsa la percezione

Sì, lo diciamo da sempre e lo ripetiamo ancora una volta: visualizzare i dati è fondamentale fin dalle prime fasi dell’analisi. Eppure evidentemente ribadirlo fino allo sfinimento non basta se, a quanto pare, un concetto così semplice fa fatica ad entrare nella testa delle persone da almeno 45 anni.
È nel 1973, infatti, che lo statistico Francis Anscombe, stanco dei colleghi che sminuivano le rappresentazioni grafiche al suono di “i calcoli numerici sono esatti, ma i grafici sono rozzi” decise di dimostrare la centralità della visualizzazione dandone una prova indimenticabile.
Creò infatti quattro set di dati composti ciascuno da undici punti, definiti da coordinate x e y.

Consegnando questi dati in mano ad un amante della statistica pura, egli noterà sicuramente un dato interessante: le quattro serie di dati sono statisticamente identiche. Infatti, numeri alla mano, si può osservare che:

  • la media di x è 9
  • la varianza di x è 11
  • la media di y è 7,50
  • la varianza di y è 4,125
  • la correlazione di x e y è 0,816
  • la regressione lineare è y=3+5x

Limitandoci quindi all’esame delle proprietà statistiche, è possibile dire senza ombra di dubbio che valgono le stesse considerazioni (e probabilmente, per chiunque stesse analizzando questi dati per trarre delle indicazioni, anche le stesse conclusioni) per tutte e quattro le serie. Perché visualizzare i dati, allora? La risposta è un’altra domanda: siamo sicuri che sia corretto limitarci a questo? I numeri non mentono… o forse sì?

Perché visualizzare i dati: comprendere le informazioni

Sì, queste quattro serie sono statisticamente identiche. Dunque chiunque si limitasse a farne un’analisi “dati alla mano” potrebbe pensare che ciò che vale per una, vale per l’altra. Ma che succede se proviamo a visualizzare tutte e quattro le serie?

Pazzesco, no? Una volta messe su grafico, le quattro serie diventano tutto fuorché simili. Nei casi in basso, soprattutto, appare chiaro come un outlier possa falsare completamente i dati statistici. Naturalmente è adesso ovvio che i quattro casi sono totalmente differenti. Immaginiamo, ad esempio, le conseguenze se si trattasse dell’andamento delle vendite di un’attività commerciale: ci sarebbe una bella differenza tra gli esempi due e quattro, giusto? L’aspetto interessante è che, se ci fossimo limitati ad analizzare questi dati facendo affidamento solo sulle statistiche, non avremmo mai notato tutto questo. Ecco perché visualizzare i dati è strategico fin dai primi momenti dell’analisi: perché ci aiuta a “vedere”, in tutti i sensi. Vedere cose che erano sotto i nostri occhi e che non avremmo altrimenti mai notato.

Era proprio questo, del resto, l’obiettivo di Anscombe: dimostrare come la data visualization facesse parte a pieno titolo degli strumenti degli statistici. Uno strumento che non solo può essere usato. Ma DEVE essere usato. Pena la validità e la bontà dell’analisi stessa. E con una dimostrazione del genere, hai davvero ancora qualche dubbio sul perché visualizzare i dati sempre?

 

Condividi l'Articolo