Big Data non significa necessariamente, dati migliori.

Big Data

La raccolta e l’utilizzo dei Big data non sempre risulta efficace e la correlazione non comporta sempre una corrispondenza nei fatti.

Un esempio classico è proprio il servizio sperimentale di Google, Google FLU.
Le grandi aziende tecnologiche, come , Google e , recuperano i loro Big Data da smartphone, sensori, applicazioni e siti web.

Non c’è mai stata una tale mole di informazioni, anche utilizzando le API che sempre più sono diffuse fra le applicazioni, su una determinata area di interesse, sia essa una ricerca sul cancro o un elenco di utenti interessati.
Nonostante tutto, i grandi dati non sempre sono migliori.

Il contesto diventa lacunoso quando le informazioni arrivano dalle fonti più disparate, portando a conclusioni discutibili guidati proprio dai Big Data.
Il caso è quello di Google Flu che misura i livelli di influenza (lo stato fisico) sulla base delle ricerche dei propri utenti dal 2008 in poi.

Il meccanismo prevede l’aggreggazione in tempo reale delle chiavi di ricerca proprio relative alla malattia, quindi più cerco e più il motore pensa che ci sia un picco.

A parte qualche successo, Google Flu ha sovrastimato la prosenza di influenza nella stagione dal 2012 al 2013 così come nella precedente dal 2011 al 2012, di più del 50%.
Dal 2011 al 2013 il motore ha stabilito la prevalenza di influenza in 100 settimane su 108.

In un articolo dello scorso anno, la rivista Nature svela che Google Flu ha predetto il doppio del numero delle visite mediche realmente effettuate dal sistema sanitario.

Google infine ha pubblicato un suo studio sull’algoritmo utilizzato, dove dichiara che i dati, quindi le ricerche degli utenti, hanno subito delle variazioni dovute all’accresciute copertura mediatica.

Quindi più se ne parla e più il trend aumenta ma solo virtualmente e non nella realtà.

Uno degli errori in qualunque progetto “big data” è proprio quello di basarsi su fonti che non sono progettate per produrre dati validi ed utilizzabili.
I dati che derivano da risultati di una ricerca, dai social media o dagli smartphone rendono gli utenti fieri partecipanti ad un esperiment scientifico ma l’aggregazione non sempre porta ai risultati sperati.

Il fatto di raccoglierli ,però, ha un vantaggio ovvero tutte le piattaforme possono sempre migliorare il proprio algoritmo e ri-valutare i dati anche più vecchi scoprendo nuovi trend.