La raccolta e l’utilizzo dei Big data non sempre risulta efficace e la correlazione non comporta sempre una corrispondenza nei fatti.
Un esempio classico è proprio il servizio sperimentale di Google, Google FLU.
grandi aziende tecnologiche, come #facebook, Google e #ibm, recuperano i loro Big Data da smartphone, sensori, applicazioni e siti web.
Non c’è mai stata una tale mole di informazioni, su qualunque area di interesse, come quella a cui oggi assistiamo, prodotta da miliardi di persone ogni giorno.
Nonostante tutto, i grandi dati non sempre sono migliori. Il valore dei Big Data non è nei dati stessi, ma nel modo in cui li analizziamo.
Il contesto diventa lacunoso quando le informazioni arrivano da fonti disparate anche utilizzando le API che sempre più sono diffuse fra le applicazioni, portando a conclusioni discutibili guidati proprio dai Big Data.
Il caso di esempio, è quello di Google Flu che misura i livelli di influenza (lo stato fisico) sulla base delle ricerche dei propri utenti dal 2008 in poi.
Il meccanismo prevede l’aggregazione in tempo reale delle parole ricercate dagli utenti relative alla propria malattia. Infatti più cerco e più il motore pensa che ci sia un picco.
A parte qualche successo, Google Flu ha sovrastimato la presenza di influenza nella stagione dal 2012 al 2013 così come nella precedente dal 2011 al 2012, di più del 50%.
Dal 2011 al 2013 il motore ha stabilito la prevalenza di influenza in 100 settimane su 108.
In un articolo dello scorso anno, la rivista Nature ha appurato che Google Flu è stato in grado di predire il doppio del numero delle visite mediche realmente effettuate dal sistema sanitario.
Google infine ha pubblicato un suo studio sull’algoritmo utilizzato, dove dichiara che i dati, quindi le ricerche degli utenti, hanno subito delle variazioni dovute all’accresciuta copertura mediatica.
Quindi più se ne parla e più il trend aumenta ma solo virtualmente e non nella realtà.
Uno degli errori in qualunque progetto “big data” è proprio quello di basarsi su fonti che non sono progettate per produrre dati validi ed utilizzabili.
I dati che derivano dai risultati di una ricerca, estratti dai social media o dagli smartphone, trasformano gli utenti finali in fieri partecipanti ad un esperimento scientifico, sebbene l’aggregazione non sempre porta ai risultati sperati.
Il fatto di raccoglierli, però, ha il vantaggio percui tutte le piattaforme possono sempre migliorare il proprio algoritmo e ri-valutare i dati anche più vecchi scoprendo nuovi trend.