I Big Data e gli strumenti per gestirli

REUTERS/Jon Nazca
Le potenzialità della Big Data analysis stanno diventando oggetto di ricerca da parte di di governi e compagnie private. Ma quali sono gli strumenti a disposizione per gestire grandi quantitativi di dati?

I Big Data rappresentano uno sterminato flusso di informazioni, retaggio di una civiltà globalizzata, iperconnessa e digitalizzata. Social Networks (Facebook, Twitter, Linkedin, Flickr, Instagram…), organizzazioni internazionali (sistema ONU, Gruppo Banca Mondiale, ASEAN, UA, UE…) e non governative (Amnesty, Save the Children…), centri di ricerca e think tank (Chatam House, Brookings Institution, CSIS…), banche dati pubbliche e private, agenzie di intelligence governative, open data-set (GDELT Project, GTD…), reti intranet, agenzie di stampa (Reuters, Bloomberg…) e sistemi di archiviazione cloud (iCloud, Google Drive…) collaborano nell’alimentare un flusso di dati immenso. Nelle reti a fibra ottica scorrono ogni giorno più informazioni di quante la carta stampata ne abbia mai contenute in secoli di storia.

Leggi anche Big Bang Data: risorsa ad alto potenziale di rischio

Queste informazioni sono infinitamente dinamiche, frastagliate, difficili da categorizzare e ancor più difficili da contenere. “Scientia potentia est”, scriveva Thomas Hobbes nel suo Leviatano quasi trecentocinquanta anni fa. Sapere è potere, una regola sempreverde, ma nell’era dei Big Data le cose sono lievemente più complesse rispetto al mondo cui era abituato Hobbes. Le informazioni sono tali e tante che le fasi di elaborazione e interpretazione si rivelano spesso impraticabili. Grazie alla crescente potenza computazionale dei processori informatici, parte di queste difficoltà sono state superate, ma l’interpretazione dei dati resta un’attività quasi esclusiva alla mente umana.

big data analysis
Mappa di Nathan Yau, Michael Markieta or James Cheshire / ArcGIS

Innumerevoli sono quindi gli ostacoli da affrontare: dove cercare e come reperire le informazioni che ci interessano? Come discriminare tra informazioni rilevanti e informazioni trascurabili? Come incrociare centinaia di Gigabyte di dati tra loro? Trattandosi di analisi eseguibili solo attraverso lo strumento informatico, si pone poi un problema di natura operativa e pratica: quali software adoperare per l’analisi? Come gestire e convertire le diverse estensioni dei file? In che modo organizzare la visualizzazione grafica dei risultati ottenuti?

Tenteremo di dare risposta ad almeno alcune di queste domande, fornendo le basi per ulteriori approfondimenti. Come abbiamo detto, i Big Data rappresentano un flusso di informazioni prodotto senza soluzione di continuità da applicazioni digitali in maniera autonoma o dall’interazione di queste con l’attività umana. L’incremento di questi dati nel tempo, per di più, è costante ed esponenziale.

Nel giro di qualche anno potremmo trovarci invasi da informazioni che fatichiamo a gestire e quindi comprendere. Il problema principale consiste nell’organizzazione dei dati. I tentativi in questo senso non mancano, come dimostrano la piattaforma di analisi imbastita da Amazon o il progetto Apache Hadoop, ma le fonti sono talmente diversificate nei contenuti, nei criteri d’immagazzinamento e nelle modalità di gestione che ad oggi nessuno, enti governativi, organismi internazionali o società private, è realmente riuscito a controllare appieno i flussi informativi.

Hans Rosling, recentemente scomparso, è tra coloro che meglio sono riusciti a comprendere l’importanza e rilasciare le potenzialità dei Big Data. Rosling, medico di formazione, ha co-fondato assieme ai figli una Fondazione, la Gapminder Foundation, finalizzata alla comprensione del mondo attraverso l’impiego della statistica. Grazie all’impegno profuso da Rosling, la Fondazione ha sviluppato un open software chiamato Trendalyzer (qui il download) per incrociare, visualizzare e interpretare in modo creativo e intelligente un enorme mole di informazioni estrapolate – “liberate”, secondo Rosling – dai database di varie organizzazioni internazionali, tra cui le Nazioni Unite, il Gruppo Banca Mondiale e la NATO.

Trendalyzer, applicazione snella e intuitiva, si è rivelata negli anni un valido ausilio alla ricerca in campo accademico, tanto da essere stata acquisita da Google nel 2006. Attirando l’attenzione della Silicon Valley, la creazione di Rosling ha mostrato tutte le potenzialità del settore, alimentando una vera e propria corsa alla raccolta dati.

Trendalyzer offre una soluzione estremamente intuitiva a problemi complessi. Facile da utilizzare e implementare in ambito analitico, l’interfaccia utente nasconde interamente il source code, quasi si trattasse di un sistema operativo user-oriented come Windows o Ubuntu. Questa grande maneggiabilità limita per forza di cose le potenzialità descrittive, analitiche e interpretative dello strumento, ma si rivela essere un buon compromesso per coloro che non padroneggiano lo strumento informatico.

Ad oggi, gli strumenti sorti per maneggiare i Big Data, richiedono capacità tecniche non comuni. Questo ne limita le possibilità di sfruttamento a scopo analitico e rallenta lo sviluppo dell’intero settore. Malgrado le nuove generazioni presentino in genere capacità informatiche medio-alte, la maggior parte dei ricercatori o degli analisti faticano a comprendere le potenzialità e l’utilità dei Big Data, vuoi per ragioni ontologiche o per mancanza di formazione.

Allo stato attuale, per avvalersi di ricerche condotte mediante l’analisi dei Big Data, occorrono competenze e conoscenze spesso acquisibili solo mediante un corso di laurea in informatica o ingegneria informatica. Stiamo parlando di programmazione (SQL, R, Python…), algebra lineare, statistica, econometria, machine learning, artificial intelligence, sistemi complessi, deep learning e reti neurali, senza dimenticare le più basilari competenze di stampo informatico, che si tende spesso a dare per scontate.

L’esigenza di trasformare, razionalizzare e rendere maggiormente operabile il settore è sempre più sentita, sia in ambito pubblico che privato. Le principali società d’analisi strategica sono alla ricerca di esperti nell’analisi dei Big Data per sfruttarne le potenzialità e implementarne l’impiego nel ciclo dell’analisi. Stesso discorso per i principali servizi di sicurezza governativi.

Lo scorso 15 marzo, INVUS, società di investimento, ha riversato 20 milioni di dollari in una società chiamata Knime, che da qualche anno è impegnata nello sviluppo di una piattaforma Open Source per l’analisi dei Big Data. L’indirizzo della società e le ragioni dell’investimento sono già chiare nelle dichiarazioni a margine del CEO Michael Berthold:

“We’re excited to have an investor that truly understands open source and recognizes the potential for expanding across the enterprise. Even though KNIME was already profitable and is growing strongly, we see a huge window of opportunity for our open source strategy combined with our vision of bringing Guided Analytics to the large group of users who have not been able to benefit from using advanced analytics to date”.

Il riferimento alla necessità di coinvolgere un maggior numero di utenti nel settore dell’analisi computazionale è sintomatico di una realtà che nel breve o medio termine muterà pelle, liberandosi dai tecnicismi del mondo informatico e abbassando la soglia d’accesso all’analisi dei Big Data.

La Knime Analytics Platform (qui il download) è quanto di meglio possa attualmente offrire il mercato dell’analisi computazionale. La difficoltà di utilizzo del software è piuttosto elevata, ma le sue potenzialità sono virtualmente infinite. L’unico limite “è la tua creatività”, come afferma uno degli slogan del prodotto. La piattaforma funziona con qualsiasi tipo di file, è aperta e modulare, permette una mole di operazioni sterminata e malgrado la complessità, l’interfaccia utente presenta una struttura piuttosto intuitiva. La società ha aperto un canale Youtube – la Knimetv – piena di video tutorial e webinars attraverso cui apprendere le funzioni fondamentali della piattaforma.

Leggi anche Cosa può scoprire un governo con i “metadati”

Il servizio BigQuery di Google offre una piattaforma a pagamento simile a quella di Knime, con la differenza, sostanziale, che la Google Cloud Platform mette a disposizione dell’utente tutti i server connessi, elevando all’infinito la potenza di calcolo. Elementi del codice di Trendalyzer sono naturalmente confluiti in BigQuery, rendendo estremamente competitiva anche la fase di data visualization.

Attraverso le piattaforme descritte è possibile esplorare, analizzare e gestire enormi dataset (insieme di dati relazionati tra loro), come il GDELT Event Database, descritto dal suo creatore Kalev Leetaru come

“an initiative to construct a catalog of human societal-scale behavior and beliefs across all countries of the world, connecting every person, organization, location, count, theme, news source, and event across the planet into a single massive network that captures what’s happening around the world, what its context is and who’s involved, and how the world is feeling about it, every single day”.

Nel maggio 2014 Google ha reso nota l’intenzione di inserire GDELT tra i dataset pubblici di BigQuery, presentandolo l’operazione in termini rivoluzionari:

“the GDELT Project pushes the boundaries of “big data”, weighing in at over a quarter-billion rows with 59 fields for each record, spanning the geography of the entire planet, and covering a time horizon of more than 35 years. The GDELT Project is the largest open-access database on human society in existence. Its archives contain nearly 400M latitude/longitude geographic coordinates spanning over 12,900 days, making it one of the largest open-access spatio-temporal datasets as well”.

Un altro dataset molto promettente per l’analisi geopolitica è il Global Terrorism Database. Sviluppato dall’università del Maryland, il GTD raccoglie informazioni su oltre 150mila casi di terrorismo dal 1970 ad oggi, arrivando a caratterizzare ciascun caso attraverso un numero di variabili oscillante tra le 70 e le 120.

Il GTD è impiegato sia in ambito accademico che istituzionale e rappresenta il più grande contenitore di informazioni non classificate legate al terrorismo internazionale. Attraverso le sue righe e le sue colonne, gli analisti possono conoscere, ad esempio, il numero di operazioni terroristiche condotte in Afghanistan con armi da fuoco leggere tra il maggio e il settembre del 1985, l’evolversi del fenomeno terroristico nella regione del sud-est asiatico tra il 1973 e il 1977, o magari il numero di attentati condotti con autobomba a Falluja tra il 2003 e oggi. L’unico limite, anche qui, è rappresentato dalla creatività dell’utilizzatore.

Come si è cercato di mostrare, l’implemento della Big Data Analysis nel tradizionale ciclo di analisi dà la possibilità di incrementare quantitativamente e qualitativamente il livello delle analisi prodotte. Comprendere la natura del fenomeno e, ancor più, acquisire la padronanza dei suoi strumenti operativi saranno le sfide del prossimo futuro per quanti sono impegnati nell’analisi previsionale o nella ricerca accademica.

di Francesco Balucani