270 likes | 383 Views
Scienze Biologiche, A.A. 2013-14 Corso di BIOLOGIA APPLICATA del Prof. Pier Luigi Luisi. INTERVENTO DI VALERIO ELETTI Big Data e nuove Protesi Cognitive per il Web 3.0. Opportunità e minacce. Università degli Studi Roma Tre
E N D
Scienze Biologiche, A.A. 2013-14 Corso di BIOLOGIA APPLICATA del Prof. Pier Luigi Luisi INTERVENTO DI VALERIO ELETTI Big Data e nuove Protesi Cognitive per il Web 3.0. Opportunità e minacce. Università degli Studi Roma Tre Dipartimento di Biologia :: 11 Novembre 2013
Di cosa parliamo? • Complessità, approccio sistemico, effetto farfalla, reti digitali, • hub e connessioni complesse, big data, globalizzazione, • Web semantico, Internet delle cose … • sono espressioni, idee, concetti e - in potenza - comportamenti (memi) • che si allargano a macchia di leopardo, con una diffusione turbolenta. • DOMANDE: Secondo voi di che si tratta? • E perché dovrebbero interessare uno studioso di Biologia? • Introduzione: lo scenario attuale • Big data • Motori semantici e soft computing • Nuove “protesi cognitive”: il paradigma cognitivo complesso • Esempio di applicazione: dalla genomica alla proteomica Agenda
Introduzione: lo scenario attuale Scenario • Partiamo da uno sguardo ampio sullo scenario attuale: • Cambiamenti geopolitici: nuove potenze e nuovi flussi migratori • Pervasività e transnazionalità del potere finanziario • Esplosione di produzione (e analisi!) di tracce digitali personali • Noi focalizziamo qui oggi la nostra attenzione sul terzo punto, ovvero sui fenomeni nuovi che stanno emergendo dall’uso globale delle reti digitali: • la formazione a valanga dei cosiddetti big data • la diffusione dei cosiddetti motori semantici e del soft computing • che segneranno gli sviluppi dell’economia e della cultura • grazie anche alla velocità di elaborazione dei computer • e all’ampiezza delle nuove capacità di memoria • ... che si stanno profilando nel cosiddetto Web semantico o Web 3.0. • Vedremo poi come le conoscenze dei sistemi complessi, • della struttura delle reti e dell’approccio sistemico • possono essere considerate le protesi cognitive (le chiavi di accesso) • che ci servono per orientarci nel nuovo paesaggio • in cui siamo ormai tutti irreversibilmente immersi.
Introduzione: i fenomeni emergenti Scenario • Per capire l’entità e la forza del mondo digitale che ci avvolge, • partiamo da alcune considerazioni concrete su fenomeni emergenti: • Diffusione “in parallelo” di varie reti complesse: il Web (con i suoi social network), la rete telefonica mobile, l’Internet delle cose ... • Convergenza tra queste reti, tutte digitali e interfacciabili • Accumulo in enormi archivi di miliardi di miliardi di dati digitali su persone, malattie, cose, eventi, traffico, finanza, gruppi sociali e politici, ambiente ... • Avvio di sistematiche attività di merging (ovvero di convergenza e interfacciamento) di archivi di dati apparentemente estranei tra loro • Passaggio inarrestabile da un approccio statistico, “a campione”, tipico dell’era degli small data, ad analisi di “tutti” i dati dell’evento o della struttura in esame • Passaggio morbido ma diffuso, dopo quello da Web 1.0 a Web 2.0, al Web semantico (chiamato Web 3.0 da Tim Berners-Lee dal 2006 )
Introduzione: progressi tecnici e fenomeni sociali Scenario • Tutto ciò è reso possibile da alcuni progressi tecnici di base: • Moltiplicazione della velocità di calcolo dei computer • Costruzione di memorie sempre più ampie e capaci • Messa a punto di algoritmi in grado di individuare pattern sconosciuti in masse spaventosamente grandi di dati (soft computing, reti neurali ecc) • Messa a punto di software e sistemi esperti in grado di “comprendere” la semantica in alcuni ambiti lessicali (per ora limitati e specifici) • ... e dall’esplosione di fenomeni sociali “produttori di dati digitali” • che erano assolutamente imprevedibili fino alla fine del ‘900 • (e che spiegano i boom in borsa di aziende come Twitter o Facebook); • in particolare: • La corsa frenetica di ogni singolo individuo alla condivisione spontanea (possiamo dire “entusiasta”) di propri dati nei social network • L’utilizzo, da parte di una quota crescente di cittadini, di apparecchi che lasciano tracce digitali localizzate nel tempo e nello spazio
Introduzione Scenario Tutto ciò sta facendo nascere migliaia di vere e proprie “miniere d’oro” su cui si sono avventate aziende private, multinazionali e istituzioni. Nota importante: queste miniere sono molto di più di semplici accumuli o “insiemi” di dati: sono “sistemi” formati da reti di reti di relazioni dinamiche, con le loro topologie, le loro proprietà di accrescimento preferenziale, le loro correlazioni lineari e non lineari, con i loro feedback e le proprie capacità di adattamento ... Il che equivale a dire che: i big data hanno strutture e proprietà che richiamano da vicino quelle delle reti e dei sistemi complessi (ne parleremo a proposito delle protesi cognitive).
Introduzione Scenario Qualche numero per capire l’entità dei dati che si stanno raccogliendo negli archivi pubblici e privati del mondo: dalle decine di megaByte (milioni di ‘caratteri’) di vent’anni fa, ai 600 exaByte (miliardi di miliardi di byte) di oggi. Rif. pp.21-22 Eletti 2013
Introduzione Scenario E che ci facciamo con tutti questi dati? Per esempio: previsioni di Borsa basate sul sentiment espresso da Twitter Rif. p. 18 Eletti 2013 ... ma anche intercettazioni come quelle della NSA: e dunque minacce e opportunità, tipiche di un ambiente nuovo, mai visto prima. Vediamo un po’ più in dettaglio di che si tratta ...
Agenda • Introduzione: lo scenario attuale • Big data • Motori semantici e soft computing • Nuove “protesi cognitive”: il paradigma cognitivo complesso • Esempio di applicazione: dalla genomica alla proteomica Agenda
Big Data Big data ... è un termine usato in diversi contesti con significati diversi. Definiamo meglio la prima interpretazione, quella generale che abbiamo già osservato: una sorta di brodo primordiale dei nostri memi, una somma di archivi di reti interconnesse di dati digitali che si vanno accumulando in banche dati, in settori diversi: dati che arrivano dalla nostra localizzazione geografica quando telefoniamo da un cellulare, dai nostri profili sui social network, dagli indirizzi Internet che andiamo a visitare, dai sentiment che esprimiamo via Twitter, dai dati sanitari, economici e finanziari che affidiamo sempre più spesso e inconsapevolmente alle varie nuvole informatiche (cloud) che si stanno addensando nel chiuso di sempre più giganteschi magazzini pieni di server...
Big data Big data • Abbiamo visto che si formano così miniere di informazione • in cui si possono individuare strutture di conoscenza e profili di trend in atto. • Due considerazioni riguardo questa concezione generale dei big data: • connettendo le singole ‘miniere’ si ottiene un insieme • che è molto di più della somma dei singoli data set, • un insieme reticolare iper-complesso • che può fornire non solo risposte a vecchie domande, • ma che può anche far emergere domande nuove • di particolare importanza strategica per le economie mondiali, • per l’ambiente, per i rapporti tra nazioni, politica e multinazionali; • in concreto, la finanza privata e quella pubblica sono già in corsa • per mettere a punto efficaci strumenti “intelligenti” (semantici) • che permettano di analizzare e gestire queste masse di dati • che non si possono affrontare con i limitati strumenti • usati per catturare, gestire e processare le normali banche dati • in tempi accettabili (abbiamo visto che parliamo di centinaia di exaByte).
Big data Big data Un’idea della importanza strategica di questi big data derivati dalla connessione fra giganteschi archivi pubblici e privati ci può venire dalle azioni dei governi. Due esempi: Stati Uniti: nel 2012 l’Amministrazione Obama ha finanziato con 200 milioni di dollari la Big Data Research and Development Initiative, composta da 84 diversi programmi di ricerca sui big data, distribuiti su 6 Dipartimenti federali http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release.pdf Unione Europea: ha stanziato un miliardo di euro con cui finanziare per un decennio (100 milioni l’anno) uno dei sei progetti selezionati a oggi: il progetto bandiera è FuturICT che coinvolgerà centinaia dei migliori scienziati europei; cuore del progetto è il Living Earth Simulator, una enorme rete di calcolo che vuole aggregare i big data provenienti da tutto il mondo per elaborarli con nuovi modelli matematici e teorie sociali ancora da definire http://www.futurict.eu/the-project
Big Data Big data • ... lo stesso termine si usa per definire un cambio di approccio ai dati. • In molti ambienti professionali, di studio e di ricerca • si parla di big data in senso più trasversale e pervasivo, • quando si passa dall’analisi di campioni (approccio statistico classico) • alla analisi dell’intero universo dei dati di un fenomeno o struttura. • Ne derivano alcuni mutamenti paradigmatici, tra cui sottolineiamo: • Accettazione dell’imprecisione (compensata dall’abbondanza di dati) • Consapevolezza della possibilità di emersione di pattern imprevedibili a priori (ovvero emergenza di risposte di cui non si erano immaginate né tantomeno formulate domande) • Attenzione all’emersione di correlazioni anche non lineari (da cui l’utilizzo dei vari strumenti della network analysis) • Abbandono dell’illusione consolatoria del principio di causa-effetto • Per approfondire questi aspetti – particolarmente interessanti per gli studi biologici - si veda il volume di V. Mayer-Schoenberger, K. Cukier, “Big data”, appena tradotto in italiano da Garzanti (ed. orig.: 2013)
Agenda • Introduzione: lo scenario attuale • Big data • Motori semantici e soft computing • Nuove “protesi cognitive”: il paradigma cognitivo complesso • Esempio di applicazione: dalla genomica alla proteomica Agenda
Motori semantici e soft computing Motori semantici Qui il discorso si fa specialistico: diciamo solo di che cosa si tratta. Sono software che analizzano il significato delle parole nel proprio contesto: motori di ricerca che non si limitano a cercare negli archivi sequenze di bit, ma che analizzano la sequenza di bit richiesta all’interno di una ontologia, ovvero di una rete di relazioni con altre parole “imparentate”. Esempio: la parola “espresso” in contesti diversi Questo è il concetto chiave. La spiegazione nei dettagli non è complicata ma è piuttosto lunga, per cui rimandiamo alla voce “Semantic Web” di Wikipedia, che risulta chiara ed esaustiva. Nota importante: questa voce di Wikipedia è stata immessa nel 2003 e si è raffinata fino a oggi grazie ai controlli, alle discussioni e alle correzioni di oltre mille esperti, con una media di 1.500 visite al giorno da tutto il mondo anglosassone: esempio pregnante di auto-organizzazione dal basso di un ambiente complesso come il Web 2.0.
Motori semantici e soft computing Soft computing Esistono, oltre ai motori semantici, molte altre tipologie di algoritmi che permettono di affrontare il mondo sfuggente dei big data. Eccone una breve e parziale elencazione tratta da Eletti 2013, pp.39-40
Motori semantici e soft computing Soft computing ... segue elencazione tratta da Eletti 2013, pp.39-40
Agenda • Introduzione: lo scenario attuale • Big data • Motori semantici e soft computing • Nuove protesi cognitive: il paradigma cognitivo complesso • Esempio di applicazione: dalla genomica alla proteomica Agenda
Nuove protesi cognitive Nuove protesi cognitive Concludiamo dicendo che l’esplosione dei big data, (con il corollario dell’estensione e pervasività delle reti digitali, dello sviluppo esponenziale del soft computing, dei motori semantici, della capacità di elaborazione dei dati e della crescita esponenziale degli archivi di memorie) crea la necessità impellente di un approccio sistemico, complesso e reticolare, (nel management, nel marketing, nella ricerca, nella politica, nella finanza) con metodi di calcolo e di elaborazione delle informazioni che fanno leva su una nuova tipologia di pensiero: quella basata sul paradigma cognitivo complesso, circolare, che considera i tradizionali ragionamenti lineari (basati sul principio di causa-effetto) solo come un sottoinsieme di un più ampio e variegato ventaglio di nuove possibilità del pensare, del progettare e dell’agire.
Nuove protesi cognitive Nuove protesi cognitive Qualche elemento per capire di che cosa si tratta: Per prima cosa, vediamo la differenza tra un problema/ambiente/sistema semplice, complicato o complesso (esempio del sasso, dell’aeroplanino, del piccione) E quindi deriviamo da questa visione la necessità di un cambiamento “paradigmatico” nell’approccio al problema: non più solo top-down, determinista, riduzionista, ma bottom-up, teso a creare ridondanze e diversità, a far emergere pattern nel sistema, ad analizzare l’universo dei dati invece di campioni prefigurati (che non sono in grado di fare emergere risposte non previste).
Nuove protesi cognitive: attenzione ai riflessi negativi Nuove protesi cognitive E alcuni spunti di riflessione sulle minacce indotte dai big data, tratti dalla analisi di Nate Silver(*): PRIMO: nelle reti, la diffusione esponenziale di grandi masse di informazioni, unita con l’efficacia di trasmissione dei segnali, porta facilmente alla diffusione VELOCE di “segnali errati” (nel senso di idee sbagliate, aggressive o pericolose per la comunità), dato che inizialmente, con l’esplosione incontrollata di dati, viene a mancare qualunque tipo di feedback negativo, che possa attenuare/controllare i segnali virali, siano essi utili alla società (rinforzi “virtuosi”) o dannosi (virus, notizie false, agglomerazione di atteggiamenti aggressivi tra gruppi di diverso credo o pensiero). (*) Rif.: N. Silver, The Signal and the Noise, 2012, trad it.: Il segnale e il rumore, Fandango 2013
Nuove protesi cognitive: attenzione ai riflessi negativi Nuove protesi cognitive SECONDO: un’esplosione incontrollata e incontrollabile di informazioni comporta all’inizio una situazione dannosa e pericolosa socialmente, dato che ciascuno sceglie nel mucchio inesplorabile di dati disponibili solo l’informazione che rafforza i propri pregiudizi e preconcetti, ignorando (senza consapevolezza e dunque senza problemi di coscienza) quanto potrebbe invece mettere in discussione le proprie convinzioni. Sotto la pressione di montagne di dati e informazioni non gestibili, la prima reazione diffusa è quindi quella di abbandonare il feedback negativo che fa tenere sotto controllo le proprie posizioni, e di abbracciare un feedback positivo che porta a esaltare le differenze tra individui e gruppi, favorendo i settarismi, il muro contro muro e il conseguente aumento di aggressività ... Esempio: le numerose e feroci guerre di religione seguite all’esplosione di informazioni non più gestibili dai singoli derivata dall’invenzione di Gutenberg
Nuove protesi cognitive: attenzione ai riflessi negativi Nuove protesi cognitive TERZO: con l’aumentare esagerato dei dati da esaminare aumenta la possibilità di vedere segnali là dove c’è solo rumore, ovvero di individuare “falsi positivi” derivanti da una cattiva interpretazione di dati. NOTA: Nate Silver, nel suo “Il segnale e il rumore”, individua nel teorema di Bayes uno degli strumenti più efficaci per concretizzare e applicare il paradigma cognitivo complesso necessario ad affrontare l’eccesso di dati che ci sta travolgendo. Possiamo notare che in effetti il teorema e le reti di Bayes vengono utilizzati ampiamente da diversi anni per “addestrare” le reti neurali in grado di analizzare grandi masse di dati in processi bottom-up, senza la necessità di modellare a priori una teoria astratta che possa far emergere i pattern (o i segnali) nascosti nel rumore di fondo dei dati.
Agenda • Introduzione: lo scenario attuale • Big data • Motori semantici e soft computing • Nuove protesi cognitive: il paradigma cognitivo complesso • Esempio di applicazione: dalla genomica alla proteomica Agenda
Esempio di applicazione: dalla genomica alla proteomica Esempio Ora esco dalle mie competenze per dare un esempio adatto ai biologi. Un esempio di applicazione degli strumenti tipici dell’approccio descritto, lo troviamo nel passaggio dalla genomica alla proteomica; considerando che 19.599 geni nel corpo umano possono produrre circa 200.000 tipi di RNA; e che ogni RNA può a sua volta codificare 200.000 proteine, vediamo che l’analisi dei geni richiede l’elaborazione di teraByte di dati (10 alla 12), mentre quella delle proteine richiede petaByte (migliaia di teraByte). Il che significa che ci spostiamo su una logica big data, e diventa dunque essenziale la messa a punto di algoritmi in grado di trovare pattern emergenti dal rumore di fondo del sistema complesso cellula. Rif.: B. Saporito, “Blood work. Finding new cures means cracking the body’s complex proteins. So scientists are turning to Big Data”, in “Time”, 20 maggio 2013, pp.40-42 ( time.com/breakthrough )
Parte terza: memi e tecnomemi, verso il Web 3.0 Riferimenti Per informazioni, indicazioni bibliografiche e consigli di lettura, mi potete contattare attraverso la mia email dell’Università: valerio.eletti@uniroma1.it Per informazioni su eventi e novità editoriali su questi temi, potete consultare il sito del Complexity Education Projetc: www.complexityeducation.it Per dare uno sguardo alle prime 12 pagine del mio Quaderno della complessità, potete andare sulla scheda del sito dell’Editore Guaraldi: http://www2.guaraldi.it/Preview.aspx?id=808 Per vedere tutti i titoli della collana dei Quaderni della complessità pubblicati dall’Editore Guaraldi sia in formato e-book che su carta, potete andare sulla pagina IBS dedicata alla collana: http://www.ibs.it/collana/I+quaderni+della+complessit%26agrave%3B/Guaraldi/i+quaderni+della+complessita.html