390 likes | 518 Views
Big Data : volume di dati livelli variabili di complessità generati a velocità differenti non elaborabili con tecnologie tradizionali. LE TRE V. Volume : gestione di moltissimi dati Velocità : gestione in tempo reale Varietà : fonti e tipologie diverse.
E N D
Big Data : • volume di dati • livelli variabili di complessità • generati a velocitàdifferenti • non elaborabili con tecnologie tradizionali
LE TRE V • Volume: gestione di moltissimi dati • Velocità: gestione in tempo reale • Varietà: fonti e tipologie diverse
DUE V IN PIÙ • Veridicità: attendibilità dei dati raccolti • Volatilità: tempo di validità dei dati
PERCHÉ UTILIZZARE I BIG DATA • Opportunità di conoscenza • Capire il mondo reale • Opportunità commerciali
DATI NON STRUTTURATI • Non possiedono un modello prestabilito • Non sono organizzati • Possono causare ambiguità • Sono costituiti da: • Testo • Audio • Video • Flussi di click • …
RACCOLTA DI DATI ORDINARI • Raccolta di informazioni • Classificazione in categorie prestabilite • Organizzazione secondo uno schema preciso • Memorizzazione fisica dei dati
ELABORAZIONE DEI BIG DATA • Collezione e memorizzazione dei dati • Classificazione per categorie • Trasformazione dei dati • Generazione dei risultati trovati
ANALISI DEI SENTIMENTI • ASCOLTARE • CAPIRE • RIELABORARE • VISUALIZZARE
HEDONOMETER • Script pattern matching: • individuaretokens • stabilireilpatterndellefrequenze in un testo • Set di parole: • Google books • Twitter • Canzoni 1960/2007 • New York Times 1987/2007 • Grado di felicitá: • Amazon’s Mechanical Turk http://www.hedonometer.org/index.html
havg(T) = livello di felicitá della frase T • havg (wi) = felicitá di ciascuna parola • Fi = frequenza della i-esima parola
TWITTER ANALYSIS • 484 miloni di tweets • 9.8 milionidi persone • Luglio2009 e Gennaio 2012 • 54 piúlarghecittádella Gran Bretagna • Parole cercate: PAURA, GIOIA, RABBIA, TRISTEZZA PAPER: <<Big Data Analysis of News and Social Media Content>> Ilias Flaounas, Thomas Lansdall-Welfare, Nello Cristianini Intelligent Systems Laboratory, University of Bristol
TIMELINE GENERATE GRAFICO DELLA GIOIA GRAFICO DELLA RABBIA
GRAFICO SETTIMANALE GRAFICO GIORNALIERO PAPER: <<Temporal patterns of happiness in a global social network: Hedonometrics and Twitter>> P. Sheridan Dodds, K. Decker Harris, I. Kloumann, Center of complex systems of the university of Vermont
VOICES FROM THE BLOG http://www.blogsvoices.unimi.it
LIMITAZIONI • AMBIGUITÁ • SENSI MULTIPLI • TONO • SARCASMO • SOPRANNOMI • IMMAGINI
CONSIDERAZIONI «Il Big Data ha avuto un impatto nello studio del comportamento umano simile all’introduzione del microscopio o del telescopio nei campi della biologia e dell’astronomia» Zeynep Tufekci “Big Questions for Social Media Big Data”
BIG DATA vs MARKETING • Big Data aiutano a comprendere le dinamiche del proprio mercato di riferimento • Per riuscire a trarne il massimo bisogna sodisfare alcuni requisiti: • Nuova mentalità • Leadership • Team di ricerca • Gestione dei dati
BIG DATA vs ROI Big Data + Marketing = ROI enorme
Perché le aziende ti conoscono meglio della tua famiglia Attraverso un’analisi dei dati il negozio Target è riuscito a scoprire che una ragazza era incinta, ancora prima che lo sapessero i suoi genitori. Fedelity Card Informazioni Personali + Informazioni di Vendita Big Data
AMAZON • 152 milioni di conti cliente Amazon Web Services: • Raccolta • Archiviazione • Calcolo • Condivisione Ricerche + Acquisti + Desideri Big Data Pubblicità
AMAZON CLOUD DRIVE • 5 GB gratis • 1.000 GB massimo • 2 GB trasferimento massimo per file • $ 0.50 per GB • Online software Cloud Player
SPEDIZIONE ANTICIPATA Obiettivi: • Restringere tempi di attesa • Predire gli ordini del cliente « Se non lo vuoi, te lo regaliamo! »
SPEDIZIONE CON DRONI Amazon Prime Air: • 15 KM massimo • 2 KG massimo • Spediti 30/60 minuti dall’ordine • Ricevuti nella stessa giornata dell’ordine
Servizi per: • Utenti: • Motore di ricerca • Chrome • Gmail • Aziende: • Pubblicità con testo • Pubblicità multimediale
GOOGLE NOW OGGI Schede: • Traffico • Meteo • Sport • Attività • Appuntamenti • Trasporto pubblico • Attrazioni nelle vicinanze • Amici nelle vicinanze • Notizie
GOOGLE NOW DOMANI • Salvataggio posizione parcheggio • Conto alla rovescia • Promemoria pagamento bollette DATI GOOGLE NOW • Cronologia delle posizioni • GPS • Gmail • Calendario • Contatti • Ricerche Google
RICERCA TRAMITE IMMAGINE Ricerca per: • Trascinamento • Caricamento • URL • Click su un’immagine Web Risultati: • Immagine stessa • Immagini simili • Siti web contenenti immagini simili
Caratteristiche: • 80 lingue • traduzione automatica statistica • possibilità di cambiare il testo tradotto scegliendo alternative da un elenco esistente News: « Improvethistranslation »
GoogleTranslate:App • immissione vocale • fotocamera • scrittura a mano libera • modalità offline
INFORMATION RETRIEVAL Reperimento delle informazioni: È l'insieme delle tecniche utilizzate per gestire oggetti contenenti informazioni
INFORMATION RETRIEVAL Permette di: • Rappresentare • Memorizzare • Organizzare
INFORMATION RETRIEVAL Soddisfa: • Il bisogno informativo dell’utente Gestistione: • Ricerca di informazioni, non di dati • Possibile restituzione di risultati non pertinenti
È un movimento che promuove il non utilizzo del modello relazionale. Identifica: • un'ampia varietà di tecnologie legate ai database Risponde: • al crescente volume di dati memorizzati sulla Rete • alle modalità e alla frequenza di accesso ai dati • alla necessitá di performance e di potenza di calcolo
NOSQL I PUNTI DI FORZA • Scalabilitá • Prestazionimigliori • Schemidinamici • Facile da utilizzare • Flessibile
È un framework che supporta applicazioni distribuite con elevato accesso ai dati • Permette di lavorare con migliaia di nodi e petabyte di dati
Yahoo! è il più grande contributore a questo progetto • È usato anche da: AOL, Ebay, Facebook, IBM, ImageShack, Joost, Linkedin, Spotify, The New York Times e Twitter