1 / 32

Macchine della conoscenza nella società dell ’ informazione: i motori di ricerca e Google

Macchine della conoscenza nella società dell ’ informazione: i motori di ricerca e Google. “ La biblioteca di Alessandria è stata la prima volta che l ’ umanità è riuscita a portare la somma di tutta l ’ umana conoscenza in un solo posto e in un sol tempo. L ’ ultimo tentativo? Google ”

Download Presentation

Macchine della conoscenza nella società dell ’ informazione: i motori di ricerca e Google

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Macchine della conoscenza nella società dell’informazione: i motori di ricerca e Google “La biblioteca di Alessandria è stata la prima volta che l’umanità è riuscita a portare la somma di tutta l’umana conoscenza in un solo posto e in un sol tempo. L’ultimo tentativo? Google” (Brewster Kahle, fondatore dell’Internet Archive)

  2. LA SOCIETÀ DELL’INFORMAZIONE • Origini della società dell’informazione • Mattelard lega la nascita e lo sviluppo della società dell’informazione alle esigenze del capitalismo moderno, dominato da un modo di produzione che esige rapidità di coordinamento e trova nell’organizzazione di rete, e nei nuovi mezzi di comunicazione di massa (telegrafo, radio, telefono) gli strumenti per gestire e governare la complessità del mercato. • A partire dalla fine dell’800, infatti, la complessità emergente nell’organizzazione dello Stato, nella divisione del lavoro e nella gestione dell’industria richiederà sempre più strumenti di coordinamento: le nuove tecnologie dell’informazione si propongono così come i mezzi adatti per gestire la “complessità organizzata” di questi grandi sistemi.

  3. LA SOCIETÀ DELL’INFORMAZIONE Macchine della conoscenza nella società dell’informazione A partire dal XX secolo la vita sociale e lavorativa dell’uomo è sempre più influenzata dai mezzi che consentono la manipolazione, l’accesso e la diffusione della conoscenza e la sua ricaduta sul ciclo economico. Superati i vincoli spazio-temporali nella circolazione del sapere, grazie alle nuove tecniche di riproduzione (supporti) e distribuzione (canali) dell’informazione, l’uomo si trova di fronte alla complessità di dover gestire l’enorme aumento dell’informazione circolante su scala globale. La difficoltàdi gestire enormi quantità e tipologie diverse di dati spinge alla creazione di strumenti tecnologici in grado di attivare connessioni tra le maglie della conoscenza in modo da valorizzare e rendere accessibile il flusso di informazioni che altrimenti rischia di sommergere l’uomo.

  4. LA SOCIETÀ DELL’INFORMAZIONE • L’era dell’eccesso: • l’information overload • (termine coniato nel 1970 da Alain Toffler) • “eccesso di informazioni che, non potendo essere elaborate, può portare ad una situazione paradossale in cui si realizza l’equazione infinito=nullo”

  5. LA SOCIETÀ DELL’INFORMAZIONE Nel 1700 lo studioso inglese Thomas Baker scriveva: “Il sapere è divenuto ormai così voluminoso che ha iniziato ad affondare sotto il suo stesso peso; i libri si ammucchiano ogni giorno in numero sempre maggiore e sono ammassati l’uno sull’altro; il loro numero infinito distrae le nostre menti e scoraggia ogni sforzo”

  6. ORGANIZZARE LA CONOSCENZA: GLI ANNI ‘30 • L’antico sogno della organizzazione della conoscenza: dalla biblioteca di Alessandria alla biblioteca di Babele di Borges • Gli anni Trenta. Riunire insieme tutta la conoscenza, l’idea di network informativi globali: • - H. G. Weels (1937) ipotizza la creazione il ‘World brain’ un “nuovo organo centralizzato per raccogliere, indicizzare, riassumere e distribuire conoscenza, un organo unitario capace di riunire tutta l’intelligenza del mondo sparsa su scala planetaria, in modo che l’intera memoria del mondo diventi accessibile ad ogni persona”. • - Paul Otlet, (1934), ipotizza la creazione di “una rete universale di informazione e documentazione”, un sistema per permettere di accedere direttamente da casa propria per leggere i libri esposti nella grande biblioteca centrale.

  7. MACCHINE DELLA CONOSCENZA: IL MEMEX DI VANNEVAR BUSH Il punto di partenza: Come gestire l’accesso alla conoscenza e la sua selezione? Vannevar Bush (1890 -1974) Memex (Memory Extender) “As we may think”, Atlantic Monthly, 1945 Il Memex: una macchina personale, mai costruita, per archiviare e ricercare la conoscenza organizzata attraverso collegamente associativi.

  8. METTERE ORDINE NELLA RETE: I MOTORI DI RICERCA • Information Retrieval (IR): gestire il rumore, la ridondanza e l'affidabilità nella ricerca di informazioni • Crescita del web esponenziale • Motori di ricerca: ricercano sul web la ricorrenza di parole chiave fornendo una lista di URL in cui tale sequenza è stata rinvenuta (molteplici tipologie di contenuti: testo, immagini, video, gruppi di discussione, mappe)

  9. I MOTORI DI RICERCA: • Gli spider e la scansione della rete • L’indicizzazione • Creare un database interrogabile dal navigatore. • L'analisi dell'informazione e la sua catalogazione avvengono in base ad algoritmi matematici, che cercano di ignorare le parole ritenute non significative. • Es. eliminazione delle stopwords: parole portatrici di funzioni sintattiche (proposizioni, congiunzioni) • Le parole chiave sono considerate più o meno significative in base al loro “peso”, misurato attraverso la frequenza, la collocazione nel testo, la presenza di link, ecc. • Es. una parola posta all'interno del tag HTML <h1> è ritenuta molto importante • Creazione degli ‘indici invertiti’ e attribuzione del ranking • La porzione di testo in cui si compare la parola chiave viene affiancata da un coefficiente che ne esprime il suo ‘peso’. Una volta formulata una query il motore di ricerca, basandosi sugli indici, produce un lista di pagine web contenenti la parola chiave richiesta. I risultati sono presentati secondo una graduatoria di rilevanza.

  10. IL PAGE RANK DI GOOGLE • Il PageRank: l’autorità che emerge dalla rete • (Gli antecedenti del PageRank: Garfield e il Citation index) • Il Page Rank determina la popolarità attribuita a una determinata pagina web esaminandone la rete di citazione in cui è inserita. Ogni link viene ‘pesato’ in base alla provenienza La novità introdotta del Page Rank consiste nel considerare la struttura stessa del web “in grado di discriminare tra dati irrilevanti e rilevanti”. I link finiscono per diventare “un filtro sul contenuto svolto attraverso l’intelligenza umana”, dal momento che linkare una pagina web significa esprimere un giudizio di valore sul suo contenuto. (Paolo Massa e Conor Hayes)

  11. TOPOGRAFIA DEL WEB E DISTRIBUZIONE DEGLI HUB • Il web è modellizzabile in una rete di citazioni che presenta regole comuni a molte strutture di rete (Barabasi, 1999) • Reti piccolo mondo (Watts e Strogatz 1998): • Aggregati fortemente coesi che tendono spontaneamente ad autorganizzarsi grazie alla presenza di pochi legami chiave che tengono unita la rete attraverso pochi passaggi • Legge di potenza (Legge dell’80/20): • Pochissimi nodi iperconnessi (hub) hanno una connettività molto più alta della media, mentre moltissimi nodi periferici sono scarsamente connessi • Preferential attachment: • I nodi che già posseggono molte connessioni hanno possibilità notevolmente maggiori di acquisirne di nuove (accodamento dei nuovi entranti alle preferenze già espresse da altri). ‘Rich get richer’

  12. IL PAGE RANK DI GOOGLE The invisible web: i motori di ricerca archiviano solo una parte dei contenuti pubblicati sul web. Restano fuori i dati accessibile tramite query (es. elenchi telefonici, archivi legislativi, cataloghi, ecc.) • Alcune osservazioni sul PageRank: • - non è un meccanismo ‘democratico’(‘i ricchi sono sempre più ricchi’, distribuzione degli hub in rete, leggi di potenza, preferential attachment, ecc.) • è un algoritmo che non considera il significato semantico di un link • (ovvero non fa distinzione tra un link che esprime attenzione e un link che esprime apprezzamento/critica (+/-)

  13. GOOGLE PANDA Dare maggiore credito agli indicatori e ai dati che non possono essere facilmente manipolati: - bounce rate, - tempo di permanenza sul sito, - azioni sulla pagina (quali scorrimento della pagina, stampa, aggiunta ai preferiti, click sugli annunci, nessuna azione compiuta, ecc.), - azioni compiute dopo aver lasciato la pagina E’ un algoritmo che si costruisce in itinere. In questo modo, nessuno può veramente discernere quali specifiche variabili determinino il successo o la svalutazione di un sito, perché tali variabili saranno il frutto di calcoli a livello software e non di una regola specifica o di un input generato da esseri umani. Con Google Panda Google si sta allontanando progressivamente dai tradizionali (e manipolabili) segnali di posizionamento, per orientarsi sempre verso il "leggere" il ricco flusso di dati degli utenti che vengono collezionati attraverso cookie, toolbar, account di Google Analytics​ ed AdSense. Fonte: www.masternewmedia.org/

  14. I MOTORI DI RICERCA: METTERE ORDINE NELLA RETE

  15. I MOTORI DI RICERCA: COMPOSIZIONE DEL MERCATO Negli Usa: 65,3% Google 15,5% Yahoo! Search 14,7% Microsoft Search

  16. I MOTORI DI RICERCA: COMPOSIZIONE DEL MERCATO IN ITALIA Dati ISTAT (2010, Indagine cittadini e nuove tecnologie): Il 52,4 % dei nuclei familiari possiede un collegamento internet (media UE 61%) - In Italia monopolio di Google delle ricerche online: 85% - 90% della search (partnership con Tiscali, Libero, Virgilio) A Yahoo e MSN restano le briciole…

  17. LA RICERCA SUL WEB: I MOTORI DI RICERCA E GOOGLE “Google's mission is to organize the world's information and make it universally accessible and useful”

  18. LA STORIA DI GOOGLE -1997: Larry Page e Sergey Brin lavorano all’algoritmo BackRub, (poi denominato Google), presso la Stanford University (CA, USA) -1998: brevettato il PageRank. Il 7 settembre nasce Google Inc. -2000: 60 milioni di ricerche al giorno -2002: nel sistema pubblicitario AdWords(2000) viene introdotto il modello CPC (cost per click), nasce Google News -2003: Google Print (oggi Google Book) -2004: quotazione in borsa (IPO) al prezzo di 85$ ad azione. Oggi un’azione vale circa 586$. -2004: Gmail e Google Scholar, Orkut 2005: 380 milioni di ricerche quotidiane, 8 miliardi di pagine web archiviate, 1.5 miliardi $ di utili

  19. LO SVILUPPO DI GOOGLE -2005-2006: Google Maps, Google Earth, Google Chat, Google Calendar -2007: Google acquista YouTube, lancio di Streetview 2008: Google Chrome, Android OS 2009: Google Wave, Google Latitude, Google Desktop 2010: Google Buzz, Google Energy, Google AdMob, Google Instant 2011: Google +, Search by images, Voice search, Google Wallet

  20. LO SVILUPPO DI GOOGLE

  21. GOOGLE OGGI Il 99% delle entrate di Google proviene da annunci pubblicitari Utili: 6,8 miliardi di dollari Giro di affari: 21 miliardi di dollari Crescita finanziaria di Google: andamento delle entrate dal gen 2008 al 30 giugno 2010. Fonte: Google

  22. GOOGLE OGGI • Google top 20 domains: • 70% Search • 10% YouTube • 6% Image • 6% Gmail

  23. ADWORDS Il sistema Adwords introdotto nel 2000 basato sul CPM (Cost Per thousand Model), viene modificato nel 2002 con l’introduzione del CPC (Cost Per Clicktrought) “Google firmly believes that ads can provide useful information if, and only if, they are relevant to what you wish to find”

  24. ADWORDS “Placement in search results is never sold to anyone” Advertising on Google is always clearly identified as a Sponsored Link. We never manipulate rankings to put our partners higher in our search results. No one can buy better PageRank. Our users trust Google's objectivity and no short-term gain could ever justify breaching that trust. Paid placement: annuncio a pagamento associato ad una determinata parola chiave nei risultati di un motore di ricerca Paid inclusion:pratica che consiste nel pagare per avere il proprio sito inserito in buona posizione e ad un maggior livello di profondità nell’indicizzazione di un motore di ricerca (non utilizzata da Google)

  25. ADWORDS

  26. KEYWORD ADVERTISING Struttura di una campagna Adwords Meccanismo a base d’asta Google Adsense: servizio di pubblicazione annunci per i gestori di siti web

  27. IL MECCANISMO A BASE D’ASTA • L’inserzionista inserisce una parola chiave (es,‘cioccolato fondente’) • Google Adwords assegna alla parola chiave un Quality score basato su diversi fattori che ne valutano la rilevanza • Un utente cerca la parola chiave ‘cioccolato fondente’ su Google (search) • Google verifica che la parola chiave proposta dall’inserzionista abbia i requisiti per partecipare all’asta (ovvero se il max CPC è maggiore del min CPC richiesto da Google Adwords) • Se la parola chiave ha i requisiti per partecipare all’asta, Google include l’annuncio negli sponsored link, posizionandolo in base al suo Ad Rank (ottenuto moltiplicando il max CPC con il Quality score) • Ad Rank = Maximum CPC x Quality score • Nota: il CPC effettivamente pagato è pari all’importo necessario per comparire in classifica prima degli eventuali competitor

  28. GOOGLE E LA GESTIONE DEI DATI PERSONALI • - Tutela della privacy: • Oggi sulla rete abbiamo “scambiato la privacy in cambio della convenienza e del desiderio di comunicare. […] Siamo disposti a cedere parte della nostra privacy - almeno, fino adesso - in cambio di comodità e servizi” • (John Battelle, 2005) • - Il diritto all’oblio: • Nel 2006 Francesco Pizzetti, Garante italiano per la protezione dei dati personali, ha affermato che: “il diritto delle persone ad essere rappresentate su Internet con informazioni esatte deve essere sempre garantito in Rete, anche fuori delle pagine Web che per prime pubblicano i dati. Altrimenti il rischio, in alcuni casi, è quello di arrecare seri danni agli interessati”. • - Cookie e file di log: • Durata dei cookie installati nei browser: limite portato nella UE da 30 anni a 2 anni. • File di log resi anonimi dopo 18 mesi

  29. IL CASO CINA E LA ‘GRANDE MURAGLIA ELETTRONICA’ Google collabora con il governo cinese per filtrare i risultati di ricerca difformi alle leggi locali.

  30. I PERCHE’ DEL SUCCESSO DI GOOGLE • It works • Capacita’ di leggere e di anticipare i bisogni degli utenti in in rete creando un ambiente in cui si condividere la conoscenza. • (es. Gmail. Google Talk, Google Document, Google Maps) • “Più che sul terreno della tecnologia, Google sta vincendo perché sa leggere gli scambi che avvengono fra gli essere umani e le macchine, e sa predisporre le tecnologie come risposte ad esigenze concrete” • (V. Zambardino, 25.02.2006) • Google si propone come norma di chiusura di un sistema di sapere, che rassicura in quanto approdo di una rete infinita di rimandi. • Affidarsi, selezione di fronte al paradosso della scelta (Oularvista 2009). • Gli utenti provano più soddisfazione con un minor numero di risultati di ricerca (6 vs 24), aumenta la soddisfazione davanti a un minor numero di scelte.

  31. GOOGLE OGGI - vastissimo database of intensions (Battelle) - filtro nell’orientare le scelte (es.ricerca di informazione prima di effetturare acquisti) - potere di rappresentazione: definisce le identità di soggetti e luoghi (impatto sul marketing del turismo)

  32. RIFERIMENTI BIBLIOGRAFICI Barabàsi, Albert-Laszlo, Link.La scienza delle reti, Einaudi, Torino, 2004 Battelle, John, Google e gli altri, (ed. orig.The search) Cortina, 2006 Bush, Vannevar, As we may think, 1946 Castells, Manuel, La nascita della società in rete, Vol. 1: L'età dell'informazione: economia, società, cultura, Bocconi, Milano, 2002 Mattelard, Armand, Storia della società dell’informazione, Einaudi, Torino, 2002 Zook, M., Graham M., “The Creative Reconstruction of the Internet: Google and the Privatization of Cyberspace and DigiPlace”. GeoForum, 2007

More Related