730 likes | 1.21k Views
Motori di Ricerca. Se non sai, sappi dove (e come) cercare!. Motori ! V1.1 05/2003. Il web oggi dimensioni, lingue etc. Glossario di ricerca Motori, metamotori, integratori Come funzionano, Come si utilizzano Directory Newsgroups. 2004: 100 miliardi di pagine. cip: Enorme!.
E N D
Motori di Ricerca Se non sai, sappi dove (e come) cercare!
Motori ! V1.1 05/2003 • Il web oggi dimensioni, lingue etc. • Glossario di ricerca • Motori, metamotori, integratori • Come funzionano, • Come si utilizzano • Directory • Newsgroups
2004: 100 miliardi di pagine cip: Enorme! Dimensioni del Web 2002: 6 miliardi di pagine presenti • Oltre 8 milioni di siti (ott. 2001) , 73% in inglese, 7% in tedesco …
cip: Web: in Italiano “ragnatel” IL WEB!
Il Web oggi (2002): alcune informazioni • Degli 8.4 milioni di siti, 3.1 milioni sono classificati come siti pubblici (i.e. siti il cui contenuto è liberamente accessibile al pubblico), 2.1 come privati (accesso ristretto) e 3.2 provvisori o in uno stato transitorio (non terminati) • 10% di link “morti” (dead links)
Web: Info • Lingue: Inglese 73%, tedesco 7%, giapponese 5%, francese e spagnolo 3% (e l’Italiano?) • Il 47% dei siti pubblici sono negli USA
cip: dati 2001 Quanto è grande Internet? • “Surface” web (SW, circa 2,5Miliardi di documenti) • “Deep” web (DW) circa 500 volte più grande • SW cresce di circa 7 milioni di pagine al giorno • Media di 20KB per pagina
Quanto è grande Internet? • DW= SW più DB (Data Bases), pagine dinamiche, Intranets … • I due DB più grossi accessibili sono il “National climatic data center” www.ncdc.nooa.com e la NASA (circa 585 Terabytes di Informazione
Tipi di documenti nel web • Pagine Html • PDF (adobe Acrobat) • DOC (Microsoft Word) • PS (Adobe Postscript) • PPT (Microsoft Powerpoint) • XLS (Microsoft Excel) • RTF (Rich Text Format)
cip: e il “cinese”? Utenti e lingue Internet • Solo circa il 50% degli utenti Internet è di madrelingua Inglese • Il 78% dei siti e il 96% dei siti di e-commerce è in Inglese • Traduttori…. • E-mail: circa 2000 miliardi di messaggi all’anno (spam)
Glossario (1) • Ricerca Booleana Una ricerca che permette la inclusione o la esclusione di documenti che contengono certe parole tranite l’uso di operatori come AND, NOT e OR. • Ricerca Concettuale La ricerca di documenti che sono in relazione con una parola, piuttosto che di quelli che la contengono specificamente. • Indice “Full-text”: un indice che contiene ogni parola di ogni documento, incluse le “stop words” • Fuzzy search: Una ricerca che trova risultati anche quando le parole sono scritte parzialmente o male.
Glossario (2) • Indice: Il catalogo dei documenti creato dal motore di ricerca (chiamato anche catalogo) • Ricerca per parole chiave (Keyword search): una ricerca di documenti che contengono una o più parole specificate dall’utente. • Ricerca di una Frase: Ricerca di documenti che contengono una frase (sentence) esatta. • Precisione: Quanti dei documenti segnalati effettivamente rispondono alla richiesta fatta. Per esempio, se un motore lista 80 documenti ma solo 20 di essi contengono le parole cercate, la sua precisione è del 25%
Glossario (3) • Ricerca di Prossimità: Una ricerca in cui le parole cercate devono essere vicine fra di loro. • Query-By-Example: Ricercain cui si richiedono ulteriori documenti simili ad un particolare documento "find similar." • Rilevanza: Quanto un documento fornisce l’informazione cercata.
Glossario (4) • Motore di ricerca: Il software che cerca in un indice e fornisce i risultati.Spesso viene usato come sinonimo di Spider e Crawler anche se si tratta di componenti separati. • Spider: Il software che esplora pagine web e le aggiunge ad un indice seguendo i collegamenti (Iperlink). Anche “Crawler” • Stemming: La capacità in una ricerca di includere la radice delle parole ad es nuotatore… nuoto
Glossario: (5) • Stop words: congiunzioni, preposizioni articoli e altre parole come “e, a, un, il” che appaiono frequentemente nei documenti ma significano poco. • Thesaurus: Una lista di sinonimi che un motore può utilizzare quando cerca particolari parole anche se i termini cercati non appaiono nei documenti.
Motori di ricerca: come operano • Programmi robot (crawler, Spider o indicizzatori) che aggiornano automaticamente gli indici del motore di ricerca • Le informazioni non vengono “filtrate” • Aggiornamenti costanti e precisi • Raccolgono le informazioni su tutte le pagine web dei siti e non solo sulla Home Page • Enormi DataBase
Motori di ricerca: categorie • Motori (Altavista, Google, Hotbot, Ask Jeeves, etc etc.) • Metamotori (Metacrawler…) • “Integratori” (Copernic o altri)
Motori, metamotori etc • Funzionano in maniera diversa • Sia come indicizzazione che come utilizzo • Informazioni su... • www.Searchenginewatch.com • www.motoridiricerca.it • Motori che usano linguaggio naturale (ask jeeves) www.ask.com
Differenti caratteristiche dei motori • Da http://www.searchenginewatch.com/facts/ataglance.html • Caratteristiche comuni (esempi) • Includi “+” Escludi “-” Frase “xxxx” • Caratteristiche Non comuni • Nesting: pizza AND (pomodoro OR acciughe) • Minuscole maiuscole • “near” pizza near pomodoro • *paolo --->(pierpaolo gianpaolo etc.)
cip: ? Motori: alcune specificità • Esempi: • Il qualificatore “Near” è gestito da Altavista (10 parole), Lycos (25 parole) e basta… • Paol* non gestito da Google • http://www.motoridiricerca.it/tabella.htm
Rilevanza: Come viene dato peso alle pagine web • Come fanno i motori a stabilire la rilevanza dei risultati? • Usano algoritmi proprietari (e segreti) con le seguenti regole generali • Posizione delle parole e Frequenza • Esempio del bibliotecario e “viaggi”, prima i libri con la parola viaggi(o) nel titolo. (tag <title>) • Si cerca anche che la parola appaia nelle prime righe della pagina.
Frequenza • La Frequenza è il secondo criterio per determinare la rilevanza. • Motori diversi, diverso numero di pagine indicizzate, diversa frequenza di visita, diverso tempismo, dunque risultati diversi. • I Meta tags, non sono letti da tutti i motori e sono comunque trattati in modo differente • Penalizzazione dello spamming, lotta continua con i webmasters, incluse le lamentele degli utenti.
Come funziona, il peso dato alle pagine • Fattori “fuori pagina” (Off The Page) • Analisi dei link può determinare l’argomento e l’importanza (punteggio) • Quante volte viene cliccato un certo risultato? Il Punteggio cambia (+ o -) • Vedere il Search Engine Features Chart e il Search Engine Design Tips su www.searchenginewatch.com. • http://www.searchenginesinfo.com/
I motori “di moda” • Google • Altavista • Motori italiani • (Yahoo, america online ed altri usano google)
Usenet newsgroups • Oltre 35000 (100.000?) gruppi di discussione • Testo, no multimedia (*) Protocollo NNTP • Esistono da molti anni prima del “Web” e del browser • Utilissimi • Soprattutto le “Faq” (frequently asked questions) • Storia dall’81 su Google
Usenet Newsgroups • Accessibili tramite un Newsreader ( in netscape, Outlook o altro) si specifica un newsserver (p. es. “News.tin.it”) e ci si “abbona” ai newsgroups a scelta. • Contengono discussioni su temi disparati. • Usa il protocollo NNTP • Accesso tramite web browser su google o altavista • www.faq.org • http://www.google.it/grphp?hl=it
Newsgroups importanti • News.answers • Comp.answers
Er meio! furbo e potente • Tre miliardi di documenti indicizzati • Due miliardi di pagine web, • 300 milioni di immagini • 700 milioni di usenet posts Dati 2002
Google • Copia cache • Ricerca nei risultati • Traduzione (Beta test) • Maiuscole minuscole • “And” automatico • “Mi sento fortunato” • Newsgroups
Google traduzioni !!!!!
Altri servizi Google • Froogle • Catalogs! • News • etc.
Cercando sul web • Portale: sito di accesso alla rete, con directory, news, servizi, giochi, chat, etc. • Directory: comprendono collezioni di siti organizzati per categorie omogenee • Motore di ricerca: mettono a disposizione un archivio di pagine web
Directory • Fornisce liste di siti suddivisi in categorie correlate da una breve descrizione • Categorie e descrizioni sono raccolte da persone specializzate (web surfers) secondo il proprio giudizio • Gli aggiornamenti dipendono dai tempi “umani”
Metamotori: • Fanno lavorare gli altri • Utili per uscire dal tran tran • Per trovare più informazioni • Ultima spiaggia?
Integratori come Copernic • Molto utile • www.copernic.com • Sottomette le richieste a vari motori, aggiungendo del suo.. • Ricerca per categorie • Opera in locale sul tuo PC. • Versione base gratuita
Copernic, un gioiello! • Copernic usa siti specifici, ritiene che ci siano info più pertinenti/più aggiornate • Info che i normali motori non trovano! • Categorie: MP3s, notizie locali, enciclopedie, giochi, downloads, viaggi etc.
Copernic • La versione base opera una metaricerca che prende i risultati da molti altri motori AltaVista, Excite, Fast Search, Lycos, WebCrawler, MSN Web Search, Yahoo!, Hotbot, GoTo, FindWhat e l’ Open Directory Project. (….) • Validazione “dead links”, ricerche su categorie (enciclopedie, immagini, mp3, indirizzi di posta…)