190 likes | 345 Views
Úvod do vyhľadávania informácií, základné problémy a pojmy. Vyhľadávanie informácií Michal Laclav ík. Podmienky. Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov: odovzdanie a odprezentovanie praktických projektových zadaní (30 bodov)
E N D
Úvod do vyhľadávania informácií, základné problémy a pojmy Vyhľadávanie informácií Michal Laclavík 04.10.2007
Podmienky • Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov: • odovzdanie a odprezentovanie praktických projektových zadaní(30 bodov) • priebežná práca = aktívne konzultovanie projektov aspoň 3 krát zasemester v rámci cvičení (20 bodov) • Vykonanie záverečnej skúšky(50 bodov) • Získanie aspoň 56% celkového hodnotenia (56 bodov). 04.10.2007
Témy • 04.10.2007, Laclavík:Úvod do vyhľadávania informácií, základné problémy a pojmy • 11.10.2007, Laclavík:Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov • 18.10.2007, Laclavík: Textové operácie • 25.10.2007, Šeleng: Indexovanie • 08.11.2007, Šeleng: Vyhľadávanie a usporiadanie (PageRank, ...) • (treba preložiť na iný termín) 15.11.2007, Šeleng: Hodnotenie úspešnosti (Precesion, Recall, ...) • 22.11.2007, Šeleng: Problém spracovania veľkého množstva dát (MapReduce, ...) • 29.11.2007, Laclavík: Softvérové knižnice a systémy (Lucene, lematizátory, ...) • 06.12.2007, Laclavík: Regulárne výrazy a ich použitie pri spracovaní textu • 13.12.2007, Laclavík: Úvod - Spracovanie informácií pomocou sémantiky (RDF, OWL, ...) • (Pondelok) 17.12.2007, Laclavík: Dopytovacie jazyky (SPARQL, ...) 04.10.2007
Literatúra • Michal Laclavík, Martin Šeleng, Marek Ciglan: Vyhľadávanie informácií, máj 2007 • Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press. 2008 • Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, ACM, 1999 • Otis Gospodnetic, Erik Hatcher: Lucene In Action; Manning Publications, December 2004 • Apache Lucene - Java based indexing and search library • Nutch - web search software • Hadoop - Proceesing vast amount of data • Jeffrey Dean, Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters, Google, Inc. OSDI'04, San Francisco, CA, December, 2004 • HadoopMapReduce • Hadoop Distributed File System • Jena RDF tutorial • Jena SPARQL tutorial 04.10.2007
Všetky informácie o predmete http://ikt.ui.sav.sk/vi/ 04.10.2007
História • Knižnice • Knihy • Tvorba indexov • Hierarchické zoznamy • Prvé IR systémy fungovali v knižniciach • Internet • Katalogizácia, hierarchia (DMoz.org) • Indexovanie web stránok • PageRank • Špecializácia na domény (sémantika) 04.10.2007
História (2) • 1992, Text REtrieval Conference (TREC) • Rôzne tracky na rôzne problémy nielen z webu • Spam • Blog • Video • ... 04.10.2007
Internet – nové výzvy • Informácie sú dostupné za oveľa nižšiu cenu • informačné zdroje sú distribuované a dostupné veľmi rýchlo a za pár sekúnd • sloboda zverejniť akúkoľvek informáciu kýmkoľvek je dostupná prvý krát v histórii 04.10.2007
Information Retrieval (1) Ciele • Reprezentácia • Uchovávanie • Organizácia • dostupnosť informácií 04.10.2007
Dáta: 20 Informácia: 20 oC Znalosť: izbová teplota Informácia Keď dáta majú sémantiku (význam) IR systém nemusí rozumieť sémantike ale je dobré keď sa o to snaží Reasoning Actions Pragmatics Knowledge Semantics Information Data Syntax Characters (Bergman, 2002, Experience Management) Information Retrieval (2) 04.10.2007
Information Retrieval (3) • Informácia • Text, dokument • Obrázky • Video • V rámci predmetu VI • Text (dokumenty) • Linky ako ukazovateľ na iné objekty 04.10.2007
Information Retrieval • Klasický prístup • Prehľadávanie každého dokumentu a hľadanie reťazcov • Časovo náročné • Nie nezmyselné • Grep, regulárne výrazy • Veľké množstvo dokumentov • Potreba indexácie • kľúčové slová (prípadne aj všetky slová dokumentu) • Termy 04.10.2007
získavanie informácií stiahnutie dokumentov textové operácie indexovanie spracovanie odkazov Vyhľadávanie formulácia dopytu a operácie na dopyte spracovanie dopytu vrátenie výsledku na používateľské rozhranie spätná väzba od používateľa Architektúra 04.10.2007
Pojmy • Dokumenty • vlastnosti • Textové operácie • Tokenizácia • Lematizácia, stemming • Termy • Odkazy • Indexy • Hodnotenie • Experimentálne overenie • Recall – pokrytie • Precision – presnosť • Zoraďovanie • URLs, termy, normalizácia 04.10.2007
Modely • Booleovský • AND, OR, NOT, term sa vyskytuje alebo nie • Riedka matica • Vektorový • Vector space model • X dimenzionálny priestor, každý term jedna dimenzia • Kosínusová miera, medzi 0-1, 1 pre rovnaké dokumenty • Podobnosť medzi query a dokumentom • Pravdepodobnostný 04.10.2007
Pojmy (2)algoritmické, implementačné • Vector space model • Invertovaný index • PageRank • MapReduce • Lucene • Nutch • Hadoop 04.10.2007
Regulárne výrazy • Spracovanie textu • Find • Replace • Split 04.10.2007
Sémantický web • The Semantic Web is a mesh of information linked up in such a way as to be easily processable by machines, on a global scale. You can think of it as being an efficient way of representing data on the World Wide Web, or as a globally linked database.(Source: http://infomesh.net/2001/swintro/ - The Semantic Web: An Introduction) • RDF • OWL, logika aplikácie • SPQRQL 04.10.2007
Projektové zadania • Tokenizátor (Analyzer) slovenského textu: Vytvoriť analyzator ktorý upraví slovenský text na termy v základnom tvare (lemy) slov alebo korene slov (stemy). Je možné použiť existujúci nástroj Tvaroslovník alebo iný lematizátor. Tokenizátor môže byť urobený ako samostatný program alebo ako rozšírenie Lucene Analyzer. • Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup. • Implementácia PageRank na vybranej skupine webstránok ako úplná implementácia alebo pomocou Nutch. Porovnanie výsledkov. • Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov. • Mail serach Indexovanie emailov pomocou Lucene a následné vyhľadávanie. Možnosť viacerých prístupov: textové súbory, mbox, maildir, mailing listy • Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu. • Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie. • Slovenský stemmer Tvorba algoritmického stemeru pre slovenčinu na napr. podobne ako stempel alebo pomocou iného prístupu. Nemusí končiť úplnou implementáciou. Stačí návrh a čiastočné overenie. • MapReduce Využitie MapReduce prístupu na vybranom probléme z information retrieval. Napríklad aplikácia regulárnych výrazov na dokumentoch. Implementácia pomocou Hadoop. • Vlastný projekt podľa výberu študenta po odsúhlasení cvičiaceho 04.10.2007