1 / 19

Úvod do vyhľadávania informácií, základné problémy a pojmy

Úvod do vyhľadávania informácií, základné problémy a pojmy. Vyhľadávanie informácií Michal Laclav ík. Podmienky. Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov: odovzdanie a odprezentovanie praktických projektových zadaní (30 bodov)

lorie
Download Presentation

Úvod do vyhľadávania informácií, základné problémy a pojmy

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Úvod do vyhľadávania informácií, základné problémy a pojmy Vyhľadávanie informácií Michal Laclavík 04.10.2007

  2. Podmienky • Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov: • odovzdanie a odprezentovanie praktických projektových zadaní(30 bodov) • priebežná práca = aktívne konzultovanie projektov aspoň 3 krát zasemester v rámci cvičení (20 bodov) • Vykonanie záverečnej skúšky(50 bodov) • Získanie aspoň 56% celkového hodnotenia (56 bodov). 04.10.2007

  3. Témy • 04.10.2007, Laclavík:Úvod do vyhľadávania informácií, základné problémy a pojmy • 11.10.2007, Laclavík:Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov • 18.10.2007, Laclavík: Textové operácie • 25.10.2007, Šeleng: Indexovanie • 08.11.2007, Šeleng: Vyhľadávanie a usporiadanie (PageRank, ...) • (treba preložiť na iný termín) 15.11.2007, Šeleng: Hodnotenie úspešnosti (Precesion, Recall, ...) • 22.11.2007, Šeleng: Problém spracovania veľkého množstva dát (MapReduce, ...) • 29.11.2007, Laclavík: Softvérové knižnice a systémy (Lucene, lematizátory, ...) • 06.12.2007, Laclavík: Regulárne výrazy a ich použitie pri spracovaní textu • 13.12.2007, Laclavík: Úvod - Spracovanie informácií pomocou sémantiky (RDF, OWL, ...) • (Pondelok) 17.12.2007, Laclavík: Dopytovacie jazyky (SPARQL, ...) 04.10.2007

  4. Literatúra • Michal Laclavík, Martin Šeleng, Marek Ciglan: Vyhľadávanie informácií, máj 2007 • Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press. 2008 • Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, ACM, 1999 • Otis Gospodnetic, Erik Hatcher: Lucene In Action; Manning Publications, December 2004 • Apache Lucene - Java based indexing and search library • Nutch - web search software • Hadoop - Proceesing vast amount of data • Jeffrey Dean, Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters, Google, Inc. OSDI'04, San Francisco, CA, December, 2004 • HadoopMapReduce • Hadoop Distributed File System • Jena RDF tutorial • Jena SPARQL tutorial 04.10.2007

  5. Všetky informácie o predmete http://ikt.ui.sav.sk/vi/ 04.10.2007

  6. História • Knižnice • Knihy • Tvorba indexov • Hierarchické zoznamy • Prvé IR systémy fungovali v knižniciach • Internet • Katalogizácia, hierarchia (DMoz.org) • Indexovanie web stránok • PageRank • Špecializácia na domény (sémantika) 04.10.2007

  7. História (2) • 1992, Text REtrieval Conference (TREC) • Rôzne tracky na rôzne problémy nielen z webu • Spam • Blog • Video • ... 04.10.2007

  8. Internet – nové výzvy • Informácie sú dostupné za oveľa nižšiu cenu • informačné zdroje sú distribuované a dostupné veľmi rýchlo a za pár sekúnd • sloboda zverejniť akúkoľvek informáciu kýmkoľvek je dostupná prvý krát v histórii 04.10.2007

  9. Information Retrieval (1) Ciele • Reprezentácia • Uchovávanie • Organizácia • dostupnosť informácií 04.10.2007

  10. Dáta: 20 Informácia: 20 oC Znalosť: izbová teplota Informácia Keď dáta majú sémantiku (význam) IR systém nemusí rozumieť sémantike ale je dobré keď sa o to snaží Reasoning Actions Pragmatics Knowledge Semantics Information Data Syntax Characters (Bergman, 2002, Experience Management) Information Retrieval (2) 04.10.2007

  11. Information Retrieval (3) • Informácia • Text, dokument • Obrázky • Video • V rámci predmetu VI • Text (dokumenty) • Linky ako ukazovateľ na iné objekty 04.10.2007

  12. Information Retrieval • Klasický prístup • Prehľadávanie každého dokumentu a hľadanie reťazcov • Časovo náročné • Nie nezmyselné • Grep, regulárne výrazy • Veľké množstvo dokumentov • Potreba indexácie • kľúčové slová (prípadne aj všetky slová dokumentu) • Termy 04.10.2007

  13. získavanie informácií stiahnutie dokumentov textové operácie indexovanie spracovanie odkazov Vyhľadávanie formulácia dopytu a operácie na dopyte spracovanie dopytu vrátenie výsledku na používateľské rozhranie spätná väzba od používateľa Architektúra 04.10.2007

  14. Pojmy • Dokumenty • vlastnosti • Textové operácie • Tokenizácia • Lematizácia, stemming • Termy • Odkazy • Indexy • Hodnotenie • Experimentálne overenie • Recall – pokrytie • Precision – presnosť • Zoraďovanie • URLs, termy, normalizácia 04.10.2007

  15. Modely • Booleovský • AND, OR, NOT, term sa vyskytuje alebo nie • Riedka matica • Vektorový • Vector space model • X dimenzionálny priestor, každý term jedna dimenzia • Kosínusová miera, medzi 0-1, 1 pre rovnaké dokumenty • Podobnosť medzi query a dokumentom • Pravdepodobnostný 04.10.2007

  16. Pojmy (2)algoritmické, implementačné • Vector space model • Invertovaný index • PageRank • MapReduce • Lucene • Nutch • Hadoop 04.10.2007

  17. Regulárne výrazy • Spracovanie textu • Find • Replace • Split 04.10.2007

  18. Sémantický web • The Semantic Web is a mesh of information linked up in such a way as to be easily processable by machines, on a global scale. You can think of it as being an efficient way of representing data on the World Wide Web, or as a globally linked database.(Source: http://infomesh.net/2001/swintro/ - The Semantic Web: An Introduction) • RDF • OWL, logika aplikácie • SPQRQL 04.10.2007

  19. Projektové zadania • Tokenizátor (Analyzer) slovenského textu: Vytvoriť analyzator ktorý upraví slovenský text na termy v základnom tvare (lemy) slov alebo korene slov (stemy). Je možné použiť existujúci nástroj Tvaroslovník alebo iný lematizátor. Tokenizátor môže byť urobený ako samostatný program alebo ako rozšírenie Lucene Analyzer. • Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup. • Implementácia PageRank na vybranej skupine webstránok ako úplná implementácia alebo pomocou Nutch. Porovnanie výsledkov. • Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov. • Mail serach Indexovanie emailov pomocou Lucene a následné vyhľadávanie. Možnosť viacerých prístupov: textové súbory, mbox, maildir, mailing listy • Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu. • Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie. • Slovenský stemmer Tvorba algoritmického stemeru pre slovenčinu na napr. podobne ako stempel alebo pomocou iného prístupu. Nemusí končiť úplnou implementáciou. Stačí návrh a čiastočné overenie. • MapReduce Využitie MapReduce prístupu na vybranom probléme z information retrieval. Napríklad aplikácia regulárnych výrazov na dokumentoch. Implementácia pomocou Hadoop. • Vlastný projekt podľa výberu študenta po odsúhlasení cvičiaceho 04.10.2007

More Related