1 / 28

Úvod do vyhľadávania informácií základné problémy a pojmy

Úvod do vyhľadávania informácií základné problémy a pojmy. Vyhľadávanie informácií Michal Laclav ík. Podmienky. Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov:

luyu
Download Presentation

Úvod do vyhľadávania informácií základné problémy a pojmy

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Úvod do vyhľadávania informáciízákladné problémy a pojmy Vyhľadávanie informácií Michal Laclavík

  2. Podmienky Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov: odovzdanie a odprezentovanie praktických projektových zadaní(30 bodov) – 20 bodov splnenie zadania zvyšok za super splnenie. priebežná práca = aktívne konzultovanie projektov aspoň 4 krát za semester v rámci cvičení (20 bodov), 5 bodov za každú konzuláciu, kde je potrebné byť pripravený. Vykonanie záverečnej skúšky(50 bodov) Získanie aspoň 56% celkového hodnotenia (56 bodov). Bratislava, 22.september 2014

  3. Podmienky – konzultácie (1) priebežná práca = aktívne konzultovanie projektov aspoň 4-krát za semester v rámci cvičení (20 bodov) 1. konzultácia – výber a potvrdenie projektu + dáta Na wiki info o zadaní projektu (opis problém) + linka na dáta 2. konzultácia – jednoduchý testovací kód na vzorke dát Funkčný kód v github-e, na wiki info s linkou na github 3. konzultácia – takmer naprogramované riešenie V githube funkčný kód, ktorý študent testoval aj na celých dátach (napr. Wikipédia). Dohodneme sa čo treba na dokončenie. 4. konzultácia – hotový softvér, ak dobré je možné aj opdovzdať !odovzdanie projektu do konca semestra! Po odovzdaní je možné dostať body za dopracovanie zadania ale iba iba nasledovným spôsobom, príklad: Treba teda mať na 4. konzultácii hotový soft a predviesť ho. Potom stačí niečo dorobiť a môžete mať viac bodov ale iba do konca semestra pred Vianocami. Konzultácie dopredu nahlásiť na wiki – trvanie 10 minút 1 cvičenie = 12 konzultácií x 2 x 10 = 240 cca 80študentov x 4 konzultácie = 320 => treba sa zavčasu nahlásiť Bratislava, 22.september 2014

  4. Podmienky – konzultácie (2) 1. konzultácia – výber a potvrdenie projektu Do 29.9.2014 2. konzultácia – jednoduchý testovací kód na vzorke dát Do 20.10.2014 3. konzultácia – takmer naprogramované riešenie, ukážka softvéru nie úplného Do 10.11.2013 4. konzultácia - hotový softvér, ak dobré je možné aj opdovzdať Do 24.11.2014 (medzi 3. a 4. nie je veľký rozdiel – 3. možete aj skôr dátum je posledná možnosť) dovzdanie projektu Na poslednej prednáške a cvičeniach 2.12.2014? Bratislava, 22.september 2014

  5. Projekty • Odovzdať • Software na poslednej prednáške a cviku • Emailom • Zavesiť na web na vyskúšanie s popisom ako spustiť, keď je v github niekedy stačí parametre spustenia (po dohode) • Odovzdávanie na poslednej prednáške a cvičeniach • Text na wiki – hlavne linky a max 1 strana. • Čo: Idea • Ako: postup, literatura • Overenie: porovnanie výsledkov recall, precission • Záver • Všetko s projektami a konzultáciami (prvých možných 50 bodov) sa rieši cez wiki. Čo nie je na wiki neexistuje. • Nerozpisujte sa príliš. • V minulosti bol väčší dôraz na text na Wiki, teraz hlavne kód: • Integrovaný na github (aj s inými projektami) • Javadoc, zrozumiteľné komenty – v angličtine aj premenné aj komenty • Unit testy na vzorke dát Bratislava, 22.september 2014

  6. Podmienky pre úspešné odovzdanie projektu • Krátke info na wiki (max 1 strana) • krátky popis projektu-problému a motivácia načo je to dobré • vyhodnotenie slovné subjektívne na nejakých konkrétnych príkladoch. Vo vačšine projektov aj vyhodnotenie pomocou presnosti a úplnosti(precision a recall) • spustenie, inštalácia softvéru, použitie softvéru • Všetko na wiki dva dni pred odovzdaním projektu! • Softvér priložený ako zip príloha na wiki stránke, niekedy po dohode stací v github. 2-5 min predvedenie softvéru. Pripravte si to tak aby sme s tým nezabili 30 minút. Softvér musí byť pripravený tak aby ho nebol problém spustiť alebo nainštalovať. • wiki stránka sa myslí stránka vášho projektu Bratislava, 22.september 2014

  7. Témy Textové operácie Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov Indexovanie (Modely) Softvérové knižnice a systémy Extrakcia informácií Vyhľadávanie a usporiadanie Regulárne výrazy a ich použitie pri spracovaní textu Problém spracovania veľkého množstva dát (MapReduce, Hadoop) Hodnotenie úspešnosti Google Úvod - Spracovanie informácií pomocou sémantiky Dopytovacie jazyky SPARQL Multimedia information retrieval (možno) Sumarizácia učiva a priblíženie obsahu skúšky Bratislava, 22.september 2014

  8. Literatúra Michal Laclavík, Martin Šeleng: Vyhľadávanie informácií, 2012 Steven Bird, Ewan Klein, and Edward Loper: Natural Language Processing with Python, 2009 Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press. 2008 Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, ACM, 1999 Singhal, Amit (2001). Modern Information Retrieval: A Brief Overview. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35-43 S Brin, L Page: The anatomy of a large-scale hypertextual Web search engine; Computer Networks and ISDN Systems, 1998 Michael McCandless, Erik Hatcher, and Otis Gospodnetić: Lucene in Action, Second Edition; Manning Publication; ISBN: 1933988177, 2010 Apache Lucene - Java based indexing and search library Nutch - web search software Hadoop - Proceesing vast amount of data Jeffrey Dean, Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters, Google, Inc. OSDI'04, San Francisco, CA, December, 2004 HadoopMapReduce Hadoop Distributed File System Jena RDF tutorial Jena SPARQL tutorial Text REtrieval Conference (TREC) Graphs in IR Bratislava, 22.september 2014

  9. Literatúra - Vyhľadávanie informácií Vysokoškolská učebnica Vyhľadávanie informácií (Information Reterieval) Názov:Vyhľadávanie informácií Autori:Michal Laclavík, Martin Šeleng Vydala:Slovenská technická univerzita v Bratislave, vo Vydavateľstve STU, Bratislava, Vazovova 5. ISBN:978-80-227-3829-3 Rok vydania:2012 http://laclavik.sk/IR/ Bratislava, 22.september 2014

  10. Všetky informácie o predmete http://vi.ikt.ui.sav.sk/

  11. Aplikácie • Vyhľadávanie – ako na Google • Sémantické vyhľadávanie (Entity search) • Google knowledge graph • Wikipedia • Freebase • Facebook search • Linked Data • Text Analysis, Text Mining • Žiadaná profesia: Data Scientist Bratislava, 22.september 2014

  12. História Knižnice Knihy Tvorba indexov Hierarchické zoznamy Prvé IR systémy fungovali v knižniciach Cranfield experiment Nástup počítačov, TREC Internet Katalogizácia, hierarchia (DMoz.org) Indexovanie web stránok Google, PageRank Špecializácia na domény (sémantika) Web 2.0, Sociálne siete Bratislava, 22.september 2014

  13. História (2) 1992, Text REtrieval Conference (TREC) Rôzne tracky na rôzne problémy nielen z webu Spam Blog Video ... Bratislava, 22.september 2014

  14. Internet – nové možnosti a výzvy Informácie sú dostupné za oveľa nižšiu cenu informačné zdroje sú distribuované a dostupné veľmi rýchlo a za pár sekúnd sloboda zverejniť akúkoľvek informáciu kýmkoľvek je dostupná prvý krát v histórii Dôveryhodnosť informácií Bratislava, 22.september 2014

  15. Information Retrieval (1) Ciele Reprezentácia Uchovávanie Organizácia dostupnosť informácií Dôveryhodnosť Bratislava, 22.september 2014

  16. Information Retrieval (2) Dáta: 20 Informácia: 20 oC Znalosť: izbová teplota Informácia Keď dáta majú sémantiku (význam) IR systém nemusí rozumieť sémantike ale je dobré keď sa o to snaží Väčšinou štatistický prístup Reasoning Actions Pragmatics Knowledge Semantics Information Data Syntax Characters (Bergman, 2002, Experience Management) Bratislava, 22.september 2014

  17. Information Retrieval (3) Informácia Text, dokument Obrázky Video V rámci predmetu VI Text (dokumenty) Linky ako ukazovateľ na iné objekty Graf závislosti objektov (napr. viac dimenzionálne sociálne siete) Bratislava, 22.september 2014

  18. Information Retrieval Klasický prístup Prehľadávanie každého dokumentu a hľadanie reťazcov Časovo náročné Nie nezmyselné Grep, regulárne výrazy, information extraction Veľké množstvo dokumentov Potreba indexácie kľúčové slová (prípadne aj všetky slová dokumentu) Termy Dopyt a výsledok Bratislava, 22.september 2014

  19. Architektúra získavanie informácií stiahnutie dokumentov textové operácie indexovanie spracovanie odkazov a objektov v texte Vyhľadávanie formulácia dopytu a operácie na dopyte spracovanie dopytu vrátenie výsledku na používateľské rozhranie spätná väzba od používateľa Bratislava, 22.september 2014

  20. Súvisiace témy • Spracovanie prirodzeného jazyka, • grafy a siete, • sémantický web, • kontext užívateľa a informácie, • vyhľadávanie v multimédiách, • strojový preklad, • škálovateľné IR, • dolovanie v dátach, • business intelligence. Bratislava, 22.september 2014

  21. Pojmy Dokumenty vlastnosti Textové operácie Tokenizácia Lematizácia, stemming Termy Odkazy Indexy Hodnotenie Experimentálne overenie Recall – pokrytie Precision – presnosť Zoraďovanie URLs, termy, normalizácia Bratislava, 22.september 2014

  22. Pojmy (2)algoritmické, implementačné Vector space model Invertovaný index PageRank MapReduce Google Lucene Nutch Hadoop Bratislava, 22.september 2014

  23. Témy (1): Indexovanie, modely a miery podobnosti Indexy: Jadro systémov pre vyhľadávanie informácií, ktorým je tvorba indexov invertovaný index Váhovanie, normalizácia Modely Booleovský AND, OR, NOT, term sa vyskytuje alebo nie Riedka matica Vektorový Vector space model X dimenzionálny priestor, každý term jedna dimenzia Kosínusová miera, medzi 0-1, 1 pre rovnaké dokumenty Podobnosť medzi query a dokumentom Pravdepodobnostný Miery kosínusová miera euklidovská vzdialenosť Bratislava, 22.september 2014

  24. Témy (2) • Sťahovače • dozviete ako sa získavajú dokumenty z internetu, aké stratégie sťahovania sa používajú, ako sa spracúvajú linky a na čo ich môžeme použiť pre vylepšenie vyhľadávania. • Konverzia dokumentov • Tika a iné ... • Analýza textu • Spracovanie textu na termy, tokenizácia, lematizácia, stop slová ... Bratislava, 22.september 2014

  25. Témy (3) • Usporiadanie • využitie prepojení dokumentov (linky) na výpočet dôveryhodnosti dokumentu ako aj na následné utriedenie výsledkov vyhľadávania. • Hodnotenie • Pre systémy vyhľadávania informácií je dôležité vyhodnotenie ich úspešnosti. V kapitole sa dozviete aké miery hodnotenia poznáme, ako sa dajú použiť a čo je dôležité pri vyhodnotení systému. • Softvérové knižnice a systémy • systémy a knižnice, ktoré je možné využiť. Bratislava, 22.september 2014

  26. Témy (4): Extrakcia informácií základné úlohy extrakcia a aké algoritmy a prostriedky sa dajú využiť pri extrakcii. Regulárne výrazy Spracovanie textu Extrakcia metadát Find Replace Split Bratislava, 22.september 2014

  27. Témy (5): Súčasný internet • Keďže sa venuje hlavne vyhľadávaniu informácií na internete, je potrebné sa venovať internetovým leaderom ako Google a Facebook ale aj iným typom textových a sociálnych informácií ako Delicious, Twiter alebo Linkedin. • Zároveň aj MapReduce architektúre, ktorá je doteraz najvhodnejším prístupom pre spracovanie rozsiahlych dát. Bratislava, 22.september 2014

  28. Témy (6): Sémantický web The Semantic Web is a mesh of information linked up in such a way as to be easily processable by machines, on a global scale. You can think of it as being an efficient way of representing data on the World Wide Web, or as a globally linked database.(Source: http://infomesh.net/2001/swintro/ - The Semantic Web: An Introduction) RDF OWL, logika aplikácie SPQRQL Bratislava, 22.september 2014

More Related