1 / 12

Sk úška

Sk úška. Vyhľadávanie informácií Michal Laclav ík. Ot ázky. 10 otázok po 5 bodov 4 texty Každý text cca 4-8 slov Spolu 20 slov (termov) 1:Vyhľadávanie informácií Sk úška z vyhľadávania informácií (2) bude 24.1.2008 o 10:00 Toto je fakt ale aj príklad textu

Download Presentation

Sk úška

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Skúška Vyhľadávanie informácií Michal Laclavík 6.12.2007

  2. Otázky • 10 otázok po 5 bodov • 4 texty • Každý text cca 4-8 slov • Spolu 20 slov (termov) • 1:Vyhľadávanie informáciíSkúška z vyhľadávania informácií(2) bude 24.1.2008 o 10:00 • Toto je fakt ale aj príklad textu • 2: Information retrievalPrecision, Recall by Rijsbergen(3) • 3: C. J. Van Rijsbergen - researcher in IR(2) fieldDepartment of Computing Science, University of Glasgow, Glasgow G12 8QQ, SCOTLAND, Telephone +44 141-330 4256, Fax +44 141-330 4913 • 4: FIIT STU predmety:- VI(1)- ZZ • 5: People in research:- Rijsbergen(3) 6.12.2007

  3. 1: Sťahovanie dokumentov, báza • Stratégie • Do šírky, hĺbky, ... • Čo ukladať • Linky 6.12.2007

  4. 2: Textové operácie • Tokenizácia • Lematizácia • Stemming • Termy • Extrakcia liniek a textu 6.12.2007

  5. 3: Indexovanie • Vytvoriť invertovaný index s termov • Kosínusová miera – výpočet medzi dvoma dokumentami ako aj dokumentom a zadanou query. • Vziať do úvahy normalizovaný počet výskytov slova v dokumente • Slová z liniek vyššia hodnota vo vektore. 6.12.2007

  6. 4: Usporiadanie • Spôsob kombinácie usporiadaní • Násobenie • PageRank • výpočet 6.12.2007

  7. 5: Extrakcia informácií (IE) • Na textoch riešiť 5 úloh IE na texte • NE: Named Entity recognition and typing • Názvoslovné entity • CO: co-reference resolution • Referencie na ne • TE: Template Elements • Vlastnosti NE • TR: Template Relations • Relácie medzi NE vzťahy • ST: Scenario Templates • Udalosti 6.12.2007

  8. 6: Regulárne výrazy • Príklad na texte. • Extrakcia času, dátumu, Firmy, mena. 6.12.2007

  9. 7: Hodnotenie úspešnosti • Query (dopyt) e.g. • Vyhľadávanie informácií • Čo má vrátiť • Čo vráti napr bez lematizácie • Vypočítať recall a precision 6.12.2007

  10. 8: SPARQL • Z extrakcie informácií dostaneme jednoduché objekty typov • Location • Settlement • Person • Researcher • Urob SPARQL query na vsetky Settlement • Na ludi ktorý maju firstname (cez vCARD) Lojzo 6.12.2007

  11. 9: Softvérové knižnice a systémy • Nejaká otázka typu: • Keď chcem vyhľadávať v slovenských mailoch čo musím použiť • Odpovede v rámci týchto softov: • Lucene, Nutch, Lematizátor, DocConverter, Hadoop • Tiež doplniť približne postup ako spojiť a čo dorobiť • Treba vedieť architektúru IR systému (pozrieť funkcionality) 6.12.2007

  12. 10: Google, Internet, Dopyt • Prečítať kapitolu 3 z článku o Google • Úvod kapitola VI a kapitola 1.4 • Otázky na nejaké fičuriny z Google • Otázky na špecifiká dát na internete alebo v organizácii • Otázky na typy dopytov a súvislosť s indexom • Voľnejšia otázka. 6.12.2007

More Related