120 likes | 236 Views
Sk úška. Vyhľadávanie informácií Michal Laclav ík. Ot ázky. 10 otázok po 5 bodov 4 texty Každý text cca 4-8 slov Spolu 20 slov (termov) 1:Vyhľadávanie informácií Sk úška z vyhľadávania informácií (2) bude 24.1.2008 o 10:00 Toto je fakt ale aj príklad textu
E N D
Skúška Vyhľadávanie informácií Michal Laclavík 6.12.2007
Otázky • 10 otázok po 5 bodov • 4 texty • Každý text cca 4-8 slov • Spolu 20 slov (termov) • 1:Vyhľadávanie informáciíSkúška z vyhľadávania informácií(2) bude 24.1.2008 o 10:00 • Toto je fakt ale aj príklad textu • 2: Information retrievalPrecision, Recall by Rijsbergen(3) • 3: C. J. Van Rijsbergen - researcher in IR(2) fieldDepartment of Computing Science, University of Glasgow, Glasgow G12 8QQ, SCOTLAND, Telephone +44 141-330 4256, Fax +44 141-330 4913 • 4: FIIT STU predmety:- VI(1)- ZZ • 5: People in research:- Rijsbergen(3) 6.12.2007
1: Sťahovanie dokumentov, báza • Stratégie • Do šírky, hĺbky, ... • Čo ukladať • Linky 6.12.2007
2: Textové operácie • Tokenizácia • Lematizácia • Stemming • Termy • Extrakcia liniek a textu 6.12.2007
3: Indexovanie • Vytvoriť invertovaný index s termov • Kosínusová miera – výpočet medzi dvoma dokumentami ako aj dokumentom a zadanou query. • Vziať do úvahy normalizovaný počet výskytov slova v dokumente • Slová z liniek vyššia hodnota vo vektore. 6.12.2007
4: Usporiadanie • Spôsob kombinácie usporiadaní • Násobenie • PageRank • výpočet 6.12.2007
5: Extrakcia informácií (IE) • Na textoch riešiť 5 úloh IE na texte • NE: Named Entity recognition and typing • Názvoslovné entity • CO: co-reference resolution • Referencie na ne • TE: Template Elements • Vlastnosti NE • TR: Template Relations • Relácie medzi NE vzťahy • ST: Scenario Templates • Udalosti 6.12.2007
6: Regulárne výrazy • Príklad na texte. • Extrakcia času, dátumu, Firmy, mena. 6.12.2007
7: Hodnotenie úspešnosti • Query (dopyt) e.g. • Vyhľadávanie informácií • Čo má vrátiť • Čo vráti napr bez lematizácie • Vypočítať recall a precision 6.12.2007
8: SPARQL • Z extrakcie informácií dostaneme jednoduché objekty typov • Location • Settlement • Person • Researcher • Urob SPARQL query na vsetky Settlement • Na ludi ktorý maju firstname (cez vCARD) Lojzo 6.12.2007
9: Softvérové knižnice a systémy • Nejaká otázka typu: • Keď chcem vyhľadávať v slovenských mailoch čo musím použiť • Odpovede v rámci týchto softov: • Lucene, Nutch, Lematizátor, DocConverter, Hadoop • Tiež doplniť približne postup ako spojiť a čo dorobiť • Treba vedieť architektúru IR systému (pozrieť funkcionality) 6.12.2007
10: Google, Internet, Dopyt • Prečítať kapitolu 3 z článku o Google • Úvod kapitola VI a kapitola 1.4 • Otázky na nejaké fičuriny z Google • Otázky na špecifiká dát na internete alebo v organizácii • Otázky na typy dopytov a súvislosť s indexom • Voľnejšia otázka. 6.12.2007