E N D
(1)Projekt: Odkazový vyhľadávač • Laclavík: Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup.
(2) Projekt: Distance Search Laclavík: Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov.Využitie geografických údajov alebo ontológie geografických údajov slovenska v OWL Bratislava, využite lucene a nutch, demonštrácia na vybranej skupine stránok využitie ontológie Slovenska, Sesame Google Maps Extrakcia informácií – ulice, PSC, GPS súradnice Vyhľadávanie informácií 26.09.2008 2
(3) Projekt: Triedenie a zoraďovanie • Šeleng: Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie. • OPIC, PageRank, HITS • Vytvorenie vlastného grafu odkazov na objekty v dokumentoch 26.09.2008
(4) Projekt: Indexovanie PDF a Word dokumentov Laclavík: Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu.PDF je možné konvertovať na linuxe pomocou pdf2text zahrnuté štandardne v distribúciách. RTF pomocou rthca Word .doc súbory je možné konvertovať pomocou Catdoc. Takisto v Jave je možné použiť PDFBox.org aPOI alebo TextMining.org na MS Word Odporúčané Lucene alebo jeho porty do iných jazykov. Vziať do úvahy názvy adresárov, meno súboru, dátum vytvorenia a metadáta dokumentov. Identifikovať nadpisy a inak indexovať web verzia, vziať do úvahy text odkazov an PDF a word dokumenty spolu s okolím textu Vyhľadávanie informácií 26.09.2008 4
(5) Projekt: Textové operácie • Slovenský Lematizér alebo Stemmer • Egothor, Stempel, JULŠ, Tvaroslovník, ... • Snowball =>java => pre lucene • Google approach pre slovenský stemmer • Zistiť čo najviac experimentovať len napísať a vyhodnotiť • Overenie na množine slov. Môže sa vytvoriť a overiť aj pre špecifické typy slov napr. geografické názvy, názvy ulíc alebo priezviská
(6) Projekt: Sociálne siete • OpenSocial API • ?Prispôsobenie výsledkov vyhľadávania? • Vlastný nápad kde bude extrakcia metadát alebo vyhľadávanie a kombinácia so sociálnou sieťou. • E.g. vyhľadávanie vo fotkách friendov • Gadget pre orkut, hi5 ...
(7) Projekt: Sociálna sieť a email • Extrakcia sociálnej siete z emailu. Indexovanie a zoradenie podľa počtu interakcií pri fultextovom vyhľadávaní. • Extrakcia viacdimenzionálnej sociálnej siete • Ľudia, projekty, geografické lokality, kontaktné údaje • Práca so sieťou v IBM Gallaxy • Iná navigácia v sieti • Zobrazenie 5-10 najčastejších termov v interakciách • Tvorba grafu socialnej siete, Xobni, IBM Gallaxy • Spojenie semantickeho modelu a Socialnej siete • Semanticky search • Tools: Lucene, Regexes, Ontea, see Xobni, IBM Gallaxy
(8) Projekt: Email search • Indexovanie a vyhľadávanie emailov • Acoma + lucene + jednoduché JSP/Servlet/GoogleAPI rozhranie pre vyhľadávanie • Spracovanie mailov pomocou JavaMail library • Zameranie na attachmenty, text alebo utrieďovaniu funkciu • Overenie! E.g. gmail versus vytvorená implementácia • Source: mailing listy, vlastné emaily, mbox, gmail
(9) Projekt: Extrakcia informácií • Geografické dáta • Kontaktné info (email, tel) • Osoby • Firmy a organizácie • Udalosti – kalendár, Doodle • Zdrojové dáta • Emaily • Správy • Web • Regulárne výrazy • GATE, Ontea, IBM Gallaxy • Gazzeters
(10) Projekt: Slovenské domény • Spracovanie slovenských domén • www.sk-nic.sk/domeny.txt • Zoradit podla poctu vlastnikov, registratorov • Aj zmeny v registratoroch, vlastnikoch ... • Spracovanie historie – stiahnute subory za urcite obdobie. • Web aplikácia s výstupom • A) Pocty domen podla registratorov, vlastnikov, podla DNS serverov a pod.B) Casove zmeny tychto poctov v urcitom casovom obdobi na zaklade registratora, vlastnika alebo domeny:Priklad 1: - ID: XXXX-0001 - date_from: 2008-05-01, date_to: 2008-09-31 - Registrator: 34, 56 (change: 22) - Owner: 3, 5 (change: 2)Priklad 2: - Domain: xxyy.sk - from 2008-01-05, to 2008-03-06, regid: XXXX-0001, owner: YYYY-0005, DNS1: dns1.sk, DNS2: dns2.sk - from ...
(11) Projekt: Prieskum Trhu • Extrakcia informacii o produktoch alebo sluzbach z webu (ako Froogle) • Porovnanie podla ceny napr. • Vybrat konkretnu domenu. • Napr. Webhosting, cena, veľkosť priestoru, počet emailov, poskytnuté služby – PHP, IMAP, MySQL, PostgreSQL ....
(12) Projekt: Informácie o firmách • Extrakcia informácií • Sídlo, webstránka, obchodný register, • Kontaktné údaje, .... • oblasť činnosti
(13) Projekt: Informácie o ľuďoch • Extrakcia informácií • Sídlo, webstránka, sociálne siete, • Kontaktné údaje, .... • Zamestnanie. • Graf vzťahov k objektom (firmy, ľudia, geografické miesta ...)
(14) Projekt: Logs and GeoIP • Spracovanie log suborov pomocou extrakcie informacii. • Zistit co najviac udajov. • E.g. IP => Geo, Krajiny • Užívatelia - rozdelenie • Typy logov: • mailserver, web server, DNS server • POP3 server • IMAP • Výstup tabuľky alebo RRD database, grafy A) Web server logyi) Web traffic podla domeny a krajiny kde sa IP nachadza: Priklad: - domain: xxx.com, date: 2008-09-25 - sk: 250348, pl: 34897874, ..., de: 3233B) Mail server logyi) Vytiahnut cely SMTP tok emailu. Priklad: FROM: xx@yy.com, TO: zz@nn.org - queueid: received from, received by - queueid: received from, received by - ... - queued as queueid2 - queueid2: ... - ... - queueid5: deliveredii) Mail traffic podla domeny a krajiny kde sa IP nachadza (aj poslane aj prijate emaily): Priklad: - domain: xxx.com, date: 2008-09-25 - prijate: sk: 250348, pl: 34897874, ..., de: 3233 - odoslane: sk: 8749322, pl: 33444, ..., de: 43369iii) Mail Traffic priebezne spracovat pomocou RRDTreba upravit skript mailgraph (http://mailgraph.schweikert.ch/) tak, aby namiesto poctu prijatych/odoslanych emailov generoval traffic prijatej a odchadzajucej SMTP komunikacie. Info vytahovat priebezne z logov. Pouzit RRDtool (http://oss.oetiker.ch/rrdtool/) nastroj - zapisovat do RRD databazy, z ktorej sa nasledne moze vygenerovat graf.
(15) Projekt: MapReduce • Hadoop, HDFS, HTable • Hocaký problém z IR alebo IE portovať na Hadoop • Rozbehanie Nutch pod hadoop • Extrakcia informácií large scale (e.g. regex) • Spracovanie logov • Použitie HTable • Testovanie na Hadoop Clusteri na UISAV
(16) Projekt Crawling • Focused Crawler • Sťahovanie emailov z mailinglistov • Sťahovanie iných zdrojov na základe textu alebo URL odkazu • Sťahovač ktorý rozozná či sa stránka dostatočne líši a podľa toho sa rozhodne • Ide o ignorovanie stránok s rovnakým obsahom iba zmena v zoradení, print, email ...
(17) Projekt – Crawl and Search • Sťahuje iba images alebo PDF alebo word • Indexuje iba podľa textu odkazu a odkazu