220 likes | 390 Views
Text ové Datab á zy. Ján GENČI PDT. Obsah. Literat úra Terminol ógia Vymedzenie pojmu textové databázy Typy dotazov Fulltextové vyhľadávanie Lingvistick é korpusy. Literatúra. Pokorný J. : Datab ázové systémy 2, Nakladatelství ČVUT, 2007
E N D
Textové Databázy Ján GENČI PDT
Obsah • Literatúra • Terminológia • Vymedzenie pojmu textové databázy • Typy dotazov • Fulltextové vyhľadávanie • Lingvistické korpusy
Literatúra • Pokorný J.: Databázové systémy 2, Nakladatelství ČVUT, 2007 • Pokorný J., Snášel V., Kopecký M.: Dokumentografické informačné systémy, Nakladatelství Karolinum, 2005. • Laura C. Rivero, Jorge H. Doorn, Viviana E. Ferraggine: Encyclopedia Of Database Technologies And Applications. Idea Group Publishing, 2005 (heslo Text Databases, p. 688) • Erickson J.: Database Technologies:Concepts,Methodologies,Tools, and Applications. IGI Global, 2009. ISBN 978-1-60566-058-5 (pp. 931-939)
Literatúra (cont.-2) • Oracle Text. http://www.oracle.com/technology/products/text/index.html • Oracle Text. An Oracle Technical White Paper. June, 2007 (prečítať) http://www.oracle.com/technology/products/text/pdf/11goracletexttwp.pdf
TXT DB – Terminológia • Information retrieval • Textové databázy (informačné systémy) • Dokumentové databázy (Document databases) • Dokumentografické informačné systémy
Definícia • Text je akákoľvek postupnosť symbolov z nejakej abecedy. • Veľká časť informácií dostupných v elektronickej podobe je práve v textovej forme : • Text prirodzeného jazyka (napr. knihy, časopisy, noviny, právne dokumenty, databázy, korporátna informácia, Web), • Biologické sekvencie (napr. DNA, sekvencie proteinov), • ... • Textová databáza je systém, ktorý spravuje (zvyčajne veľké) kolekcie textov a poskytuje rýchly a bezchybný/presný prístup k nim. • Tieto požiadavky sú protichodné, ale obe sú kritické, ak máme mať úžitok z texotvých kolekcií.
TXT DB – Typy dotazov • Syntaktickévyhľadávanie (vyjadrené ako postupnosť znakov prítomných v texte): • String matching (najjednoduchší typ dotazu, cely rad algoritmov – Knut-Morris-Pratt first O(n)) • Regulárnevýrazy • Approximate searching (poskytuje možnosť eliminovať rôzne typy chýb, ktoré môžu byť obsiahnuté v texte – či už prehľadávanom, alebo dotaze - napr.edit distance) • Sémantickévyhľadávanie(má veľký význam) – používateľ zadá informáciu, ktorú požaduje a systém vyhľadá súbor textov (dokumentov) relevantných požiadavkám používateľa; dokonca aj vtedy ak sa výsledok priamo neobjavuje v dotaze. Systém ohodnocuje dokumenty a dokumenty s najvyšším ohodnotením ponúkne používateľovi. V tomto prípade nehovoríme o správnej alebo nesprávnej odpovedi, ale iba lepšej alebo horšej.
Fulltextové vyhľadávanie • V tradičných SRBD je manipulácia s textom obmedzená bežnými reťazcovými funkciami (exact matching podreťazcov) • Tradičné reťazcové operácie sú mimoriadne drahé pre veľké dokumenty – SRBD nemajú efektívnu podporu pre tieto operácie a preto sú rozširované o špeciálne moduly – fulltexotvého vyhľadávania (full-text search;FTS).
Alternatívy implementácie FTS • FTS moduly ako súčasť SRBD (Oracle, Microsoft SQLServer, Postgres, mySQL; Informix Text Datablade; ) • Databázovo nezávislé FTS (SPSS LexiQuest, SAS Text Miner, dtSearch, Statistica Text Miner, ...)
Spôsoby spracovania • Text mining • Full text search
Text mining • Podoblasť správy dokumentov, ktorej cieľom je spracovanie, vyhľadávanie a analýza dokumentov • Cieľ – objaviť netriviálne skryté charakteristiky dokumentov samotnýchalebo ich súborov • Interdisciplinárna oblasť strojového učenia, ktorá využíva prístupy a nástroje z oblastí: • computational linguistics, • natural language processing, • information retrieval, • data mining.
Information Extraction • Príklady podúloh: • Rozpoznanie pomenovaných objektov (osoby, geografické názvy, firmy, kluby, ...), • co-reference resolution – identifikácia fragmentov textu odkazujúcich na tie isté entity/objekty, • Identifikácia rolí a ich vzťahov
Kategorizácia textov • Cieľ – zaradenie dokumentovv rámci stanovenej kategorizácie; napr.: • document filtering –spamfiltering, alebo newsfeed; • patent document routing – determination ofexperts in the given fields; • assisted categorization – helping domainexperts in manual categorization with valuablesuggestion; • automatic metadata generation.
Zhlukovanie dokumentov • Zhlukovanie/združovanie elementov kolekcie na základe ich podobnosri. • Dokumentysu zvyčajne zhlukované na základe obsahu. • Zhlukovanie môže byť aplikované napr. na: • Zhlukovanie výsledkov vyhľadávania kvôli lepšej orientácii používateľa vo výsledkoch, • Zvýšenie výkonnosti tzv. vector space based information retrieval, • Realizáciu „navigačného“ prístupu k prehľadávaniu dokumentov.
Summarizácia • Automatické generovanie krátkeho zhrnutia dokumentu
Fulltextové indexy • Kľúčový problém v oblasti spracovanie textov (information retrieval)je návrh a implementácia efektívnych dátovych štruktúr a algoritmov pre indexovaniea vyhľadávanie informačných objektov, ktoré sú opísané nejasne. • Najčastejšie používané štruktúry: • invertované súbory (inverted files); • signatúrové súbory (signature files); • bitmapové indexy.
Informix • Excalibur Text DataBlade Module provides text search capabilities that include: • phrase matching, • exact and fuzzy searches, • compensation for misspelling, • synonym matching.
Lingvistické korpusy • Kolekcie textov v konkrétnom jazyku určené primárne pre lingvistický výskum • Značkované texty • Príklady: • British National Corpus (100 mil. slov) • Slovenský národný korpus (530 mil. tokenov) • Český národný korpus (300 mil. slov) • Paralelné korpusy