1 / 22

Text ové Datab á zy

Text ové Datab á zy. Ján GENČI PDT. Obsah. Literat úra Terminol ógia Vymedzenie pojmu textové databázy Typy dotazov Fulltextové vyhľadávanie Lingvistick é korpusy. Literatúra. Pokorný J. : Datab ázové systémy 2, Nakladatelství ČVUT, 2007

deepak
Download Presentation

Text ové Datab á zy

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Textové Databázy Ján GENČI PDT

  2. Obsah • Literatúra • Terminológia • Vymedzenie pojmu textové databázy • Typy dotazov • Fulltextové vyhľadávanie • Lingvistické korpusy

  3. Literatúra • Pokorný J.: Databázové systémy 2, Nakladatelství ČVUT, 2007 • Pokorný J., Snášel V., Kopecký M.: Dokumentografické informačné systémy, Nakladatelství Karolinum, 2005. • Laura C. Rivero, Jorge H. Doorn, Viviana E. Ferraggine: Encyclopedia Of Database Technologies And Applications. Idea Group Publishing, 2005 (heslo Text Databases, p. 688) • Erickson J.: Database Technologies:Concepts,Methodologies,Tools, and Applications. IGI Global, 2009. ISBN 978-1-60566-058-5 (pp. 931-939)

  4. Literatúra (cont.-1)

  5. Literatúra (cont.-2) • Oracle Text. http://www.oracle.com/technology/products/text/index.html • Oracle Text. An Oracle Technical White Paper. June, 2007 (prečítať) http://www.oracle.com/technology/products/text/pdf/11goracletexttwp.pdf

  6. TXT DB – Terminológia • Information retrieval • Textové databázy (informačné systémy) • Dokumentové databázy (Document databases) • Dokumentografické informačné systémy

  7. Definícia • Text je akákoľvek postupnosť symbolov z nejakej abecedy. • Veľká časť informácií dostupných v elektronickej podobe je práve v textovej forme : • Text prirodzeného jazyka (napr. knihy, časopisy, noviny, právne dokumenty, databázy, korporátna informácia, Web), • Biologické sekvencie (napr. DNA, sekvencie proteinov), • ... • Textová databáza je systém, ktorý spravuje (zvyčajne veľké) kolekcie textov a poskytuje rýchly a bezchybný/presný prístup k nim. • Tieto požiadavky sú protichodné, ale obe sú kritické, ak máme mať úžitok z texotvých kolekcií.

  8. TXT DB – Typy dotazov • Syntaktickévyhľadávanie (vyjadrené ako postupnosť znakov prítomných v texte): • String matching (najjednoduchší typ dotazu, cely rad algoritmov – Knut-Morris-Pratt first O(n)) • Regulárnevýrazy • Approximate searching (poskytuje možnosť eliminovať rôzne typy chýb, ktoré môžu byť obsiahnuté v texte – či už prehľadávanom, alebo dotaze - napr.edit distance) • Sémantickévyhľadávanie(má veľký význam) – používateľ zadá informáciu, ktorú požaduje a systém vyhľadá súbor textov (dokumentov) relevantných požiadavkám používateľa; dokonca aj vtedy ak sa výsledok priamo neobjavuje v dotaze. Systém ohodnocuje dokumenty a dokumenty s najvyšším ohodnotením ponúkne používateľovi. V tomto prípade nehovoríme o správnej alebo nesprávnej odpovedi, ale iba lepšej alebo horšej.

  9. Fulltextové vyhľadávanie • V tradičných SRBD je manipulácia s textom obmedzená bežnými reťazcovými funkciami (exact matching podreťazcov) • Tradičné reťazcové operácie sú mimoriadne drahé pre veľké dokumenty – SRBD nemajú efektívnu podporu pre tieto operácie a preto sú rozširované o špeciálne moduly – fulltexotvého vyhľadávania (full-text search;FTS).

  10. Alternatívy implementácie FTS • FTS moduly ako súčasť SRBD (Oracle, Microsoft SQLServer, Postgres, mySQL; Informix Text Datablade; ) • Databázovo nezávislé FTS (SPSS LexiQuest, SAS Text Miner, dtSearch, Statistica Text Miner, ...)

  11. Spôsoby spracovania • Text mining • Full text search

  12. Text mining • Podoblasť správy dokumentov, ktorej cieľom je spracovanie, vyhľadávanie a analýza dokumentov • Cieľ – objaviť netriviálne skryté charakteristiky dokumentov samotnýchalebo ich súborov • Interdisciplinárna oblasť strojového učenia, ktorá využíva prístupy a nástroje z oblastí: • computational linguistics, • natural language processing, • information retrieval, • data mining.

  13. Schéma aplikácie text mining-u

  14. Information Extraction • Príklady podúloh: • Rozpoznanie pomenovaných objektov (osoby, geografické názvy, firmy, kluby, ...), • co-reference resolution – identifikácia fragmentov textu odkazujúcich na tie isté entity/objekty, • Identifikácia rolí a ich vzťahov

  15. Kategorizácia textov • Cieľ – zaradenie dokumentovv rámci stanovenej kategorizácie; napr.: • document filtering –spamfiltering, alebo newsfeed; • patent document routing – determination ofexperts in the given fields; • assisted categorization – helping domainexperts in manual categorization with valuablesuggestion; • automatic metadata generation.

  16. Zhlukovanie dokumentov • Zhlukovanie/združovanie elementov kolekcie na základe ich podobnosri. • Dokumentysu zvyčajne zhlukované na základe obsahu. • Zhlukovanie môže byť aplikované napr. na: • Zhlukovanie výsledkov vyhľadávania kvôli lepšej orientácii používateľa vo výsledkoch, • Zvýšenie výkonnosti tzv. vector space based information retrieval, • Realizáciu „navigačného“ prístupu k prehľadávaniu dokumentov.

  17. Summarizácia • Automatické generovanie krátkeho zhrnutia dokumentu

  18. FULL-TEXT SEARCH (FTS)ENGINES

  19. Fulltextové indexy • Kľúčový problém v oblasti spracovanie textov (information retrieval)je návrh a implementácia efektívnych dátovych štruktúr a algoritmov pre indexovaniea vyhľadávanie informačných objektov, ktoré sú opísané nejasne. • Najčastejšie používané štruktúry: • invertované súbory (inverted files); • signatúrové súbory (signature files); • bitmapové indexy.

  20. Informix • Excalibur Text DataBlade Module provides text search capabilities that include: • phrase matching, • exact and fuzzy searches, • compensation for misspelling, • synonym matching.

  21. Lingvistické korpusy • Kolekcie textov v konkrétnom jazyku určené primárne pre lingvistický výskum • Značkované texty • Príklady: • British National Corpus (100 mil. slov) • Slovenský národný korpus (530 mil. tokenov) • Český národný korpus (300 mil. slov) • Paralelné korpusy

  22. Otázky?

More Related