1 / 50

1. přednáška Fulltextové vyhledávání

Úvod do databázových systémů B RNDr. Jan Lánský, Ph.D. 1. přednáška Fulltextové vyhledávání. Slajdy 3-26 převzaty z Michal Kopecký: Databázové Aplikace (DBI026, MFF UK). Obsah přednášky. Teoretické základy fulltextového vyhledávání (slajdy 3-26) Webové vyhledávače (slajdy 27-34)

ellery
Download Presentation

1. přednáška Fulltextové vyhledávání

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Úvod do databázových systémů B RNDr. Jan Lánský, Ph.D. 1. přednáškaFulltextové vyhledávání Slajdy 3-26 převzaty z Michal Kopecký: Databázové Aplikace (DBI026,MFF UK)

  2. Obsah přednášky • Teoretické základy fulltextového vyhledávání (slajdy 3-26) • Webové vyhledávače (slajdy 27-34) • Webový vyhledávač google (slajdy 35-47) • Příklady na cvičení (slajdy 48-50) • Databáze odborných článků ProQuest

  3. Fulltextové vyhledávání • Prohledávají se volně psané texty, kde může být stejná událost popsaná více autory rozdílně • Různá slova stejného významu (Synonyma) • Různé slovní obraty a opisy • …

  4. Porozumění textu • Posloupnost slov v přirozeném jazyce. • Každé slovo zastupuje pro autora nějakou představu, kterou v něm slovo vyvolá - význam. • Tyto představy reprezentují reálné předměty. ...

  5. Porozumění textu • Synonymie slov • Více slov může mít pro autora stejný význam • krychle = kostka • buldozer = nakladač ...

  6. Porozumění textu • Homonymie slov • Jedno slovo může mít pro autora několik významů • taška: střešní, nákupní • koruna: platidlo, královská k., k. stromu • třída: školní, kategorie v teorii množin • los: zvíře, poukázka ke slosování ...

  7. Porozumění textu • Homonymie slov • Jedno slovo může používat stejný tvar pro různé pády a další gramatické jevy (gramatická homonymie) • kontroly: 1. p. m.č., 2. p. j.č.není zřejmé, zda se jedná o jednu, nebo více kontrol • Jeden tvar slova může mít různý význam • plesy: podst. jm. ples, podst. jm. pleso • žena: podst. jm. žena, sloveso hnát • hnát: sloveso hnát, podst. jm. hnát • tři: číslovka tři, sloveso třít • pět: číslovka pět, sloveso pět

  8. Porozumění textu • Významy slov se mohou překrývat. • Hierarchicky • zvíře > kůň > hřebec • Asociace • kalkulátor ~ počítač ~ procesor ...

  9. Porozumění textu • Jednotlivá přiřazení jsou navíc závislá na subjektu, který dokument píšenebo čte. • Dva lidé mohou jednomu slovu přikládat zcela nebo jen částečně jiný význam. • Dva lidé si i pod stejným významem mohou představit jiný konkrétní předmět nebo množinu předmětů. • máma, pokoj, ... • Výsledkem je situace, kdy dva různí čtenáři nemusí přečtením získat stejnou informaci jako autor, ani navzájem.

  10. Porozumění textu • Homonymie a nejednoznačnosti narůstají při přechodu od slov k větám. • Homonymie vlastních jmen na začátku věty • Dohnal zvítězil. (Čtrnáctý zvítězil.) • Dohnal předešel gen. Kvapila velmi výrazně. - jedna, nebo dvě věty? • Homonymie spojky a v předmětu věty • Funkce rezistoru a zesilovače v radiotechnice.(funkce rezistoru v radiotechnice) a (funkce zesilovače v radiotechnice)(funkce rezistoru) a (funkce zesilovače v radiotechnice)(funkce rezistoru) a (zesilovače v radiotechnice) • Homonymie podmětu a předmětu • Popílek přikryl sníh. – co leží navrchu?

  11. Porozumění textu • Příklad české věty s více gramaticky možnými významy • viz např. Podivné fungování gramatiky,http://www.scienceworld.cz/sw.nsf/lingvistika • věta „Ženu holí stroj“ může - podle volby přísudku ve větě - znamenat: • Poháním stroj pomocí hole (hnát) • Žena používá depilační přístroj (holit) • Návod k nekonvenčnímu způsobu oblékání (strojit) • … a další

  12. Porozumění textu • Příklad anglické věty s více gramaticky možnými významy • viz např. Podivné fungování gramatiky,http://www.scienceworld.cz/sw.nsf/lingvistika • věta „Time flies like an arrow“ může - podle volby přísudku ve větě - znamenat: • Čas letí jako voda (fly) • Časové mouchy/zipy mají rády šíp (like) • … a další

  13. Fulltextové vyhledávání • Samotná formulace dotazu, který by vrátil všechny dokumenty, které tazatele zajímají a žádné jiné obvykle nelze zformulovat • Spolu s vyhovujícími – relevantními – odpověďmi se obvykle vrací i odpovědi nerelevantní

  14. Fulltextové vyhledávání • Striktní boolská logika není pro formulaci dotazů příliš vhodná • Dokument buďto vyhovuje dotazu, nebo nevyhovuje • Dotazování v textech vyžaduje třídit odpovědi podle předpokládané vhodnosti pro tazatele • Je potřebné mít možnost definovat míru shody dotazu s dokumentem

  15. Dva DIS mohou vrátit na shodný dotaz různé odpovědi, které se nemusí překrývat ani v jediném vráceném dokumentu Jak porovnat kvalitu odpovědí navzájem? Dokumenty v databázi VrácenévDIS2 Relevantnídokumenty VrácenévDIS1 Přesnost a úplnost

  16. Dva tazatelé mohou mít při položení shodného dotazu různý názor na relevanci vrácených dokumentů Jak vyhovět subjektivnímu názoru tazatelů? Dokumenty v databázi  Relevantní Vrácenédok. Relevantní  Přesnost a úplnost

  17. Přesnost a úplnost • Kvalita výsledné množiny dokumentů se měří na základě těchto čísel • Přesnost (Precision) • P = Nvr/Nv • Pravděpodobnost, že dokument zařazený v odpovědi je skutečně relevantní • Úplnost (Recall) • R = Nvr/Nr • Pravděpodobnost, že skutečně relevantní dokument je zařazený v odpovědi

  18. Přesnost a úplnost • Koeficienty jsou opět závislé na subjektivním názoru tazatele • Dokument vrácený na výstupu může uspokojovat požadavky dvou uživatel, kteří položili stejný dotaz, různou měrou.

  19. V ideálním případě P=R=1 V odpovědi jsou zařazeny právě a pouze všechny relevantní dokumenty V běžném případě Odpověď na první verzi dotazu není ani přesná, ani úplná Přesnost a úplnost 1 Optimum Počáteční odpověď 0 0 1

  20. Ladění dotazu Postupná modifikace dotazu s cílem zvýšit kvalitu odpovědi Teoreticky je sice možné dosáhnout optima, ale … Přesnost a úplnost R 1 Optimum 0 P 0 1

  21. … vlivem víceznačností jsou v praxi oba koeficienty na sobě nepřímo závislé,tj. P*Rkonst. < 1 Při snaze zvýšit Pse na výstup dostane méně relev. dokumentů. Při snaze zvýšit Rse na výstup dostane s více relev. dok. i mnohem více těch nerelevantních. Přesnost a úplnost R 1 Optimum 0 P 0 1

  22. Kritérium predikce • Při formulaci dotazů je potřebné uhádnout, které termy (slova) byly v dokumentu autorem použity pro vyjádření dané myšlenky • Problémy m.j. způsobují • Synonyma (autor mohl použít synonymum, které si tazatel při formulaci dotazů ani nemusí neuvědomí) • Překrývající se významy slov • Opisy jedné situace jinými slovy

  23. Kritérium predikce • Částečným řešením je zařazení tezauru, který obsahuje • Hierarchie slov a jejich významů • Synonyma slov • Asociace mezi slovy • Tazatel může tezaurus využít při formulaci svých dotazů

  24. Kritérium predikce • Při ladění dotazů má uživatel tendenci postupovat konzervativně • V dotazu zůstávají často ty jeho části, které uživatele napadly na začátku a mění se jen podružné části, které nekvalitní výsledek nemusí nijak zásadně ovlivnit • Vhodné je uživateli pomoci s odstraněním nevhodných částí dotazu, které nepopisují relevantní dokumenty a naopak s přidáváním formulací, které relevantní dokumenty popisují

  25. Kritérium maxima • Tazatel obvykle není schopen (nebo ochoten) procházet příliš mnoho dokumentů do té míry, aby se rozhodl, zda jsou pro něj relevantní nebo ne • Obvykle 20-50 podle velikosti • Potřeba nejen dokumenty rozlišovat na odpovídající/neodpovídající dotazu, ale řadit je na výstupu podle míry předpokládané relevance

  26. „lepší“ „horší“ Vr. Rel. Rel. Vr. Kritérium maxima • V důsledku kritéria maxima se při ladění dotazu uživatel obvykle snaží zvýšit přesnost • Malé množství dokumentův odpovědi, obsahující co největší poměr relevantních dokumentů • Některé oblasti použití vyžadují co nejvyšší přesnost i úplnost • Právnictví

  27. Internetové vyhledávače Služba, která umožňuje najít webové stránky, které obsahují požadované informace (zadané ve vyhledávacím poli) Cílem vyhledávačů je poskytnout co nejrelevantnější informace. Světové: Google Bing AltaVista Yahoo … České: Seznam Centrum Atlas Jyxo …

  28. Jak vyhledávače fungují? Zjednodušeně ve třech krocích: • Sběr dat pomocí crawlerů (robotů) • Zpracování do databáze (indexování) • Zpřístupnění uživatelům pomocí vyhledávacího okna

  29. Jak vyhledávače fungují? Zdroj: http://computer.howstuffworks.com/internet/basics/search-engine1.htm

  30. Nejsou však všemocné… • Neviditelný web • Intranety • Zaheslovaný obsah • Obsah přístupný přes formuláře • Flash prezentace • Robots.txt • Databáze • …

  31. Jak poznat kvalitní informační zdroj? • Odborná erudice autora (vyhledání informací o autorovi) • Scientometrie – metoda stanovení kvality vědecké práce – čím více si vědecká (odborná) komunita všímá určité publikace, tím větší má hodnotu • Spolehlivost informačního zdroje – míra citovanosti, zjišťovaná impact faktorem (kolikrát byl časopis citován během dvou let od jeho publikování)

  32. Jak poznat kvalitní informační zdroj? • Stáří informace – užitná hodnota informace klesá v závislosti na čase (existují však informace, jejichž užitná hodnota v čase neklesá). • Informační cyklus se díky možnosti publikovat online dramaticky zrychlil.

  33. Problémy při vyhledávání - nevýznamová a nespecifická slov • Využití negativního slovníku, seznam stop-slov • Vytvoření negativního slovníku: • Volba druhů slov, které nenesou význam a slouží pouze pro syntaktické účely • Volba slov s vysokou frekvencí v textu dokumentu • Volba velmi krátkých slov

  34. Četnost anglických slov • Tipnete si 5 nejčastějších? 5. a 4. and 3. to 2. of 1. the • Co je v seznamu dříve, sloveso nebo podstatné jméno? • Sloveso (be, 21. místo) • Jaké je první podstatné jméno? Kolikáté je v pořadí? • Word (45. místo) Zdroj: http://www.world-english.org/english500.htm

  35. Google • Internetový vyhledávač stejnojmenné firmy • 25 miliard webových stránek, 400 miliónů dotazů za den, 1,3 miliardy obrázků (rok 2006) • 47,7 % podíl na světovém trhu (rok 2006) • 44 % podíl na trhu ČR (rok 2010) • www.google.com • www.google.cz

  36. Google – Základní vyhledávání • Napíšeme klíčové slovo nebo slova, která má hledaná stránka obsahovat • Zkusím štěstí – vrátí jednu (nejrelevantnější stránku) • Vyhledávání google – vrátí seznam nejvíce relevantních stránek řazených dle relevance

  37. Google - výsledky

  38. Google výsledky • Stránky řazeny dle relevance (nejvíce relevantní nahoře). • Zobrazí prvních 10 výsledků. • Na další výsledky se lze přepnout pod obrázkem dole.

  39. Google výsledky • V levém panelu rozklikneme Více nástrojů • Prohledat web / stránky pouze česky • Časové omezení, kdy byla stránka naposledy aktualizována • Jen stránky s obrázky • Náhledy stránek

  40. Google - obrázky • V levém panelu přepneme na Obrázky • Velikost obrázků • Typ obrázků (obličej, fotka) • Barva

  41. Google – videa • V levém panelu přepneme na Videa • Prohledat web / stránky pouze česky • Délka trvání videa • Poslední aktualizace • Kvalita • Titulky • Zdroj

  42. Google – specializace • V levém panelu rozklikneme položku Více • Vše, Obrázky, Videa • Mapy • Zprávy, Nakupování, Knihy, Blogy, Aktualizace, Diskuze

  43. Google - mapy

  44. Google – rozšířené vyhledávání

  45. Google – rozšířené vyhledávání • Přesná fráze – slova v textu za sebou, přesný gramatický tvar

  46. Google – rozšířené vyhledávání • jazyk dokumentu, stát • formát (pdf, ppt, doc, xml, …) • konkrétní doména (com, vsfs.cz,)

  47. Google kalkulačka • Matematické operace + - * / • Matematické funkce sin, cos, log, exp, … • Převody jednotek • 5 mil v kilometrech • 10 galonu v litrech

  48. Google - Úkoly • Jak se jmenoval čínský kosmonaut, který letěl do vesmíru v roce 2003? • Který z amerických prezidentů neměl za rodný jazyk angličtinu? • Jak se jmenuje algoritmus používaný v kompresním programu RAR ?

  49. Google - Úkoly • Najděte původní slajdy, ze kterých jsou převzaty slajdy 3 – 26 v naší prezentaci. • Najděte fotografii autora původních slajdů z předchozího úkolu. • Na kterých vysokých školách v Praze se vyučují databázové systémy ? Naplánujte mezi těmito školami vhodnou cestu, určete její délku.

  50. Google - Úkoly • Jaké je oblíbené zvíře rektorky VŠFS? • Spočítejte: sin (pi/6) + log (100) • Kolik váží celkem 151 unci a 12 liber? • Co vše může znamenat slovo METRO? Ke každému významu najděte obrázek (či video).

More Related