230 likes | 398 Views
Cvičení č. 2. Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr , David Pejčoch. Základní linie kurzu 4iz210. Semistrukturovaná data. Strukturovaná data (databáze). Nestrukturovaná data (volný text). t. Několik rozsáhlých databází Dynamický obsah.
E N D
Cvičení č. 2 Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch
Základní linie kurzu 4iz210 Semistrukturovaná data Strukturovaná data (databáze) Nestrukturovaná data (volný text) t • Několik rozsáhlých databází • Dynamický obsah • Mnoho malých dokumentů • Statický obsah <?xml version=„1.0“?> <osoba> <jmeno>David Veliký</jmeno> <tel>2191 4264</tel> <email>mujmail@mailbox.cz</email> </osoba> MyDB
Vyhledávání na internetu - motivace • Vysoké procento uživatelů velmi důvěřuje svým schopnostem ve vyhledávání na Internetu. • Výsledky starší studie* (2005): • 92% uživatelů důvěřuje svým schopnostem ve vyhledávání, 52% potom velmi důvěřuje • Je tento optimismus oprávněný? *http://www.pewinternet.org/Reports/2005/Search-Engine-Users.aspx?r=1
Fulltextové vyhledávání • Neprohledávají se strukturovaná data, ale volně psané texty, kde může být tatáž událost popsána více autory různými způsoby: • Různé slovní obraty • Různá slova stejného významu (synonymie) • … • Neexistuje objektivně nejlepší řešení. • Správnost (relevance) výsledků podléhá subjektivnímu názoru dotazovatele.
Jak vyhledávače fungují? Zjednodušeně ve třech krocích: • Sběr dat pomocí crawlerů (robotů) • Zpracování do databáze (indexování) • Zpřístupnění uživatelům pomocí vyhledávacího okna Robots.txt User-agent: * Disallow: /downloads/ Request-rate: 1/5 Visit-time: 0600-0845 Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml Sitemap: http://www.google.com/hostednews/sitemap_index.xml Meta tags <meta name="description" content=„My content."> <meta name="keywords" content=„všechno možné"> <meta name="robots" content="noindex,follow"> <meta name="googlebot" content="nosnippet,noarchive"> <meta http-equiv="Content-language" content="cs">
Nejsou však všemocné… • Neviditelný web • Intranety – fyzicky nedostupné • Zaheslovaný obsah • Obsah přístupný přes formuláře • Flash prezentace, PDF, komprimované soubory, nedostatek textu • Limity počtu indexovaných stránek v rámci domény • Robots.txt • Neumí indexovat dynamický obsah, … • neviditelný web je až 500krát větší než tzv. povrchový web • obsahuje kvalitní dokumenty (1000 až 2000krát kvalitnější než v povrchovém webu) • je to nejrychleji rostoucí část webu Brány: www.completeplanet.com, http://www.ipl.org/
Informační profesionál • Nepoužívá jediný vyhledávač (search engine) • „předpojatost“ vyhledávačů, užití různých algoritmů, ze stejného webu mohou indexovat různý počet stránek • Používá placené zdroje. • „V extrémních případech“ možnost vytvoření vlastního crawleru. • A rozhodně nepoužívá jediný informační zdroj.
Jak poznat kvalitní informační zdroj? • Odborná erudice autora (vyhledání informací o autorovi) • Scientometrie – metoda stanovení kvality vědecké práce – čím více si vědecká (odborná) komunita všímá určité publikace, tím větší má hodnotu • Spolehlivost informačního zdroje – míra citovanosti, zjišťovaná impact faktorem (kolikrát byl článek v časopise citován během dvou let od jeho publikování)
Jak poznat kvalitní informační zdroj? • Stáří informace – užitná hodnota informace klesá v závislosti na čase (existují však informace, jejichž užitná hodnota v čase neklesá). • Informační cyklus se díky možnosti publikovat online dramaticky zrychlil.
Problémy při vyhledávání - nevýznamová a nespecifická slov • Využití negativního slovníku, seznam stop-slov • Vytvoření negativního slovníku: • Volba druhů slov, které nenesou význam a slouží pouze pro syntaktické účely (např. spojky, předložky, částice, mluvnické členy apod.), • Volba slov s vysokou frekvencí v textu dokumentu (resp. Ve všech dokumentech) • Volba velmi krátkých slov
Problémy při vyhledávání - homonymie a synonymie • Synonymie – více slov má stejný význam • Homonymie – jedno slovo má více významů Např. „Jel kolem nás.“ „Nechoď sem s tím kolem.“ „Šel kolem nás s kolem.“ • Stejný tvar pro různé pády a další gramatické jevy (např. vzor kost – shoda 2., 3., 5., 6. p. č.j.) • Jeden tvar slova může mít různý význam (hnát, tři, kohoutek…) • Pro vyhledávače VELMI obtížné rozlišit, o jaký význam se jedná.
Techniky při zpracování dotazu - Desambiguace Desambiguace = Zjednoznačnění = proces pomáhající strojovému porozumění textu. = určení významu slova podle jeho kontextu – odstranění víceznačnosti. Základní algoritmus: • Přiřaď každému slovu <některé|všechny možné> značky. (pomocí slovníku, korpusu, morfologického analyzátoru) • Pomocí pravidel <vytvořených člověkem|naučených> zruš nesprávné značky. • Odstraň ručně <některé|všechny zbývající> dvojznačnosti. http://nlp.fi.muni.cz/projekty/wwwajka/WwwAjkaSkripty/morph.cgi?jazyk=0
Techniky při zpracování dotazu - Lemmatizace Lemmatizace = redukce slov na jejich základní tvary (1. pád jednotného čísla…) Metody: • Využití slovníku kmenů nebo kořenů • Odstranění afixů, tj. předpon a přípon – problém nepravidelné flexe (např. hláskové změny pes, psi) • Statisticky – na základě variety po sobě následujících písmen
Pokročilé techniky – text mining, informationretrieval • Identifikace hlavních termínů na zkoumaném webu (term frequency DF – inverse document frequency IDF) • Identifikace témat na zkoumaném webu -Latentní sémantické indexování (LSO) (např. dříve AdSense od Google): • Nalezení dokumentů, které se vztahují k určitému tématu – porovnávání s ostatními webovými stránkami, které obsahují daná klíčová slova • Pracuje se synonymy • Nevyžaduje žádné další informace v dokumentu, ani v dotazu počet dokumentů v korpusu IDF = log --------------------------------------- počet dokumentů s výskytem
Tak trochu jiné (sémantické) vyhledávače • Hakia.com • Stále betaverze • Technologie QDEX (QueryDetection and Extraction) • Automatické rozšiřování dotazu o synonyma • Kategorizace, zobecňování, zvýraznění • www.sensebot.net (text mining + multidocument sum.) stáhnutelnýFirefoxadd-on • www.powerset.com „Google-killer“ hledá celkový význam nad rámec jednotlivých slov; koupil Microsoft => Bing • www.wolframalpha.com encyklopedie + výpočty
Služby týkající se webových stránek • Měření reputace stránek: Page Rank, Srank, Jyxo rank • Zjišťování návštěvnosti webů: Alexa.com, Toplist.cz • Webové archivy (starší verze stránek): Google cache – vhodné pro aktuální, právě nepřístupný obsah • www.archive.org – delší historie www.vse.cz: Google page rank (max) Complete rank (min) Alexa rank (min) Jyxo rank (max) Seznam s-rank (max) http://pagerank.jklir.net/
Tipy pro vyhledávání • I klasické operátory stále mají smysl (?, *, AND, OR…) • Site: omezení vyhledávání na určitou doménu • Filetype: omezení na určený typ souborů • ~ : dotaz rozšiřuje o synonyma (Google) • Symbolem „-“ můžeme označit slova, která nechceme mít ve výsledcích vyhledávání. Možno kombinovat například s operátorem site. http://www.googleguide.com/advanced_operators.html
Doplňkové zdroje informací k CI studii • Hospodářská komora České republiky http://www.komora.cz/ • Česká agentura na podporu obchodu http://www.czechtrade.cz/Global • Ministerstvo financí(ARES) http://wwwinfo.mfcr.cz/ares/ • Ministerstvo spravedlnosti (Justice.cz) http://portal.justice.cz/ • Státní správa http://www.statnisprava.cz/ • Registr živnostenského podnikání http://www.rzp.cz • http://obchodni-rejstrik.cz • http://www.b2m.cz • http://www.axis4.info Základní informace o firmě • http://www.ckds.cz Česká komora detektivních služeb • http://www.dnbczech.cz • http://www.isvz.cz/isvz/ Informační systém o veřejných zakázkách • http://www.businessinfo.cz/cz/ - Oficiální portál pro podnikání a export
SWOT analýza jako součást dlouhodobého plánování firmy Free nástroj: www.smartdraw.com
Porter http://rossresults.com/library/The_Five_Competitive_Forces_That_Shape_Strategy.pdf M. Porter = guru a stratég v oblasti podnikání, profesor podnikového řízení na Harvard Business School 5 sil: hrozba vstupu nových konkurentů intenzita konkurenční síly hrozby substitutů vyjednávací síla zákazníků