120 likes | 261 Views
Inform ácie o firmách. Roman Herbst. Úvod. Cieľ – vyhľadať informácie o firmách Identifikačné údaje Sídlo lokalizované na mape Webové stránky Popis činnosti Zmysel – zautomatizovať a urýchliť vyhľadávanie týchto informácií. Úvod. Použitie Overenie sídla Jednoduchá navigácia
E N D
Informácie o firmách Roman Herbst
Úvod • Cieľ – vyhľadať informácie o firmách • Identifikačné údaje • Sídlo lokalizované na mape • Webové stránky • Popis činnosti • Zmysel – zautomatizovať a urýchliť vyhľadávanie týchto informácií
Úvod • Použitie • Overenie sídla • Jednoduchá navigácia • Presnejší popis činnosti • Alternatívne zameranie firmy
Existujúce riešenia • Európska databanka • Platený prístup • Len firmy, ktoré požiadajú o zaradenie do DB • Informácie poskytuje daná firma • Katalógy firiem • Manuálne pridávané firmy (nie sú všetky, informácie nemusia byť aktuálne) • Odkaz len na hlavnú webovú stránku
Popis riešenia • Použité technológie • PHP, HTML, JavaScript • Google Maps API • Informácie čerpám z • ORSR • Google PageRank • Sk-nic • Webstránky firiem
Postup vyhľadávania 1 • ORSR • obchodné meno • právna forma • deň zápisu do obchodného registra • IČO • adresa sídla firmy • Predmet činnosti
Postup vyhľadávania 2 • Adresa sídla firmy Google Maps API • Lokalizácia na mape • GPS súradnice • IČO zoznam domén SK-NIC • Domény zaregistrované na danú firmu • Predmet činnosti profilová stránka (neskôr) • Najrelevantnejší odstavec
Postup vyhľadávania 3 • Kontrola dostupnosti domén • Google PageRank domén skóre • Vyhľadanie názvu firmy na dostupných doménach skóre • Pokus o vyhľadanie profilovej stránky • Ak existuje, vyhľadanie názvu firmy skóre • Najvyššie skóre = hlavná stránka firmy
Postup vyhľadávania 4 • Ak existuje profilová stránka, vyhľadanie relevantných odstavcov • Ohodnotenie odstavcov • Základné skóre ZS := dĺžka odstavca/4 • 1. odstavec – ZS := ZS x 2 • Počet výskytov (PV) názvu firmy a činností z ORSR • Ak PV==0, skóre := ZS / 2 • Inak skóre := ZS * PV • Najvyššie skóre = najrelevantnejší odstavec
Problémy • Kódovanie znakov • Veľké množstvo zaregistrovaných domén • Webhosting • Flash, JavaScript, Image menu • User-agent, frames • „zahrabané“ profilové stránky
Vyhodnotenie • Väčšina slovenských firiem nemá webstránku • Testované na 22 náhodných firmách, ktoré som overil, že webstránku majú • Vyhľadanie na mape – bezproblémové 21/22 • Vyhľadanie všetkých domén – iba tie firmy, ktoré vlastnia svoju doménu 18/22 • Best match doména – bezproblémové 17/18
Vyhodnotenie • Popis činnosti – problémové • 7/18 nájdených • 5/7 presných • Možné vylepšenia • Vyhľadávanie webstránok cez Google - webhosting • Iný spôsob sťahovania stránok - user-agent string • Slovenský stemmer • img alt tag, prípadne OCR