60 likes | 146 Views
Vyhľadávanie kontaktných údajov. pomocou Google API + regulárnych výrazov. Janiš Pavol. Čo rieši systém?. klasický zdroj kontaktných údajov v databázach - http://www.ifirmy.sk/ manuálne vkladanie nepokrýva údaje o firmách, ktoré sa neregistrovali
E N D
Vyhľadávanie kontaktných údajov pomocou Google API + regulárnych výrazov Janiš Pavol
Čo rieši systém? • klasický zdroj kontaktných údajov v databázach - http://www.ifirmy.sk/ • manuálne vkladanie • nepokrýva údaje o firmách, ktoré sa neregistrovali • možnosť prehľadávania domovských stránok firiem • kompletnosť a aktuálnosť údajov • aj firmy, ktoré o službách e-katalógov nevedia
Ako to funguje? • Prehľadávací stroj GOOGLE • Prehľadávanie URL • Prehľadávanie HTML • Prehľadávanie slov • Využitie regulárnych výrazov, podslov • Vytváranie databázy vyhľadávaní
Regulárne výrazy - mobilné telefónne čísla : '09[[:digit:]]{2}\/?[[:digit:]]{6}' - pevné linky: '\+?421[[:digit:]]{2,}\/?[[:digit:]]{6,}' - e-mail: '[[:graph:]]+\@[[:graph:]]+\.sk ' - Ulica a číslo: '[[:upper:]][[:lower:]]{4,}[[:digit:]]+' - PSC: '[[:digit:]]{5}' Podslová: 'lovens', 'dresa', 'mail', 'elef', 'tel', 'fax', lic', 'jdete'
Zhodnotenie - Systém parsuje html stránky pomaly (najmä stránky, ktoré zbytočne veľké, zložité stránky preplnené tagmi) - Systém napĺňa aj tabuľku words aj zbytočnými nepoužiteľnými slovami - Systém má obmedzenia na počet prehľadávaných výsledkov z google a počet stiahnutých slov z prehľadávanej stránky + Systém neprehľadáva 2 krát web na základe rovnakých kľúčových slov + Systém za pomoci predchodcov a následníkov objavuje kontaktné údaje, ktoré nepokryjú regulárne výrazy + Systém indexuje konkrétne vyhľadávania do tabuliek databázy pre ďaľšie použitie