210 likes | 398 Views
NESIS workshop 9.6.´10, Zvolen. SEIS : kombinácia sémantického webu - "pravej" + dolovania dát "nepravej" integrácie heterogénnych i nformačných systémov, Ing. Ján Jendrichovský, SAŽP. Problém:. Integrácia heterogénnych informačných systémov (o ŽP) rôzne databázy, modely dát
E N D
NESIS workshop 9.6.´10, Zvolen SEIS: kombináciasémantického webu- "pravej" + dolovania dát "nepravej" integrácieheterogénnych informačných systémov, Ing. Ján Jendrichovský, SAŽP
Problém: Integrácia heterogénnych informačných systémov (o ŽP) rôzne databázy, modely dát rôzne či žiadne formáty metadát rôzna terminológia jazyková bariéra * * * NESIS workshop 9.6.´10, Zvolen
Cieľ: Prístupnosť a interoperabilita dát pre: požiadavky z legislatívy: reporting do EU potreby politikov pre rozhodnutia o prijatí opatrení pre odborníkov pre laickú verejnosť * * * NESIS workshop 9.6.´10, Zvolen
Riešenia: "Pravá" intergácia: publikovanie sémanticky popísaných metadát (v dohodnutých formátoch) jednotné “referenčné dáta” "Nepravá" integrácia cielené „fokusované” web crawler-y z existujúcich webov dolujeme dáta pomocou kľúčových slov NESIS workshop 9.6.´10, Zvolen
"Pravá" integrácia: sémantický web: Metadáta ~ RDF referenčné dáta ~ URIs, CURIEs metadáta popísané referenčnými dátami, pr. Ontológia-OWL, DC? ontológie jednoznačne popisujú význam termínu, do mnohých jazykov? ontologické inžinierstvo, Príklad: SWEET http://sweet.jpl.nasa.gov/ontology/ NESIS workshop 9.6.´10, Zvolen
Ontologické inžinierstvo: Príklad SWEET: Semantic Web for Earth and Environmental Terminology NESIS workshop 9.6.´10, Zvolen
Vývoj ontológií (SWEET): Z našich skúseností s vývojom ontológií sme dospeli k záveru, že platia tieto hlavné zásady: Škálovateľnosť: ontológia by mala byť ľahko rozširovateľná o špecializované oblasti, ktoré majú vychádzať zo všeobecnejších existujúcich ontológií Nezávislosť na aplikácii: štruktúra a obsah ontológie by maly závisieť na znalostiach vlastných danému odboru, a nie na tom, ako sa bude používať NESIS workshop 9.6.´10, Zvolen
Vývoj ontológií (SWEET): Nezávislosť na prirodzenom jazyku: štruktúra by mala poskytovať reprezentáciu konceptov, viac ako termínov/slov. Koncepty zostávajú rovnaké bez ohľadu na slang, technický žargón, cudzie jazyky, atď. Synonymické výrazy, (napr. oceán, more; oceánografia, vedy o mori) môžu byť mapované jednotlivo na rovnaký prvok ontológie. Ortogonalita: zložené pojmy/koncepty by mal byť rozložené na ich časti, aby bolo jednoduché rekombinovať pojmy novými spôsobmi. Zapojenie komunity: vstupy z komunity by mali riadiť vývoj ontológie NESIS workshop 9.6.´10, Zvolen
Vývoj ontológií (life cycle): NESIS workshop 9.6.´10, Zvolen • Needs • Design • Diffusion • Use • Evaluate • Evolution http://www.slideshare.net/fabien_gandon/ontology-in-a-nutshell-version-2
Vývoj ontológií (CLOM): NESIS workshop 9.6.´10, Zvolen • CLOM Cross Langauge Ontology Mapping http://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-571/paper3.pdf
"Nepravá" integrácia: cielené „fokusované” web crawler-y: z existujúcich webov dolujeme dáta pomocou kľúčových slov HCI systém: človek definuje kľúčové slová, “prepája sa” so slovníkmi, iteruje... nemusíme nič meniť na existujúcich stránkach „referenčné dáta“ alebo synonymá iba pre výber kľúčových slov NESIS workshop 9.6.´10, Zvolen
Dolovanie dát : SubjectSearchSiter: http://www.kryltech.com/siter.htm rýchle, multi-threaded variabilné zadávanie kľúčových slov/fráz vytvára site map multi-jazykové hľadanie – altavista.com? nejde do iných sites (iba zadaných) NESIS workshop 9.6.´10, Zvolen
Dolovanie dát : NESIS workshop 9.6.´10, Zvolen • SubjectSearchSiter:
Dolovanie dát : Slovak Environmental Index - PoC: Indonesian Scientific Index (open source?) založený na ISI: http://www.isi.lipi.go.id/ vyhľadávanie v rôznych jazykoch súčasne, používa http://translate.google.com/# extrahovanie textu z rôznych formátov, uloženie, historický “backup“ kvalita/poradie stránky na základe matem. funkcií spracovania textu NESIS workshop 9.6.´10, Zvolen
Slovak Environmental Index: NESIS workshop 9.6.´10, Zvolen
Dolovanie dát : Google rozšírené vyhľadávanie: takmer ako focused web crawler, ohraničený na 1 site Super-rýchly, suma dát rastie učiace sa algoritmy moderné rozhrania pre hľadanie: „Zázračné koleso“ NESIS workshop 9.6.´10, Zvolen
Google rozšírené vyhľadávanie: NESIS workshop 9.6.´10, Zvolen
Google rozšírené vyhľadávanie: http://www.google.sk/search?as_q=voda+znečistenie+pokuta&hl=sk&num=20&btnG=Hľadať+v+Google&as_epq=&as_oq=&as_eq=&lr=&cr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=http://enviroportal.sk/&as_rights=&safe=images Výsledky: enviroportal.sk/pdf/spravy_zp/svk93-03s_star.pdf ipkz.enviroportal.sk/ enviroportal.sk › Archív článkov enviroportal.sk/indikatory/detail.php?kategoria=214... enviroportal.sk/pdf/spravy_zp/svk01s_star.pdf enviroportal.sk/pdf/spravy_zp/2008-sk/8_Starostlivost.pdf enviroportal.sk/pdf/spravy_zp/svk03s_star.pdf enviroportal.sk › Správy o stave ŽP › Informačné brožúry enviroportal.sk/legislativa/predpis.php?id...18 približný počet výsledkov: 77 NESIS workshop 9.6.´10, Zvolen
Google rozšírené vyhľadávanie: „Zázračné koleso“: kľúčové slová zreťazené grafické hľadanie pomocou navrhnutých príbuzných tém/fráz NESIS workshop 9.6.´10, Zvolen
Záver: Približovanie oboch metód integrácie: napr. RDFa: (X)HTML MD prvky → RDF Google foc.crawl + vytvorené indexy/frázy pre verejnosť: Google (like) hľadanie – obstojná kvalita, viac výsledkov - LACNÉ pre odborníkov (incl.navrhovania politík): vytváranie slovníkov, ontológií (pravá integrácia) – kvalitnejšia a menšia množina výsledkov, avšak DRAHÉ NESIS workshop 9.6.´10, Zvolen
Ďakujem za pozornosť SAŽPCentrum environmentálnej informatikyTajovského 28975 90 Banská Bystrica tel: 048/ 4374-136 jan.jendrichovsky@sazp.sk http://seis.sazp.sk/ NESIS workshop 9.6.´10, Zvolen