100 likes | 198 Views
Sémantická anotácie pre podnikové aplikácie. Michal Laclavík , Marek Cigla n, Martin Šeleng, Zoltán Balogh. Metóda Ontea. Moti vácia Vytvoriť alebo nájsť sémantické dáta v texte Aj pomocou externých zdrojov Spôsob metódy Aj neštruktúrovaný text obsahuje nejaké vzory
E N D
Sémantická anotácie pre podnikové aplikácie Michal Laclavík, Marek Ciglan, Martin Šeleng, Zoltán Balogh
Metóda Ontea • Motivácia • Vytvoriť alebo nájsť sémantické dáta v texte • Aj pomocou externých zdrojov • Spôsob metódy • Aj neštruktúrovaný text obsahuje nejaké vzory • Vzory môžu byť použité na extrakciu objektov a ich vlastností • Výsledok: key - value pairs (kľúč-hodnota) • Transformácia na ontology individuals • Class – individual • Individual – property 6.-7. november 2008
Text Bratislava is the capital of Slovakia. Slovakia is in Europe. Pattern: “(in|by) + (the)? *([A-Z][a-z]+)” for Location Ontea discovers key – value pair: Location – Europe By transformation to ontology knowledge base - it finds Europe as continent using inference (sub-class of Location) Continent – Europe More Examples are in the table: Príklady výsledkov 6.-7. november 2008
Features • Identification of concept instances from the ontology • Automatic population of ontologies with instances • Identifying relevance, when creating instances using information retrieval techniques • Key-value pairs transofrmation • Integration with data from external systems • Large scale semantic annotation of documents or texts using Google’s MapReduce architecture. 6.-7. november 2008
Príklad transformácie procesu • Transformation example: • Text: “Slovensko je v Európe“=> • Extraction: Location – Európe => • Transformation, Lemmatization: Location – Európa => • Transformation, Ontology: Continent – Europe 6.-7. november 2008
Transformácia z externých zdrojov • Text: obsahuje napr. doménu • Použijem vzor: ([_-a-zA-Z0-9]+\\.sk), • napr.: domain:SK – toyota.sk • Pomocou registrátora www.SK-NIC.sktransformujem pár na: • IČO – 31585973 • SystemConnector pomocou stránky obchodného registrawww.orsr.sk • company:Name - TOYOTA MOTOR SLOVAKIA s.r.o. • alebo prípadne ďalšie údaje o objekte firmy ako adresa a podobne. Web Connector Key-value Meta-Connector SpreadSheetConnector Transformed Key-value DatabaseConnector 6.-7. november 2008
Experiment • sadu 8579 emailov • databázu zákazníkov a služieb Identifikácia zákazníka podľa • Adresa odosielateľa • Meno firmy • Telefónne číslo • Internetová doména ktorá reprezentuje službu poskytovanú zákazníkovi DatabaseConnector 1 Key-value Meta-Connector DatabaseConnector 2 Key-value DatabaseConnector 3 6.-7. november 2008
Acoma 6.-7. november 2008
Záver • Použitie dát ktoré nie sú priamo v texte • Vhodné pre vnútro podnikové aplikácie • Spracovanie archívov • Elektronickej komunikácie • Intranet systémov • Architektúra založená na transformácii párov • Rozširovateľnosť • Škálovateľnosť (MapReduce) • Prisposobiteľnosť 6.-7. november 2008
Ďakujem za pozornosť http://ontea.sourceforge.net/