90 likes | 187 Views
氣象資訊平 台技術架構初論. 報告者:劉育維. 雲端層級概念. Application Web 查詢平台、行動 APP 應用. 軟體服務層級 SaaS. 平台運算層級 PaaS. Linux cluster. 基礎設施層級 IaaS. Nutch 工具. Nutch 是由 Java 語言所建構的 open source ,由 Lucene 加上爬蟲程式等網路搜索工具發展而來,由於建構在 Hadoop 框架下,所以具有良好的平台相容性及效能。
E N D
氣象資訊平台技術架構初論 報告者:劉育維
雲端層級概念 Application Web查詢平台、行動APP應用 軟體服務層級 SaaS 平台運算層級 PaaS Linux cluster 基礎設施層級 IaaS
Nutch工具 • Nutch是由Java語言所建構的open source,由Lucene加上爬蟲程式等網路搜索工具發展而來,由於建構在Hadoop框架下,所以具有良好的平台相容性及效能。 • Nutch主要用於指定網域或廣域搜索的網頁資料抓取,提取其內容,並依據平台需要儲存至資料庫,或者透過Solr進行資料的網址索引供查詢。
Nutch運作流程 • 下圖為Nutch+Solr的應用示意
Nutch應用定位 • 使用Nutch工具並非為了編列索引供搜尋引擎使用,應是抓取網頁資料供系統運算及作為語意查詢的資料基礎。 • 從語意網角度來看,Nutch所抓取的皆為Non-RDF(資源描述框架)格式的資料,在語意推論前勢必經過轉換程序才能被使用。 Jena 使用 Nutch HbaseorRDB 儲存 抓取
D2RQ工具 • D2RQ作為一種將Non-RDF格式的資料轉化映射為RDF格式的Semantic Web Data的工具,透過Mapping file來完成關聯式資料庫中關聯對RDF架構的映射。 • D2RQ包含了Jena、SPARQL引擎,目前支援Oracle、MySQL、PostgreSQL、Microsoft SQL Server等RDB。
D2RQ架構示意 • D2RQ Mapping Language: • 用於描述RDF詞彙表和RDB model之間關係的描述性語言。 • D2RQ Engine: • 使用可定制的mapping文件將RDB中的資料轉換成RDF格式。 • D2R Server: • 提供對RDF資料的查詢介面,以供上層的RDF瀏覽器、SPARQL查詢 • 用戶端以及傳統HTML瀏覽器使用。
初步系統架構 Hadoop運算平台 DB Nutch 歷史資料 抓取 儲存 即時資料 網頁資料 擷取 LocalApplication D2RQModel D2RQEnglie Jena D2RServer 提供 提供 行動APP應用 Web查詢平台 語意網應用