1.16k likes | 1.33k Views
本体的发现与应用. 2014 年 《 本体工程 》 课程讲座 程龚 gcheng@nju.edu.cn. 如果由你来开发一个语义 Web 应用,首先你会去做什么?. 本体的应用. 下 半节课. 本体的重用. 上半节课. 提纲. 本体的发现 本体的搜索 本体的呈现 体验本体搜索引擎 本体的应用. 本体的搜索. 包含“ professor ”的本体. 包含“ student ”的本体. 如果由你来具体实现,你会怎么做?. professor. student. 倒排索引 (inverted index). 布尔检索模型. 开源软件.
E N D
本体的发现与应用 2014年《本体工程》课程讲座 程龚 gcheng@nju.edu.cn
如果由你来开发一个语义Web应用,首先你会去做什么?如果由你来开发一个语义Web应用,首先你会去做什么?
本体的应用 下半节课 本体的重用 上半节课
提纲 • 本体的发现 • 本体的搜索 • 本体的呈现 • 体验本体搜索引擎 • 本体的应用
包含“professor”的本体 包含“student”的本体 如果由你来具体实现,你会怎么做?
professor student 倒排索引 (inverted index)
开源软件 • 布尔检索引擎 • Apache Lucene (http://lucene.apache.org/)
(student OR students OR learner OR learners) AND (learn OR learns OR learning OR learned OR learnt) student AND learn • student • students • learner • learners • learn • learns • learning • learned • learnt 查询扩展
索引扩展 vs. 查询扩展,它们各有什么优缺点?
开源软件 • 词干提取器 • Snowball (snowball.tartarus.org) • 同义词典 • WordNet (wordnet.princeton.edu)
排序方法1 • 与查询越相关,排序越靠前。
词频 (term frequency) TF(student)=3 TF(faculty)=1 …
词频 (term frequency) TF(student)=3 TF(faculty)=1 … TF(student)=2 TF(faculty)=1 …
反文档频率 (inverse document frequency) TF(student)=3 TF(faculty)=1 … TF(student)=1 TF(faculty)=3 … DF(student)=1000 DF(faculty)=200 …
TF-IDF TF-IDF(student)=3log(10000/1000)=3 TF-IDF(faculty)=1log(10000/200)=1.7 … TF-IDF(student)=1log(10000/1000)=1 TF-IDF(faculty)=3log(10000/200)=5.1 … Φ=10000 DF(student)=1000 DF(faculty)=200 …
排序方法2 • 被引用越频繁,排序越靠前。
排序方法3 • 被使用越广泛,排序越靠前。
排序方法 • 与查询越相关,排序越靠前。 • 被引用越频繁,排序越靠前。 • 被使用越广泛,排序越靠前。