1k likes | 1.22k Views
Semantic Web & Ontology. Metadata. Instructor: Zhang maoyuan E-mail: zmydragon@163.com. Outline. Why Metadata What’s Metadata What’s XML Question. 2.1 Current Web. 500 million user more than 3 billion pages. WWW. URI, HTML, HTTP. Static. 快速发展的因素. 电脑技术的快速发展 电脑的普及 电脑知识的普及
E N D
Semantic Web & Ontology Metadata Instructor: Zhang maoyuan E-mail: zmydragon@163.com
Outline • Why Metadata • What’s Metadata • What’s XML • Question
2.1 Current Web 500 million user more than 3 billion pages WWW URI, HTML, HTTP Static
快速发展的因素 • 电脑技术的快速发展 • 电脑的普及 • 电脑知识的普及 • 网络技术(光纤、网络协议等)的发展 • 带宽的提高 • 校园网、电信的ISDL • 用户对资源的需求 • 知识的需求 • 娱乐信息
引发一系列问题(1) • 信息发布 • 网络IP地址的分配问题 • 产生虚拟IP网络、IPV6等方法来解决 • 信息获取 • 如何从这些海量信息中查到自己感兴趣的资源 • 如何获取这些信息 • 产生搜索引擎、信息挖掘技术 • 信息存储 • 如何存储海量信息 • 产生磁盘阵列、TB级存储器
引发一系列问题(2) • 信息传递 • 采用何种工具传递网络信息 • 产生FTP、BT等软件 • 信息使用 • 如何合法、正确使用网络信息 • 产生网络信息监管的职能部门和法规 • 产生针对用户(如儿童)权限等的信息过滤技术
Web信息结构 • 大部分采用HTML(HyperText Markup Language) • 也采用XML(eXtensible Markup Language) • HTML标记语言 • 是在普通文本的基础上加上特殊标记(Tag) • 目的是运用标记使文件达到预期的显示效果 • 方法是用“<”、“>”扩住标记,起始标记用<Tag>表示,终止标记用</Tag>表示
HTML网页片断(1) <TABLE border=0 cellPadding=0 cellSpacing=0 width=720> <TBODY> <TR> <TD width=61><A href="http://127.0.0.1/"><IMG alt=虚拟中医网border=0 height=67 src="default.files/logo1.gif" width=61> </A></TD> • <TABLE> • 一个容器标记,用以指明这是表格, • 其它表格标记只能在这个标记范围内使用 • <TR> • 表示表格的行。 • <TD> • 表示表格行中的单元。
HTML网页片断(2) <frameset rows=“80,*”> <frame name =“top” src=“a.html”/> <frame name =“bottom” src=“b.html”/> </frameset> • <frameset> • 用来划分框格,每个框格由一个<frame>标记来表示 • 这里把页面分成上下两部分,上面显示a.html,下面显示b.html
2.2 搜索引擎 • 从1995年开始逐渐发展 • 产生原因 • 用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。 • 搜索引擎正是为了解决这个"迷航"问题而出现的技术 • 目的 • 以一定的策略在互联网中搜集、发现信息 • 对信息进行理解、提取、组织和处理 • 为用户提供检索服务
中文搜索引擎 英文搜索引擎 百度中文搜索引擎 Google搜索引擎 北大天网中英文搜索引擎 聪搜索引擎 雅虎中国分类搜索引擎 搜狐分类搜索引擎 新浪搜索引擎 网易分类目录引擎 英文Google搜索引擎 Inktomi/MSN搜索引擎 Fast/AllTheWeb搜索引擎 AltaVista 搜索引擎 ASK/Temoa 搜索引擎 英文Yahoo! 分类目录 Dmoz 人工分类目录 LookSmart 分类目录 现有的搜索引擎
Google 简介 • 斯坦福大学的博士生Larry Page 和Sergey Brin • 在1998 年创立 • 搜索时间通常不到半秒 • 每天需要提供1.5 亿次查询服务 • Google 的技术 • 代理搜索技术 • 高级PageRank(网页级别)技术 • Google 释义 • 由英文单词“googol”变化而来 • 表示1 后边带有100 个零的数字 • 代表Google想征服网上无穷无尽资料的雄心 • PageRank • 利用巨大的网络链接结构 • 网页A 链接到网页B 时,就认为“网页A 投了网页B 一票 • 避免任何人为感情因素
百度搜索引擎简介 • 李彦宏先生及徐勇先生 • 1999年底,百度成立于美国硅谷 • 2000年百度公司回国发展 • 百度的起名 • 辛弃疾的《青玉案》中 “众里寻她千百度” • 象征着百度对中文信息检索技术执著的追求 • 竞价排名 • 由用户为自己的网页出资购买关键字排名 • 按点击计费的一种服务 • 搜索结果的顺序将根据竞价的多少由高到低排列
雅虎搜索引擎简介 • 大卫·费罗(David Filo) 和杨致远(Jerry Yang) • 美国斯坦福大学电机工程系的博士生 • 1994年4月建立了网络指南信息库 • 分类目录 • 站点目录分为14个大类,每一个大类下面又分若干子类 • 连接速度快,包含范围广 • 雅虎中国网站提供简单易用、手工分类的简体中文网站目录
性能指标 • 召回率(Recall) • 检索出的相关文档数和文档库中所有的相关文档数的比率 • 衡量的是搜索引擎的查全率 • 精度(Pricision) • 检索出的相关文档数与检索出的文档总数的比率 • 衡量的是搜索引擎的查准率 • 影响性能的因素 • 文档和查询的表示方法 • 评价文档 • 用户查询相关性的匹配策略 • 查询结果的排序方法 • 用户进行相关度反馈的机制
搜索引擎的类别 • 分类依据 • 信息搜集方法 • 服务提供方式 • 类别 • 目录式搜索引擎 • 机器人搜索引擎 • 元搜索引擎
目录式搜索引擎 • 搜集信息 • 人工方式或半自动方式 • 信息处理 • 由编辑员查看信息之后,人工形成信息摘要 • 并将信息置于事先确定的分类框架中 • 服务方式 • 提供目录浏览服务 • 提供直接检索服务 • 优点 • 讨论 • 缺点 • 讨论 • 代表 • YAHOO、LookSmart、Dmoz等
机器人搜索引擎 • 搜集信息 • 蜘蛛(Spider)的机器人程序 • 以某种策略自动地在互联网中搜集信息 • 信息处理 • 建立索引库 • 服务方式 • 面向网页的全文检索服务 • 优点 • 讨论 • 缺点 • 讨论 • 代表 • Google、天网等
元搜索引擎 • 技术方法 • 将用户的查询请求同时向多个搜索引擎递交 • 将返回的结果进行重复排除、重新排序等处理 • 作为自己的结果返回给用户 • 服务方式 • 面向网页的全文检索 • 本质特点 • 没有自己的数据 • 优点 • 讨论 • 缺点 • 讨论 • 代表 • WebCrawler、InfoMarket等
搜索引擎系统结构 • 搜索器 • 索引器 • 检索器 • 用户接口
搜索器 • 功能 • 在互联网中漫游,发现和搜集信息 • 尽可能多、尽可能快地搜集各种类型的新信息 • 定期更新已经搜集过的旧信息 • 搜集策略 • 从一个起始URL集合开始,以宽度优先、深度优先或启发式方式循环地在互联网中发现信息 • 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索 • 信息类型 • HTML、XML、FTP文件、字处理文档、多媒体信息 • 其它支撑技术 • 分布式、并行计算技术
索引器 • 功能 • 理解搜索器所搜索的信息 • 从中抽取出索引项,用于表示文档以及生成文档库的索引表 • 索引项 • 客观索引项 • 内容索引项 • 支撑技术 • 统计法、信息论法和概率法(计算索引项的权值 ) • 倒排表(Inversion List),由索引项反过来查找相应的文档 • 可以使用集中式索引算法或分布式索引算法
检索器 • 方法 • 根据用户的查询在索引库中快速检出文档 • 进行文档与查询的相关度评价 • 对将要输出的结果进行排序 • 并实现某种用户相关性反馈机制 • 如何实现多点的海量检索(讨论) • 集中式海量检索 • 分布式海量检索
用户接口 • 作用 • 输入用户查询 • 显示查询结果 • 提供用户相关性反馈机制 • 目的 • 方便用户使用搜索引擎 • 高效率、多方式地从搜索引擎中得到有效、及时的信息 • 简单接口 • 只提供用户输入查询串的文本框 • 复杂接口 • 让用户对查询进行限制,如逻辑运算 、时间、长度等 • 例子 • Google提供多种用户使用界面
搜索引擎的研究动向 • 提高信息查询结果的精度,提高检索的有效性 • 基于智能代理的信息过滤和个性化服务 • 采用分布式体系结构提高系统规模和性能 • 交叉语言检索的研究和开发 • 国际会议 • 美国Infornotics公司主办的搜索引擎国际会议从1996年开始,每年举行一次 • IEEE主办的国际万维网会议、人机交互会议
当前搜索引擎的不足之处 (1) 1) 语义分析不足,缺少较好的中文分词技术支持 用google搜索引擎,关键词“和服”,在第3页有如下结果: 外交部公布新版中国境外领事保护和服务指南...外交部公布新版中国境外领事保护和服务指南(附全文), 中国外交部通过其官方网站公布了《中国境外领事保护和服务指南(2003年版)》,以帮助中国公民了解中国驻外使、领馆的领事保护和服务范围。...www.china.org.cn/chinese/2003/May/328355.htm - 27k - 网页快照- 类似网页
当前搜索引擎的不足之处 (2) 2)智能化不足 都需要用户提供检索的关键词、关键词组,但还不能直接检索语句 要直接检索语句,需要更强的自然语言处理技术支持
2.3 Web信息提取 从提取规则角度,网页信息提取方法可分为两大类 • 基于标识规则的方法 • 应用网页文档的标识来提取网页信息 • 基于内容规则的方法 • 应用自然语言处理技术 • 从关键词匹配到有层次的句法分析
基于标识规则的方法 • Harvest信息提取系统 • 利用手工编写的wrappers分析一批固定的Web资源 • 只能处理Web文档而忽略了Internet上提供的服务 • 依赖于提前定义的文档类型,对新文档结构则无能为力 • 斯坦福大学提出的对象交换模型(OEM)方法 • 一个简单的、自描述、嵌套的对象模型 • 一个带标记的有向图 • 这个模型依赖于具体问题的分析 • DSE(Data-rich section extraction)算法 • 用树型结构表示HTML网页的布局 • 实质是针对具体问题建立文档对象模型,提取网页信息
基于内容规则的方法 • Artequakt系统 • 建立在自然语言处理技术和实体论基础上 • 通过句法和语义分析来确定实体及关系 • 根据用户要求,产生描述格式,从而描述出艺术家传记 • DL(description logics)方法 • 建立在实体论基础上 • 用DL方法从词汇关系、概念关系和上下文关系,抽取概念及其依赖关系树 • Diffusion webIE系统 • 依照实例模型(又称IE规则)构出的框架 • 依据关键词位置和值的特征的定位规则 • 依据词类型和取值范围的表格提取规则 • 句法分析规则
基于标识的方法 不具有自适应能力 准确定位信息段的起止位置 基于内容的方法 不易准确定位信息段的起止位置 有一定自适应能力 依赖较强的自然语言处理技术 两种方法比较
信息提取的研究趋势 • 融合两种规则 • 一些网页信息提取方法把这两种规则融合在一起 • 以求充分发挥着两种提取规则的特点 • 来提高提取效率 • 语义网 • 改变现有网页信息结构 • XML语言把信息结构、内容与数据的表现形式进行分离 • RDF把信息转换成元数据 • 本体论把信息的结构与内容相分离 • 信息具有计算机可理解的语义
2.4 元数据 • 定义 • data about data (关于数据的数据) • 是对web信息的一种描述方式 • 是机器可理解的信息 • 基本作用 • 管理数据,从而实现查询、阅读、交换和共享 • 组成 • 一系列元素或属性 • 例子:图书馆目录 • 如:作者,书名,出版日期,主题,分类排架号等元素
元数据与资源之间的关联方式 • 独立方式 • 元素可包含在独立于该项资源的记录中 • 例如:图书馆目录 • 嵌入方式 • 数据可嵌在资源本身中 • 例如:印在书内封上的在版编目(CIP)数据 • 例如:电子文本的标题 • 关联方式的确定 • 不预先规定 • 由具体情况决定
元数据的主要作用 • 用来组织和管理网络信息,并挖掘信息资源 • 准确地识别、定位和访问信息 (举例讨论) • 帮助用户查询所需信息 • 可按照不同的地理区间、指定的语言以及具体的时间段来查找信息资源 (举例讨论) • 组织和维护一个机构对数据的投资 • 可方便创建网页(举例讨论) • 用来建立信息的数据目录和数据交换中心 • 可以共享信息、维护数据(举例讨论) • 提供数据转换方面的信息 • 通过元数据,用户可以接受并理解信息 (举例讨论)
如何获取元数据 • 元数据的编写标准 • 目的为实现领域中的数据信息交换和共享,为研究和生产服务 • 不同领域会根据不同的需求定义一个标准或几个标准 • 如MARC(Machine-ReadabIe Cataloging,机器可读编目)和Dublin Core等 • 实现的技术手段 • XML • RDF
XML技术 • 特点 • 从数据与文档的底层实现格式化, • 保证了从里到外、从处理到交换的一致性 • 实现自动抽取 • 采用XML解析器开发的工具,可以从网上Web服务器的HTML、XML和数据库中自动抽取并索引元数据
RDF技术 • 元数据的互操作性 • 要求在由不同的组织制定与管理且技术规范不尽相同的元数据环境下,能够作到对用户保持一致性的服务 • 可同时携带多种元数据来往于互联网的架构 • RDF特点 • 提供能对结构化元数据进行编码,交换及再利用的体系框架 • 可使不同的用户或团体在这一框架下定义他们自己的元数据元素 • 提供了各种不同的元数据体系之间的互操作性
元数据映射(Metadata Mapping) • 原因 • 存在元数据的互操作性问题 • 定义 • 利用特定转换程序对不同元数据标准进行转换 • 方法一 (元数据标准的特定转化程序) • Dublin Core与USMARC • Dublin Core与EA • 方法二(中介元数据格式) • 如UNIverse项目利用GRS格式进行MARC格式和其他记录格式的转换 • 比较 • 方法一转换准确、转换效率较高
元数据类型 • 内容元数据 • 描述对象内容的信息 • 如大字标题、主题、引导段落、图像、影片 • 管理元数据 • 描述和电子文档相关的信息 • 如作者、创建者、创建日期等 • 负载信息元数据 • 提供电子文档的物理属性 • 如文本中表示强调的粗体标识,电子邮件系统中邮件的大小标识 • 参考信息元数据 • 源自电子文档中的超链接 • 扩展到表达任何万维网信息、文档和资源的参考链接 • 包括环境信息,以及文档的结构信息 • 如经常出现电子文档中指向各章节的链接
元数据表示语言 • 标记语言 • 标准通用标记语言SGML • 超文本标记语言HTML • 可扩展标记语言XML • 虚拟现实模型语言VRML • 无线标记语言WML • 元数据标准 • Dublin Core • HL7(描述医学网络资源的元数据 ) • 教育资源元数据 • 机读目录(MARC)
SGML • 标准通用标记语言 • 是一种描述语言的语言,定义了以电子形式表示文本的方法 • 特点 • 正式的,能允许验证文档的正确性 • 结构化的,能够处理复杂的文档 • 可扩充的,能够支持大型信息存储的管理 • 组成部分 • SGML声明,设定基本情况 • 定义DTD文档类型,设定标记语言结构的语法 • 描述用于标记的语义规格说明,做出了DTD表达的语法限制 • 描述用于标记的语义规格说明,做出了DTD表达的语法限制 • 应用实例 • HTML、XML
其它标记语言 • 虚拟现实模型语言VRML • 用于对3维虚拟场景进行建模的描述性语言 • HTML定义2维,而VRML定义3维 • 无线标记语言WML • 类似于HTML的测览语言 • 提供测览支持、数据输入、超级链接、文本和图像表现以及表格交互 • 应用于“无线应用软件”环境下的网页语言 • 为WAP(Wireless Application Protocol)协议所包括的一种标记协议语言
Dublin Core元数据标准 • 背景 • 搜索引擎的查准率比较低 • 创建者 • OCLC(Online Computer Library Center,Inc.,美国在线计算机图书馆中心) • 目的 • 从用户的角度出发 • 创建了一种新的网络资源描述标准或格式 • 第一次国际研讨会 • 1995年3月,在都柏林(Dublin)召开 • 探讨如何建立一套描述网络上电子文件特征、提高信息检索效果的方法 • 开始启动电子图书馆对象元数据标准的研究项目
DC元数据集 • 包括15个核心元素 • 按照信息的类型和范围分为三个子集 • 数据资源内容 • 数据知识产权 • 数据实体 • 特点 • 简练、易于理解、可扩展 • 能与其他元数据形式兼容 • 被称为一个良好的网络信息资源描述元数据集
定义 元素 TITLE(数据集名称) 由数据生产者或分发者确定的数据集名称 SUBJECT(主题) 数据集的主题,可以是说明数据集主题或内容的关键字或短语,最好使用规定的缩写词或统一分类名称 DESCRIPTION(描述) 数据集内容的简要说明 SOURCE(数据源) 生产数据集的原始资料说明,包括原始资料出版日期、生产者、格式、标识码或其他说明信息 LANGUAGE(语言) 数据集使用的语言,该元素的内容应当与“语言标识码”标准(RFC1766) 一致,如en(英国)、de(德国)、fr(法国)等 RELATION(关系) 其他生产者标识码及其与数据生产者之间的关系 COVERAGE (时空覆盖范围) 数据集内容的空间和时间覆盖范围。空间覆盖范围可以用坐标或地名表示;时间范围是指数据的现势性,按ISO 8601日期和时间格式标准,即YYYY-MM-DD 数据资源内容子集
元 素 定 义 CREATOR (数据生产者) 负责生产数据的主要单位或个人 PUBLISHER (出版者) 将数据集提供用户使用的负责单位,如出版社等 CONTRIBUTOR (其他生产者) 除数据生产者元素中说明以外的其他参与生产者(如编辑、转换等) RIGHTS(版权) 版权说明。与版权管理声明链接的标识码,或与提供数据集版权管理信息的服务链接的标识码 数据知识产权子集
元素 定义 DATE(日期) 数据集生产或提供使用的日期,按ISO 8601日期和时间格式标准,即YYYY-MM-DD TYPE(类型) 数据集的类型 FORMAT(格式) 数据集的数据格式,用于识别显示或操作数据集的软件及硬件。 IDENTIFIER (标识码) 唯一标识数据集的字符串或数字,对于联网数据资源,包括URL和URN,或ISBN 数据实体(形式)子集
DCMI • DCMI(Dublin Core Metadata Initiative) • 都柏林核元数据研究行动 • 已经成为一个国际性的电子数据对象标准研究组织 • 有来自英国、澳大利亚、芬兰、加拿大、美国等国的具有多种不同专业背景的个人和团体参加 • 从事元数据标准、实践指南、支撑技术及相关政策的研究与开发 • 成立了一个教育工作组DC-E • 从数字图书馆元数据标准中 • 筛选出上述DC中的15个核心元素 • 作为学习对象数据要素
HL7(Health Level 7) • 开发机构 • 1987年,由美国国家标准局(ANSI)授权的HL7(Health Level Seven Inc)开发 • 领域 • 专门用于医疗卫生机构及医用仪器、设备数据信息传输的标准 • 支持的国家 • 在1994年HL7已纳入美国ANSI国家标准 • 澳洲、加拿大、德国、以色列、日本、纽西兰、荷兰及英国 • 用途 • 适用于医院内部的信息交换 • 适用于医院与医院之间,医院与保险公司、医院与上级主管部门之间的大量信息交换