230 likes | 355 Views
Probabilistic semistructured data model and algebra. By Aaron. Contents. 半结构化数据. XML 介绍. 基础知识. 关系代数. PXML. 结构化数据. 关系数据库,可以用表的形式来表示. 半结构化数据. 定义. 这样的数据和上面两种类别都不一样,它是结构化的数据,但是结构变化很大。因为我们要了解数据的细节所有不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。本文主要讨论我针对半结构化数据存储常用的两种方式。
E N D
Probabilistic semistructured data model and algebra By Aaron
Contents 半结构化数据 XML介绍 基础知识 关系代数 PXML Company Logo
结构化数据 • 关系数据库,可以用表的形式来表示 Company Logo
半结构化数据 定义 这样的数据和上面两种类别都不一样,它是结构化的数据,但是结构变化很大。因为我们要了解数据的细节所有不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。本文主要讨论我针对半结构化数据存储常用的两种方式。 先举一个半结构化的数据的例子,比如存储员工的简历。不像员工基本信息那样一致每个员工的简历大不相同。有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。通常我们要完整的保存这些信息并不是很容易的,因为我们不会希望系统中的表的结构在系统的运行期间进行变更。 Company Logo
实例1 Company Logo
XML 定义 XML(Extensible Markup Language)即可扩展标记语言。Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用。 Company Logo
实例2 • <?xml version="1.0" encoding="ISO-8859-1"?> • <bookstore> • <book catalog="Programming"> • <title lang="en">C++ Programming Language</title> • <author>Bjarne Stroustrup</author> • <year>1998</year> • <price>98.0</price> • </book> • <book catalog="Networking"> • <title lang="en">TCP/IP Illustrated</title> • <author>Richard Stevens</author> • <year>1996</year> • <price>56.0</price> • </book> • </bookstore> Company Logo
实例3 Company Logo
Five tuples V E Instance val l t Semistructured instance Company Logo
实例1 Company Logo
基础知识 • Lch(o,l)表示Object o之后,属于label l的其他Objects。 • 例如:Lch(B2,author)={A2,A3} • Card(o,l)=[min,max]表示Object o之后,属于label l 的其他Objects 的数量范围 • 例如:card(B2,author)=[1,2],则对应的lch(B2,author)={{A2}或{A3}或{A2,A3}} • 所有潜在子节点的概率和为1. Company Logo
lch Instance val card t 基础知识 • Weak instance 5-tuples:w={V,lch,t,val,card} V Company Logo
实例4 Company Logo
一个概率模型可以等价成许多半结构模型的集合一个概率模型可以等价成许多半结构模型的集合 • 以上表格可以等价为5个半结构化模型: Company Logo
代数运算 • 投影(projection) 只显示被投影的部分数据,隐藏其他没有被投影的数据。 例如:我们进行R.Book.author投影,实例1中的半结构化数据树就变成了 沿着规定的path所得到的结果 Company Logo
选择(selection) 在概率半结构模型中,selection有2个参数,path和object(或者value)。即在沿着规定的path,找到符合条件的object(或者value),然后显示出来。 Company Logo
实例5 Company Logo
笛卡尔积 可以通过笛卡尔积将数据合并 一张姓名-性别表和 一张学号-成绩表合并? Company Logo
实例6 --PXML Company Logo
实例6的完整版 Company Logo
实验验证 Company Logo
PXML 概率半结构化数据 半结构化数据 结构化数据 认知过程 高效率 不确定 具有扩展性 数据表 Company Logo
Thank You ! www.themegallery.com Click to edit company slogan .