1 / 18

网页数据分布式存储与压缩优化

网页数据分布式存储与压缩优化. 答辩人: 曾菊儒 学术导师: 陆嘉恒 教授 企业导师: 夏天 副教授 专 业: 软件工程 2014/05/20. 1. 2. 3. 4. 目 录. 研究背景. 相关工作. 系统实现. 总结与展望. Key Laboratory of Data Engineering and Knowledge Engineering DEKE. 研究背景. 大数据时代的到来 chap1 系统在实际当中的应用 chap2. 杂乱无章 结构清晰

pravat
Download Presentation

网页数据分布式存储与压缩优化

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 网页数据分布式存储与压缩优化 答辩人: 曾菊儒 学术导师:陆嘉恒 教授 企业导师: 夏天 副教授 专 业: 软件工程 2014/05/20

  2. 1 2 3 4 目 录 研究背景 相关工作 系统实现 总结与展望 Key Laboratory of Data Engineering and Knowledge Engineering DEKE

  3. 研究背景 • 大数据时代的到来 chap1 • 系统在实际当中的应用 chap2 • 杂乱无章 • 结构清晰 • 商业决策 • 政府政策 • 舆情分析 Key Laboratory of Data Engineering and Knowledge Engineering DEKE

  4. 1 Web信息博物馆 2 时光倒流机 3 Readability/Ex-tract 相关工作 • 对”#”和shtml • 非GBK和准确率 • 使用语言 • 抓取频度 • 存储平台 • 抓取频度 Key Laboratory of Data Engineering and Knowledge Engineering DEKE

  5. 2 新页面 1 旧页面 依靠正文去重示例

  6. 原始判重模型 改进后的判重模型 测试与结果 网页去重模型设计

  7. 系统实现之元数据定义 元数据— 设计 Key Laboratory of Data Engineering and Knowledge Engineering DEKE

  8. 主题抽取步骤及测试结果 正文分词 倒排索引 网页源码 获取 title信息 按要求推送具体页面的主题信息 基本主题信息 过滤冗余字符 保存得到的title信息 Key Laboratory of Data Engineering and Knowledge Engineering DEKE

  9. 主题抽取步骤及测试结果 Key Laboratory of Data Engineering and Knowledge Engineering DEKE

  10. 正文提取路线 网页源码 判断编码 预处理 构建字符分布函数 从分布函数得到稳定最高点 优化得到的网页正文 保存所得正文

  11. 03 02 01 获取骤升点 去除噪音 获取正文 正文提取算法 Y(Xm )= 0 (m ϵ [e,e+1]) ,骤降点及其尾随的字符长度为,保证正文结束;ᴲ X,当取到max (Y(X))时, X ϵ [Xs, Xe ] (保证此区域是取到字符最大值的区域) Y(Xs)>Y(X t) (Y(Xt )是第一个骤升点,骤升点必须超过某一阈值) Y(Xn ) ≠ 0 (n ϵ [s+1,s+K]),K是字符厚度,紧随骤升点的字符长度不能为0

  12. B A C D 压缩算法选取 G-zip • 压缩率22.08% • 压缩时间0.094ms LZSS LZW15 • 压缩率34.22% • 压缩时间0.684ms 压缩算法 选取 • 压缩率36.89% • 压缩时间0.281ms RLE E LZW • 压缩率70.47% • 压缩时间0.419ms • 压缩率92.36% • 压缩时间0.046ms

  13. 整体压缩测试步骤及结论 第一步:向redis爬取队列注入若干条数据(来自上述五个网站的网页链接), 将抓取层数设置为一层,然后开始抓取并记录结果。 第二步:在第一步的基础上增加Gzip压缩算法,继续爬取并记录结果。 第三步:通过判断元数据中contentTyte(包括image/jpeg/css/html/xml/gif),将图片 (jpg/png/gif)单独进行压缩,其它情况依照第二步执行。 Key Laboratory of Data Engineering and Knowledge Engineering DEKE

  14. 系统实现之分布式平台搭建 MongoDB分片的----优点 • 查询与索引既方便又灵活。 • 支持互为主备、自动分片等特性 Key Laboratory of Data Engineering and Knowledge Engineering DEKE

  15. 系统实现之分布式平台搭建 注意事项与优化方法 • 配置多个config和mongos进程 • 将默认端口分配给mongos进程 • NTP时间同步 • 片键的选取 Key Laboratory of Data Engineering and Knowledge Engineering DEKE

  16. 主要结论与展望 Key Laboratory of Data Engineering and Knowledge Engineering DEKE

  17. 数据优化存储 1 6 数据进行了部分应用 2 元数据的获取和保存 5 3 进一步优化存储功能 4 提供更多的应用 技术支持 主要贡献和有待于进一步研究的问题 Key Laboratory of Data Engineering and Knowledge Engineering DEKE

  18. 请各位专家指导. Thanks for your time! Key Laboratory of Data Engineering and Knowledge Engineering DEKE

More Related