1 / 23

木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、 农双、刘鹏飞、张启蕊 xqzhu@scut

木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、 农双、刘鹏飞、张启蕊 xqzhu@scut.edu.cn. 华南木棉中文网页分类器. 目录. 系统模型 技术平台 实现方案 未来展望. 系统模型. CWT1G. CWT100G. 单个网页集合. 网页转换. 预处理. 00. 01. 03. 02. 87. 88. WEB BENCH. 中文分词. 预处理. 特征选择. 中文分词. 特征压缩. CCT100G. 00. 88. 分类系统. 。。. 结果效验. 00. 出错处理.

devi
Download Presentation

木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、 农双、刘鹏飞、张启蕊 xqzhu@scut

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 木棉分类队:朱旭圻(队长)、李嘉林、曹鸿、 农双、刘鹏飞、张启蕊 xqzhu@scut.edu.cn 华南木棉中文网页分类器

  2. 目录 • 系统模型 • 技术平台 • 实现方案 • 未来展望

  3. 系统模型 CWT1G CWT100G 单个网页集合 网页转换 预处理 00 01 03 02 87 88 WEBBENCH 中文分词 预处理 特征选择 中文分词 特征压缩 CCT100G 00 88 分类系统 。。 结果效验 00 出错处理 88 。。

  4. 技术平台 • 开源分类软件RAINBOW • 中科院的开源中文分词系统ICTCLAS • 开源分类软件SVMlight • 网页转换器与网页预处理器 • 运行监控器

  5. 实现方案说明 • 数据源 • 网页转换 • 预处理 • 中文分词 • 特征选择 • 分类系统

  6. 数据源 CWT1G CWT100G 单个网页集合 网页转换 预处理 00 01 03 02 87 88 。。。。 WEBBENCH 中文分词 预处理 特征选择 中文分词 特征压缩 CCT100G 00 88 分类系统 。。 结果效验 00 出错处理 88 。。

  7. 网页转换 CWT1G CWT100G 单个网页集合 网页转换 完成URL和DOCID的转换 预处理 00 01 03 02 87 88 。。。。 WEBBENCH 中文分词 训练集 预处理 特征选择 中文分词 特征压缩 CCT100G 00 88 分类系统 。。 结果效验 00 出错处理 88 。。

  8. 预处理 CWT1G CWT100G 单个网页集合 网页转换 预处理 00 01 03 02 87 88 。。。。 WEBBENCH 中文分词 训练集 预处理 特征选择 中文分词 特征压缩 CCT100G 00 88 分类系统 。。 结果效验 00 出错处理 88 。。

  9. 预处理 • 预处理,就是去掉网页的标签。只保留内容块。 • 预处理后,CWT100G剩余的网页大小约21.83G。约占原来的24.26%,提高后面的分类速度和精度。 • 训练集在进行中文分词后也经过stemming处理

  10. 中文分词 CWT1G CWT100G 单个网页集合 网页转换 预处理 00 01 03 02 87 88 。。。。 WEBBENCH 中文分词 训练集 预处理 特征选择 中文分词 特征压缩 CCT100G 00 88 分类系统 。。 结果效验 00 出错处理 88 。。

  11. 系统模型说明-中文 中文分词 • Rainbow嵌入ICTCLAS,形成一个完整的中文网页分类系统。 • 中文分词使用开源中文分词系统ICTCLAS,只保留名词(n,an,vn)。 • 训练集在进行中文分词后也经过stemming处理 • Rainbow的禁止词是SMART system 的524个,我们进行扩充达到1500个。

  12. 特征选择 CWT1G CWT100G 单个网页集合 网页转换 预处理 00 01 03 02 87 88 。。。。 WEBBENCH 中文分词 训练集 预处理 特征选择 中文分词 特征压缩 CCT100G 00 88 分类系统 。。 结果效验 00 出错处理 88 。。

  13. 特征选择图

  14. 特征选择 • 按照IG(信息增益)来计算,取IG较大的前63400(全部约81000)个 • 63400个特征项=中文36531个+26713个其他词 • 中文36531个=34505个名词+1895个动名词+131个形容词名词

  15. 特征选择 • 信息增益最大的前20位 疾病/n 临床/vn 患者/n 症状/n 药物/n 病人/n 研究/vn 应用/vn 细胞/n 医院/n 企业/n 数据/n 经济/n 比赛/vn 医学/n 功能/n 皮肤/n 系统/n 免疫/vn 国家/n

  16. 分类系统 CWT1G CWT100G 单个网页集合 网页转换 预处理 00 01 03 02 87 88 。。。。 WEBBENCH 中文分词 训练集 预处理 特征选择 中文分词 特征压缩 CCT100G 00 88 分类系统 。。 结果效验 00 出错处理 88 。。

  17. 系统模型说明-分类系统 分类系统 • Rainbow NB • Rainbow SVM • SVMlight

  18. 分类系统

  19. 出错处理与结果效验 CWT1G CWT100G 单个网页集合 网页转换 预处理 00 01 03 02 87 88 。。。。 WEBBENCH 中文分词 训练集 预处理 特征选择 中文分词 特征压缩 CCT100G 00 88 分类系统 。。 结果效验 00 出错处理 88 。。

  20. 系统模型说明-出错处理与结果效验 出错处理与结果效验 • 天网数据有一些是多媒体数据,往往导致系统出错,所以进行错误处理。 • 把已经分好类的文件移走,导致出错的文件也移走。 • 本系统根据文件的URL,通过浏览其URL,根据其内容进行人工判断,相似度则认为1。

  21. 出错处理与结果效验 • 去CWT100G的文件列表,与CT100G的文件列表进行比较,查缺补漏。漏掉的则进行人工判断。 • 天网源数据中存在一定的重复页面,应该是不同时刻抓取同一URL。直接提交给系统处理。

  22. 存在的问题 未来展望 • 网页中不同HTML标签所表示的内容块,应该给以不同的权重 • 文本预处理:网页文本提取考虑模板技术

  23. 谢谢各位来宾!

More Related