1 / 4

计算语言学 作业(一)汉语词法分析

计算语言学 作业(一)汉语词法分析. 刘群 中国科学院计算技术研究所 liuqun@ict.ac.cn. 中国科学院研究生院 2009 年春季课程讲义. 作业要求. 采用 Python 实现一个汉语词法分析工具 训练数据:北京大学开发的免费版 PFR 人民日报切分标注语料库( 2008 年 1 月数据): http://icl.pku.edu.cn/icl_res/ 要求作业中所有程序都放在这个文件中。 如果有可能,尽量利用 NLTK 提供的工具,但这一点不做强制要求. 提交清单. 程序文件: 文件名: chnsegtager_xxxxxxxxxxxxxxx.py

dwayne
Download Presentation

计算语言学 作业(一)汉语词法分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 计算语言学作业(一)汉语词法分析 刘群 中国科学院计算技术研究所 liuqun@ict.ac.cn 中国科学院研究生院2009年春季课程讲义

  2. 作业要求 • 采用Python实现一个汉语词法分析工具 • 训练数据:北京大学开发的免费版PFR人民日报切分标注语料库(2008年1月数据): http://icl.pku.edu.cn/icl_res/ • 要求作业中所有程序都放在这个文件中。 • 如果有可能,尽量利用NLTK提供的工具,但这一点不做强制要求

  3. 提交清单 • 程序文件: • 文件名:chnsegtager_xxxxxxxxxxxxxxx.py • 其中xxxxxxxxxxxxxxx为学生学号 • 实验报告(不少于2000字): • 综述 • 实验方案: • 你所采用的模型、算法 • 采用该方案的原因 • 设计说明 • 主要的函数说明,包括接口和算法 • 主要的数据说明,包括文件格式、中间数据格式说明 • 测试结果及分析: • 测试结果及说明 • 对比实验的结果(比如ICTCLAS的结果) • 结果分析 • 总结与今后工作

  4. 函数接口 • 训练函数: • chnsegtager_training(filename) • filename:训练数据文件名 • 模型数据:要求所产生的所有中间数据和模型数据都放在以你的学号xxxxxxxxxxxxxxx命名的子目录下 • 切分标注函数: • chnsegtager_segtag(inputfilename,outputfilename) • inputfilename:需要切分标注的文件名,是一个没有经过切分标注的汉语纯文本文件 • outputfilename:切分标注的结果文件名,要求切分标注数据格式与训练文件完全相同

More Related