40 likes | 244 Views
计算语言学 作业(一)汉语词法分析. 刘群 中国科学院计算技术研究所 liuqun@ict.ac.cn. 中国科学院研究生院 2009 年春季课程讲义. 作业要求. 采用 Python 实现一个汉语词法分析工具 训练数据:北京大学开发的免费版 PFR 人民日报切分标注语料库( 2008 年 1 月数据): http://icl.pku.edu.cn/icl_res/ 要求作业中所有程序都放在这个文件中。 如果有可能,尽量利用 NLTK 提供的工具,但这一点不做强制要求. 提交清单. 程序文件: 文件名: chnsegtager_xxxxxxxxxxxxxxx.py
E N D
计算语言学作业(一)汉语词法分析 刘群 中国科学院计算技术研究所 liuqun@ict.ac.cn 中国科学院研究生院2009年春季课程讲义
作业要求 • 采用Python实现一个汉语词法分析工具 • 训练数据:北京大学开发的免费版PFR人民日报切分标注语料库(2008年1月数据): http://icl.pku.edu.cn/icl_res/ • 要求作业中所有程序都放在这个文件中。 • 如果有可能,尽量利用NLTK提供的工具,但这一点不做强制要求
提交清单 • 程序文件: • 文件名:chnsegtager_xxxxxxxxxxxxxxx.py • 其中xxxxxxxxxxxxxxx为学生学号 • 实验报告(不少于2000字): • 综述 • 实验方案: • 你所采用的模型、算法 • 采用该方案的原因 • 设计说明 • 主要的函数说明,包括接口和算法 • 主要的数据说明,包括文件格式、中间数据格式说明 • 测试结果及分析: • 测试结果及说明 • 对比实验的结果(比如ICTCLAS的结果) • 结果分析 • 总结与今后工作
函数接口 • 训练函数: • chnsegtager_training(filename) • filename:训练数据文件名 • 模型数据:要求所产生的所有中间数据和模型数据都放在以你的学号xxxxxxxxxxxxxxx命名的子目录下 • 切分标注函数: • chnsegtager_segtag(inputfilename,outputfilename) • inputfilename:需要切分标注的文件名,是一个没有经过切分标注的汉语纯文本文件 • outputfilename:切分标注的结果文件名,要求切分标注数据格式与训练文件完全相同