学位论文学术不端行为检测系统介绍与演示

学位论文学术不端行为检测系统介绍与演示 同方知网（北京）技术有限公司科研诚信管理系统研究中心 2014/9/15

大纲 • 引入学术不端行为检测的必要性与紧迫性 • 实施学术不端检测的可行性：原理与方法介绍 • TMLC系统主要功能演示介绍 • 应用推广情况介绍与用户反馈意见分析 • TMLC系统服务模式介绍 • 下一步工作计划

政策的必要性

引入学术不端检测的必要性 • 培养良好的科研诚信对于研究生的一生至关重要 • 如果不能从研究生培养环节遏制学术不端行为，带有不端治学态度的研究生毕业后，不断涌入各级研究机构，不端行为就将形成“长江之水，滔滔不绝”，就不能从根本上扭转不端行为不断恶化的事态。

大纲 • 引入学术不端行为检测的必要性与紧迫性 • 实施学术不端检测的可行性：原理与方法介绍 • TMLC系统主要功能演示介绍 • 应用推广情况介绍与用户反馈意见分析 • TMLC系统服务模式介绍 • 下一步工作计划

可行性分析 • 资源可行性 • 以《中国学术文献网络出版总库》为比对资源 • 总库收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。 • 拥有学术期刊7000余种，期刊全文文献2480万篇，72万篇优秀硕士学位论文，9.6万篇博士学位论文；重要会议论文106万篇；报纸500多万篇；国家标准、专利、SPRINGER数据库

可行性分析（2） • 技术可行性 • CNKI自适应多阶指纹分析技术(AMLFP) • TPI文本数据库加工技术 • KBase全文数据库管理系统 • SmartTextMiner知识挖掘技术 • NLPE中文自然语言处理技术

CNKI自适应多阶指纹分析技术（ＡＭＬＦＰ）工作原理CNKI自适应多阶指纹分析技术（ＡＭＬＦＰ）工作原理海量比对资源库基于AMLFP的文献快速比对检测文献检测结果

工作原理（2） 待检测文档指纹 XXX-YYY-CCC-DDDD-KKK-FFFF • CNKI自适应多阶指纹（ＡＭＬＦＰ）特征检测速度快，准确率，召回率较高，抗干扰性强 • 在千万量级全文比对数据中，单篇文献检测速度达到毫秒级响应 • 支持段落、句子检测，支持超长文章：学位论文、图书专著检测。 • 支持改写、组合等多种类型学术不端行为检测

检测系统框架 文章特征库文章比对库期刊会议学位论文专利报纸图书工具书注册文章待检测论文比对 Yes 重复内容 No 事实数据库学者规范数据科研规范机构科研成果引文统计抄袭伪造篡改专家复合审查

检测指标设计 • 设计原则 • 针对学位论文是超长文献的特殊性，设计了一套总指标与子指标相结合的检测评估体系。 • 总检测指标 • 学位论文一般篇幅较长，检测系统会自动按章节切分（无章节信息则按字数切分）。 • 总检测指标指对论文全貌的检测描述。 • 子检测指标 • 对于学位论文每一章节，检测系统对每一章节均生成一套指标系数。详细描述每一章节的检测情况。

总检测指标 • 总重合字数（CCA） • 总文字复制比（TTR） • 总文字数（TCA） • 疑似章节数（QCA） • 总章节数（TCA） • 首部重合文字数（HCCA） • 尾部重合文字数（ECCA） • 段落最大重复字数（MAXA） • 段落最小重复字数（MINA）

总重合字数 • 学位论文一般篇幅大，少则3~5万字，多则十几万字，若以文字复制比来衡量一篇论文的文字重合情况，不太合适。因为对于一篇十几万字的博士论文来说，10%就已达到1万字，文字复制情况已经非常严重。 • 对于博硕士论文检测，检测系统使用绝对字数即总重合字数作为检测结果的核心指标。

总文字复制比、总文字数 • 总文字复制比 • 总文字复制比则是指学位论文中总的重合字数在总的论文字数中所占的比例。通过该指标，我们可以直观了解到重合字数在该检测学位论文中所占的比例情况。 • 总文字数 • 指该检测论文所有包含的字数，文字复制比与总文字数的乘积即为重合字数。

疑似章节数、总章节数 • 疑似章节数是则检测论文疑似存在学术不端行为的章节的数量。 • 总章节数则是指学位论文总的章节数（对于不按章节显示，而是按照固定长度切分的论文，每一切分段落为一章节）。

首部重合文字数、尾部重合文字数 • 首部重合文字数指学位论文前1万字中重合的文字数量。 • 尾部重合文字数是指除去前1万字，剩下的部分中重合的文字数量。 • 对于学位论文，一般开头部分均是综述性的报告介绍，其重要性远低于论文尾部。

段落最大重复字数、段落最小重复字数 • 论文所有段落中，每一段落最大的段文字数比较，最大的为段落最大重复字数 • 论文所有段落中，每一段落最大的段文字数比较，最小的为段落最小重复字数 • 反应每一切分段落是否都有较严重的文字复制情况。

子检测指标 文字复制比（TR）重合字数（CNW）最大段长（LPL）平均段长（APL）段落数（PN）段文字比（PR）首部复制比（HR）尾部复制比（ER）

文字复制比（TR） 文字复制比是指论文的每一章节与比对文献重合文字在该章节中所占的比例。比例越高，反映该章节越多的文字来自于其他已发表文献。

文字复制比（TR） 反映该章节“抄袭”总文字数量比例。一般来说，文字复制比越高，存在学术不端行为的可能性越大。

重合字数（CNW） 论文每一章节与比对文献重合的总字数。不管文字复制比如何，重合字数越多，存在学术不端行为的可能性越大。

最大段长（LPL） • 论文每一章节中，当连续文字超过一定比例时，称之为段，与比对文献重合的最大段长度即为最大段长。 • 反映成段抄袭特征。一般连续200以上文字为抄袭段。 • 连续的文字越长，抄袭的可能性越大。

平均段长（APL） 论文每一章节中，所有段的长度的平均值即为平均段长。

段落数（PN） 每一章节中，所有段的数量为段落数。平均段长和段落数反映了重合文字在文献中的分布情况，一般来说，指标参数越高，存在学术不端行为的可能性越大。

段文字比（PR） 所有段的字数之和在论文每一章节中的比例为段文字比。反映抄袭连续特征。一般来说，连续文字出现的越多，比文字分散出现的情况更可能存在学术不端行为。

首部复制比（HR） 论文每一章节的前20％称之为首部，首部的文字复制比为首部复制比。就中文文献来说，一般每一章节开头部分出现的是综述性语言。就重要性来说，相对偏低。

尾部复制比（ER） 论文每一章节的后80％称之为尾部，尾部的文字复制比为尾部复制比。就重要性来说，比前部文字要高。

子检测指标（续） 我们仔细查阅比较上面两部分内容，首部文献是综述他人工作，而尾部则是阐述自己的研究工作的目的和意义，这部分应是作者个人工作的体现，在这部分直接抄袭他文，性质要严重得多。

检测类型划分与检测实例分析 • 三种主要学术不端类型 • 抄袭 • 篡改 • 伪造

抄袭按文字复制比例分

轻度句子抄袭

句子抄袭

轻度段落抄袭

段落抄袭

整体抄袭

抄袭（续） • 按来源分 • 单源 • 重合文字全部来自于一篇文献 • 多源 • 重合文字来源于两篇及以上文献

重合文字来源列表

篡改指：按照期望值随意篡改或取舍数据，以符合自己的研究结论，一般有主观取舍数据和篡改原始数据等形式。篡改指：按照期望值随意篡改或取舍数据，以符合自己的研究结论，一般有主观取舍数据和篡改原始数据等形式。篡改（1）

篡改（2）

篡改（3） 通过以上检索，我们有理由对检测文献中的分词准确率产生怀疑。

类型及实例(续) • 学位论文的定性比期刊要复杂 • 作者以前发表的文献复制 • 同一导师的学生论文引用共同的工作 • 前人工作的综述

类型及实例(续) • 学位论文的前面一至两章一般综述前人工作、介绍原理及方法。 • 各项指标偏高，也在合理范围之内。 • 每章小结部分又应是个人心得，若抄袭，则又较前面抄袭要严重。 • 博士论文至少应有两章（核心章节）指标较低，我们认为低于20%为低指标。 • 硕士论文至少应有一章（核心章节）指标较低，我们认为低于20%为低指标。

学位论文学术不端行为检测系统 介绍与演示