您的位置：万维书刊网 >> 学术资讯 >> 期刊论文

论文查重系统的技术原理

2024/5/16 17:56:55　阅读：74　发布者：

目前国内外已有多种论文查重系统，这些系统的技术原理相似，均采用自然语言处理技术，以文本数据为处理对象，通过文本相似度算法可以快速、准确、高效地检测目标论文与已有文献的文字重复情况，为发现剽窃、一稿多投等学术不端行为提供了线索和依据。查重系统的技术流程可以分成2个阶段。

第一阶段：相似度计算模型构建

首先，建立文献数据库；

然后，对数据库中的各类数据进行预处理；

最后，采用特定的相似度算法，提取文本特征，建立比对特征库，从而构建相似度计算模型。

第二阶段：目标论文相似度检测

首先，对于待检测的目标论文进行预处理；

然后，根据相似度计算模型，与比对特征库中的特征数据进行相似度计算；

最后，根据相似度计算结果判别重复内容，输出查重报告。

其中文献数据库建立、预处理、相似度算法、查重报告输出等是查重系统的主要内容。

1）文献数据库建立。文献数据库涵盖的文献和数据资源越全面，查重结果越全面、准确。

2）预处理。相似度算法的处理对象是文本数据，因此查重系统在构建相似度计算模型或对目标论文进行相似度检测前，须将文献数据库中的数据和目标论文进行文本格式化、数据清理、类型标记等处理。

3）相似度算法。相似度算法是查重系统的核心，相似度计算模型构建和目标论文相似度检测都围绕该技术展开。

文本的相似度可以从文字表达的形式和内容2方面衡量，分为表面文本相似度和语义相似度

①表面文本相似度：仅以比对文本的字符匹配程度作为相似度的衡量标准。表面文本相似度算法较为简单，既不考虑词语本身的含义，也不考虑这些字词之间的关系及其在句子中真实的含义，因此查重系统一般不单独使用该类算法计算文本相似度。

②语义相似度：主要考虑文本内在含义的相似程度，相关算法有基于字符串的方法、基于语料库的方法、基于世界知识的方法和句法分析方法等。语义相似度算法主要根据文本在语义上的某些特征或规律设计；单一算法一般只根据一种特征或规律衡量相似度，具有一定的局限，因此查重系统通常综合多种算法来计算文本相似度。

在目标论文相似度检测阶段，查重系统通过已构建的相似度计算模型，计算预处理后的目标论文与比对特征库中的特征数据之间的相似程度，得到一个量化数值，即相似度。一般只要目标论文与比对文献的相似度在句子语义级别达到一定阈值，就会被判别为重复。

4）查重报告输出。查重系统对目标论文的所有主体内容与比对特征库进行相似度计算，判别重复内容，然后统计重复情况，创建查重报告。

转自checkvvip查重微信公众号，仅作学习交流，如有侵权，请联系本站删除！

投稿问答最小化 关闭