投稿问答最小化  关闭

万维书刊APP下载

SCI论文查重原理及算法

2024/5/6 9:02:24  阅读:114 发布者:

多数期刊和大学都会直接拒绝相似性超过30%的稿件,单一引用源超过6%的稿件也会被拒绝。但实际操作中,作者应该将相似率控制的更低,如整体10%以下,单一源2%以下。

所以投稿前查重成为必备流程,避免被直接拒稿,浪费时间和精力。

那么SCI论文查重使用什么软件?查重来源及重复率计算方法是什么呢?请接着往下看,干货哦

01

官方查重软件—iThenticate

多数期刊使用CrossCheck by iThenticate查重软件,简称CrossCheckiThenticate,也是最早被开发和使用的期刊查重软件。目前在市场推广的turnitin有意在混淆功能,turnitin是国外大学用来检查学生作业的,即使在2019年升级数据库之后,也没有完全实现iThenticate期刊查重的功能。

如您需要SCI论文查重服务,可自行登录ithenticate官网(www.ithenticate.com)进行查重,但是个人用户查重成本较高,单篇文章收费50-100美元。

也用户可以登录ithenticate国内合作方(www.crossrefcheck.com),使用ithenticate查重服务,价格平均在45RMB/篇,根据单篇文章字数收费。

iThenticate没有授权中国也没有建立所谓ithenticate中文网,请注意甄别互联网商家的付费推广。

02

查重原理

最基本的原来和规则:不连续的六个单词中间连续不重复的单词小于四个(不包括四个)即判定这六个单词重复。6个单词重复不一定算重复里,但重复的一定是6个或者6个单词以上,计算不计算重复可能和重复来源的字数占比或者排序靠前有关。越靠前越严格。

(注意:这里的规则是软件系统默认的,也是唯一规则,大部分期刊使用默认规则)。

03

重复率计算

SCI论文重复率的计算并非每个的单一重复率的加和,而是:

排除Reference后的重复率=正文重复总字数/正文总字数                   

未排除reference的重复率=全部重复字数/全部字数

04

举例分析

先分析最极端也是最直白的重复。不连续的六个单词中间不重复的单词为0个,即六个连续重复的单词。显然这个肯定是会被判定重复了。下面我用1表示重复的单词,0表示不重复的单词。那么这种情况就是:111111

再分析中间有不重复单词的情况。这点大家很多情况摸不着头脑,有时候几个单词距离的很远,也被判定重复了,很是苦恼。

1)中间只有一个不重复的。例如:101111111011111111011等。实例:Computer science has been widely considered as ...(斜体表示和已有文献重复)这里面单纯插入一个widely单词,是不足以骗过系统的。

2)中间有两个重复的。例如:11001100111100100110011100110011等。实例1Computer science has been widely percieved asan...这里替换两个不重复单词widely percieved,但是Computer, science, has, been, as, an已经是六个不连续的重复了。实例2Computer science and technology has been widelypercieved as an...Computer science后面加上两个不重复的单词and technology是不是就可以了呢?答案是否定的,Computer, science, has, been, as, an这六个词中间只有两个是不重复的,不能判定为整句不重复。

3)中间有三个不重复的。这个一眼乍看不觉得重复,但其实是重复了。例如:100010001111100010001000100010001等。100010001000100010001这种情况是不是很刺激。对!按照规则,这个也算重复。因为六个不连续重复的单词直接是三个重复的。实例1Computer science, resulting from America, has beenwidely percieved as an...这种形式是11000110011模式,依旧是重复的。实例2Computer science, resulting from America, has been widely percieved as oneof most promising....好,我们把改成one of most。虽然这三个没有重复,但紧接着后面的promising和已有文献重复了,很不幸,整个句子还是重复了。重复形式为11000110010001

以上分析的是单纯的单词,不涉及符号和数字。大家的论文很多情况包含各种单位符合和数学符号的,系统该如何处理他们?

1)单纯的数字。比如123251998等这些整数,他们都是连续的,中间没有空格和特殊符号,系统不会进行处理,还会保持原来形式。算一个单词。实例1Computer science, developed from 1930, has been widely percieved as an..这句话是11000110011的重复,这里的1930算一个单词。对于小数要特别注意,因为小数点系统处理后会被空格代替,所以小数是会被看作两个单词的。如1.23,在系统里面会看作123两个单词。实例2Computer science, developed from1,930, has been widely percieved as an.. 还是这句话,这里的1,930多加个了分隔符,就变成两个单词。所以句子中间就有四个连续不重复的单词,整个句子就是不重复的(即developed, from, 1930四个)。

2)连接符。不少单词或者专业词汇会用连接符号连起来,系统会自动把连接符号替换成空格。所以被看作两个单词。如:ever-increasing算作everincreasingCD-ROM算作CDROM

3)科学单位。文章中难免会有g cm-3这个的有上标或者下标的单位。软件系统其实不会识别上下标。直接按照正常大小处理,再替换特殊符号为空格,所以g cm-3算三个单词。

4)包括符号的专有名词缩写。比如化学中Ag包覆Au再包覆一层C。作者可能会缩写成Ag@Au/C。这个经过系统处理后,其实是三个单词的AgAuC。所以有时候会发现系统把这类词分开匹配查重。实例:The synthesized Ag@Au/Cnanoparticles exhibited good activities.可能会遇到这种重复,这里Ag@Au/C 算作三个单词,所以是101011101重复类型。

5)跨段落重复。有时候系统的重复可能不在于特定的一段,还会跨段落,因为在软件眼里,整个文章就是一连串单词被空格分割,不存在段落之分。实例:4.Experimental and methods4.1. Synthesis of ...这个是典型的文章中方法部分。这里猜猜系统判定重复的元素是几个?嗯,8个。去掉点号,就是4, Experimental,and, methods, 4, 1, Synthesis, of 8个单词。

6)总结起来,系统处理的特殊符号包括:标点符号;数学符号;特殊符号等一切非数字的符号。

以上就是iThenticate查重的基本规则。基本囊括了大家遇到的情况。了解了这些规则,修改起来就方便了。

转自CrossrefCheck学术微信公众号,仅作学习交流,如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com