SCI论文查重原理及算法

2024/5/6 9:02:24　阅读：137　发布者：

多数期刊和大学都会直接拒绝相似性超过30%的稿件，单一引用源超过6%的稿件也会被拒绝。但实际操作中，作者应该将相似率控制的更低，如整体10%以下，单一源2%以下。

所以投稿前查重成为必备流程，避免被直接拒稿，浪费时间和精力。

那么SCI论文查重使用什么软件？查重来源及重复率计算方法是什么呢？请接着往下看，干货哦

—

官方查重软件—iThenticate

多数期刊使用CrossCheck by iThenticate查重软件，简称CrossCheck或iThenticate，也是最早被开发和使用的期刊查重软件。目前在市场推广的turnitin有意在混淆功能，turnitin是国外大学用来检查学生作业的，即使在2019年升级数据库之后，也没有完全实现iThenticate期刊查重的功能。

如您需要SCI论文查重服务，可自行登录ithenticate官网（www.ithenticate.com)进行查重，但是个人用户查重成本较高，单篇文章收费50-100美元。

也用户可以登录ithenticate国内合作方（www.crossrefcheck.com），使用ithenticate查重服务，价格平均在45RMB/篇，根据单篇文章字数收费。

iThenticate没有授权中国也没有建立所谓ithenticate中文网，请注意甄别互联网商家的付费推广。

—

查重原理

最基本的原来和规则：不连续的六个单词中间连续不重复的单词小于四个（不包括四个）即判定这六个单词重复。6个单词重复不一定算重复里，但重复的一定是6个或者6个单词以上，计算不计算重复可能和重复来源的字数占比或者排序靠前有关。越靠前越严格。

（注意：这里的规则是软件系统默认的，也是唯一规则，大部分期刊使用默认规则）。

—

重复率计算

SCI论文重复率的计算并非每个的单一重复率的加和，而是：

排除Reference后的重复率=正文重复总字数/正文总字数

未排除reference的重复率=全部重复字数/全部字数

—

举例分析

先分析最极端也是最直白的重复。不连续的六个单词中间不重复的单词为0个，即六个连续重复的单词。显然这个肯定是会被判定重复了。下面我用1表示重复的单词，0表示不重复的单词。那么这种情况就是：111111。

再分析中间有不重复单词的情况。这点大家很多情况摸不着头脑，有时候几个单词距离的很远，也被判定重复了，很是苦恼。

1）中间只有一个不重复的。例如：1011111；1101111；1111011等。实例：Computer science has been widely considered as ...(斜体表示和已有文献重复）这里面单纯插入一个widely单词，是不足以骗过系统的。

2）中间有两个重复的。例如：1100110011；110010011001；1100110011等。实例1：Computer science has been widely percieved asan...这里替换两个不重复单词widely percieved，但是Computer, science, has, been, as, an已经是六个不连续的重复了。实例2：Computer science and technology has been widelypercieved as an...在Computer science后面加上两个不重复的单词and technology是不是就可以了呢？答案是否定的，Computer, science, has, been, as, an这六个词中间只有两个是不重复的，不能判定为整句不重复。

3）中间有三个不重复的。这个一眼乍看不觉得重复，但其实是重复了。例如：100010001111；100010001000100010001等。100010001000100010001这种情况是不是很刺激。对！按照规则，这个也算重复。因为六个不连续重复的单词直接是三个重复的。实例1：Computer science, resulting from America, has beenwidely percieved as an...这种形式是11000110011模式，依旧是重复的。实例2：Computer science, resulting from America, has been widely percieved as oneof most promising....好，我们把改成one of most。虽然这三个没有重复，但紧接着后面的promising和已有文献重复了，很不幸，整个句子还是重复了。重复形式为11000110010001。

以上分析的是单纯的单词，不涉及符号和数字。大家的论文很多情况包含各种单位符合和数学符号的，系统该如何处理他们？

1）单纯的数字。比如123，25，1998等这些整数，他们都是连续的，中间没有空格和特殊符号，系统不会进行处理，还会保持原来形式。算一个单词。实例1：Computer science, developed from 1930, has been widely percieved as an..这句话是11000110011的重复，这里的1930算一个单词。对于小数要特别注意，因为小数点系统处理后会被空格代替，所以小数是会被看作两个单词的。如1.23，在系统里面会看作1和23两个单词。实例2：Computer science, developed from1,930, has been widely percieved as an.. 还是这句话，这里的1,930多加个了分隔符，就变成两个单词。所以句子中间就有四个连续不重复的单词，整个句子就是不重复的（即developed, from, 1和930四个）。

2）连接符。不少单词或者专业词汇会用连接符号连起来，系统会自动把连接符号替换成空格。所以被看作两个单词。如：ever-increasing算作ever和increasing；CD-ROM算作CD和ROM。

3）科学单位。文章中难免会有g cm-3这个的有上标或者下标的单位。软件系统其实不会识别上下标。直接按照正常大小处理，再替换特殊符号为空格，所以g cm-3算三个单词。

4）包括符号的专有名词缩写。比如化学中Ag包覆Au再包覆一层C。作者可能会缩写成Ag@Au/C。这个经过系统处理后，其实是三个单词的Ag，Au和C。所以有时候会发现系统把这类词分开匹配查重。实例：The synthesized Ag@Au/Cnanoparticles exhibited good activities.可能会遇到这种重复，这里Ag@Au/C 算作三个单词，所以是101011101重复类型。

5）跨段落重复。有时候系统的重复可能不在于特定的一段，还会跨段落，因为在软件眼里，整个文章就是一连串单词被空格分割，不存在段落之分。实例：4.Experimental and methods4.1. Synthesis of ...这个是典型的文章中方法部分。这里猜猜系统判定重复的元素是几个？嗯，8个。去掉点号，就是4, Experimental,and, methods, 4, 1, Synthesis, of 这8个单词。

6）总结起来，系统处理的特殊符号包括：标点符号；数学符号；特殊符号等一切非数字的符号。

以上就是iThenticate查重的基本规则。基本囊括了大家遇到的情况。了解了这些规则，修改起来就方便了。

转自CrossrefCheck学术微信公众号，仅作学习交流，如有侵权，请联系本站删除！

上一篇： 如何避免被期刊直接拒稿？
下一篇： 本科阶段发表研究论文的好处

投稿问答最小化 关闭

SCI论文查重原理及算法

本文评论

暂无相应记录！

期刊论文热门文章

本站推荐

最近更新

投稿问答最小化 关闭

SCI论文查重原理及算法

本文评论

暂无相应记录！

期刊论文热门文章

本站推荐

最近更新

投稿问答最小化关闭