我们都知道,不同的查重系统,他们的对比库论文资源不同,算法查重原理也是不同的,查重结果会有差异,这里举例知网查重系统的原理介绍:
一、中国知网查重原理:
1、在知网查重系统中有一个对比库,上传进行检测的论文内容都会与对比库中的资料进行对比,来检测论文内容是否抄袭。这个对比库是由国家专门指定的,来源基本上都是一些中国的学术期刊文库,中国的博士或者硕士论文数据库等等,库中内容基本上都是一些专业性比较强的内容,因此有很多书籍内容以及国外的资料都不在库中。
2、对于抄袭或者引用,知网查重时是设定了一个阈值(3%)的。即规定了以论文的一个章节的字数来算,如果其中与对比库中重复的内容不超过字数的3%,就不会被判定为抄袭。
3、提交给知网进行查重的论文最好是排好格式,分好了章节的终稿。根据上面对抄袭的判定可知,提交查重的论文格式和章节设置是非常重要的,同样内容的论文可能会因为格式的不同,产生不同的查重结果。而对章节的设置,则要根据学校的要求来,一般将论文提交给知网后,会检索你论文的章节设置与知网内置的是否匹配,如果匹配就会按照你论文的章节来检测,如果不匹配就会自动给你的论文分段,然后再进行检测,因此你的论文分章最好能按照学校的要求来做。
4、在前面提到的章节阈值检测规定下,如果连续有20个汉字或者以上的相同内容就都会被判定为抄袭。
补充最新知网查重系统原理:
一:新增“源代码库”
即检测范围多了一个源代码库,对软件工程等需要写代码的论文会有影响,其他专业不影响。
二:图、表、公式检测后还原回原文展示
鸡肋功能,只是为了让报告更美观、直观。以前的知网查重报告不显示图片,表格也只会显示文字,没有表格框,看起来很乱。
三:图片可能被识别到,使用截图法来降重已经失效!