PaperHao查重联盟
你的位置:首页 > 论文百科 > 正文

知网维普等查重系统原理解读,查重检索的机制和算法!

2022-12-29 18:35:55      作者:paperhao论文查重      点击:466 次

所谓论文查重,是指查询论文内容的重复率,目的在于应对学位论文学术不端和学术论文抄袭复制。

知网维普等查重系统原理解读,查重检索的机制和算法!

部分学校的毕业论文“查重率”从原来的30%以内降低到20%,更严格的甚至降到了8%以下。还有学校增加了重审环节,即对已毕业学生的毕业论文进行质量跟踪监控,一旦被查出高于查重率,将直接取消学位证书与毕业证书。

每个论文查重系统的算法都是经过计算机算法相似来得出的,内容都需要一个比对源,因为再厉害的检测技术都需要大量的比对文章数据源做一个支持。目前市面上的论文查重系统种类非常杂乱,并且每年都会更新数据库,同时在检测的时候也随时在与互联网的数据做对比。如果我们参考的文章正好被论文查重系统的数据库所收录,那在查重时就会检测出抄袭。其实这种还只是简单的物理比对,还有更深层的语义比对,意思是相似的都能比对出来。那么了解这些查重系统的原理就十分必要了,这对我们的写作和后续的降重都十分重要。

学校常用的查重系统包括:知网、维普、万方、paperpass、gochek等,下面我们分别对这些系统的查重原理进行深入的解读,分析它们的查重规律、查重范围等等,以方便同学们了解自己学校的查重系统,对未来的降重工作是有很大帮助的。

1.知网

1、查重阈值:知网将系统灵敏度设置为5%。如果一个段落有1000个单词,那么在检测之前不会发布50个单词内的单个文档的引用;2、标红条件:如果符合前一段(超过5%)且一段中有13个单词相似或剽窃,则标记为红色(包括你引用的内容);

3、参考文献:在论文参考文献格式正确的前提下,知网查重系统不会将参考文献查重,否则将用于查重;

4、论文格式:知网查重系统可以识别pdf格式和WORD格式。由于PDF格式比word格式多了一个文本转换,可能导致目录和参考文件的格式成为系统无法识别的正确格式,从而增加查重的比例(特别注意英文部分的较高格式);

5、查重范围:中国学术期刊网络出版总库;中国博士学位论文全文数据库/中国优秀硕士学位论文全文数据库;中国重要会议论文全文数据库;中国重要报纸全文数据库;中国专利全文数据库;互联网资源(包含贴吧等论坛资源);英文数据库(涵盖期刊、博硕、会议的英文数据以及德国Springer、英国Taylor&Francis 期刊数据库等);港澳台学术文献库;优先出版文献库;互联网文档资源;图书资源;CNKI大成编客-原创作品库;个人比对库。其中本科多了一个【大学生论文联合比对库】,硕士多了一个【学术论文联合比对库】。

2.维普

1、维普查重是通过采用空间向量余弦算法,然后检测到文章中,存在的抄袭和不当引用现象;

2、只要检测到你的论文与他人作品文字内容、语序完全相同或仅作少量删减、修改,都会被认为是抄袭;

3、引用他人作品时已超过了“适当引用”的界限,也会被检测为抄袭;

4、文本不同,但使用同类词、近义词等相似表述方式描述的同一概念、观点、语义;

5、单个文字片段相似度不高,但从前后段落分析,行文方式,逻辑结构有相似之处;

6、使用他人多篇作品的片段拼凑,而又非编辑作品(又称汇编作品);

7、查重范围:中文期刊论文库、硕博学位论文库、高校特色论文库、自建特色论文库、互联网数据资源等。

3.万方

1、万方系统覆盖了海量的全文资源,包括我国1915年以来产出的期刊、博士论文、硕士论文、会议论文、报纸、年鉴、专业辞典、百科全书、专著、专利、标准、科技成果、古籍等,并与每日出版的2万多篇新文献资源同步更新;

2、万方支撑语义等级检测,就是意思相同,也会被检测出来;

3、万方对论文的查重是按照连续20个字相似就会被确定抄袭,被标红;

4、万方查重时是可以去除参看文献的,也就是说参看文献会主动被屏蔽,不参加查重;

5、专著是可以查重的,因为万方有针对论文、图书专著等超长文献的检测;

6、查重范围:中国学术期刊数据库(CSPD)、中国学位论文全文数据库(CDDB)、中国学术会议论文数据库(CCPD)、中国学术网页数据库(CSWD)。

4.paperpass

1、Paperpass论文查重自创了独特的检测原理和规则,即动态指纹越级扫描技术,检测主要步骤有:文本预处理、语义挖掘、深度识别、全局扫描等;

2、查重软件以句为单位,句中含11个字符相重就认定为重合;

3、Paperpass的报告经常是以红色、黄色和绿色对重复部分及非重复部分进行标注;

4、paperpass是按照词汇的重复来计算,一旦有连续两个词汇重复的,则该段将根据重复的程度被标记为红色或者黄色,相较于黄色而言,红色部分的重复率更高,与paperpass收录的其他文章更为接近;

5、查重范围:PaperPass的比对指纹数据库由超过9000万的学术期刊和学位论文,以及一个超过10亿数量的互联网网页数据库组成。

5.gochek

1、GOCHECK是将句子的意思片段进行资料对比,超过规定值是会被发现,并且这个规定值是由学校或者单位决定的;

2、GOCHECK对数字部分及在Word中自带的脚注都是会被识别引用的;

3、查重范围:中国期刊论文网络数据库、中文科技期刊数据库、中文重要学术期刊库、中国重要社科期刊库、中国重要文科期刊库、中国中文报刊报纸数据库、中国学术期刊库、中国专利数据库、中国会议论文数据库、英文数据库、 Tonda学位论文库、中国学术会议论文数据库、互联网论文库(涵盖海量的在线论文库、中文科技论文库、在线首发论文库,以及数亿网络资源)。

相信大家看完之后大家对各大查重系统的查重原理都有了一定的了解,大家可以根据自己学校所对应的查重系统来针对性地修改自己的文章。

查重入口

目录收起