https://zhuanlan.zhihu.com/p/483118784
中国知网
如今市面上的查重系统已然不少,目前比较常见的查重有:知网查重、维普查重、万方查重及 paperpass 查重等。同一文章在不同系统之间检测的结果有着一定的差距。
我们以知网为例,来聊聊。
1、论文重复标准。
知网查重的判断标准:通常是按照13个字符进行检测,而不是13个字。即是说要是一句话一个片段有一半以上字数相同不连续也会相似度较高的标红。
还有知网的查重算法最优秀,其应用了目前最为优质的模糊算法,针对的是论文的总体结构大纲,因此,尽量不要打乱自己的论文结构于大纲,避免二次检测被标红。
2、格式的影响
PDF 或者 Word 格式对检测结果可能会造成影响,因为 PDF 会比 Word 多一个文本转换的过程,这个过程可能导致原本正确的的目录和参考文献格式被打乱,系统就会识别不正确而被标红。因此,我们要确保论文格式的正确性,这样能减少一些查重率。
3、只检测文字部分
系统只能识别检测文字部分而不会检测论文中的图片、 Word 域代码和 MathType 编辑公式,因为检测系统还不能识别这些复杂的内容格式。建议在编辑公式时,使用 MathType 而不是 Word 自已的公式编辑器。
4、参考文献的影响
查重过程中,论文里引用的参考文献通常不会参与查重,但如果格式排版不规范的话,也会参与查重的,所以引用的时候建议自己先吃透文献的内容,再用自己的话写出来。
5、章节相似度对重复率的影响
知网查重系统是采用“章节”对论文进行判断。论文的封面、摘要、第一段和第二段等将分别分为一节进行检测。每个章节会计算一个相似度,然后通过每个章节的相似度计算整篇文章的总重复率。
6、表格里的内容
系统可以识别论文中表格的内容数据,如果表格内容重复度比较高,可以把表格截取成图片,然后保存到论文中。
7、灵敏度的阈值
知网系统将灵敏度的阈值设定在5%,用段落来计算,因此,写作过程中最好不要重复引用一篇文献,可以应用几篇文献,每篇的内容只选择几句,那么就能不容易被检测到。
标红有一个前提条件,即:所引用或抄袭的 A 文献文字总和在你的各个检测段落中要达到5%。这是知网所设置的查重灵敏度,具体计算方式是:以段落计,低于5%的抄袭或引用是检测不出来的,这种情况常见于大段落中的小句或者小概念。
举例:假如检测段落1有10000字,那么引用单篇文献500字以下,是不会被检测出来的。
举例:假如检测段落1有10000字,那么引用单篇文献500字以下,是不会被检测出来的。
8、重复率(标红与标黄)
每一句话会显示重复的百分比,只能通过指示来改。在查重报告中重复部分通常会显示黄色和红色。红色部分为严重抄袭,需要大改,黄色部分重复比比较高的需要大改。若果需要降得比较低时,建议红色和黄色的都改一遍。
大家可以关注我哦 后续还会持续更新查重及论文的相关教程