网页指纹查重技术的

更新时间:2024-03-08 作者:用户投稿原创标记本站原创 点赞:25219 浏览:118118

摘 要:网页查重技术是浏览获取有用信息的关键技术,传统的查重方法中,选取关 键 词在网页中出现的频率来判断网页是否重复,如果关 键 词相近,可能造成查重误判的情况.本文提出网页本身特有的指纹技术,设计新的查重算法,通过与网页特征库中的指纹比较,完成网页的查重工作,提高查重的准确率.

Abstract:Webpagefingerprintcheckingisakeytechnologytoscanandgetusefulinformation.Thetraditionalmethodofwebpageduplicatedetectionselectsthefrequencyofoccurrenceofkeywordsasthestandardtoverifywhetherit’sduplicate,thesimilarkeywordaymisleadtheduplicatedetection.Thispaperproposedtheuniquewebpagefingerprinttechnology,designednewdetectionalgorithm.Comparingwithwebpagefeatureoffingerprint,thepaperpletesthewebpagerepeat-checkingworkandimprovestheaccuracyofduplicatedetection.

关 键 词:网页指纹;网页查重;位置向量

Keywords:webpagefingerprint;webpageduplicatedetection;positionvector

中图分类号:TP393.0文献标识码:A文章编号:1006-4311(2014)15-0225-02

0引言

当今世界处于互联网信息时代,网络和信息技术得到飞速提升,互联网上的信息呈现几何级爆炸式的增长,给用户带来了大量有用信息,也带出了一些问题.用户浏览不同网站目的是查找需要的信息,实际情况是大量信息在各网页间