网页去重

网络营销评论52

网页去重

据统计表明,近似重复网页的数量占总网页数量的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%,即互联网页面中有相当大的比例的内容是完全相同或者大体相近的重复网页有多种类型,这些重复网页有的是没有一点儿改动的副本,有的在内容上稍做修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如HTMLPostscript)。内容重复可以归结为以下4种类型。

· 类型一:如果两篇文档内容和布局格式上毫无差别,则这种重复可以叫做完全重复页面。

· 类型二:如果两篇文档内容相同,但是布局格式不同,则叫做内容重复页面。

· 类型三:如果两篇文档有部分重要的内容相同,并且布局格式相同,则称为布局重复页面。

· 类型四:如果两篇文档有部分重要的内容相同,但是布局格式不同,则称为部分重复页面。

所谓近似重复网页发现,就是通过技术手段快速全面发现这些重复信息的手段,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。

发现完全相同或者近似重复网页对于搜索引擎有很多好处。

1. 首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省一部分存储空间,进而可以利用这部分空间存放更多的有效网页内容,同时也提高了搜索 引擎的搜索质量和用户体验。

2. 其次,如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的 网页收集过程中就可以避开这些网页,从而提高网页的收集速度。有研究表明重 复网页随着时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行 索引是有效的。

3. 另外,如果某个网页的镜像度较高,往往是其内容比较受欢迎的一种间接体现也就预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋予它较高的权值。

4. 从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个内容相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时发现有利于改善搜索引擎系统的服务质量。

实际工作的搜索引擎往往是在爬虫阶段进行近似重复检测的,下图给出了近似重复检测任务在搜索引擎中所处流程的说明。当爬虫新抓取到网页时,需要和已经建立到索引内的网页进行重复判断,如果判断是近似重复网页,则直接将其抛弃,如果发现是全新的内容,则将其加入网页索引中。

网页去重

去重复算法:

1.http://www1.baidu.com/s?wd=simhash

2. http://www1.baidu.com/s?wd=I-MATCH

3. http://www1.baidu.com/s?wd=SpotSig

ABC、 三篇页面文章是基本一样的。那么搜索引擎如何取舍呢?

下面我们来说一下搜索引擎的取舍办法。

A页面的推荐度总和为:100

B页面的推荐度总和为:50

C页面的推荐度总和为:30

推荐度的意思就是权重。搜索引擎内部叫做推荐度

我们假设对于相同的页面搜索引擎的收录阈值是50推荐度。

C页面是原创,被AB两个页面转载了。

那么会出现一种情况:原创首发的页面被K了,而转载的页面排名很不错。

所以就算整个网站的文章全部是采集的。只要综合权重高。那么收录也会很不错。

相同的内容,权重高的页面会覆盖权重低的页面。页面类聚。类聚掉。

 
胡远丰:我的选择 网络营销

胡远丰:我的选择

每个人,因为所处的家庭,关系、性格等多种因素,这一生中面临着无数选择。读书时代开始,从幼儿园、小学、初中、高中到大学都会面临的选择哪所学校读书进入社会后,面临着选择从事什么行业,工作,城市等成家立业后...
网络营销环境介绍 网络营销

网络营销环境介绍

网络营销环境 网络营销环境是指对企业的生存和发展产生影响的各种外部条件,即与企业网络营销活动有关联因素的部分集合。它是一个综合的概念,由多方面的因素组成,随着社会的发展,网络技术在营销中的运用,使得环...
网络营销

不靠水军刷量的social公司,你站出来让我看看

导读:杨海华挂在嘴边的一句话是说:这世界是二八开的。不管是在传播领域还是在别的领域,专业的永远是少数。而不靠水军刷量的公司则是更加极少数,不信你出来,让我膜拜一下好了。   最近跟一个做新媒体营销的姑...
让网站的排名稳居首页的六大技巧 网络营销

让网站的排名稳居首页的六大技巧

做好SEO大家谈论的比较多的还是如何冲排名,但如何冲把排名冲上去并稳定住这方面的大家关注的就比较少。今天就和大家聊一下关于冲上排名之后守住排名的一些自己的见解,和大家一块分享。
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: