一个老爱去你加串门的蜘蛛,你不应该讨厌她!

网络营销评论79
李现龙 lixianlong620
加入我们每天和近20000位传统行业老板及互联网人士共话搜索引擎营销。关注我在微信公众号搜索“李现龙”等你来连接

  Spider抓取过的页面还会二次抓取吗?肯定会的!spider把网页抓取到本地,该网页被分析索引并参与了排名,并不意味着spider对该网页的工作就已结束。现在的互联网信息瞬息万变,页面的更新改动或者删除都会使已经抓取的页面失效,所以spider对网页进行再抓取也是必须的,不过,要使spider对你的网页进行二次抓取应该具备以下四点:用户体验(UE)、历史更新频率、网页类型和网页权重。

  1、 用户体验

  整个互联网的网页数量是巨大的,已被百度抓取并索引的中文网页应该是千亿级别的,但是对用户有用的信息却是凤毛麟角。当用户进行搜索时,返回的结果能否满足用户的搜索需求直接关系到用户体验度的好坏。试想,用户看到的页面信息显示的是过时的信息,用户对搜索引擎的印象又会是如何呢?为了能够给用户提供及时的信息,搜索引擎爬虫需要对网页进行再抓取和更新。理论上,这些网页被搜索到的次数越多,再次抓取该页面的频率就会越高。

  2、 历史更新频率

  搜索引擎有自己的套发现某网页更新频率的策略。Spider的再次抓取是为了发现页面上的新变化。如果页面上没有新的内容出现,搜索引擎则会降低对该页面的抓取频率,如果接连无新内容出现,搜索引擎甚至会停止对该页面的索引。

  还有一点需要指出的是,所谓的页面变化是指页面的主体内容的变化,非主体内容的变化,不在搜索引擎爬虫再次抓取之列。

  3、 网页类型

  不同的网页类型有不同的更新频率。在同一个站点内网站首页,目录页,专题页和问作业的更新频率肯定是不同的。所以对于同一站点内的网页,是spider也会采用不同的抓取频率。一般情况下首页和目录页是spider经常光顾的页面,根据专题页面的实效性或者其他特征,spider可能会在某一时间段内进行频繁抓取, 实效性过后就会降低对其的抓取频率;对于文章页spider很可能第一次来过之后就不会再来了。

  网页很多,但是网页的类型却并不是所想象的那么多,每个类型的网页都会有自己的布局和更新规律,搜索引擎有足够的能力发现网页的类型并设置合理的再次抓取频率。网页类型归类和网页历史更新频率是被综合使用最多的,一般在同一站点内同类网页会有相同的更新频率,者也会方便spider对网页更新频率的判断。

  4、 网页权重

  网页权重也是决定抓取频率的重要因素。权重高的网页抓取的频率高,反之,抓取的频率就低。用户体验度也是决定网页权重的因素。在其他条件对等的情况下,权重高的网页抓取频率要比权重低的网页抓取频率高。

李现龙 lixianlong620
加入我们每天和近20000位传统行业老板及互联网人士共话搜索引擎营销。关注我在微信公众号搜索“李现龙”等你来连接
点击下方 “阅读原文” 查看更多

 
网站改版升级介绍 网络营销

网站改版升级介绍

和人一生要经历很多次蜕变一样,网站的发展也会经过很多改版和升级,以获得更好的用户体验和更大的网站流量。需要注意的是,网站可能会改版和升级很多次,但是每次改版升级应有一段时间间隔,不能过于频繁。过于频繁...
冬季养生,学会如何驱寒、保养很重要哦~ 网络营销

冬季养生,学会如何驱寒、保养很重要哦~

【关键词索引】合肥微信营销培训 合肥微信营销课程 合肥微信公众平台运营 合肥微信分销商城 【导读】冬天是最适合进行滋补的一个季节。冬天天气寒冷,这个时候的户外活动大量减少,正是为身体积蓄能量的最佳时间...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: