一个老爱去你加串门的蜘蛛,你不应该讨厌她!

网络营销评论53
李现龙 lixianlong620
加入我们每天和近20000位传统行业老板及互联网人士共话搜索引擎营销。关注我在微信公众号搜索“李现龙”等你来连接

  Spider抓取过的页面还会二次抓取吗?肯定会的!spider把网页抓取到本地,该网页被分析索引并参与了排名,并不意味着spider对该网页的工作就已结束。现在的互联网信息瞬息万变,页面的更新改动或者删除都会使已经抓取的页面失效,所以spider对网页进行再抓取也是必须的,不过,要使spider对你的网页进行二次抓取应该具备以下四点:用户体验(UE)、历史更新频率、网页类型和网页权重。

  1、 用户体验

  整个互联网的网页数量是巨大的,已被百度抓取并索引的中文网页应该是千亿级别的,但是对用户有用的信息却是凤毛麟角。当用户进行搜索时,返回的结果能否满足用户的搜索需求直接关系到用户体验度的好坏。试想,用户看到的页面信息显示的是过时的信息,用户对搜索引擎的印象又会是如何呢?为了能够给用户提供及时的信息,搜索引擎爬虫需要对网页进行再抓取和更新。理论上,这些网页被搜索到的次数越多,再次抓取该页面的频率就会越高。

  2、 历史更新频率

  搜索引擎有自己的套发现某网页更新频率的策略。Spider的再次抓取是为了发现页面上的新变化。如果页面上没有新的内容出现,搜索引擎则会降低对该页面的抓取频率,如果接连无新内容出现,搜索引擎甚至会停止对该页面的索引。

  还有一点需要指出的是,所谓的页面变化是指页面的主体内容的变化,非主体内容的变化,不在搜索引擎爬虫再次抓取之列。

  3、 网页类型

  不同的网页类型有不同的更新频率。在同一个站点内网站首页,目录页,专题页和问作业的更新频率肯定是不同的。所以对于同一站点内的网页,是spider也会采用不同的抓取频率。一般情况下首页和目录页是spider经常光顾的页面,根据专题页面的实效性或者其他特征,spider可能会在某一时间段内进行频繁抓取, 实效性过后就会降低对其的抓取频率;对于文章页spider很可能第一次来过之后就不会再来了。

  网页很多,但是网页的类型却并不是所想象的那么多,每个类型的网页都会有自己的布局和更新规律,搜索引擎有足够的能力发现网页的类型并设置合理的再次抓取频率。网页类型归类和网页历史更新频率是被综合使用最多的,一般在同一站点内同类网页会有相同的更新频率,者也会方便spider对网页更新频率的判断。

  4、 网页权重

  网页权重也是决定抓取频率的重要因素。权重高的网页抓取的频率高,反之,抓取的频率就低。用户体验度也是决定网页权重的因素。在其他条件对等的情况下,权重高的网页抓取频率要比权重低的网页抓取频率高。

李现龙 lixianlong620
加入我们每天和近20000位传统行业老板及互联网人士共话搜索引擎营销。关注我在微信公众号搜索“李现龙”等你来连接
点击下方 “阅读原文” 查看更多

 
如何提升产品单页面排名 网络营销

如何提升产品单页面排名

如何提升产品单页面排名1、每个产品具有唯一描述因为供应商都会提供产品的描述,如果直接采用其提供的描述内容,那就可能会同这个供应商的其它客户的这种产品的描述相同。这里,建议对产品描述进行重新编写,使之成...
跟小仙女一起坚持吧 网络营销

跟小仙女一起坚持吧

关于坚持的故事一直到一个朋友关注了小仙女的公众号,某天,突然跟Sara说明他关注Sara的缘由“看了这么多公众号,发现你是非大咖非团队而坚持日更下来的人,觉得你是个有趣的人,所以就关注了...”。Sa...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: