一个老爱去你加串门的蜘蛛,你不应该讨厌她!

网络营销评论82
李现龙 lixianlong620
加入我们每天和近20000位传统行业老板及互联网人士共话搜索引擎营销。关注我在微信公众号搜索“李现龙”等你来连接

  Spider抓取过的页面还会二次抓取吗?肯定会的!spider把网页抓取到本地,该网页被分析索引并参与了排名,并不意味着spider对该网页的工作就已结束。现在的互联网信息瞬息万变,页面的更新改动或者删除都会使已经抓取的页面失效,所以spider对网页进行再抓取也是必须的,不过,要使spider对你的网页进行二次抓取应该具备以下四点:用户体验(UE)、历史更新频率、网页类型和网页权重。

  1、 用户体验

  整个互联网的网页数量是巨大的,已被百度抓取并索引的中文网页应该是千亿级别的,但是对用户有用的信息却是凤毛麟角。当用户进行搜索时,返回的结果能否满足用户的搜索需求直接关系到用户体验度的好坏。试想,用户看到的页面信息显示的是过时的信息,用户对搜索引擎的印象又会是如何呢?为了能够给用户提供及时的信息,搜索引擎爬虫需要对网页进行再抓取和更新。理论上,这些网页被搜索到的次数越多,再次抓取该页面的频率就会越高。

  2、 历史更新频率

  搜索引擎有自己的套发现某网页更新频率的策略。Spider的再次抓取是为了发现页面上的新变化。如果页面上没有新的内容出现,搜索引擎则会降低对该页面的抓取频率,如果接连无新内容出现,搜索引擎甚至会停止对该页面的索引。

  还有一点需要指出的是,所谓的页面变化是指页面的主体内容的变化,非主体内容的变化,不在搜索引擎爬虫再次抓取之列。

  3、 网页类型

  不同的网页类型有不同的更新频率。在同一个站点内网站首页,目录页,专题页和问作业的更新频率肯定是不同的。所以对于同一站点内的网页,是spider也会采用不同的抓取频率。一般情况下首页和目录页是spider经常光顾的页面,根据专题页面的实效性或者其他特征,spider可能会在某一时间段内进行频繁抓取, 实效性过后就会降低对其的抓取频率;对于文章页spider很可能第一次来过之后就不会再来了。

  网页很多,但是网页的类型却并不是所想象的那么多,每个类型的网页都会有自己的布局和更新规律,搜索引擎有足够的能力发现网页的类型并设置合理的再次抓取频率。网页类型归类和网页历史更新频率是被综合使用最多的,一般在同一站点内同类网页会有相同的更新频率,者也会方便spider对网页更新频率的判断。

  4、 网页权重

  网页权重也是决定抓取频率的重要因素。权重高的网页抓取的频率高,反之,抓取的频率就低。用户体验度也是决定网页权重的因素。在其他条件对等的情况下,权重高的网页抓取频率要比权重低的网页抓取频率高。

李现龙 lixianlong620
加入我们每天和近20000位传统行业老板及互联网人士共话搜索引擎营销。关注我在微信公众号搜索“李现龙”等你来连接
点击下方 “阅读原文” 查看更多

 
揭秘西安招聘求职内幕 网络营销

揭秘西安招聘求职内幕

最近是西安招聘和找工作的高峰期,李江seo今天给大家说说西安招聘和西安公司管理的内幕,就互联网行业说说吧,就西安本地来看,大部分公司高管只是管理,根本不懂网络推广,为什么这么说尼?其实是直接高管的问题...
从业者的职业定位与发展 网络营销

从业者的职业定位与发展

从业者的职业定位与发展 网上有不少对东莞seo人员和技术人员的调侃,在平时的交流以及群聊天中,也会有各种段子和图片来调侃东莞seo行业。如图14-2所示,百度知道上就有不少这种互相调侃的条目。这种状况...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: