如何通过数据分析解决收录问题

网络营销评论52
如何通过数据分析解决收录问题-图片1

写一些实际点的内容看看东莞seo到底怎么做。先明确一些基本点,一个网页被收录与否,有两个因素:

(1)是否被爬虫爬过。

(2)页面质量是否过关。

前面已经提过了收录率这么一个指标,很多网站都懒得去做这个指标,“我看看site的数据不就行了!”,事实上如果没有这个指标,很多工作就无从下手。从数据中找出问题,利用数据指导解决方案,分析数据验证工作成果。最近看了《深入浅出数据分析》这本书,觉得不错,把数据分析的方法讲得很生动,建议从事数据分析的同学可以买本看看。任何数据分析都由“目标.>分析.>评估.>决策”四个环节组成。

(1)目标:我们想看一下网站的收录情况如何,在东莞seo方面是否还有提高的机会。

(2)分析:收录情况怎样算好怎样算坏,是不是用一些指标来衡量?网站的收录情况是不是过于笼统,是不是应该细分下各个页面的收录情况?

(3)评估:于是我们需要下面一些数据

●网站的页面层级关系,如图15-6所示。

●各个层级页面带来的东莞seo流量。

如何通过数据分析解决收录问题-图片2

●各个层级页面的收录情况如何,如表15-3所示。

如何通过数据分析解决收录问题-图片3

东莞seo流量的占比可以从Google Analytics中过滤出来。

页面数量可以从数据库获得,或者通过火车头或自制小脚本抓取统计。

收录率可以将获取的页面通过工具进行搜索,火车头也可以。

问题立马凸显!

1+2级目录页带来了大量的流量,收录率不是很好,优化收录的流量提升突破口在此!

产品页面数量很多,收录也不是很理想,但是带来的流量有限,除了收录问题,还有页面内容的问题。

(4)决策:我们的结论是立刻展开行动对目录页面进行收录的优化。

看到这里,似乎刚开始的目标:“通过优化收录提升流量”演变成了新的目标:“如何提高目录页面的收录量”。

能不能再次通过数据分析的方法进行东莞seo呢?

答案是肯定的。

下面再来重新走一遍目标一>分析.>评估.>决策的过程。

(1)目标:提高目录页面的收录量。

(2)分析:通过本文开始的有关收录的两个因素,我们需要检查一下,网页是否被爬虫爬行过,网页的质量是不是过关。

●关于爬虫的情况,需要分析日志才能确定。于是我们从日志中拆分一系列数据看看页面是否真的被爬行过。

●由于页面质量似乎是一个很难衡量的值,于是我们可以用相同模板下的:“已被爬行的页面数量/已被爬行并且被收录页面数量”来评估该模板页面质量对收录的影响大小。如果被爬的页面都被收录了,至少说明这套页面的内容搜索引擎还算认可(实际情况远比这个复杂,而且收录后也有可能因为质量问题被删除,但总比什么参照都没有要好)。

(3)评估:(敏感信息用编号代替,均为真实数据)。

先看一下爬虫日志的情况,通过Shell脚本可以分析出以下数据。

●目录总计被爬行的次数为13 000次左右。

●不重复的目录爬行次数为5 500次左右。

频道A下的目录几乎被100%抓取过至少1次,频道B的目录抓取也不错,有70%被至少抓过一次。其余频道下的目录被抓取的覆盖率不到30%,如表15-4所示。

不要觉得这个结果很神奇,其实很多网站都会面对这样的糟糕问题,只要你把数据不断地细分、细分、再细分,总会观察出一些端倪的。

关于日志分析,不要迷信任何日志分析软件,那都是给懒人用的,“自制脚本+数据库”才是王道,可以拆分显示出任何你想要的数据。

然后,我们统计了一下被抓得最频繁的频道A和频道B的目录页的收录率,如表15-5所示。

如何通过数据分析解决收录问题-图片4

如何通过数据分析解决收录问题-图片5

频道A和B是很让人放心的,说明页面质量没问题,但是其余的收录情况就让人比较担心了。

(4)决策:通过上面的数据评估,我们已经得到了如下结论。

页面质量并不是影响收录的原因。

频道A和频道B的抓取量异常得高,通过调查了解,原来是首页上的目录页,显示的全是频道A下的目录页,首页又拥有全站最高的权重。频道B拥有比其他频道强大的外链资源,权重也非常高。

除了A、B频道,其他频道的抓取情况不容乐观,抓取入口太少、太深,进而影响了收录情况。

很明显,现在频道A从站内的角度来说太强大了,必须进行一些“劫富济贫”的运动来降低频道A的抓取量,转移到其他频道中去。同时,需要给爬虫提供更多的入口抓取频道页。

现在问题变得清晰起来,我们开始把工作分成两部分:1.提供更多的入口;2.将资源平分给各频道而不是集中在少数几个频道上。

●提供入口工作

◆ 把目录页的URL制作成sitemap,提交给搜索引擎,并且将其设置为比较高的抓取权重。

◆ 完善面包屑导航,将面包屑导航划分得更加细致,以提供更多入口。

◆ 在其他产品中推荐目录页。

●资源平分工作(注:任意页面都有可能成为爬虫入口,百度爬虫抓取深度有限,页面的相对入口越浅,被抓取的概率越高。)

◆ 原先首页指向的都是频道A的目录页+产品页,将其全部nofollow,确保从首页进

入的爬虫,全部抓取到频道页,通过频道页再进入目录页(其实这一点不算太重要)。

◆ 原先频道页指向自身的产品页,将其全部nofollow。

◆ 从目录页返回到首页的链接,将其全部nofollow。

◆ 减少一些页面上的无关链接(不管在什么情况下这么做都是非常有效的)。现在可以开始动手操作了……

成果:这么做到底有什么效果呢?我们来看看修改后一个月的数据,如表15-6所示。

如何通过数据分析解决收录问题-图片6

目录页的收录率提高了100%!

产品页的收录率也有一定程度的提高,这归功于目录页对于产品的良好展现。

目录页的东莞seo表现:

●东莞seo流量占比上升了15%。

●增长10%的到访关键词数量(新页面的收录)。

●东莞seo流量增长了50%以上(包含一些季节因素)。

如何通过数据分析解决收录问题-图片7

 
网络营销

丢脸丢到西安的某博物馆去了

心痛的丢脸泪水早已渗透了眼角你我相视沉默了好久你终于说出口“我是博物馆的工作人员”我已没有勇气再多说一句想说声“打扰”都是尬聊只怪自己当初没有好好练习碰上了才知道尬聊是什么要数数自己人生中的犯二事件,...
【长沙暴雨】十分钟一场雨 网络营销

【长沙暴雨】十分钟一场雨

大家好,我是你们的小仙女Sara。今天推文的更新,临时改为对【长沙暴雨】的“报道”。坐标:德思勤,融城花园酒店,通程商业广场交界处十字路口事件:长沙暴雨大约是下午四点四十分,天空乌云密布,还时不时的来...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: