收录是网站排名和流量的基础,尤其是大中型网站。优化不好的网站,经常收录不充分。东莞seo团队要解决的一个重大问题就是,使尽量多的页面被搜索引擎收录和索引。下面几个收录数据需要记录跟踪。
1.总收录数
基本做法是使用site:指令查询搜索引擎对某个网站的总收录页面数,再加上站长自身知道的网站实际页面数,计算出收录比例。优化好的网站收录率能达到百分之七八十。
不过site:指令往往并不准确,尤其是Googk,近一两年site:指令越来越不准确。为了得到比较准确的收录数,可以尝试使用site:domain.com,加上网站每个页面都会出现的词或句子,比如网站名称、出现在页面顶部的口号、电话号码、地址、备案号等,如图所示。
需要注意的是,出现在HTML底部的文字有可能并没有被搜索引擎索引。有的页面文件太大,搜索引擎虽然抓取整个页面HTML代码,但不一定把页面上所有文字进行索引,而只是索引前半部分。所以如果页面文件比较大,需要搜索页面上靠前的独特文字,才能得出较准确的收录数字,通常位于底部的备案号可能不适合。
Google收录数也可以参考Google网管工具中指向首页的内部链接数。通常网站所有页面都有首页链接,所以首页的所有内部链接数也就是收录的页面数。当然,这个方法只限于Googie,也仅限于查询自己网站。选定一个查询方法,就坚持使用这个方法和指令。在不同指令的收录数字间比较是没有意义的。
2.特征页面收录
除了网站首页外,再从分类页面中选一部分有特征的或典型的页面,以及产品或文章页面中的一部分典型页面,查看这些典型页面是否被收录。大中型网站可能需要记录上百个特征页面。在选择典型产品页面时,既要兼顾到尽量多的分类,也要兼顾到不同时间发布的产品,既要有最早发布的、因此己被推到离首页比较远的页面,也要有比较新的、离首页比较近的页面。
查询特征页面收录与否,只要在搜索引擎输入这个页面的完整URL,没有结果就是没有收录。
检查特征页面收录情况,经常能快速、直观地判断出网站哪些部分获得的链接少、权重太低。
3.各分类收录数
每个分类下的产品页面收录数是多少?记录这个数据有助于了解哪些分类收录完整,哪些分类由于内部链接结构的问题收录不充分,并采取对应措施。
各分类下的页面标题标签和URL格式比较规则时,东莞seo人员可以灵活运用site:指令及intitle:,.inurl:等组合,得到各分类的收录数。例如如果页面标题是5.1.5 -节推荐的标准格式:
产品名称/文章标题一子分类名称一分类名称一网站名称使用指令:
Isite:www. domain.com intitle:分类名称就可以得到这个分类的页面收录数。
如果页面URL比较规则,分类首页URL为:
http://www.domain.c om/c atA/sub—C at- 1I
产品页面URL为:
http.//www. domain.com JcatA/sub-cat-l/page-1.html
产品页面都处于上级分类目录下,使用指令:
site: www. domain. com/catA/sub-cat-l或:site: www. domain. com inu rl: /catA/sub-cat -1/
就可以得到子分类1的页面收录数。如我的博客,2009年5月有20篇帖子,如图所示。Google收录21页,如图7-3所示。
收录页面包括按时间分类等,所以超过实际帖子数。大致可以判断,2009年5月份的帖子收录不错。
从前面几章的讨论可以看出,网站收录不充分,经常是下面几个原因:
·域名权重不够高,很多内页权重降到收录最低要求线之下。
·网站结构有问题,使搜索引擎无法顺利爬行。
·内部链接分布不均匀,使某些分类权重不够高,这个分类下的大量页面不能被收录。
·搜索引擎不友好的因素,如JS链接、框架结构、大量使用Flash等。
·网站内容原创度不够,大量转载和抄袭内容搜使索引擎认为没有必要收录。
跟踪、记录网站页面收录情况,使东莞seo人员能够知道网站结构调整后,是否达到提高收录率的目的,如果没有,应该仔细检查上述几方面。
收录数据的局限在于,收录数高并不一定意味着流量高(虽然大部分情况下是如此)
有的页面即使被收录,由于权重太低或页面优化不好,也没有任何排名,带不来流量。为了矫正这个偏差,东莞seo人员也可以记录网站有效收录页面数,也就是带来过至少一个搜索流量的页面数。
GA“最常见目标网页”部分,在右上角选择流量细分中的搜索流量,如图7-5所示。
GA将显示所有带来过搜索流量的页面总数,如图7-6所示。
其他页面即使己被收录,却没能带来哪怕一个搜索流量,可以在一定程度上理解为无效收录。GA显示的数字来源于真实流量,不依赖于site:之类指令的算法可靠性,所以数字是比较准确的。