百度站长平台推出Sitemap工具的原因,官方解释为:为了更全面、更及时地收录互联网优质资源,满足搜索用户的需求服务。百度搜索虽然一直致力于发掘互联网中的优质资源,但互联网变化太快,传统机制也许在更快更全的处理上做得不够好,因此推出了Sitemap,通过更加便捷的沟通和机制,加强对优质资源的收录。
Sitemap提交工具应该一直是百度站长平台最为热门的工具,却迟迟没有开放使用,一直处于内测和邀请使用状态中。百度站长平台的工作人员曾经多次提及想把Sitemap工具让站长公开使用,但在内测中,包括大型门户网站在内的不少网站所提交的数据并不是优质资源,甚至还包括很多垃圾内容。这也就是为什么现在百度Sitemap还一直使用邀请制,对加入的网站有一些硬性要求,并没有开放使用的原因。从一定程度上讲,有所限制的资源往往效果是比较明显的,任何人都能使用的资源往往效果都一般。所以有条件的话,百度Sitemap还是值得申请使用的。
在“站内优化”中已经进行过详细讨论,站长和东莞seo人员要明白Sitemap的真正作用,它是辅助Spider抓取网站的,站长最好根据自己网站的结构和数据库来制作Sitemap,尽量不要使用站外生成工具。如果网站结构比较简单,内容更新量比较小,Spider可以轻松抓取全站所有网页,那就没有申请和使用Sitemap工具的必要了;如果网站结果复杂、内容丰富,则最好根据自己的内容和数据库字段来生成Sitemap文件,这样可以全面地把有效页面提交,如果实在没有制作Sitemap的能力,再退而求其次寻找比较好的站外Sitemap生成工具。大家能够申请到Sitemap使用权限是最好不过的:如果申请不到,优化好站内结构,引导好Spider抓取,也不会有什么太过明显的弱势,当然只要网站规模和质量差不多,一般都是可以申请到Sitemap使用权限的。
在Sitemap提交工具的使用方面,建议大家采用以下方式进行提交:首先,把网站既有的有效页面的URL进行全面的打包提交;然后,设计一个固定的周期,定时把周期内网站新生成的有内容页面的URL写到Sitemap文件中;最后,需要特别注意的是在向百度提交Sitemap时所填写的更新周期也要设定为网站向Sitemap文件中新增URL的更新周期(如图8-1所示),这样才能确保网站写入到Sitemap文件中的URL被百度及时发现。可能因为原来百度站长平台的说明文字没有解释清楚,很多站长在图中填写的是Sitemap中页面内容的更新周期,并且把这个周期填写得过长,以至于百度不能够及时发现网站写入到Sitemap中的新URL。
另外需要了解的是,针对同样的Sitemap,百度和Google的处理并不是完全相同的。百度会把Sitemap中的URL切实地当做资源对待,Sitemap中的URL如果被收录,一般都会应用到实际的搜索排名中:而Google则是把Sitemap当做一种抓取补充材料,作用只是辅助Google抓取,Sitemap中的URL即使被收录也不一定会参与实际的搜索排名。
站长和东莞seo人员可以用邮件申请百度Sitemap使用权限。申请邮箱为:zhanzhang@baidu.com,邮件主题为:申请站长平台激活码,邮件正文所必需的内容为:网站名称、网站地址、联系人和联系方式。百度会从站点排名、站点用户认知度、站点流量、站点可信度4个方面对提出申请的站点进行审核,符合条件的站点将加入Sitemap。同时,百度官方还会主动邀请有原创内容、有用户口碑、有权威性、用户体验良好、文字清晰、内容完整、无过多广告、收录存在问题、优质资源未被索引的网站使用Sitemap工具。
想申请Sitemap使用权限的朋友,需要多多关注百度站长平台官方的动态,以便及时了解最新的申请渠道和方式。针对站长的申请,现在百度方面审核还比较严格,已经引起了一些草根站长的不满,不过站长平台已经开始陆续大量开放Sitemap了,比如2013年5月8日百度站长平台就为大量的网站开放了Sitemap提交权限(如图8-2所示),相信百度Sitemap工具离全面开放已经不远了。另外,据传百度Sitemap工具后续也会进行改版升级,数据会更加丰富,会放出Sitemap文件中已经被百度抓取过的URL数量等数据。
关于百度Sitemap工具有以下几点值得注意。
(1)在百度站长平台前期的宣传材料和官方说明中,Sitemap文件是要放在网站根目录下的,但这个条件其实并不是必需的,放在什么目录没有硬性要求,只要放在验证网站下即可,笔者已经对此向百度站长平台PM求证过。另外,如果不想外人随便研究自己的Sitemap,则可以设置一个特别的文件夹进行专门存放,并且也不要在robots.txt文件中指明Sitemap的地址,同时也不必局限于“sitemap.xml”之类的文件名,完全可以使用其他的文件名,例如imditu.xml等不容易被别人猜到的名字,否则自己精心设计的地图可能会为外人提供研究和采集自己站点的方便。在前文中也说明过,使用robots.txt声明网站地图地址的方式是Google所支持的,百度并不支持,并且只要在Google Webmaster和百度站长平台中手动提交了网站地图,就完全没有必要在robots.txt中进行声明了。
(2)当下Sitemap工具每个域名限制最多提交2000个文件,不过你可以同时为www二级域名和顶级域名同时申请权限,在www下提交其他子域名的URL也是允许的,这样操作就可以最多提交4000个Sitemap文件了。而申请其他子域名开通权限后是不可以如此操作的,比如bj.baidu.com域名下是不可以提交bd.baidu.com站点内URL的。4000个文件已经可以最多提交两亿个URL了,应该鲜有网站会有这么大的需求,差不多可以满足所有网站的需求了。
(3)如果站长提交的文件大于10MB,URL数超过50000条,或者文件中包含站外URL,站长平台都会进行错误提示。所以在提交Sitemap的地址之后,一定要等待查看百度的检验结果,防止由于疏忽产生错误而不知。如图8-3所示为文件大于10MB后的错误提示。此处需要注意,在站内优化中已经提过百度和Google对Sitemap文件的要求是不同的,比如Google允许Sitemap文件大小的上限为50MB,并且只支持UTF-8格式。如果站长想使用同一个地图文件分别提交给百度和Google,那么就要使Sitemap文件同时符合两边的要求:单个文件的大小不要超过10MB,所含URL不要超过50000条;当使用纯文本文件时,要使用UTF-8编码。有兴趣的朋友可以自行比对研究一下百度站长平台和Google Webmaster分别对自己的Sitemap工具的介绍。经过多次改版,站长平台现在对错误提示也非常人性化,提供了错误详情提示,站长和东莞seo人员可以很方便地检查和修改Sitemap文件中的错误。