百度的SiteMap

网络营销评论57
百度的SiteMap-图片1

准确的说,叫它 baidu sitemap 不太准确,而且会有朋友问,百度有类似于 google 的 xml格式 sitemap 吗?答案是有,但是它又不完全等同于 sitemap。根据百度官方的描述,我们应该管它叫做《互联网新闻开放协议》。但是我还是喜欢叫它 baidu sitemap,我觉得这个名称对站长来说更亲切一些:)

其实按照百度官方的解释,我们应该称之为《互联网新闻开放协议》。但 Google 的 Sitemap叫习惯了,所以一时不改不了口,暂且就叫它百度 Sitemap 吧。

从官方的公布的文档名称,我们清楚的知道这个 XML 文档只针对的是站内的新闻,似乎对我们没有什么价值。这点就反映在我们对“新闻”一词的理解上,我认为百度的“新闻”一词应该包括:新闻、文章、文档资料等,而这些都是很多网站所必备的东西。而且蜘蛛是跟据链接来爬行的,所以当我们的网站通过互联网开放协议的审查后,百度就会来抓取这个 xml文档里的信息,而且还会顺着链接找到其它的内容,百度也会连这些内容一并抓取了。

有这些好处,为什么有很多站长到现在还不知道有这个东西的存在呢,可能主要的原因是百度的 Sitemap 在提交会由百度审核,目前国内许多的站长的抄袭严重,所以提交审核自然有许多不会被通过了,自然打消人们的积极性。

百度的SiteMap-图片2

下面来说说百度 Sitemap 中 XML 标签所代表的含义的:

*< document>——标记整个 XML 文件内容的开始和结束。*< website>——站点地址。*< webmaster>——负责人员的 Email。当有必要时,我们通过这个地址与您联系。*< updateperi>——更新周期,以分钟为单位。搜索引擎将遵照此周期访问该页面,使页面上的新闻更及时地出现在百度新闻中。*< item>——标记每篇新闻信息的开始和结束。标记内为单篇新闻信息,不包括新闻专题。

*< title>——新闻标题。*< link>——新闻 url 地址,与单篇新闻一一对应;若分页的新闻存在多个 URL,相当于多篇新闻。< description>——新闻内容简介。*< text>——完整的新闻正文(仅包含正文文字,不包含 HTML 语言等其它字符)。此项的目的是使该篇新闻更多、更准地出现在搜索结果中。*< image>——新闻正文内相关图片,采用绝对地址。若该篇新闻无相关图片,可以为空;若含有多张图片,请重复使用该标签。此项的目的是使该篇新闻的相关图片展现在搜索结果中。< headlineimg>——为有可能成为头条的新闻制作的头条图,采用绝对地址。< keywords>——反映新闻主题内容的一个或多个关键词,关键词之间以空格隔开。此项仅作为参考,检索结果不完全依赖于此标签中的内容。< category>——新闻分类, 可以遵循网站自身的分类体系,最好采用一级分类。< author>——新闻作者,可以为机构或个人 。< source>——新闻来源,即原创媒体或其它机构 。*< pubdate>——新闻发布时间,与该篇新闻 HTML 页面上的发布时间保持一致。请精确到分钟;若您网站的发布时间未记录小时分钟,提供年月日即可。

不知道大家注意到没有,在百度的 Sitemap 中所有的新闻正文内容全都放在 Text 标签内,这样做虽然能让百度有效的收录所有的新闻正文内容,但同时也存在风险,如果 XML 文件地址被泄露的话,那网站内容就被会被轻意的读取、复制。

是否应该使用 baidu sitemap,相信大家心里应该有数,每个网站都有自己的算盘。如果觉得自己的网站不错,以我建议在做搜索引擎优化的时侯还是做一做 baidu sitemap。

百度的SiteMap-图片3

百度的SiteMap-图片4