Robots文件优化

网络营销评论68
Robots文件优化-图片1

如新浪博客的robots文件:http://blog.sina.com.cn/robots.txt。大部分搜索引擎在抓取网站内容时都会先在根目录寻找是否有robots.txt文件,因为Robots就是网站和搜索引擎的一个协议。

Robots文件优化-图片2

网站不希望搜索引擎抓取的内容,搜索引擎是不会抓取的,而网站需要抓取的内容可以写出来,也可以不写。就在笔者写到Robots这一节时,百度的某工程师称,360综合搜索违背Robots协议,肆意抓取百度数据。这里我们暂不谈360搜索是否有违背Robots协议的行为,先来看百度Robots文件是怎么写的,它是怎样禁止别的搜索引擎收录它的数据的。代码如下:

Robots文件优化-图片3

注意:由于篇幅原因,这里将代码中与第一项Googlebot相同的部分省略。Robots文件中每一项之间用空行隔开。

User-agent:用户代理,用户信息的标识。即为此访问用户是谁,一般写漫游器的名称,这里针对搜索引擎,就填写蜘蛛机器人的名称。例如,上面代码中的BaiduspiderGooglebotMSNBotSogou web spiderSosospiderYoudaoBot等,它们分别代表百度蜘蛛、谷歌机器人、MSN机器人、搜狗蜘蛛、搜搜蜘蛛、有道机器人。希望阻止哪个搜索引擎爬行收录,

就写上相应蜘蛛的名字。

Disallow:拒绝收录,即要阻止搜索引擎抓取的内容。可以写文件的名称,也可以是整个目录。例如Disallow: /shifen/,即不允许收录shifen目录下的内容。百度这里还写了个Disallow: /baidu?Disallow: /s?代码,它的意思是禁止收录查询的内容,因为百度搜索结果地址为http://www.baidu.com/baidu?http://www.baidu.com/s?开头。所以百度是为了防止自己收录自己的查询结果,也防止其他搜索引擎检索它的收录和排名结果。

Allow:允许收录,即同意搜索引擎检索和收录的内容。这里需要说明的是,即使把网站全部内容写上,搜索引擎也不一定会全部收录,这里只是告诉搜索引擎这些内容是允许被收录的。因为默认的情况下,搜索引擎即认为允许被收录,所以写上Allow和不写是没差别的,它的写法和Disallow是一样的。

在Robots文件中还有一些通配符:幸、$等字符,$应放在尾部。它们有替代和类的意思,即表示某一类文件,例如/*?+.png$等,意思是动态页面和所有png格式的图片。

Robots文件优化-图片4

那么我们可以利用上述指令,完成网站收录与禁上收录的Robots协议。

Robots文件优化-图片5

以上为允许所有搜索引擎收录所有页面。

Robots文件优化-图片6

以上为禁止所有搜索引擎收录所有页面。

Robots文件优化-图片7

以上为禁止所有搜索引擎收录所有动态页面、png格式图片和说明页面。

网站内允许收录和禁止的页面,通过Robots文件可以与搜索引擎达成协议。我们可以利用这个协议,将我们的非目标页面进行禁止收录,从而减少权重的分散。在Robots文件中,可以一次性禁止收录,如关于我们、版权申明、帮助等内容。

Robots文件优化-图片8

 
共享单车,你为什么有去无回? 网络营销

共享单车,你为什么有去无回?

共享单车会是一座城市的一道靓丽风景线,在今天汽车盛行的时代,单车反而重新成为一种流行。单车之间的竞争自然也会被我们关注,单车使广大市民“最后一公里”出行之痛成为过去,人们上下班或骑行旅游再也不用担心代...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: