robots.txt是什么?有什么重要性?

网络营销评论71

在seo中,robots.txt是什么?

搜索引擎用来爬取网页内容的工具我们称之为搜索引擎机器人。

搜索引擎机器人每次来到要抓取的网站,都会先访问这个网站根目录下的一个文件(robots.txt),如果不存在该文件,则搜索引擎机器人默认这个网站允许其全部抓取。

robots.txt是一个简单的纯文本文件(记事本文件),搜索引擎机器人通过robots.txt里的“说明”,理解该网站是否可以全部抓取或部分抓取。

如果你希望搜索引擎收录你网站的全部网页,则你可以不设置robots.txt或上传一个命名为robots.txt的空记事本到根目录。

上传你的robots.txt后,通过 你的域名/robots.txt 可以正常访问。 注意,robots.txt的命名,都应该是小写。

访问如:www.seojh.cn/robots.txt

robots.txt文件的内容主要就是一个代码:Disallow:

注意,robots.txt文件中一般要包含至少一个Disallow:

如果都允许收录,你可以写一行Disallow:/search.html 这个文件(search.html)本来就不存在也没事。

格式如:

User-agent: *

Disallow: /search.html

Disallow: /index.php?

Disallow: /temp/

说明:

User-agent: * 这里说明本Robots.txt针对哪一个搜索引擎蜘蛛而言,星号代表针对所有搜索引擎蜘蛛,包括百度、google、yahoo等。

Disallow: /search.html 说明不允许收录 /search.html 这个文件。

Disallow: /index.php? 说明不允许收录以index.php?为前缀的链接如:index.php?122.html、index.php?=12、index.php?/baidu等等

Disallow: /temp/ 说明不允许收录/temp/里的所有文件。但可以收录如:/temptaim.html 的链接。

Disallow: /*-* 屏蔽全站url内带有 - 的链接

Disallow: /*?* 屏蔽全站url内带有 ? 的连接

Disallow: /*html?* 屏蔽全站url内带有 html? 的连接

这里介绍的是常用的几个代码。

如果需要了解更多关于Disallow:的用法,请了解百度官方的介绍:http://www.baidu.com/search/robots.html

通过robots.txt来删除被收录的内容

1、当你的网页已被收录,但想用robots.txt删除掉,一般需要1-2个月。

2、结合Google网站管理员工具,你可以马上删除被Google收录的网页。

3、结合百度的站长平台,通过这里可以尽快删除被百度收录的页面:http://zhanzhang.baidu.com/feedback

使用Robots.txt遵循这么几个原则:

1、不要屏蔽首页的后缀,比如:index.php,index.html 等;

2、不要写太多带星号的,尽量简洁一些,我们看百度和Google的robtos.txt带星号的写法几乎没有,太多带星号的,就可能存在误伤;

3、不用什么都屏蔽,某些页面即使被收录了也不影响什么的,就建议可以不用屏蔽。

robots.txt是什么?有什么重要性?

 
什么是二维码营销 网络营销

什么是二维码营销

二维码营销是目前最火的移动互联网营销手段,门槛和成本低、可应用行业广泛、简单方便、可朔造性强是网络营销界最有潜力的微营销方式,是各行业进军移动互联网营销必备的手段二维码( 2-dimensional ...
电商淡季磨枪,旺季不慌 网络营销

电商淡季磨枪,旺季不慌

很多人觉得双十一双十二过去之后,就到淡季,自己可以歇息一阵子了,其实我们还有很多的事情需要去做,如今的淘宝没有淡季!一般上半年的3-5月跟下半年的9-12月,是全年的销售黄金阶段,销售额可达到全年销售...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: