我们所接触的网站,大部分都是中小企业网站或者一些资讯类站点较多,基本上所有网站都是使用的http网页,我们也很少去关注到底是http还是https,所以先简单了解下https,所谓HTTPS(全称:Hyper Text Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。 它是一个URI scheme(抽象标识符体系),句法类同http:体系。用于安全的HTTP数据传输。https:URL表明它使用了HTTP,但HTTPS存在不同于HTTP的默认端口及一个加密/身份验证层(在HTTP与TCP之间)。这个系统的最初研发由网景公司(Netscape)进行,并内置于其浏览器Netscape Navigator中,提供了身份验证与加密通讯方法。现在它被广泛用于万维网上安全敏感的通讯,例如交易支付方面。很多网站,对信息安全很重视,像一些金融或者和用户数据相关的一些网站,对于信息的安全性非常重视,做的网站,可能会用到https网页, 估计很多人都知道 百度搜索引擎目前不主动抓取https网页,导致大部分https网页无法收录。但是如果网站一定要使用https加密协议的话该如何做到对百度搜索引擎友好呢。其实很简单:
1,为需要被百度搜索引擎收录的https页面制作http可访问版。
2,通过user-agent判断来访者,将Baiduspider定向到http页面,普通用户通过百度搜索引擎访问该页面时,通过301重定向至相应的https页面。如图所示,上图为百度收录的http版本,下图为用户点击后会自动跳入https版本。(只要2个网页看到的内容是一样的,是没有什么问题的。)
3,http版本不是只为首页制作,其它重要页面也需要制作http版本,且互相链接,切不要出现这种情况:首页http页面上的链接依然链向https页面,导致Baiduspider无法继续抓取——我们曾经遇到这种情况,导致整个网点我们只能收录一个首页。如下面这个做法就是错误的:http://www.abc.com/ 链向https://www.adc.com/bbs/
4,可以将部分不需要加密的内容,如资讯等使用二级域名承载。比如支付宝站点,核心加密内容放在https上,可以让Baiduspider直接抓取的内容都放置在二级域名上。