在robots教程中笔者就已说明是否要用robots.txt屏蔽蜘蛛抓取网站中的CSS与Javascript文件夹,最近百度站长平台更新了《百度Spider新增渲染抓取UA公告》,这篇最新的动态验证了之前所讲述的情况,以下先重复这一段《JS与CSS是否要用robots文件屏蔽?》
本公众号教程原文
现在搜索引擎越来越智能,搜索引擎能够分清什么是JS与CSS文件。百度能够根据前台页面的链接布局、框架,判断出一个站点的主要页面类型,及各页面适合用户浏览的主体内容。如果js、css等文件对蜘蛛判断站点的主体内容没有什么影响,那么屏蔽完全可以;如果js、css等对蜘蛛判断站点的主体内容有影响,如包含较多网址、图片地址、有效资源地址、文字资源等则建议不屏蔽,蜘蛛爬取js/css文件的同时可以爬取里面的内容,并且尽量简单处理,不要采用ajax或多重逻辑判断的代码。
百度官方最新动态:百度Spider新增渲染抓取UA公告
为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度搜索需要访问网站的CSS、Javascript和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新UA来访问站点的上述资源。从昨天开始,百度搜索抽取了部分优质站点进行抓取内测,可能会对站点服务器造成一定压力影响,请尽量不要对UA进行封禁,以免造成不可逆转的损失。
最新UA如下:
PC:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
移动:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
如果觉得本文对你还算有帮助,记得一扫下方二维码哦!