如何辨别搜索引擎机器人身份

网络营销评论85
如何辨别搜索引擎机器人身份-图片1

搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。

在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。

如何辨别搜索引擎机器人身份-图片2

目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。

首先,使用DNS反向查询(Reverse DNS Lookup),找出机器人IP地址对应的主机名称。主流搜索引擎的主机名称通常情况下应是这样的: Google : : 主 机 名 称 应 包 含 于 googlebot.com 域 名 中 , 如 :crawl-66-249-66-1.googlebot.com; MSN : 主 机 名 称 应 包 含 于 search.live.com 域 名 中 , 如 :livebot-207-46-98-149.search.live.com; Yahoo: :主机名称应包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。最后,做一次DNS查询,用主机名查找IP地址(Forward DNS Lookup),以确认该主机名与IP地址匹配。由此证明该机器人是合法的。

现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上的设置来阻止这个非法机器人。

    如何辨别搜索引擎机器人身份-图片3

    如何辨别搜索引擎机器人身份-图片4单身狗快来关注吧如何辨别搜索引擎机器人身份-图片5

     
    破界时代,有哪些“界”被打破了? 网络营销

    破界时代,有哪些“界”被打破了?

    中国经济增长进入了新常态,进入了整个经济增长方式转型的艰难时期。企业作为经济活动的主体,自然面临着环境的挑战,也面临着自身的制约。所以,我们要研究的是中国企业应该怎么办,中国企业应该如何突围;中国企业...
    说好的,要带我去看看世界的美 网络营销

    说好的,要带我去看看世界的美

      虽然一路上没有我的同行,但是每天都会拍照片回来给我看,看看你走过的地方,看看各地的大好风光…………  这是一个我非常想去的地方,因为民族感很强,虽然偶尔会听说都太商业化了,但是如果和你一起去,相信...
    百度加大力度惩罚新闻站点作弊你受伤了吗 网络营销

    百度加大力度惩罚新闻站点作弊你受伤了吗

    对于站长朋友们来说一直都在关注百度搜索引擎,自6月26日百度站长平台发布了《百度加大清理新闻源力度》,仅仅两个星期百度站长平台再次发布《百度加大力度惩罚新闻站点作弊》。根据百度站长平台的消息称,在近期...
    匿名

    发表评论

    匿名网友
    :?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: