百度一直在强调站长应该重视站内死链接,并在百度站长平台推出了死链提交工具。因为搜索引擎的Spider在抓取之前并不知道链接是不是死链接,所以对于死链接也是正常抓取。如果由于网站程序错误或批量删除了一些页面,就可能白白浪费掉搜索引擎Spider的抓取;由于单位时间内搜索引擎对一个网站的抓取是有上限的,所以站内过多的死链接会影响到搜索引擎对正常内容的抓取:如果网站批量删除了一批页面,且这些页面在搜索引擎中是有排名的,众所周知搜索结果中的网页出现404是对搜索用户体验的最大伤害,所以针对这种情况搜索引擎一般是严格控制的,如果网站中突然大量有排名的网页出现404的情况,搜索引擎可能会认为网站整体的运营有问题,从而降低网站整站的搜索表现。可见站在网站的角度,死链接也是必须清理的,但是主动地去寻找这些死链接并不是一件容易的事。
虽然现在可以通过xenu来批量发掘网站的死链,但是对于网页数量比较大的网站这样做是非常消耗资源的,并且如果网站页面数量过多,在普通PC上跑xenu会经常造成软件不响应甚至电脑死机的状况。如果是批量删除网页所产生的死链,可以根据删除规则批量生成URL,如果是其他原因产生的死链,就只能通过类似的批量抓取验证来寻找了。
其实完全可以通过日志分析寻找死链。因为站外拼写错误之类的原因所产生的死链接总是有限的,这种链接也不是站内产生的,所以没有必要过于关注。而如果网站存在大量的死链接,那么这些死链接的产生肯定有特定原因的。分析少量样本发现死链接的规律,并寻找产生死链接的根本原因,寻找网站中存在这些死链接的页面,之后不论是修补错误还是批量生成死链接列表都不是太大问题了。所以发掘网站内的死链接只需要分析一定的死链接样本就可以了,由于搜索引擎每天都会抓取一定量的网页,所以分析网站日志中搜索引擎抓取的记录就可以了,或者分析整个日志中的404状态的访问都可以。