点击上方蓝字关注我们
定期更新几乎每个网站都会做到,当然不是每个网站都会专注于原创,不是每个网站都愿意花这个时间做原创文章,很多人都在用采集的种方式更新自己的网站文章。虽然没说大量采集他人网站的文章会变成什么样,但根据自己的网站实际情况,来看说一说长期处于被他人采集文章的网站会有什么样的后果,以及要避免被他人采集的方法。
百度蜘蛛喜欢原创,但是百度蜘蛛对原创地址的判断还不准确,它不能完全独立地判断一篇文章的起源,当我们更新一篇文章,并很快被其他人收集时,蜘蛛可能会同时联系很多同一篇文章,然后就会混淆,而且不清楚哪个是复制。因此,当我们的网站长期处于采集状态时,我们网站上的大多数更新文章在互联网上都有相同的内容,如果网站权重又不够高,那么蜘蛛就很可能将你的网站列为采集站,它更相信你网站的文章是采集自互联网的,而不是互联网当中其他的站是采集你的文章。
一、网站长期采集内容会出现哪些情况?
当你的网站出现在以下情况时,搜索引擎蜘蛛可能错误地采集了你的网站内容,作为一个seo工作人员,你就要开始仔细的检查你的网站内容是不是正在长期被人采集了。
1、首先,文章页面停止收录,因为百度会误判为采集站,所以你的文章页面将被百度列为考察期,在此期间,文章页面将被停止收录。当然这个停止收录不会只是影响你的文章页,它也会让那个百度重新审核你整个网站,所以其他的页面也会渐渐的开始不收录。小编的网站曾有半个月没有收录过一个页面,原因就是因为这个导致的。
2、网站收录开始减少,快照停滞不前
如前面所述,百度将重新考虑你的网站,这一次,会发现你有一些网页和互联网存在的相同时,百度会毫不考虑的减少你这些页面的收录,所以很多人发现网站停止收录之后,慢慢的引起了网站整个收录的减少,就是这个原因。页面不怎么收录,百度对网站的信任度下降,最终,快照也会停滞一段时间。
3,搜索引擎蜘蛛爬行,但不抓取
通过对网站日志的分析,你会发现蜘蛛会爬上经常采集文章的网页,但是不会抓取,这可能是因为在搜索引擎蜘蛛的眼里,你的网站内容都是被采集来的,互联网上重复太多的内容,抓住你这样一个小站,浪费资源,这无疑对网站有很大的影响。
seo人一般都知道,搜索引擎蜘蛛将在搜索引擎索引中蜘蛛会重新处理搜索引擎的索引链接,其实,当蜘蛛爬行和抓取文件时会进行一定程度的复制内容检测,遇到权重低的网站推广上大量转载或抄袭内容时,很可能不再继续爬行。这就是为什么许多站长在查看日志时发现蜘蛛,但是页面从来没有被抓过,因为爬行发现是重复的,所以它会放弃爬行,停留在爬行阶段。
4、排名上不去,上去了也不会稳定
当你发现你写的原创文章时,你已经收录了,但排名不会上升。搜索所有的都是其他网站的原创文章,甚至排名也不稳定。一天后,排名也下降了。如果你仔细检查一下这种情况,你的网站的原创文章是否长期被别人采集了。
二、长期被采集该怎么办?
如果你的网站已经被别人采集很长时间了,作为seo人员,一定要找到解决方案,当然其他人收集你的文章,你不能完全强制不让别人收集,所以,我们可以自己做一些改变。
1、提升页面权重我们都知道,像a5和chinaz这样的网站每天都被采集,但是这并不影响a5和chinaz的收录,因为它们权重足够高,当别人网站出现和他们一样的文章的时候,蜘蛛会默认的把他们的文章作为原创源。所以,一定要提升文章页面的权重,多做一些这个页面的外链。
2、合理使用RSS开发一个这样的功能也是有必要的,在网站文章有更新的时候,第一时间就让搜索引擎知道,主动出击,这样会很有助于收录的。而RSS也可以有效地增加网站流量,可以说用一石杀两鸟。
3、限制机器的采集人工采集还没有什么。严重的是被人用工具大量采集网站上的文章,才是最头疼的,我们应该在页面的细节处理,至少防止机器的采集。比如页面不要设计的太传统、大众化;Url的写法要多变一些,不要成为默认叠加等设置;图片尽量加上水印,增加别人的采集文章后加工处理的时间成本。
4、被采集更新的文章多与自己网站有关别人采集我们的文章是因为他们也需要更新内容,所以我们更新的是关于自己网站的信息,经常插入我们网站的名字,别人采集的时候,我们的文章对他们来说没什么意义,也可以用避免采集的方法
5、搜索引擎算法的完善保持良好的心情,当然百度也提出飓风算法来打击惩罚,采集原创文章进行模仿是个难题,技术上一直在改善优化,谷歌搜索引擎也不能完全解决这类问题,所以把自己的网站做好,让文章实现秒收录才是王道。
文章经常采集,这肯定会对我们产生影响,所以我们应该尽量避免,让我们的网站内容在互联网上变得独特,提高百度对我们网站的信任,让我们更顺利地进行优化工作。