(本文转自附子SEO博客有关内容原创问题的两篇文章)
这个话题是前段时间有个朋友问我的问题,正好给大家解释下。理解和运用到位的话最直接的作用就是可以不用担心抄袭所带来的SEO负面影响。这个话题虽然附子老师没有在SEO培训课程里面讲到,但是这次我分享出来给大家学习下。关于采集这个话题大家都应该知道,包括不少人也羡慕有些网站采集排名一直非常好,而自己做原创反倒没啥用,这里就有一个问题,为什么别人采集没啥问题,你采集就容易出问题,如果是新站SEO优化的时候,如果让百度不认为网站是采集而是转载。对于百度来说,内容的传播分为价值和无价值,而把这个点学透的话,自然就可以理解到采集和非采集的真谛,从而SEO采集内容会效果好很多。
关于内容采集从搜索引擎角度来说的话,基本上需要做上面这个三点才能做好转载这个点。比如我们常见的内容采集是提取网页主体内容,然后有些连图片,排版什么都乱七八糟的,这种内容肯定容易出问题。那么附子老师举个例子,比如我们做了一篇内容,被新浪转载了,新浪很显然是不可能认为采集而是转载的。虽然我上面讲到一点就是内容版权,对于百度官方白皮书来说也明确说过了转载一定要带内容版权,否则容易成为无价值的垃圾内容。
百度站长平台原文:https://ziyuan.baidu.com/college/courseinfo?id=1337
这里百度说明的很明确,一个是采集内容书属于质量中等,但是下面又写了一段,别处采集的内容未经最起码的编辑,这个就是采集和转载的答案区别。对于新站来说,这里附子老师教大家一招,内容采集的时候,新站带好来源版权,给来源做锚文本链接,让搜索引擎完全识别内容的出处,这样的话及时你采集也容易被认为是转载。
对于老站来说,你去采集可以不带锚文本,但是最好带上来源。不管是新站还是老站,采集过后的内容一定不要所有内容都采集,要选择性的采集,也就是我上面讲的定向采集,针对性的采集一些有价值的。因为很多时候原文都不一定有价值,你采集过来反倒质量更差,比如一些内容空缺的内容页面,口水话的内容页面等。
做SEO需要寻找一些有价值的SEO话题,并且多关注百度官方平台的内容更加容易学到很多SEO细节知识!
搜索引擎是如何通过指纹算法识别内容原创的?
在整个SEO优化当中,有很多算法,比如有网页去重之类的,但是网页去重是仅仅解决内容重复性问题,但是没办法给内容做一个高度识别。而今天要讲到的这个搜索引擎指纹算法则是整个SEO当中非常核心的一个知识点,也可以说市面上所有的采集内容站点也好,做黑帽的泛目录排名也好全部清一色通过了指纹算法计算,达到了一个站点快速建立索引和批量上词的目的。这里附子老师给大家看一个案例,如下图所示:
这是最近附子老师做的一个权重站,网址就不发了,上面是爱站的词库提升的曲线图。短短的两周时间就放了几千个关键词排名,当然,也是过了本文要讲的百度指纹算法。本文我要重点讲下搜索引擎指纹算法的一些内容知识点,所以案例只给大家看下效果即可。
一、什么是搜索引擎指纹算法
简单来说搜索引擎指纹算法就和人的指纹一样,看起来这个手指是差不多的,但是实际上每一个人的手指都有一个独一无二的指纹,而我们所看到的网页也是一样的。不少网页内容其实都是差不多的,但是每一个网页搜索引擎抓取以后都会保存,然后建立一个指纹,可以理解为唯一标识符,而这个东西最大的好处就是可以通过这个唯一标识别符来计算网页的重复。
二、指纹算法的作用和意义
搜索引擎指纹算法和一般的算法不一样的地方在于它是针对网页集合来进行判断的,不像网页去重这种算法是页面与页面之间判断。而指纹是通过大数据进行集合判断,比如我们搜索一个词叫做苹果手机型号有哪些,所出现的结果可能包括了A站里面的多个页面。而这些页面的内容又不是一样的,但是标题可能一样,最后得到的结果就是唯一标识,而这个标识符号正好就是判断网页内容是否原创。
上面这张图已经告诉大家如何来生成指纹算法了,除了符号、数字、英文这些。只要是中文就会有拼音,而这个拼音最佳的方式就是可以首字符生成,最后得到一串指纹。可能有些朋友听不懂,我这里举个例子。附子是做网站优化培训的,FZSZWZYHPXD。虽然我们知道有分词技术,但是实际上搜索引擎去识别网页内容原创根本不需要是分词,否则需要先分词在识别内容一个个比对对于服务器资源来说消耗巨大,而把一个句子的首字母提取,和其他网页去进行对比效果是最为简单和方便的一种方法。
所以大家再去思考有些网站内容读都读不通,都是胡乱写的,反倒自己写的原创内容还不如别人采集正是因为在做内容处理的时候形成了唯一的一篇内容标识符,再回到最上面那个附子老师操作的案例也就简单清晰了。