搜索引擎的正向索引

网络营销评论35

搜索引擎的正向索引

这是优化小仙女和你一起走过的第47天

2017.04.27 长沙 晴

有时候,连自己都在想,不得不佩服计算机的诞生。虽然是“机器人”,但是这个机器人却记录了N个数据,想要什么随时调出来就OK的那种。而我们经常说的“好记性不如烂笔头”,有时候即使记录了,都会遗忘。

所以,百度,谷歌到底是靠着什么强大的系统,去记录了这上亿的数据呢?程序化设计是必须的。而其内部操作的一个重要因素就是搜索引擎的正向索引

正向索引,也可以简称为索引。就像我们写本科或者硕士论文一样,有个目录,便于检索,起到搜索的功能。可是我们的目录,基本是一眼看到底的。而对于庞大的各大网站的数据抓取,又会有什么样的排列组合呢?

第一:经过文字提取,分词,消噪,去重后,搜索引擎得到的就是独特的、能反映页面主要内容的、以词为单位的字符串。经过第一步骤后,搜索引擎就开始抓取关键词(这个关键词,就是前文提及过的需要我们认真思考的关键词)。

第二:云数据的强大,在于其整合排列。像学数学一样,组合排列是很重要的。所以,当蜘蛛抓取到了相关关键词后,就开始按照分词程序划分,将页面转换成一个关键词组成的集合,同时记录相关关键词在页面出现的频率,格式等等相关信息

第三:进行上述的相关步骤后,每一个网站页面都会被相应的记录为一串关键词集合(包括词频,格式,位置等等)。

最后,进行表格的整合,让其一目了然。

简化的正向索引词表结构

文件ID

关键词1,关键词2,关键词3,......,关键词L

文件1

关键词1,关键词7,关键词10,......,关键词M

文件2

关键词2,关键词5,关键词17,......,关键词W

文件3

关键词2,关键词8,关键词98,......,关键词O

...

文件6

关键词7,关键词23,关键词38,......,关键词H

...

文件x

关键词6,关键词34,关键词56,......,关键词N

依次排列后,每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。(今天的我,是看到自己踩在四月的尾巴上,发现五月在向我招手的SEOer,Sara)

 
WordPress添加友情链接的3种方法 网络营销

WordPress添加友情链接的3种方法

WordPress 常用的3种添加友情链接的方法,很多人都是用到Link Manager插件,我搜了下,WP的应用商店应该是下架了这个。那我们还有其它两种常用的方式,一种是通过functions.ph...
网络营销

一个老鸟对菜鸟新生的忠告,经典!

第一步:把自己弄清楚    小张还剩几个月就要毕业了,对他来说,既欣慰又不安,欣慰的是经过三年多的学习,终于等到毕业的时候了,以后能够报答对父母的一片孝心;可不安的是自己能找到一份满意的工作吗?为了供...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: