这是优化小仙女和你一起走过的第47天
2017.04.27 长沙 晴
有时候,连自己都在想,不得不佩服计算机的诞生。虽然是“机器人”,但是这个机器人却记录了N个数据,想要什么随时调出来就OK的那种。而我们经常说的“好记性不如烂笔头”,有时候即使记录了,都会遗忘。
所以,百度,谷歌到底是靠着什么强大的系统,去记录了这上亿的数据呢?程序化设计是必须的。而其内部操作的一个重要因素就是搜索引擎的正向索引。
正向索引,也可以简称为索引。就像我们写本科或者硕士论文一样,有个目录,便于检索,起到搜索的功能。可是我们的目录,基本是一眼看到底的。而对于庞大的各大网站的数据抓取,又会有什么样的排列组合呢?
第一:经过文字提取,分词,消噪,去重后,搜索引擎得到的就是独特的、能反映页面主要内容的、以词为单位的字符串。经过第一步骤后,搜索引擎就开始抓取关键词(这个关键词,就是前文提及过的需要我们认真思考的关键词)。
第二:云数据的强大,在于其整合排列。像学数学一样,组合排列是很重要的。所以,当蜘蛛抓取到了相关关键词后,就开始按照分词程序划分,将页面转换成一个关键词组成的集合,同时记录相关关键词在页面出现的频率,格式等等相关信息。
第三:进行上述的相关步骤后,每一个网站页面都会被相应的记录为一串关键词集合(包括词频,格式,位置等等)。
最后,进行表格的整合,让其一目了然。
简化的正向索引词表结构
文件ID | 关键词1,关键词2,关键词3,......,关键词L |
文件1 | 关键词1,关键词7,关键词10,......,关键词M |
文件2 | 关键词2,关键词5,关键词17,......,关键词W |
文件3 | 关键词2,关键词8,关键词98,......,关键词O |
... | |
文件6 | 关键词7,关键词23,关键词38,......,关键词H |
... | |
文件x | 关键词6,关键词34,关键词56,......,关键词N |
依次排列后,每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。(今天的我,是看到自己踩在四月的尾巴上,发现五月在向我招手的SEOer,Sara)