2014双十一,天猫搜索引擎是这样升级的

网络营销评论36
点击驭宝微信2014双十一,天猫搜索引擎是这样升级的关注我哟

定期推送最新淘宝SEO规则变化、原创解读、搜索技巧、技术干货!关于淘宝搜索的一切、驭宝与您一起研究学习!

回复【目录】查看往期干货文章编号,回复对应编号获取您想查阅的干货文章。

搜索是很多用户在天猫购物时的第一入口,搜索结果会根据销量库存人气对商品进行排序,而商品的显示顺序往往会决定用户的选择,所以保证搜索结果的实时性准确性非常重要。在电商系统中,特别是在“双十一”这样的高并发场景下,如何准确展示搜索结果显得尤为重要。在今年的“双十一”活动中,采访到阿里巴巴集团搜索引擎的三位负责人仁基、桂南和悾傅,共同探讨了搜索引擎背后的细节。

阿里巴巴的搜索引擎承担着全集团的搜索业务,包括淘宝、天猫、1688等系统,对比传统的搜索引擎,阿里集团的搜索引擎有一些比较大的突破性、创造性的工作。传统的搜索引擎,只可以做到离线全量、增量构建索引,而阿里的搜索引擎已经是演变成为一个能够做到离线增量实时三个等级的搜索引擎。电商平台最大的一个特点就是短时高并发,像双十一这样的活动中,搜索引擎需要考虑如何让流量发挥更大的价值。传统的搜索引擎解决短时高并发的思路是添加缓存层以减少搜索引擎的访问量,而这样的解决方案,天猫之前也有使用,但是缓存会有延迟,实时搜索的需求根本无法满足。所以为了解决实时的问题,阿里的搜索引擎去掉了应用层和业务层的缓存,重点优化和提升引擎层的服务能力。为了兼顾实时性和吞吐量,搜索引擎实现了全量增量实时三种更新通路。通过三种方式的灵活组合,在保证了海量数据定期全量更新的同时提供了秒级实时更新能力,避免了数据延迟,提升了用户体验。

从整体上来看,阿里搜索引擎的架构图如下。从上到下,分别是应用层业务层搜索引擎层离线处理层DB层,应用层其实就是调用方,大的来看可以分为WebAppWap。业务层会针对相应的业务对搜索结果进行整理,如Android和iOS的搜索结果显示是不一样的。搜索引擎层有点类似传统系统的搜索引擎,阿里巴巴的搜索引擎会在搜索的基础上根据用户习惯提供个性化的搜索结果。索引层主要包括全量索引流式计算,全量索引其实就是一个基于Hadoop/HBase的离线集群,而流式计算是阿里自己研发的一套系统。之所以没有选用Storm,是因为在这一层中,光有计算是不够的,还需要有数据的存储(开源解决方案HBase)。如果使用Storm,接下来会面临一个问题,Storm是一个集群,HBase又会是一个集群,这样,Storm的Disk以及HBase的CPU其实都没有充分利用到,所以阿里的方案是Hadoop Yarn与HBase混合部署,把两个集群合并在一起,既可以做大规模的数据处理,也可以做流式计算,通过这样的方式,可以将离线和实时计算更好地融合。最底层的数据源层会把用户、商品、交易信息同步到上层的HBase集群中。

2014双十一,天猫搜索引擎是这样升级的

Storm是一个无状态的流式计算框架,而无状态的流式计算体系,更适合做简单的统计分析,比如针对成交维度或者点击维度做计数。而阿里自研的流式计算框架iStream,已经不再是简单的、无状态的流式计算概念。iStream借助HBase集群存储用户状态,以完成一些相对复杂的模型的计算。同时模型的计算结果可以通过相应的接口直接推送到上层的搜索引擎中,以服务每一条流量的排序变化。

在搜索引擎层,不仅包括商品的搜索引擎,还会包括其它层面的服务(如架构图所示)。商品搜索引擎中包含商品店铺活动等维度的信息,而图中的个性化服务旨在为用户提供个性化的搜索体验,个性化服务会根据用户的实时行为反馈搜索结果。而QP(Query Planner)会对用户的搜索请求进行分析(搜索词、搜索场景、页面)进一步个性化搜索服务。在搜索引擎层,通过这三个系统的互相配合为上层的业务层提供个性化的搜索数据。

不同的业务对应的搜索排序结果不同,阿里搜索引擎中排序部分是通过类似链式处理的方式实现的,内部称为排序链。排序链是由不同的用户特征对应的算法插件组合而成,算法插件是单独存在的,可以根据具体情况组合到不同业务的排序链中。目前在线上运行的排序链有几十条,系统会根据不同的业务、用户、场景、Query选择不同的排序逻辑。

而在双十一这样的高并发活动中,搜索引擎需要保证流量的合理分配,比如搜索结果中不能显示售罄的商品。但是对于一些热门商品,从库存充足到售罄可能是几分钟的时间。为了保证搜索结果的实时性,阿里搜索引擎架构针对这样的场景做了优化,去掉了不能感知业务变化的缓存(业务层),重点优化搜索引擎层的缓存。以商品售罄的场景为例,当商品售罄时,业务系统会发送异步消息通知离线集群,离线集群通过流式计算将更新同步到引擎,而当引擎返回搜索结果时,会在缓存的基础上对结果进行二次过滤,从而保证搜索结果的实时性和准确性。

另外,在今年双十一中,天猫搜索底层第一次使用精确到更新粒度的SKU(Stock Keeping Unit)引擎代替之前的宝贝引擎,底层引擎索引量较之前翻了几番。天猫从召回逻辑、前端的属性展示、筛选以及搜索结果页到详情页的联动,向用户提供了精确度更高更细致的搜索购物体验。对于标类产品,基于SKU引擎的搜索导购缩短了用户的搜索购物路径,比如搜索iPhone 5s后,SKU引擎会显示对应的销售属性,方便用户选择。此外在SKU引擎的基础上,天猫还实现了用户的尺码个性化,在包含确定尺码信息的类目中,如鞋、文胸,天猫可以匹配用户的尺码个性化信息,将适合的商品优先展示给用户。

想要查看您错过的干货文章,回复"目录"即可查看文章目录,根据您想看的内容,在里回复相应的数字编号即可承包它了哟!

驭宝网络近期培训课程预告:

1.11月21日-11月23日:VIP淘宝高级SEO系统培训班北京专场,学费30980元, 驭宝VIP老学员免费。

地点:北京市西城区裕民路2号北京圆山大酒店

2.12月15日-12月17日:驭宝VIP淘宝SEO高级培训班第十三期广州专场,学费30980元, 驭宝VIP老学员免费。

3.11月29日:高级京东SEO系统培训班—第三期,学费3480元。

要参加的朋友可以尽快联系QQ:800066939。

更多信息,请点击左下角阅读原文,进入驭宝官方网站查询。

 
十载驭宝电商 网络营销

十载驭宝电商

驭宝电商·专注SEO驭宝电商成立于2010年,是国内最早从事电商搜索SEO、电商运营培训及电商精准营销的数据化技术型服务公司!十年来,驭宝电商为数百类目TOP 商家及众多上市品牌企业提供搜索运营技术后...
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: