淘宝搜索服务器,每天将处理数亿级数据处理,淘宝服务器的任何一次改进,都将耗费大量的资源。其中仅仅淘宝搜索组件…简介如下
宝贝搜索:针对于电子商务的市场特征而设计和开发的搜索引擎,其涵盖了QP、匹配、排序、轮播和防作弊等功能模块,从而改善并替换淘宝现有的“所有宝贝”搜索引擎,最终实现买家、卖家、淘宝的三方综合利益最大化。
算法目标:在保证市场的公平、活跃的游戏规则前提下,最大化市场交易数、交易金额。其中涉及到QP、matching engine、成交模型、轮播模型、防作弊模型和编辑团队(确保QP和ISearch的输出质量)。
组件构成:
1、组件QP
针对用户输入Query的标准化处理,包括去噪、违禁词识别、纠错及归一化、分词、类目标记等处理。
2、组件ISearch
针对经过QP处理的Query进行宝贝标题和类目的文本相关性匹配,并计算宝贝相关性分值。
3、成交模型
计算同Query相关的宝贝结果集中每个宝贝成交转化率分值。
4、轮播模型
在不影响市场交易活跃度和卖家优胜劣汰的自然法则前提下,促进并保证卖家的公平竞争。
5、防作弊模型
针对市场中已出现且明显影响市场公平竞争的行为,进行识别和惩罚,从而建立公平、公正的市场
6、技术方案改进
保证整个Shopping Search的性能和实用性,如增加可搜索的宝贝数、保证数据和模型的有效性和支持各类目的个性化搜索功能。