二 电商搜索系统精讲系列三步曲( 四 )

  • kvpairs_value: 获取查询串中kvpairs子句中指定字段的值
  • normalize:归一化函数 , 根据不同的算分将数值归一化至[0, 1]
  • in/notin : 判断字段值是否(不)在指定列表中
  • 以上函数大家不用去研究细节 , 看看函数的中文解释就好 , 帮助理解和消化 , 知道精排的算分怎么统计、哪些维度去统计即可 , 如果依然不理解的 , 可以跟我一起交流;
    说到现在大家一定很好奇 , 为什么用户最关心的商品热度没有提到 , 不着急不着急 , 接下来 , 我们就要针对搜索热度比较高的商品一般怎么排序 , 引入一个新的概念—–人气模型;
    上面说的类目预测模型是要实时去计算 , 而人气模型可以在离线的时候进行计算 , 一般也叫离线计算模型 , 这种模型也是淘宝和天猫搜索最基础的排序算法模型 。
    人气模型会计算量化出每个商品的静态质量以及受欢迎的程度的值 , 这个值称之为商品人气分 , 最开始人气模型是来自淘宝的搜索业务 , 但其实这个模型对于其他的搜索场景也有很强的通用性 , 在非商品搜索场景中通过人气模型也可以计算出被索引的商品的受欢迎程度 , 比如某个论坛 , 可以通过人气模型排序搜索比较多的帖子 , 把这些帖子内容优先展示给用户;
    那么对于一个商品而言 , 这个人气模型究竟怎么计算 , 毕竟系统的目标是通过这个模型来计算商品的热度 , 进而打分排序 , 你说对吧;
    一般情况下 , 人气模型从四个维度去计算分值 , 具体如下:
    第一个维度:实体维度;
    比如:商品、品牌、商家、类目等 。
    第二个维度:时间维度;
    比如:1天、3天、7天、14天、30天等 。
    第三个维度:行为维度;
    比如:曝光、点击、收藏、加购、购买、评论、点赞等 。
    第四个维度:统计维度;
    比如:数量、人数、频率、点击率、转化率等 。
    每个特征从以上4个维度中各取一到两个进行组合 , 再从历史数据中统计该组合特征最终的特征值:
    比如:
    • 商品(实体)最近1天(时间)的曝光(行为)量(统计指标);
    • 商品所在店铺(实体)最近30天(时间)的销量(行为类型+统计维度)等等 。
    由以上方法产生的结果数量级 , 等同于去计算4个维度的笛卡尔积 , 再对笛卡尔积的算分高低进行排序;
    好了 , 说到现在关于召回的商品排序所采用的算法目前我所了解的就这么多 , 当然能力有限 , 有些搜索的细节依然需要进一步去摸索;
    03 召回与排序总结
    二 电商搜索系统精讲系列三步曲

    文章插图
    我们来对上一篇文章和今天讲的内容简单的做个总结 , 当用户在淘宝APP搜索框中输入“2021年新款花式促销女士连衣裙”时 , 搜索引擎系统首先要去理解用户的意图 , 理解的方式就是上篇文章提到的分析器 , 通过对语义的理解、命名实体识别、拼写纠错、停止词模型等手段去理解用户的意图 , 进而通过这个意图计算机去到后台数据库中检索符合意图的所有商品 , 当商品被检索出来之后 , 搜索引擎系统首先要通过各类函数和模型对商品进行粗排 , 再对粗排的结果进行精排 , 精排的依据就是上面的函数和模型 , 当然还有类目预测模型和人气模型 , 这个就是大概的流程;