美团外卖平台,美团外卖平台的建设与实践?( 五 )

  • 特征统计分析:辅助功能,基于训练样本中间表,对特征统计分析,包括均值、方差、最大/最小值、分位数、空值率等多种统计维度,输出统计分析报告 。
  • 数据写出:将不同中间结果,写出到Hive表/HDFS等存储介质 。
  • 上面提到,整个流程是模板化,模板中的多数环节都可以通过配置选择开启或关闭,所以整个流程也支持从中间的某个环节开始执行,灵活满足各类数据生成需求 。
    3.3.3 一致性保障(1)为什么会不一致?上文还提到了一个关键的问题:一致性较差 。先来看下为什么会不一致?
    上图展示了在离线训练和在线预测两条链路中构建样本的方式,最终导致离线、在线特征值Diff的原因主要有三点:
    (2)如何保证一致性?明确了问题所在,我们通过如下方案来解决一致性问题:
    线下生成训练样本时,用户先定义特征MFDL配置文件,在模型训练后,通过平台一键打包功能,将MFDL配置文件以及训练输出的模型文件,打包、上传到模型管理平台,通过一定的版本管理及加载策略,将模型动态加载到线上服务,从而实现线上、线下配置一体化 。
    通过实时收集在线Serving输出的特征快照,经过一定的规则处理,将结果数据输出到Hive表,作为离线训练样本的基础数据源,提供一致性特征样本,保障在线、离线数据口径一致 。
    上文提到可以通过特征补录方式添加新的实验特征,补录特征如果涉及到算子二次加工,平台既提供基础的算子库,也支持自定义算子,通过算子库共用保持线上、线下计算口径一致 。
    3.3.4 为业务赋能从特征生产,到特征获取计算,再到生成训练样本,特征平台的能力不断得到延展,逐步和离线训练流程、在线预测服务形成一个紧密协作的整体 。在特征平台的能力边界上,我们也在不断的思考和探索,希望能除了为业务提供稳定、可靠、易用的特征数据之外,还能从特征的视角出发,更好的建设特征生命周期闭环,通过平台化的能力反哺业务,为业务赋能 。在上文特征生产章节,提到了特征平台一个重要能力:特征复用,这也是特征平台为业务赋能最主要的一点 。
    特征复用需要解决两个问题:
    本小节重点介绍如何帮助用户快速发现特征,主要包括两个方面:主动检索和被动推荐,如下图所示:
  • 其次,平台根据特征的评价体系,将表现较好的Top特征筛选出来,通过排行榜展现、消息推送方式触达用户,帮助用户挖掘高分特征 。
  • 为业务赋能是一个长期探索和实践的过程,未来我们还会继续尝试在深度学习场景中,建立每个特征对模型贡献度的评价体系,并通过自动化的方式打通模型在线上、线下的评估效果,通过智能化的方式挖掘特征价值 。
    4 总结与展望本文分别从特征框架演进、特征生产、特征获取计算以及训练样本生成四个方面介绍了特征平台在建设与实践中的思考和优化思路 。经过两年的摸索建设和实践,外卖特征平台已经建立起完善的架构体系、一站式的服务流程,为外卖业务的算法迭代提供了有力支撑 。
    未来,外卖特征平台将继续推进从离线->近线->在线的全链路优化工作,在计算性能、资源开销、能力扩展、合作共建等方面持续投入人力探索和建设,并在更多更具挑战的业务场景中发挥平台的价值 。同时,平台将继续和模型服务和模型训练紧密结合,共建端到端算法闭环,助力外卖业务蓬勃发展 。
    5 作者简介英亮、陈龙、刘磊、亚劼、乐彬等,美团外卖算法平台工程师 。
    好了,这篇文章的内容蜀川号就和大家分享到这里!