83人参与 • 2024-08-04 • 架构设计
01
在搜广推系统中,特征质量是决定模型能力的关键因素。爱奇艺广告场景下,特征评估面临以下挑战:
人力资源瓶颈:整个流程基本需要算法工程师完成,评估门槛高,效率低且评估标准不统一。
流程复杂性:广告算法场景增多,每个场景下的特征评估流程有明显差别,流程变得越来越复杂。
为了更高效地构建并筛选出优质特征,爱奇艺广告算法团队与大数据团队合作,基于 opal 机器学习平台对广告特征评估流程进行改进,并借助平台沉淀模型评估的方法论,使广告算法特征评估迭代效率提升 3 倍,评估周期从 5 天缩短到 1.5 天。
02
特征评估流程通常有以下四个主要部分:
旧流程缺点明显:
针对旧流程问题,我们在 2022 年底开始将特征评估流程迁移至 opal 机器学习平台,完成了整个流程的优化,大大提高了特征迭代的 roi。优化后的流程如下图所示:
相比原流程,新流程中确定了完整的评估 pipeline,并且统一在 opal 机器学习平台上操作。完整步骤如下图所示:
下文针对该流程,介绍一下流程关键步骤。
特征生产&特征质量前置评估
特征生产
1. jupyter-lab:notebook 编写脚本进行大数据处理和分析,脚本自动保存。
2. 特征和样本处理:应用图形化界面编写 sql 和调用特征算子,实现特征预处理,样本清洗、处理和新特征拼接。
模型离线评估
opal 集成了标准化模型离线评估和指标采集展示功能,覆盖了不同场景的需求。
03
您想发表意见!!点此发布评论
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。
发表评论