it编程 > 软件设计 > 架构设计

爱奇艺广告特征评估流程优化实践

83人参与 2024-08-04 架构设计

  01

背景


在搜广推系统中,特征质量是决定模型能力的关键因素。爱奇艺广告场景下,特征评估面临以下挑战:

  1. 人力资源瓶颈:整个流程基本需要算法工程师完成,评估门槛高,效率低且评估标准不统一。

  2. 流程复杂性:广告算法场景增多,每个场景下的特征评估流程有明显差别,流程变得越来越复杂。


为了更高效地构建并筛选出优质特征,爱奇艺广告算法团队与大数据团队合作,基于 opal 机器学习平台对广告特征评估流程进行改进,并借助平台沉淀模型评估的方法论,使广告算法特征评估迭代效率提升 3 倍,评估周期从 5 天缩短到 1.5 天。

                 02

特征评估流程实践优化

特征评估流程通常有以下四个主要部分:





旧流程缺点明显:

  1. 评估门槛高,需要熟悉特征生产、特征加工、模型代码等多个模块。
  2. 评估标准不统一,没有完整的 pipeline,评估准确性依赖个人经验。

针对旧流程问题,我们在  2022 年底开始将特征评估流程迁移至 opal 机器学习平台,完成了整个流程的优化,大大提高了特征迭代的 roi。优化后的流程如下图所示:


相比原流程,新流程中确定了完整的评估 pipeline,并且统一在 opal 机器学习平台上操作。完整步骤如下图所示:



下文针对该流程,介绍一下流程关键步骤。


特征生产&特征质量前置评估

特征生产

1. jupyter-lab:notebook 编写脚本进行大数据处理和分析,脚本自动保存。

2. 特征和样本处理:应用图形化界面编写 sql 和调用特征算子,实现特征预处理,样本清洗、处理和新特征拼接。


特征分析模块
类别特征 bias 初筛 :关注特征类别下当前模型预估偏差,确认当前特征贡献信息增益。




模型离线评估

opal 集成了标准化模型离线评估和指标采集展示功能,覆盖了不同场景的需求。


  1. 新增训练模版:参数化模板配置并启动爱奇艺自建分布式平台训练任务。
  2. 流程模板调试:选定流程中指定节点启动任务并验证,流程节点失败时可对指定节点进行重试。
  3. 指标收集展示:模型评估完成并发送结果至平台,平台依据模版进行展示。

特征管理与跟踪

  1. 在线模型特征采集:通过模型 meta 信息收集模型使用特征
  2. 上线特征管理跟踪:特征查询、模型查询和特征样本例行化监控

      03

总结与展望

目前,opal 机器学习平台已经有效地降低特征评估的门槛和成本,使算法人员能够更加专注于模型中特征的迭代优化,实现了业务的降本增效。特征迭代效率的提升也带来了特征数量的不断增加,因此对特征进行有效地衡量显得越来越关键。除了主动的特征评估外,我们仍然需要 opal 平台提供更高效的特征筛选办法。特征评估效率的增加必然带来特征迭代上线的需求增加,更好地优化特征上线流程(线上 a/b 测试、模型训练和模型更新)也会带来进一步的特征迭代提效,我们也希望与 opal 平台在这些方面进行更多的合作和实践,共同探索更多降本增效的方案。

未来工作方向:
通过这些优化和改进,我们期待与 opal 平台的共同发展,完成特征迭代相关方法和平台建设,进一步提高特征迭代效率,助力广告业务获得提升。



(0)
打赏 微信扫一扫 微信扫一扫

您想发表意见!!点此发布评论

推荐阅读

产品推荐:7月受欢迎AI容器镜像来了,有Qwen系列大模型镜像

08-04

河道高效治理新策略:视频AI智能监控如何助力河污防治

08-04

ETL数据集成丨将DB2数据同步至Postgres数仓实践

08-04

龙蜥社区第五届理事大会圆满结束!深度探讨 AI 浪潮下的合作模式

08-04

视频汇聚EasyCVR平台H.265视频转码技术介绍、特点解析及应用

08-04

不容错过的 CentOS 迁移替换专场!分享安全保障、最佳案例等技术 | 龙蜥大讲堂

08-04

猜你喜欢

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论