当前位置:   article > 正文

搜广推之特征工程:基本原理和前沿研究(2023)_adafs: adaptive feature selection in deep recommen

adafs: adaptive feature selection in deep recommender system

前言

本文主要结合以往工作经验和前沿论文(截止2023年9月),来分析工业界和学术界中特征工程相关研究点,以及对未来发展的思考。详细报告内容请参考PPT文档:​​​​​​​

GitHub - BinFuPKU/CTRRecommenderModels: I have surveyed the technology and papers of CTR & Recommender System, and implemented 25 common-used models with Pytorch for reusage. (对工业界学术界的CTR推荐调研并实现25个算法模型,2023)I have surveyed the technology and papers of CTR & Recommender System, and implemented 25 common-used models with Pytorch for reusage. (对工业界学术界的CTR推荐调研并实现25个算法模型,2023) - GitHub - BinFuPKU/CTRRecommenderModels: I have surveyed the technology and papers of CTR & Recommender System, and implemented 25 common-used models with Pytorch for reusage. (对工业界学术界的CTR推荐调研并实现25个算法模型,2023)icon-default.png?t=N7T8https://github.com/BinFuPKU/CTRRecommenderModels

​​​​​​​特征工程的意义和发展阶段:
  • 数据和特征决定了效果的上限,算法和模型只是逼近这个上限的手段。
  • 根据场景业务特点设计合理的特征和模型。
  • 目前AutoFE处于初级探索阶段,不够有效,依然考验经验直觉和业务知识。

特征构建

现有搜广推的特征主要分为用户侧特征、物品侧特征和上下文特征:

  • 用户侧:(用户画像)
    • 基本属性: id、人口属性(如性别、年龄、学历、职业、位置等)和注册信息(手机品牌、注册时间 等)、兴趣爱好、购买力、婚育、薪资、颜值。
    • 社交特征: 好友、点赞、关注等。强关系和弱关系。U2U兴趣人群、同小区等。
    • 行为特征: 各种行为历史,如曝光、点击、播放、点赞、反对等。显式反馈和隐式反馈。
      • 不同粒度时间窗口: 最近、过去1小时、过去1天、过去1周、过去1月、至今,考虑时间衰减。热度时效性等。
      • 正向/负向: 转发/点赞/踩/跳过等。
      • 统计: 次数/时长/金额/比率/单位价格/活跃情况。
      • 序列特征。
  • 物品侧:(物品画像)
    • 基本属性: 品牌、id、类目、标题、价格、产地、适用人群、评分、销量、商家信息、商圈等。
    • 内容特征: 基于内容理解技术打上多级分类标签或关键词topic等。知识图谱等。
      • 文本:评论、签名等。通过Ngram/TFIDF/LDA/word2vec/fasttext等挖掘。
      • 图像:通过CNN将图片解析成向量。​​​​​​​ 
    • 反馈信息:
      •  点击量、点击率、购买量、CTR、CVR等;月比趋势等.
  • 上下文特征:
    • 地理位置(经纬度、城市、距离、IP等)、天气、社会事件、手机品牌、操作系统。
    • 时间:季节、工作日、休息日、发薪日、早中晚等。
    • 推荐场景特征: APP、浏览器主Feed推荐、相似推荐、当前刷次、翻页动作等;场景平均点击率转化 率。搜索词query。
    • 网络类型:wifi、4G、5G等。

特征预处理

  • 特征缺失处理:
    • 固定值填充: 均值/中位数/众数等。
    • 模型预测值填充:xgboost可处理缺失值。
  • 统计量特征数据平滑:
    • 贝叶斯平滑:实验多次,随机事件接近其真实概率分布。如利用beta分布
      声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/942341
推荐阅读
相关标签