爱喝兽奶帝天荒

这个屌丝很懒，什么也没留下！

热门标签

特征工程基本框架_设计特征表达的框架

作者：爱喝兽奶帝天荒 | 2024-07-24 00:20:53

踩

设计特征表达的框架

2.6 推荐领域

在这里插入图片描述

2.6.1 User-Item特征

在这里插入图片描述

2.6.1.1 时间序列上的特征

时间序列中User累积对某个Item的行为次数（绝对兴趣值），不同的时间序列可以构造不同的特征
时间序列上User对Item是否有重复的行为（深度兴趣值）
时间序列上User对Item是否有行为（是否感兴趣）
时间序列上User对Item的行为分布（相对兴趣值）

2.6.1.2 时间特征

User对Item的最后行为时间（最近时间），可以归一化为一个0—1的标量，越接近于1表示User对这个Item具有越强的新鲜度
User对某个Item的平均行为时间间隔（行为频度）用来刻画User对Item的活跃频率，时间间隔越小说明对用户的吸引力越大
User对Item的行为时间间隔方差（行为稳定性）可以用来刻画User对Item的喜好的稳定性。

2.6.1.3 趋势特征

User一天对Item的行为次数/User三天对Item的行为次数的均值，表示短期User对Item的热度趋势，大于1表示活跃逐渐在提高，以此类推。

2.6.2 User特征

2.6.2.1 时间序列上的特征

时间序列上User行为次数总和（User总活跃），在划分成三个时间细粒度的情况下，可以翻译成三个特征，分别是一天，三天和七天User的行为总和，来表示User在当前时间段上的活跃。
时间序列上User重复行为次数（用户深度活跃）用来刻画用户真实的活跃深度。
时间序列上User有行为的Item的数量（Item覆盖度），可以用来刻画用户的活跃广度，来表示用户是否有足够的意愿尝试新的Item。

2.6.2.2 时间特征

主要从三个角度（最近时间，行为频度，行为稳定性）来刻画用户的活跃度，和上面类似。

2.6.2.3 趋势特征

和上面类似。

2.6.2.4 属性特征

主要用来刻画用户的一些属性特征包括性别、年龄、学历以及使用机型等。

2.6.3 Item特征

2.6.3.1 时间序列上的特征

时间序列上Item行为次数总和（Item的行为热度），不同的时间序列可以构造不同的特征
时间序列上Item被重复点击次数（Item的热度深度）用来刻画Item真实的热度深度
时间序列上和当前Item发生行为的User的数量（去重）（热度广度）刻画了Item的热度的广度。
时间序列上Item的点击和曝光的比值（User不去重）—CTR，刻画了Item在相同曝光下被点击的概率。
时间序列上Item的点击和曝光的比值（User去重）—CTR，刻画了Item在相同曝光下被点击的概率，剔除了某些特殊情况某个User对某个Item的行为过于集中的情况。

2.6.3.2 时间特征

和上面类似。

2.6.3.3 趋势特征

和上面类似。

2.6.3.4 属性特征

2.6.4 User和Item之间的属性分布特征

2.6.4.1 时间序列上Item在User属性（如年龄）上的分布特征

通过计算Item在年龄段上的行为数量（User去重和不去重）来刻画Item在不同年龄段上的热度
Item在年龄段上的行为数量/Item总的行为数量来表示User在年龄上的热度分布
Item在不同年龄段上的点击和Item在相应的年龄段上的曝光之间的比值来刻画Item在不同的年龄段上的CTR。

2.6.4.2 时间序列上User在Item属性上的分布特征

通过计算User在不同的ItemType上的行为数量来刻画Use对不同的ItemType的喜好
计算User在不同的ItemType上是否有行为来刻画在时间段上User是否对当前的Item的类型感兴趣
计算User的行为在不同的Item上的分布来刻画对不同的ItemType的喜好程度
User在一段时间内，是否在ItemType上有重复行为，来刻画用户是否对当前ItemType深度感兴趣。

2.6.4.3 时间序列上ItemType在Age上的分布特征

通过计算ItemType在不同年龄段上的行为数量（User不去重和不去重）来刻画ItemType在不同年龄段上的热度
ItemType在不同年龄段上的行为数量/ItemType在年龄段上的用户数量来刻画当前ItemType对这个年龄段的User的吸引程度
ItemType在不同年龄段上的点击和ItemType在相应的年龄段上的曝光之间的比值来刻画ItemType在不同的年龄段上的CTR。

2.8 文本特征提取

2.8.1 单词包法

标记字符串并为每个可能的标记提供整数ID，例如使用空格和标点作为标记分隔符。
计算每个文档中标记的出现次数。
使用出现在大多数示例/文档中的重要性递减标记进行规范化和加权。

2.8.2 计算权重的方法

2.8.2.1 Tf–idf 项权重

$\operatorname{tf-idf}(\mathrm{t}, \mathrm{d})=\operatorname{tf}(\mathrm{t}, \mathrm{d}) \times \operatorname{idf}(\mathrm{t})$
$\operatorname{idf}(t)=\log \frac{1+n}{1+\operatorname{df}(t)}+1$

三、特征选择（Feature Selection）

在这里插入图片描述

3.1 过滤法（filter）

先选择后训练。按照评估准则对各个特征进行评分，然后按照筛选准则来选择特征。

3.1.1 评估准则

线性-Pearson相关系数
卡方值
互信息和最大信息系数(MIC)
距离相关系数
方差：删除方差不足阈值的特征；
F-p值
Relief相关统计量： $\delta^j=\sum_i(-diff(x_i^j,x_{i,nh}^j)^2+diff(x_i^j,x_{i,nm}^j)^2)$ ，其中 $x_i^j$ 表示第i个样本在属性j上的取值， $x_{i,nh}$ 为“猜中近邻”（near-hit），即 $x_i$ 最近邻的同类样本，而 $x_{i,nm}$ 为“猜错近邻”（near-miss），即 $x_i$ 最近邻的异类样本， $diff(x_a^j,x_b^j)=|x_a^j-x_b^j|$ ，若属性j为离散型且该值不为0，则取1，这里的x已经规范化到[0,1]。另外，对于多分类问题，有以下变体,称为Relief-F。

在这里插入图片描述

3.1.2 筛选准则

选择多少个最好的
选择百分之多少最好的
选择FPR（假阳性率），即误判概率不超过多少的。
选择FDR（错误发现率）不超过多少的。
选择FWE（系列错误率）不超过多少的。

3.2 包裹（包装）法（wrapper）

3.2.1 LVW（Las Vegas Wrapper）算法

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/872016