赞
踩
第一课时:赛题介绍和离线赛演示。例子:阿里移动推荐算法
最重要字段:user-id、item-id、time、behavior
历史记录:谁在什么时间对什么商品进行什么操作
预测:在第32天,谁买了什么?
第二课时:
目标通常是损失函数,最终求出最有的参数,得到我们的模型,从而预测新的样本
Sklearn是python中一个非常重要的机器学习模型库
实验:
1.环境准备
2.选取三个部分,线下训练候选对象,线下评估用的候选对象,以及线上评估用的候选对象,
3.训练所以对象的特征对象以及得到训练样本的标签
4.训练模型
5.进行线下预测评估,和线上预测
第三课时:人工规则入门
人工规则的大致流程:
(1)原始数据导入到自己空间
(2)测试集、训练集的划分
(3)把人工规则写到里面
(4)规则进行融合
(5)对生成的线下答案进行线下评测
(6)评测比较理想后要线上提交答案
第四课时
提纲:
(1)数据到样本(特征,标志)
A.确定样本
问题建模:二分类问题,UI对是否被购买
样本选择:10天内有过交互的UI对
B.从数据到特征
针对每个(user_id,item_id)统计一些属性
基本特征:浏览、收藏、购物车、购买量
基于规则:头天是否加入购物车没买
C.从数据到label
为样本添加标志
(2)牛刀小试--逻辑回归
(3)进阶版--归一化、样本均衡、模型融合
(4)一些小tips
A. 欠拟合、过拟合的判断
B. LR的一些知识:正则,迭代次数
C. GBDT的一些知识:学习率、树的棵树、叶节点个数
D. 正负比和置信度
E. 星 (shu)际(ju)穿越
F. 合理调参
总结:知道了做数据挖掘比赛的一些步骤吧。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。