赞
踩
1 | 任务:语句匹配问题、语义等价判别、语义等价判定、等价;(语句的意图匹配) |
1 | 魔镜杯:脱敏数据,所有原始文本信息都被编码成单字ID序列和词语ID序列。 |
区别 | 传统文本分类 | 问题对相似度计算 |
---|---|---|
输入 | 只有一个输入 | 有两个输入 |
句子长度 | 文本较长 | 句子长短不一、且较简短 |
特征 | 文本特征 | 语义特征 |
。。。 | 。。。 | 。。。 |
其实我们之前是没有接触过这种类型的比赛的,也没有很多参赛的经验,而是刚刚从零学起,一步一步地摸索,沿着前人的脚步再延伸。
q1、q2 分开单独处理 | 共享卷积层 | 不共享卷积层 |
---|---|---|
log_loss | 0.258995 | 0.28949 |
最终单模型的最好效果:log_loss = 0.205189
比赛期间,我实现或者在实现的基础上改进前前后后大概搭建了20多个模型,其实很多模型都还有很大的提升空间,局限于比赛的时间和自己的知识能力,而且在模型的细微之处、参数的初始化以及调参方面自己都没有什么经验,以致自己实现的模型的效果都没有师兄的好 (;へ:)。
虽然我们没能进入拍拍贷“魔镜杯”比赛的决赛,但在导师的帮助和特殊关系下,我们也有幸了参加了 top10 选手精彩的决赛答辩(2018-7-24 09:00),真的受益匪浅。
2、其实,很多参数我自己设置的都是默认参数,具体没有做很多的微调:
1 | embedding_dim = 300 # 词向量的维度 |
3、参数初始化:跟上面博客里分享的一样,TensorFlow里面参数初始化不同,对结果的影响非常大,师兄推荐也是使用 Xavier 初始化;原本想用keras再实现一遍的,一方面不太熟悉,另一方面由于时间紧迫未能完成。
1、人工设计特征这部分是我们团队中来也公司的几个小伙伴做的, 他们参考并设计了很多有趣的特征。
2、其他选手
3、数据增强
1 | 假设 Q1 在所有样本里出现2次,分别是 |
4、后处理
比别人差的一个重要原因:传递关系没有考虑到闭包!我们大概推了1253条,然而别人正例推了12568个样本,负例推了5129个样本。 ╥﹏╥
求平均的数量 | 2 | 4 | 7 | 8 | 9 |
---|---|---|---|---|---|
线上提交 logloss | 0.187845 | 0.185329 | 0.182613 | 0.179808 | 0.179063 |
小 trick | 贡献度 |
---|---|
多模型的预测结果求平均 | logloss 降低 2.6 个百分点 |
同一个模型10折交叉验证 | logloss 降低 2 个 百分点 |
传递关系推导 | logloss 降低 3.1 个千分点 |
拍拍贷 | 初赛成绩(359只队伍) | 复赛成绩(95只队伍) |
---|---|---|
我们 | 0.166100(第22名) | 0.162495(第21名) |
moka_tree | 0.163249(第16名) | 0.151729(第12名) |
SKY | 0.141329(第1名) | 0.142658(第1名) |
CCKS | 初赛成绩(138只队伍) | 复赛成绩(50只队伍) |
---|---|---|
我们 | 0.85142(第24名) | 0.84586(第4名) |
ThunderUp | 0.86485(第1名) | 0.85131(第1名) |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。