赞
踩
1) 语义相似、但字面不相似
2) 字面相似、但是语义不相似
1) 语义相似:依靠用户行为,最基本的方法:(1)基于共点击的行为(协同过滤),(2)借助回归算法
2) 字面相似:(1) LCS最大公共子序列 (2) 利用中文分词
|A| = sqrt(1*1+2*2+3*3) = 3.74
|B| = sqrt(2*2+3*3+4*4) = 5.38
分母:|A|*|B| = 20.12
1) TF:词频
关键词:在当前文章出现较多,但在其他文章中出现较少
2) IDF:反文档频率
score = TF * IDF
1) 确定关键词集合(两种方法(a)top-10 (b)阈值截断 > 0.8 )
2)哪些句子包含关键词,把这些句子取出来
3) 对关键词排序,对句子做等级划分
4)把等级高的句子取出来,就是摘要
1.idf实践:
一共508篇文章
(1)数据预处理:把所有文章的内容,全部收集到一个文件中
]# python convert.py input_tfidf_dir/ > idf_input.data
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。