搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
知新_RL
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
git clone报错:SSL certificate problem: unable to get local issuer certificate_git clone ssl certificate problem: unable to get l
2
排序——堆排序和TopK_top k堆排序
3
Selenium实现滑动滑块验证码验证_python selenium 滑动验证
4
MySQL常用判断函数总结!!看你都用过没_mysql 判断
5
idea为springboot项目配置热部署
6
华为Java社招面试(已拿到offer)
7
谷歌中国在服务器撤离中国以后欲卷土重来?_谷歌不愿意把服务器放中国吗
8
最简单的python爬虫案例,适合入门学习
9
tensorRT 自定义算子plugin的实现
10
AnythingLLM:私人 ChatGPT,构建专属知识库,本地代码库问答助手_anythingllm no embedding model was set.
当前位置:
article
> 正文
TF-IDF算法实现关键词抽取_tf-idf能输出关键词与对应的值一起输出来吗
作者:知新_RL | 2024-06-24 17:38:47
赞
踩
tf-idf能输出关键词与对应的值一起输出来吗
TF-IDF算法是关键词提取算法中基础,并且有效的一种算法,实现简单效果比较明显,在使用中非常广泛。
假设现在有一批“短文本“,比如很多条一句话的新闻。现在需要提取这些一句话新闻的关键词。我们可以采取tf-idf算法来实现。TF-IDF(term frequency - inverse document frequency) 是一种统计方法。可以用来评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数呈正比增加,但同时也会随着它在语料库中出现的频率呈反比下降。
TF-IDF的主要原理是:如果某个词或短语在一篇文章中出现的频率tf非常高,并在其他文章中出现的频率很低,即idf低,那么我们就认为这个词或短语具有很好的类别区分能力。适合用来分类。那么对于这篇文章来说,这个词可以作为本篇文章的关键词。
TF-IDF具体算法如下:
TFIDF
i,j
= TF
i,j
* IDF
i
其中TFIDF
i,j
是指词i 相对于文档j的重要性值。
tf
i,j
指的是某个给定的词语在指定文档中出现的次数占比。即给定的词语在该文档中出现的频率。这个数字是对term count的归一化,防止它偏向长文档。计算公式为:
tf
i,j
=
n
i,j
/
sum
(
n
k,j
)
其中
n
i,j
是这个词在d
j
中出现的次数。
sum
(
n
k,j
)
是在文件d
j
中所有的字词出现的次数和。
idf
i
是指词 i 的你想文件频率。使用总文档数据除以包含指定词语的文档的数目。 再降得到的商取对数。 这是一种度量词语重要性的指标。 计算公式为:
idf
i
= log( |D| / |{j: t
i
属于d
j
}| ) 其中|D|为语料库中的文档数。 |{j: t
i
属于d
j
}| 为包含词语t
i
的文档数目。
TF-IDF 算法会倾向于选出某一特定文档内的高频词语,同时该词语在整个文档集合中分布是比较集中的。因此,TF-IDF倾向于过滤掉常见的词语,保留“独有”词语。但是这也造成了tf-idf的缺陷。 因为IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t 具有很好的类别区分能力。如果某一文档C中包含词条t的文档数为m, 而其他类包含t的文档总数为k,显然所有包含t的文档数n = m + k, 当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t 类别区分能力不强。但实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好地代表这个类的文本特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词,以区别于其他类的文档。比如对于如下几个短文本:
1、鲜花多少钱?
2、白百合多少钱?
3、月季多少钱?
4、香蕉多少钱?
如果按照TF-IDF算法,鲜花、香蕉这些主体词会成为关键词,但是从这些语句的总体来看,他们又都属于询问价格的类型,所以“多少钱”应该成为关键词。这就是IDF的不足之处。
改进的方法可以通过改变文档结构,比如将上述短文本归并为一个文档,这样就可以在增加TF值的同时,也增加IDF值。但是这样就会增加模型的计算成本,需要大量的人为经验加入其中。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/知新_RL/article/detail/753466
推荐阅读
article
Mysql
之
GROUP
BY
与
PARTITION
BY
区别...
PARTITION
BY
是窗口函数的一部分,用于定义窗口(即数据分区),但是它不会改变结果集的行数。
PARTITION
...
赞
踩
article
技术干货 | 判断
数据库
性能
只能
通过
count
(*)?No
,
这些
优化
方案了解一下!_哪种
数据库
在
进行
...
大多数用户在体验
数据库
时
,
接触到的最早的sql语句就是
count
()
,
因此用户判断
数据库
性能
时
通常也会
通过
count
()...
赞
踩
article
Java项目:客户关系
管理系统
(
java
+SpringBoot+
layui
+
html
+
maven
+m...
源码获取:博客首页 "资源" 里下载!项目介绍CRM客户关系
管理系统
。本系统共分为三种角色:超级管理员、经理、销售人员;...
赞
踩
article
解决
win10
系统
L2TP
连接
尝试失败:
ERROR
因为
安全
层在初始化与
远程
计算机
的协商时遇到了一个...
错误描述:当
连接
VPN是回传错误为“
L2TP
连接
尝试失败,因为
安全
层在初始化与
远程
计算机
的协商时遇到了一个
处理错误
” ...
赞
踩
article
一步步教你如何使用
Docker
和MongoDB迁移FastGPT
环境
_
fastgpt
dockerf...
如何使用Mongodump来完成从A
环境
到B
环境
的Fastgpt的
mongodb
迁移前提说明:A
环境
:我在阿里云上部署的...
赞
踩
article
NIPS
十大
机器
学习
精选论文_
extended
neural
gpu
是啥、...
作者简介:洪亮劼,Etsy数据科学主管,前雅虎研究院高级经理。长期从事推荐系统、
机器
学习
和人工智能的研究工作,在国际顶级...
赞
踩
article
Tomcat
十大安全
优化
方法
(详解版)
_
tomcat
优化
的
几种
方法
...
Tomcat
十大安全
优化
方法
_
tomcat
优化
的
几种
方法
tomcat
优化
的
几种
方法
目...
赞
踩
article
Window10
连
接
L2TP
连
接
失败 安全层在初始化失败 锁屏断
连
等相关
网络
问题汇总_
l2tp
不能...
Window10
连
接
L2TP
网络
问题1,
Window10
:不能
建立
到
远程
计算机
的
连
接
。你可能需要更改此
连
接
的
网络
设置。2...
赞
踩
article
【复盘
整理
】
B
端
大厂
的
面试
技巧
整理
_
b
端
客户销售
面试
...
B
端
大厂
的
面试
技巧
整理
本文包括四个部分:前景篇:
B
端
产品未来十年
的
发展能力篇:
大厂
B
端
产品核心能力拆解挑战篇:成为
大厂
B
...
赞
踩
article
山景
MVsB1
_
Base
_
SDK
编译工程出错记录
_
山景
sdk
...
山景BP1048
MVsB1
_
Base
_
SDK
fatal error: uarts.h: No such file or...
赞
踩
article
嵌入式
期末复习
--
补充
(
答案来自
文心
一
言
)
...
RTOS就是实时操作系统。根据响应时间的不同,可分为以下3类:
(
1
)
强实时
嵌入式
操作系统响应时间:微妙或毫秒
(
2
)
一
般实...
赞
踩
article
在Mac中如何安装
PHP7
_
ah06665
: no
code
signing
authority f...
经历了一个漫长的等待,在我们的PHP5.6发布后,我们最新的
PHP7
终于发布了(等等,我们的6到哪去了?),根据官方的说...
赞
踩
article
个人
优缺点
总结_程序员
个人
总结
优缺点
...
这两天心情太不爽了,毕业后还真少了能吐露心事的人了,可能是碍于面子吧,有些东西只能自己忍着。忍着的结果在别人看来你很...
赞
踩
article
IDEA
正确
设置
编码统一为UTF-
8
_
idea
设置
jar包文件
utf
-
8
...
之前代码在myeclispe10跑得好好的来这个intellij
idea
就一直出错 改了好久的编码都没卵用,如下
设置
...
赞
踩
article
NLP
的使用_
opennlp
...
然而,Open
NLP
的官方发布版本并没有直接支持中文语言模型。但你可以通过以下步骤使用Open
NLP
来处理中文文本: 1...
赞
踩
article
中缀
表达式
转化
为
后缀
表达式
头歌
--
12关_头歌十二
关本关
任务:
输入
一个
中缀
算术
表达式
,将其转换
为
后...
文章详细描述了使用C++编程解决
中缀
算术
表达式
转
后缀
表达式
问题的方法,涉及栈操作和符号优先级判断。头歌十二
关本关
任务:输...
赞
踩
article
混淆
矩阵
:
用于
多分类模型评估(py
torch
)——总结2_
torch
混淆
矩阵
...
混淆
矩阵
(confusion matrix) 1.
混淆
矩阵
介绍2. 代码实现2.1 数据集2.2 代码:
混淆
矩阵
类2....
赞
踩
article
Python
中
如何将
小数
转化为
百分数
进行
输出
_
python
小数
变成
百分数
...
掌握如何在
Python
中
将
小数
转换为
百分数
并进行格式化
输出
是一个非常实用的技能,尤其适用于数据分析、财务报告和用户界面设...
赞
踩
article
【
Android
面试八股文】你能描述一下
JVM
中
的
类
加载
过程
吗?...
用户定义
的
初始值是在
类
的
初始化阶段( 方法中)进行
的
,而不是准备阶段。在上述代码中,sector
的
值在准备阶段将是0,而...
赞
踩
article
Spark
高频
面试
题_
spark
面试
...
Spark
高频
面试
题1.
Spark
Streaming和Flink的区别?下面我们就分几个方面介绍两个框架的主要区别:1...
赞
踩
相关标签
mysql
数据库
数据库优化
数据扫描
数据瓶颈
java
springboot
layui
html
vpn
操作系统
计算机
服务器
安全
docker
mongodb
eureka
gpt
NIPS
机器学习
tomcat
网络
windows
运维