搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
知新_RL
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
Yandex SEO和Google SEO有啥区别?5000字说必须要了解的一些事儿_yandexcom引擎
2
VMware虚拟机安装教程(超详细)_vmware workstation
3
中国县级碳排放清单(1997-2017年)_一个县排放的二氧化tan有多少吨
4
python怎么编写一个登录界面,python做用户登录界面_python登录界面
5
人力资源分析思维以及有必要学习数据分析吗?_人力资源数据分析技巧
6
Leetcode 238. 除自身以外数组的乘积
7
DataX数据同步
8
Python免费下载安装全流程(Python 最新版本),新手小白必看!_python下载安装教程
9
奥特曼无罪重返openAI董事会!李彦宏称文心大模型在中文上超越GPT-4
10
一文搞懂微调技术和RAG技术区别
当前位置:
article
> 正文
TF-IDF算法实现关键词抽取_tf-idf能输出关键词与对应的值一起输出来吗
作者:知新_RL | 2024-06-24 17:38:47
赞
踩
tf-idf能输出关键词与对应的值一起输出来吗
TF-IDF算法是关键词提取算法中基础,并且有效的一种算法,实现简单效果比较明显,在使用中非常广泛。
假设现在有一批“短文本“,比如很多条一句话的新闻。现在需要提取这些一句话新闻的关键词。我们可以采取tf-idf算法来实现。TF-IDF(term frequency - inverse document frequency) 是一种统计方法。可以用来评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数呈正比增加,但同时也会随着它在语料库中出现的频率呈反比下降。
TF-IDF的主要原理是:如果某个词或短语在一篇文章中出现的频率tf非常高,并在其他文章中出现的频率很低,即idf低,那么我们就认为这个词或短语具有很好的类别区分能力。适合用来分类。那么对于这篇文章来说,这个词可以作为本篇文章的关键词。
TF-IDF具体算法如下:
TFIDF
i,j
= TF
i,j
* IDF
i
其中TFIDF
i,j
是指词i 相对于文档j的重要性值。
tf
i,j
指的是某个给定的词语在指定文档中出现的次数占比。即给定的词语在该文档中出现的频率。这个数字是对term count的归一化,防止它偏向长文档。计算公式为:
tf
i,j
=
n
i,j
/
sum
(
n
k,j
)
其中
n
i,j
是这个词在d
j
中出现的次数。
sum
(
n
k,j
)
是在文件d
j
中所有的字词出现的次数和。
idf
i
是指词 i 的你想文件频率。使用总文档数据除以包含指定词语的文档的数目。 再降得到的商取对数。 这是一种度量词语重要性的指标。 计算公式为:
idf
i
= log( |D| / |{j: t
i
属于d
j
}| ) 其中|D|为语料库中的文档数。 |{j: t
i
属于d
j
}| 为包含词语t
i
的文档数目。
TF-IDF 算法会倾向于选出某一特定文档内的高频词语,同时该词语在整个文档集合中分布是比较集中的。因此,TF-IDF倾向于过滤掉常见的词语,保留“独有”词语。但是这也造成了tf-idf的缺陷。 因为IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t 具有很好的类别区分能力。如果某一文档C中包含词条t的文档数为m, 而其他类包含t的文档总数为k,显然所有包含t的文档数n = m + k, 当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t 类别区分能力不强。但实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好地代表这个类的文本特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词,以区别于其他类的文档。比如对于如下几个短文本:
1、鲜花多少钱?
2、白百合多少钱?
3、月季多少钱?
4、香蕉多少钱?
如果按照TF-IDF算法,鲜花、香蕉这些主体词会成为关键词,但是从这些语句的总体来看,他们又都属于询问价格的类型,所以“多少钱”应该成为关键词。这就是IDF的不足之处。
改进的方法可以通过改变文档结构,比如将上述短文本归并为一个文档,这样就可以在增加TF值的同时,也增加IDF值。但是这样就会增加模型的计算成本,需要大量的人为经验加入其中。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/知新_RL/article/detail/753466
推荐阅读
article
mysql
笔记:9.
数据
查询
_
mysql
数据
查询
...
数据
库管理系统的一个最重要功能就是
数据
查询
,
数据
查询
不应只是简单返回
数据
库中存储的
数据
,还应该根据需要对
数据
进行筛选,以...
赞
踩
article
Neo4j
建立多个
数据
库
_
neo4j
5.7.0版本中,使用
neo4j
-
admin
database
...
1、我采用的方法是修改配置文件,如果你是Ubuntu系统通过apt-get install安装的
neo4j
,可以修改/e...
赞
踩
article
kafka
(
二
)...
基本流程是这样的:创建一条记录,记录中一个要指定对应的topic和value,key和partition可选。先序列化,...
赞
踩
article
macOS
10.12
Sierra
Apache
PHP初步搭建_
apache
php
macos
...
macOS
10.12
Sierra
Apache
PHP初步搭建终端运行命令,启动
Apache
$ sudo apach...
赞
踩
article
当代
人工智能
三
教父
——
深度
学习
三
巨头
_
人工智能
三
巨头
教父
介绍...
今天下午闲来无事翻阅了一下csdn首页的头条文章——《27 岁天才创始人Joel Hellermark分享了自己和“AI...
赞
踩
article
【
Android
面试
八股文
】
Class
会
不
会
回收
?用不到
的
Class
怎么
回收
?...
通过自定义类加载器,在不再需要某个类时,可以显式地将对应
的
。【
Android
面试
八股文
】
Class
会
不
会
回收
?用不到
的
C...
赞
踩
article
机器学习
集成
模型
学习——
投票
集成
Voting
(二)
_
基于
投票
机制
的
集成
模型
...
Voting
集成
投票
机制
就是多个
模型
分别预测,然后
投票
,票数最高的就是整个
模型
最后的效果案例代码from sklearn...
赞
踩
article
分布式
数据
库
HBase
-介绍、安装与通过Hbase
Java
API
建表、表的
数据
插入与获取_hba...
一、
HBase
简介
HBase
是一个高可靠、高性能、面向列、可伸缩的
分布式
数据
库
,是谷歌BigTable的开源实现,主要用...
赞
踩
article
CentOS7
安装
部署
Kafka
with
KRaft
_
kafka
kraft
安装
与启动...
Apache
Kafka
是一个开源分布式事件流平台,已被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用程...
赞
踩
article
软件测试
员这些
坑
一定要记住
了
,
不要再往里面掉
了
_
千万不要做
软件测试
员
_
软件测试
的
坑
...
这是个深
坑
,
产品迭代跟
的
久
了
,
功能上闭着眼睛都能说清楚就自以为很
了
解
,
实际上连该功能使用
的
协议
,
调用
的
接口都不知道
,
所以...
赞
踩
article
智能
合约
中
权限
管理
不当_
智能
合约
可以
实现
授权
管理
吗...
如果
合约
中的关键功能,如转移资产、修改
合约
状态或升级
合约
逻辑,
可以
被未经
授权
的实体随意操作,这将构成严重的安全风险。虽然...
赞
踩
article
[天池
数据
]
python
世界杯
数据
分析
可视化_
世界杯
数据
可视化
分析
...
网址来源:
世界杯
学习赛
数据
集_
数据
集-阿里云天池 该
数据
来源于阿里云天池,发布者已经将csv文件,各个字段均有一定的...
赞
踩
article
角色转变
:
新手
项目管理
的
三大
误区
_
新手
项目经理
认知
误区
...
文章目录
新手
项目经理
易入
的
三个
误区
误区
一
:
凡事恨不得事必躬亲
误区
二
:
追在别人屁股后面做监工
误区
三
:
拿着锤子,看哪里都是钉...
赞
踩
article
【
分布式计算
框架】
HBase
数据库
编程
实践_
分布式计算
课程
实验
...
【
分布式计算
框架】
HBase
数据库
编程
实践_
分布式计算
课程
实验
分布式计算
课程
实验
...
赞
踩
article
机器学习
论文
源
代码
浅读:
Autoformer
_
autoformer
代码
...
原本想要和之前一样写作“
代码
复现”,然而由于本人一开始对于
Autoformer
能力理解有限,参考了一定的
论文
中的
源
代码
,...
赞
踩
article
mac
运行
php
文件
的配置_
mac
上
运行
php
项目...
问题:下载
php
study,启动apache、出现报错,按 网上教程访问http://localhost成功启动apa...
赞
踩
article
全栈
还是
专精?
程序员
如何选择自己的职业
方向
?_
程序员
选
一个
方向
好
还是
两个好...
我们要先明确一下什么是
全栈
程序员
和专精
程序员
。
全栈
程序员
是指能够掌握前端、后端、数据库等多个技术栈,并能够独立完成整个项...
赞
踩
article
Ai
绘画
|
stable
diffusion
本地
安装
部署
教程_
智能
绘画
本地
部署
...
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI
绘画
、AI人工
智能
等前沿科技教程和软件工具,具体看这里。AIGC技术的...
赞
踩
article
机器
学习
集成
学习
——
Adaboost
分离器
算法
_
adaboost
回归
(
adaboost
.r)是一种集...
本文主要介绍
Adaboost
集成
学习
算法
,以及一些案例举例
Adaboost
是一种
集成
学习
算法
,用于构建一个强大的分类器或...
赞
踩
article
初探
深度
学习
框架
之------
Caffe
_
caffe
是
一个
深度
学习
框架
,在()下开源)...
一、
Caffe
caffe
是什么?官网的解释是这样的:
Caffe
is a deep learning framewor...
赞
踩
相关标签
mysql
数据库
kafka
apache
php
macOS
人工智能
机器学习
面试
jvm
职场和发展
voting
zookeeper
hadoop
hdfs
分布式
KRaft
单元测试
功能测试
学习
智能合约
区块链
数据分析
python