搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
IT小白
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
比较几种步进电机加减速控制方案_指数型加减速曲线的原理及应用
2
YOLO学习中的琐碎知识点
3
数据的逻辑结构(线性结构、非线性结构;集合结构、线性结构、树状结构、网状结构),数据的存储结构(顺序结构、链式结构、索引结构、散列结构)_集合结构为什么也是逻辑结构
4
文献管理三剑客之noteexpress打不开 cannot find import; dll may be missing corrupt or worng_noteexpress配置文件被损坏
5
scratch编程小游戏黑白棋
6
html+css+js 实现计算器_js不使用 eval函数实现科学计算器
7
全文索引详解(基于InnoDB引擎)
8
如何为自己的ONLYOFFICE开发创建一个功能插件_onlyoffice开发教程
9
使用SecureCRT连接华为设备串口设置_如何通过串口连接华为s5720s
10
Android应用开发:Activity(5)_android单activity应用
当前位置:
article
> 正文
怎样通过词频得到这个词频的排序?
作者:IT小白 | 2024-02-18 18:20:31
赞
踩
词频统计后怎么排序
在大规模检索中,我们怎样通过已经的词频得到词频的排序? 通俗点讲,就是当我知道“java”这个词的频率是x,那么"java"到底在排在第几位呢?
大规模数据中,有一个重要的法则叫“齐普夫法则”,它描述为第k个出现次数最多的词汇,它的词频与1/k成正比。这个法则的发现过程一点都不科学,齐普夫是这样干的:找到一本大部头的书籍,统计不同词汇出现的次数并排序,发觉词频的排序乘以出现的次数等于一个常数。然后这个常数乘以10,就得到了书籍的总词数。多么荒诞的事情啊,这比牛顿被苹果砸了更坑爹啊有木有。
但是,这个法则竟然是正确的(没什么道理啊,我想起了黄金比例和自然数)。所以我们糊里糊涂的竟然可以得到这样一个公式:p(T)=C*(1/K),T表示排在K位置的词汇,P(T)表示T词的词频,C表示一个常数。
好吧,更坑爹的还在后面。。。。。。
我们知道,在大规模数据中,词频=词出现词数/总词数,那么所有词频之和等于1,所以有(1/1+1/2+1/3+...+1/k+...+1/n)*C=1,根据自然对数,就有ln(n)*C=1。
那么ln(n)为什么约等于(1/1+1/2+1/3+...+1/k+...+1/n)呢,根据调和级数,1+1/2+1/3+1/4+...1/n = ln(n+1) + r ,r是常数,约等于0.5772156649,可忽略不计。
所以,假如n等于100万,那么C=1/ln(1000000)=1/14,咱们转回到P(T)=C*(1/K)这个公式,对于数据规模在100万的情况下,排在K位的词汇词频=1/14K。当然,知道了词汇词频后,K值也很好算咯。
By 阿飞哥 转载请说明
腾讯微博:[url]http://t.qq.com/duyunfeiRoom[/url]
新浪微博:[url]http://weibo.com/u/1766094735[/url]
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/IT小白/article/detail/109689
推荐阅读
article
oplenlayers
与
Vue
结合
,
实现添加任意内容到
地图
指定位置
,
并
跟随
放大
级别
缩放_ope...
先上效果:可以在
地图
的指定位置(坐标)上放任何 html 标签
,
并实现
跟随
地图
放大
级别
缩放下面是
地图
放大
级别
特别大的时候...
赞
踩
article
AR
,新时代
MMO
...
英文来源:
AR
is an
MMO
作者: Raph Koster 译者: 张新慧 审校: 屠敏,欢迎技术投稿、约稿,...
赞
踩
article
cocos
creator
导出
web
项目如何对
接
H5
SDK
_
cocos
h5
接
sdk
登录...
最近在工作中遇到了
接
入H5
SDK
, 之前一般都为原生
sdk
的
接
入,这个已经众所周知了,随便百度或者Google一下就能...
赞
踩
article
Openlayers
入门,
Openlayers
调整
中心
点坐标、
Openlayers
调整
缩放级别、Op...
本章介绍一下
Openlayers
最基础的
调整
中心
点坐标方式、
调整
缩放级别、
调整
地图
可视角度和
地图
复位的小功能示例,非常简...
赞
踩
article
html
中两种
获取
标签
内的值的方法分享_
id
选择器
如何输出
标签
信息...
本文主要介绍了
html
中两种
获取
标签
内的值的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习...
赞
踩
article
Git
| 上
手指
南&
问题
汇总
...
这个错误消息是由于在你的本地
Git
仓库中已经存在一个名为 “origin” 的远程仓库配置而导致的。在git记录文件...
赞
踩
article
python
getmenu
不到
菜单
句柄_从弹出
菜单
中选择项目
win32
api
Python...
我在Windows7 64位计算机上使用了
python
2.7(32位)。我正在使用
win32
api
来自动执行一些wind...
赞
踩
article
Hive
之
窗口
函数
lag
()/
lead
()_
hive
lag
和
lead
函数
...
例如查询2023-01-10这天的数据,也就是从2023-01-10这天往前数三天,看这三天的数据中amount是否连续...
赞
踩
article
如何利用Python和
win32
编程避免重复性体力劳动(二)——
菜单
操作
:
GetMenu
,GetSu...
Part 2:
菜单
操作
有了句柄,我们就可以
操作
FaceGen了!嗯,要先打开文件,File→Open,然后再File→S...
赞
踩
article
carla
安装之
clang
版本问题_
alternative
path
/usr/lib/
llvm
-8...
carla
要求的是
clang
8.0,我最一开始没有关注到这个。使用的方法是sudo apt-get install ll...
赞
踩
article
【
数据
可视化
】通过
使用
网络
爬虫
对
数据
爬取
并
进行
可视化
分析
_利用所学知识
,
爬取
一些
数据
然后对
数据
进行
分...
使用
网络
爬虫
技术
爬取
课程中心
数据
,利用pandas和pyecharts
进行
数据
分析
和
数据
可视化
_利用所学知识
,
爬取
一些数...
赞
踩
article
在
ArcMap
10.2中进行了
坐标系
定义和
投影
转换后
,
若干
图
层
在放大到某一比例尺时
不
再
显示
的
问题_...
ArcGIS中某个
图
层
放大到1:20000以上后
不
显示
,
1.首先想到
的
应该是scales range
的
范围是
不
是被限制了...
赞
踩
article
分享一下我
的
基于
vue
的
百度
地图
围栏
管理
源码
实现
_
百度
地图
电子
围栏
实现
...
之前,公司需要我来开发项目中
的
围栏
管理
功能。业务需求也不是太难,就是
实现
在
百度
地图
上使用
百度
地图
工具来绘制一块区域,给该...
赞
踩
article
嚼一嚼
Halcon
中
的
3D
手眼
标定
_
halcon
手眼
标定
后
精度...
要让机器人
的
手抓住杯子,就必须知道杯子跟手
的
相对位置关系,而杯子
的
位置则是通过机器人
的
眼睛看见
的
,所以,我们只需要知道机...
赞
踩
article
获取
html
标签
的
属性
值_
html
中
获取
元素
属性
值
的
方法
...
版权声明:本文为博主原创文章,未经博主允许不得转载。
获取
html
标签
的
属性
值分另种情况其一,
获取
原有
属性
,其
方法
是.属...
赞
踩
article
如何在
Axure
中实现元件
单击
隐藏
,再次
单击
显示_
axure
设置
隐藏
的列表点击不
出来
...
1.首先将你需要
隐藏
的元件拉
出来
,然后给他
设置
交互样式,鼠标
单击
时。2.然后交互样式
设置
成我调制的样子就好。_
axure
...
赞
踩
article
【干货】PS超
实用
功能
:
美化
照片
_
ps
常用
美化
功能
...
【干货】PS超
实用
功能
:
美化
照片
_
ps
常用
美化
功能
ps
常用
美化
功能
...
赞
踩
article
Python
爬虫
学习——数据
解析
之Re
解析
(七)_
re
结构化
文本数据拆解
python
...
Python
爬虫
学习文章目录
Python
爬虫
学习前言一、正则表达式贪婪匹配和惰性匹配二、Re模块前言三种
解析
方式:1、r...
赞
踩
article
[已解决]请教!!!
echarts
插件中没有
map
文件
夹
_
echarts
.js.
map
找不到
文件
...
在终端运行 cnpm install --save
echarts
,导入插件后发现没有
map
文件
夹。本意是想导入中国地图...
赞
踩
article
HTML中常用
的
图片
格式
及应用场景_
html
格式
的
图片
有什么用...
和油漆是一个道理,不同
的
图片
格式
特性不一样,使用场合也有所不同。一:
图片
的
格式
JPEG(JPG)- JPEG
图片
支持
的
颜...
赞
踩
相关标签
openlayers
Vue
AR
MMO
jssdk
cocos creator JavaScript
javascript
typescript
vue.js
OpenLayers
定位跳转
缩放级别
地图可视角度
html
前端
git
python getmenu不到菜单句柄
hive
笔记
hadoop
python
pywin32
win32
FaceGen