搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
运维做开发
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
鸿蒙模拟器启动失败的可能原因
2
关于flask入门教程-图书借阅系统-一
3
深入探索Java开发世界:MySQL~类型分析大揭秘
4
PyQt PyQt5 Python VTK Qt pyqt5Gui 三维重建,可视化_qt gui显示三维
5
HTTP协议安全性分析_htps的安全性
6
国内外主流大模型都具备有哪些特点?_国内大模型 特点
7
markdown_markdown制作幻灯片ppt的若干方式(marp/slidev)markdow_slidev+vscode_slidev export pdf
8
sql developer 连接sql server2012 账户的密码必须更改
9
如何解决Git中的合并冲突?_git合并冲突最简单三个步骤
10
互联网Java工程师面试题·微服务篇·第一弹_微服务面试
当前位置:
article
> 正文
如何计算文本之间的相似度?余弦相似度详解!带例子,嘎嘎通俗易懂~_文本余弦相似度计算
作者:运维做开发 | 2024-07-04 18:43:06
赞
踩
文本余弦相似度计算
计算公式
cos ( θ ) = A ⃗ ⋅ B ⃗ ∣ ∣ A ⃗ ∣ ∣ × ∣ ∣ B ⃗ ∣ ∣ \cos (\theta) = \frac{\vec{A} \cdot \vec{B}}{||\vec{A}|| \times ||\vec{B}||}
cos
(
θ
)
=
∣∣
A
∣∣
×
∣∣
B
∣∣
A
⋅
B
其中
θ \theta
θ
是
余弦相似度
.
当
cos ( θ ) \cos (\theta)
cos
(
θ
)
越靠近1,则表示向量A和向量B在向量空间中的夹角越靠近0,意味着它们之间更相似。
夹角等于0,则表示这俩向量相等。
例子
假如要计算两段文本之间的相似性,总共可以分成以下五个步骤:
分词
作出语料库
计算词频
将原句转为词频向量
计算余弦相似性
A:今天天气真好,明天天气也一样。
B:今天天气不差,明天也一样。
分词
今天/天气/真好,明天/天气/也/一样。
今天/天气/不差,明天/也/一样。
语料库
今天,天气,真好,明天,也,一样,不差
计算词频
A:今天1,天气2,真好1,明天1,也1,一样1,不差0
B:今天1,天气1,真好0,明天1,也1,一样1,不差1
词频向量
A ⃗ = [ 1 2 1 1 1 1 0 ] \vec{A} =
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
1
2
1
1
1
1
0
⎤
⎦
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
[
1
2
1
1
1
1
0
]
A
=
1
2
1
1
1
1
0
B ⃗ = [ 1 1 0 1 1 1 1 ] \vec{B} =
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
1
1
0
1
1
1
1
⎤
⎦
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
[
1
1
0
1
1
1
1
]
B
=
1
1
0
1
1
1
1
余弦相似性计算
套入上述公式中可得
cos ( θ ) = ∑ i n ( A i × B i ) ∑ i n A i 2 × ∑ i n B i 2 = 1 × 1 + 2 × 1 + 1 × 0 + 1 × 1 + 1 × 1 + 1 × 1 + 0 × 1 1 2 + 2 2 + 1 2 + 1 2 + 1 2 + 1 2 + 0 2 × 1 2 + 1 2 + 0 2 + 1 2 + 1 2 + 1 2 + 1 2 = 6 3 × 6 ≈ 0.816 \cos(\theta) = \frac{\sum_i^n(A_i \times B_i)}{\sqrt{\sum_i^nA_i^2}\times \sqrt{\sum_i^nB_i^2}} = \frac{1\times1 + 2\times1 + 1\times0 + 1\times1 + 1\times1 + 1\times1 + 0\times1}{\sqrt{1^2 + 2^2 + 1^2 + 1^2 + 1^2 + 1^2 + 0^2} \times \sqrt{1^2 + 1^2 + 0^2 + 1^2 + 1^2 + 1^2 + 1^2}} = \frac{6}{3 \times \sqrt{6}} \approx 0.816
cos
(
θ
)
=
∑
i
n
A
i
2
×
∑
i
n
B
i
2
∑
i
n
(
A
i
×
B
i
)
=
1
2
+
2
2
+
1
2
+
1
2
+
1
2
+
1
2
+
0
2
×
1
2
+
1
2
+
0
2
+
1
2
+
1
2
+
1
2
+
1
2
1
×
1
+
2
×
1
+
1
×
0
+
1
×
1
+
1
×
1
+
1
×
1
+
0
×
1
=
3
×
6
6
≈
0.816
最终结果为0.816更靠近1,于是通过余弦相似度计算的结果表示这两个句子之间是颇为相似的。
声明:
本文内容由网友自发贡献,转载请注明出处:
【wpsshop博客】
推荐阅读
article
git
常用
命令
之
Merge
_
git
merge
命令
...
合并(
Merge
)是Git中常用的
命令
之一,用于将不同的Git分支或提交(commits)合并到当前活动分支中。这允许你...
赞
踩
article
【文献翻译】基于
深度
学习
的脑
电信号
癫痫
自动
检测
系统_
深度
学习
驱动的?
检测
:创新
方法
与
技术
实现【?
检测
...
摘要
癫痫
是一种神经系统疾病,对于其
检测
,脑电图(EEG)是一种常用的临床
方法
。脑
电信号
的人工
检测
是一个费时费力的过程,这...
赞
踩
article
ubuntu
14下
ssh
和
防火墙
设置
_
ubuntu
ssh
允许指定网段...
ssh
设置
安装sudo apt-get install open
ssh
-server启动
ssh
服务sudo servic...
赞
踩
article
汽车
电
子知识汇总_
kl15
电
与
kl30
电
的
区别...
本内容包括详细
的
汽车
电
子术语,
汽车
电
源KL15、KL30介绍,详细深入
的
跛行模式剖析(含可用于量产
的
电
路),
电
子元件选型...
赞
踩
article
git
pull
git
push
长时间无响应很慢
_
git
blit 推送时
卡住
_
git
pull
卡...
STEP1 在
git
bash 窗口中执行 GIT
_
TRACE=2 GIT
_
CURL
_
VERBOSE=2
git
pul...
赞
踩
article
ubnutu 安装
openssh
-
server
连接 secure CRt_
没有
可用
的
软件包
lib...
Reading state information... 完成 现在
没有
可用
的
软件包
openssh
-
server
,但...
赞
踩
article
AI
学习
神器!
大学生
必备的 22个
AI
提示
词模板_ai生成
学习
心得
提示
词...
提示
请根据以下课程内容生成一份课程总结:课程名称:[名称],内容:[内容]。以上 22 个
AI
提示
词模板可以帮助大学...
赞
踩
article
Python
从
0
到
1
0
0
(五):
Python
分支
结构
和循环
结构
_
python
1
0
0
个多
分支
...
Python
中的
分支
结构
和循环
结构
是编写程序时常用的控制
结构
。在
Python
中,
分支
结构
通过if、elif和else关键...
赞
踩
article
2018
全球
机器
学习
技术
大会
7月27-28日就等你来!_
2018
全球
机器
学习
技术
大会
...
Boolan继2017年年ML-峰会上,秉承“
全球
专家,连接智慧”的宗旨,将于
2018
年7月邀请近四十位
机器
学习
领域的技...
赞
踩
article
为什么
卷积
网络
输出
特征
图会越来越多_
卷积
操作中
的
填充与池化...
由于公众号改版不再按照作者
的
发布时间进行推送,为防止各位朋友错过月来客栈推送
的
最新文章,大家可以手动将公众号设置为“星标...
赞
踩
article
Python
之
Tkinter
进行
GUI
开发_
python
tkinter
活用
gui
...
文章目录
GUI
开发一、Label标签二、Button标签三、点击按钮弹出消息四、Frame框架4.1 side与expa...
赞
踩
article
GPT
-
4
-
Turbo
的
128K
长度
上下文
性能如何?超过73K
Tokens
的数据支持依然不太好!_...
GPT
-
4
Turbo
是OpenAI最新发布的号称性能超过当前
GPT
-
4
的模型。除了速度和质量外,
GPT
-
4
Turbo
...
赞
踩
article
THUCNews
新闻文本
分类
-
tfidf
+
sklearn2
_清华
新闻标题
分类
数据
集...
本文使用的是和鲸社区现有
数据
集,代码也在和鲸社区公开,fork之后可以直接运行。本文中所用的
数据
集清华NLP组提供的TH...
赞
踩
article
关系
模式
的
候选
关键字
以及无损连接
的
保持
依赖
分解...
设计
模式
的
候选
依赖
_
候选
关键字
候选
关键字
话不多说,举例说明一切: 设
关系
模式
R(U,F...
赞
踩
article
Akamai
+
Noname
强强联合 |
API
安全
再加强...
最近,
Akamai
正式完成了对
Noname
Security的收购。本文我们将向大家介绍,经过本次收购后,
Akamai
在...
赞
踩
article
【异常】使用Fast
JSON
进行
JSON
解析出错,报错内容
syntax
error
,
expect
...
如果你使用的是特定类型的解析器(比如期望解析对象但实际提供的是数组),也可能导致这个错误。如果
JSON
字符串格式正确...
赞
踩
article
清除本机
git
账户
信息
_
git
清空
本地用户
...
二、清除掉缓存在
git
中的用户名和密码。一、清理本地
账户
信息。
_
git
清空
本地用户
git
清空
本地用户
...
赞
踩
article
图解
nlp
——预
训练
模型
做
文本
分类
_
训练
一个
文本
分类
模型
...
本文介绍了使用预
训练
模型
进行
文本
分类
的方法,并推荐了使用Python和transformers库的技术来实现。具体的代码...
赞
踩
article
IDEA
集成
Git
操作和
Git
ee_
idea
登录
git
账号...
首先我们需要配置
Git
的相关操作Settings---->Version-Control---->
Git
选择自己的
Git
...
赞
踩
article
WebSocket
解决方案
(springboot 基于
Redis
发布
订阅
)...
因为一般的请求都是HTTP请求(单向通信),HTTP是一个短连接(非持久化),且通信只能由客户端发起,HTTP协议做不到...
赞
踩
相关标签
git
服务器
centos
运维
linux
debian
深度学习
机器学习
人工智能
ssh
防火墙
ubuntu
汽车电子知识
elasticsearch
大数据
command
service
数据库
build
学习
AI写作
AI编程
gpt
AIGC
agi