经典的TF-IDF过程结合了两个统计量,词频和逆文档频:
W
t
,
d
=
t
f
t
,
d
⋅
l
o
g
(
N
d
f
t
)
W_{t,d}=tf_{t,d}\cdot log(\frac{N}{df_{t}})
Wt,d=tft,d⋅log(dftN) 逆文档频度量了一个词提供给一篇文档的信息,它的计算是 语料库中的总的文档数
N
N
N 除以 包含词
t
t
t 的总的文档数。
我们将这一过程迁移到文档的簇中。首先,我们一个簇中的所有文档作为一个单一的文档,通过简单得将文档进行拼接。之后,TF-IDF被调整通过将文档转换成簇,来得到这一表示。
W
t
,
c
=
t
f
t
,
c
⋅
l
o
g
(
1
+
A
t
f
t
)
W_{t,c}=tf_{t,c}\cdot log(1+\frac{A}{tf_{t}})
Wt,c=tft,c⋅log(1+tftA) 逆文档频被转换成逆类频,被用来度量一个词提供了多少信息给一个类别。它的计算是每个类别的平均词数
A
A
A ,除以词
t
t
t 在所有类别中的数目。为了只输出正值,我们增加了一在对数运算内。
BERTopic首次被应用于整个语料库上,仿佛数据没有时序方面,以创建一个主题的全局表示。之后,我们能够创建一个每个主题的局部表示,通过简单得将时间步长
i
i
i 的词频和之前预先计算好的全局 IDF值进行相乘。
W
t
,
c
,
i
=
t
f
t
,
c
,
i
⋅
l
o
g
(
1
+
A
t
f
t
)
W_{t,c,i}=tf_{t,c,i}\cdot log(1+\frac{A}{tf_{t}})
Wt,c,i=tft,c,i⋅log(1+tftA)