赞
踩
如果基于word2vec,transformer真的那么成功,那么在聚类上的表现应该也很突出才对,做了下边的聚类实验后,我们就知道为啥那些牛上天的模型都不做聚类评测任务的原因,因为效果实在拿不出手,如果聚类不行,那么分类也好不到哪儿去,全指着最后一层softmax分类,解决不了实质问题,那跟用逻辑回归有啥区别呢,速度还不行,给维度意义也不知道,如果嵌入表示真的那么行,那些利用矩阵分解做特征表示的方法,早就成功了,现在已然没人提那些方法了,各维度的词语都不知道是啥了,就别再美其名曰语义了。。。这里,我们分别用词袋模型表示法、word2vec表示法、universal sentence embedding表示法作为向量化方法,在聚类任务上评测效果,有关词袋表示法参考:https://zhuanlan.zhihu.com/p/70314114,有关word2vec表示法参考:https://zhuanlan.zhihu.com/p/80637885,有关universal sentence embedding参考:https://zhuanlan.zhihu.com/p/137219778。
(1)轮廓系数
详细参考:https://zhuanlan.zhihu.com/p/108163834
特点:基于距离度量,反映簇内紧密度,簇间分散度。
(2)调整兰德系数
详细参考:https://zhuanlan.zhihu.com/p/145856959
特点:基于RI指数,反映实例类别划分与聚类划分的重叠程度。
(3)V-Measure
详细参考:https://zhuanlan.zhihu.com/p/145989213
特点:基于条件熵,反映实例类别划分与聚类划分的重叠程度。
(1)语料
(2)效果对比
这里就放sklearn的20newsgroups的实验结果吧
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。