当前位置:   article > 正文

【深度学习】基于BRET的高级主题检测_bert事先知道主题

bert事先知道主题

一、说明

        使用BERT,UMAP和HDBSCAN捕获文档主题,紧随最先进的BERTopic架构(transformer编码器)。

        主题检测是一项 NLP 任务,旨在从文本文档语料库中提取全局“主题”。例如,如果正在查看书籍描述的数据集,主题检测将使我们能够将书籍分类,例如:“浪漫”、“科幻”、“旅行”等。

        在本教程中,我们将使用BERT的HuggingFace库实现以及用于聚类的HDBSCAN和用于降维的UMAP来实现。该管道将遵循Maarten Grootendorst提出的BERTopic结构:

伯特皮克管道

二、开始实践

        为了简单起见,我建议在Google Coolab中运行代码,但另一个平台也很好。

        首先安装必要的依赖项:

!pip install pandas numpy umap-learn transformers plotly hdbscan

        然后继续加载输入数据:

  1. import pandas as pd
  2. data = pd.read_csv("ecommerce.csv", on_bad_lines='skip', nrows=500)
  3. data = data[[""]]


        在我们的示例中,数据对应于从 Kagg

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号