当前位置:   article > 正文

代码调试全指南-自然语言处理-基于预训练模型的方法,车万翔_自然语言处理实战 基于预训练 车万翔 情感分类 数据集

自然语言处理实战 基于预训练 车万翔 情感分类 数据集

introduction

从github中下载代码包或从我的某度网盘链接中下载我处理好的代码包plm-nlp-code-main,其中有chp2~chp8的示例代码。
注意右下角的解释器,选择自己下载好pytorch的环境,笔者这里是名为python3.7的环境(可以起任意名)。
在这里插入图片描述

chp2: fmm分词&svg

Page23:最简单的分词算法:正向最大匹配(Forward Maximum Matching, FMM)
i.e. 从前向后扫描桔子中的字符串,尽量找到词典中较长的单词作为分词的结果。
fmm_word_seg.py
在这里插入图片描述
Page16:svd.py奇异值分解,这里正确显示需要添加字体,详见chp2代码调试
在这里插入图片描述
在这里插入图片描述

chp3: 维基百科语料库处理

下载的文本text文件夹、wikiextractor工具、语料库压缩包均放在chp3同级的chp3-src目录中。注意,如果要用pycharm打开项目,那么应当单独打开chp3,否则如果打开项目中包含了text语料库,则会消耗大量时间进行编制索引 indexing (笔者进行了一个下午都没搞完AA文件夹,所以大概是不可行)
page63:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/362200
推荐阅读
相关标签
  

闽ICP备14008679号