“Datawhale AI夏令营第二期”-NLP方向 task2 笔记

作者：人工智能uu | 2024-07-21 21:55:54

踩

班级群-NLP自然语言处理12—yujiarui-太原理工大学

Task2：从baseline代码详解入门深度学习：

配置环境：

运行环境我们还是基于魔搭平台进行模型训练，这里不再重复说明。另外，有几个包需要额外安装：

torchtext ：是一个用于自然语言处理（NLP）任务的库，它提供了丰富的功能，包括数据预处理、词汇构建、序列化和批处理等，特别适合于文本分类、情感分析、机器翻译等任务
jieba：是一个中文分词库，用于将中文文本切分成有意义的词语
sacrebleu：用于评估机器翻译质量的工具，主要通过计算BLEU（Bilingual Evaluation Understudy）得分来衡量生成文本与参考译文之间的相似度


!pip install torchtext
!pip install jieba 
!pip install sacrebleu

spacy：是一个强大的自然语言处理库，支持70+语言的分词与训练

这里，我们需要安装 spacy 用于英文的 tokenizer（分词，就是将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作），不同环境的安装请参考：https://spacy.io/usage，如果使用魔搭平台，可按照下图中的配置进行安装：

将下载到本地的压缩包上传到你的魔搭平台上的 dataset 目录下:

然后使用!pip install ../dataset/en_core_web_trf安装英文语言包：


!pip install -U pip setuptools wheel -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install -U 'spacy[cuda12x,transformers,lookups]' -i https://pypi.tuna.tsinghua.edu.cn/simple
!pip install ../dataset/en_core_web_trf-3.7.3-py3-none-any.whl

终端完全运行的样子：

结果：用时10分13秒，得到submit_test.txt文件。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/862362