LLM动手实践(一): 微调google的bert和vit模型完成文本和图片的分类任务

作者：Guff_9hys | 2024-08-05 08:05:08

踩

1. 写在前面

最近大模型比较火热，也正好在公司开始接触这块相关的业务，大模型是未来的趋势，对于研发工程师来讲，是powerful的效能工具，所以想沉淀一些大模型实践相关的笔记来记录自己在使用大模型产品，部署开源大模型解决实际问题或需求，以及fine-tune大模型实现某个功能过程中的所思和所想。

本篇是动手实践的第一篇文章，我们从微调Bert和Vit模型开始，这两个模型在NLP和CV领域的地位不言而喻，自从2017年transformer问世之后， NLP领域的研究就进入了一个新的时代。2018年，谷歌为 NLP 应用程序开发了一个基于 Transformer 的强大的机器学习模型，该模型在不同的基准数据集中均优于以前的语言模型，这个模型被称为Bert， 7年过去了，现在依然能从NLP的各大场景中，看到这哥们的一个身影，Transformer 模型在自然语言处理任务中的成功引发了CV领域的兴趣，2020年，谷歌团队又尝试着将纯 Transformer 的架构应用于图像分类任务，没想到还真成了，在大规模数据集上也是均由于先前的视觉模型，这就是伟大的Vit，到现在，在视觉领域，Vit模型依然是"无可撼动"的角色。所以，第一篇文章，我们也来亲自动手微调下这两个模型，亲身感受下这两个模型的魅力，其次，就是通过微调的技术，用比较少的数据，就能使这两个“猛兽”快速适配到我们自己的任务，且取的不错的效果，站在巨人的肩膀上，快速前行。

PS：本系列是实践文章，以实践应用为主，不会有太多理论部分的介绍，关于理论部分，会给出参考文章。给出的实验代码均可直接跑通，实验环境，一块3090GPU。提前安装好包：

pip install numpy
pip install pandas
pip install scikit-learn

# pytorch相关包
pip install torch torchvision

# huggingface相关包
pip install transformers
pip install huggingface_hub
pip install datasets
pip install evaluate

# 可能用到
pip install --upgrade Pillow
pip install accelerate -U
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

还需要提前了解下transformer的原理，我之前写过一篇文章: 自然语言处理之Attention大详解（Attention is all you need）

Ok, let’s go

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Guff_9hys/article/detail/931520

LLM动手实践(一): 微调google的bert和vit模型完成文本和图片的分类任务

1. 写在前面

大纲如下