赞
踩
本次Llama-3的介绍与前两个版本差不多,大量的测试数据和格式化介绍。但Meta特意提到Llama-3使用了掩码和分组查询注意力这两项技术。
目前,大模型领域最流行的Transformer架构的核心功能是自我注意力机制,这是一种用于处理序列数据的技术,可对输入序列中的每个元素进行加权聚合,以捕获元素之间的重要关系。但在使用自我注意力机制时,为了确保模型不会跨越文档边界,通常会与掩码技术一起使用。在自我注意力中,掩码被应用于注意力权重矩阵,用于指示哪些位置的信息是有效的,哪些位置应该被忽略。通常当处理文档边界时,可以使用两种类型的掩码来确保自我注意力不会跨越边界:
由于算力资源有限,使用InternStudio平台,8G显存部署量化后的llama3-8B。查看开发机的显存,如下图所示:
conda create -n llama3 python=3.10 #创建名字llama3的虚拟环境,python版本为3.10
conda activate llama3 #激活llama3环境
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia #下载pytorch
等待一会,即可安装成功。使用pip list,查看安装的结果,如下图所示:
mkdir -p ~/model #创建model文件夹
cd ~/model#切换model文件夹
使用软链接 InternStudio 中的模型命令如下
ln -s /root/share/new_models/meta-llama/Meta-Llama-3-8B-Instruct ~/model/Meta-Llama-3-8B-Instruct
使用上述软连接命令后,在model目录下即可出现模型的文件夹,如下图所示:
cd ~
git clone https://github.com/SmartFlowAI/Llama3-Tutorial
安装 XTuner 时会自动安装其他依赖
cd ~
git clone -b v0.1.18 https://github.com/InternLM/XTuner
cd XTuner
pip install -e .
下图为代码下载完成的效果:
下图为安装好依赖的效果:
运行 web_demo.py
streamlit run ~/Llama3-Tutorial/tools/internstudio_web_demo.py \
~/model/Meta-Llama-3-8B-Instruct
运行上述代码,由于显存为8G,会出现显存不够的情况,如下图:
此时需要运行量化后的命令即可。
streamlit run ~/Llama3-Tutorial/tools/internstudio_quant_web_demo.py ~/model/Meta-Llama-3-8B-Instruct
效果如下:
本次实验参考Llama3-Tutorial这个教程,有兴趣者可以访问了解一下。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。