赞
踩
本项目实现BM1684X部署语言大模型ChatGLM2-6B。通过TPU-MLIR编译器将模型转换成bmodel,并采用c++代码将其部署到BM1684X的PCIE环境,或者SoC环境。
一是将config.json
文件中seq_length
配置为512;
二是将modeling_chatglm.py
文件中的如下代码:
修改为:
这样修改可以提升效率,使用masked_fill
效率低下
加载并编译TPU-MLIR:
下载本项目‘ChatGLM2-TPU’
指定’ChatGLM2-6B‘的python路径
导出所有onnx模型,如果过程中提示缺少某些组建,直接’pip install‘即可
对onnx模型进行编译,生成bmodel,这个过程会花一些时间,最终生成’chatglm2-6b.bmodel’文件
chatglm2-6b.bmodel
和tokenizer.model
拷贝到开发板运行环境。(tokenizer.model
来自ChatGLM2-6B
)将sentencepiece编译后/workspace/sentencepiece/build/src/目录下SoC版本的libsentencepiece.a
替换到此目录的/lib/下,进入chatglm2-tpu/demo目录进行编译
如果要编译SoC环境,则修改CMakeLists.txt
为以下内容:【 CMakeLists.txt在上一级目录 】
编译
将ChatGLM2-TPU整个目录拷贝到开发板运行环境就可以执行了。
通过本地网络适配器网线直连方式,IP地址:192.168.150.1,用户名:linaro 密码:linaro
也可通过串口Serial连接,设置COM口,Speed为115200
成功进入显示linaro@bm1684的Ubuntu系统
通过LAN口网络连接方式,IP地址:172.xxx.xxx.xxx(DHCP获取的地址,可通过串口ifconfig查看IP),用户名:linaro 密码:linaro
进入到/data/目录,查看scp传输的文件:
执行编译好的C++代码,即可实现在线chat
c++部署完成!
进入chatglm2-tpu/python_demo目录进行编译
如果要编译SoC环境,则修改CMakeLists.txt
为以下内容:【 CMakeLists.txt在上一级目录 】
编译
编译成功会生成ChatGLM2.cpython-38-x86_64-linux-gnu.so
,之后将chatglm2-6b.bmodel放到python_demo目录下。
将ChatGLM2-TPU整个目录拷贝到开发板运行环境就可以执行了。
通过本地网络适配器网线直连方式,IP地址:192.168.150.1,用户名:linaro 密码:linaro
也可通过串口Serial连接,设置COM口,Speed为115200
成功进入显示linaro@bm1684的Ubuntu系统
通过LAN口网络连接方式,IP地址:172.xxx.xxx.xxx(DHCP获取的地址,可通过串口ifconfig查看IP),用户名:linaro 密码:linaro
进入到/data/目录,查看scp传输的文件:
运行
python部署完成!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。