赞
踩
最近由于做数字人项目,采用的是wav2lip + GFPGAN进行人脸面部高清,但GFPGAN模型本身比较大,所以想着使用TensorRT来代替原始的pth推理看看能否提升运行速度,于是便开始了这趟windows10之下进行GFPGAN的trt推理的折腾之旅。
我会提供一个我写好GFPGAN的trt推理的完整工程包。我的环境是windows10 + cuda11.7 + cudnn 8.9.2 + TensorRT-8.5.1.7 + pycuda_cuda115 + python3.8的虚拟环境。
TensorRT的环境安装参考英伟达官方TensorRT8.x下载地址
2.1.1 pip安装TensorRT文件夹中的.whl文件
进入python文件夹
- conda activate py38_torch # 激活你的python3.8虚拟环境
- pip install tensorrt-8.5.1.7-cp38-none-win_amd64.whl
进入graphsurgeon文件夹
pip install graphsurgeon-0.4.6-py2.py3-none-any
进入onnx_graphsurgeon文件夹
pip install onnx_graphsurgeon-0.3.12-py2.py3-none-any.whl -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
进入uff文件夹
pip install uff-0.6.9-py2.py3-none-any.whl
还有很重要的一步就是将TensorRT的lib所有文件复制到cuda的bin下面,如下图所示
验证
- import tensorrt as trt
- print(trt.__version__)
进入trt_inference/package下面
pip install pycuda-2021.1+cuda115-cp38-cp38-win_amd64.whl
进入trt_inference/model_transformer/onnx下面
- python gfpgan2onnx.py --src_model_path GFPGANv1.4.pth --dst_model_path gfpganv1.4.onnx --img_size 512
- pip install onnx-simplifier
- python -m onnxsim gfpganv1.4.onnx gfpganv1.4_sim.onnx
所以就得到了trt_inference/model_transformer/onnx/gfpganv1.4_sim.onnx
进入trt_inference/model_transformer/trt下面
python gfpgan2onnx2trt.py --src_model_path ../onnx/gfpganv1.4_sim.onnx --dst_model_path gfpganv1.4.trt
所以就得到了trt_inference/model_transformer/trt/gfpganv1.4.trt模型
进入工程文件GFPGAN-master下面
修改gfpgan/utils.py下面的如图两行
然后直接在GFPGAN-master下面运行 python run.py --face_path inputs/wav2lip.mp4 --audio_path inputs/vyrxlgmx.mp3 --final_path result.mp4 --outputs_path output,则会在output下面生成result.mp4, 生成时间为: 848.8s, 总的推理时间为: 5.8s
修改gfpgan/utils.py下面的如图所示
然后直接在GFPGAN-master下面运行 python run.py --face_path inputs/wav2lip.mp4 --audio_path inputs/vyrxlgmx.mp3 --final_path result.mp4 --outputs_path output,则会在output下面生成result.mp4, 生成时间为: 909.6s, 总的推理时间为: 11.8s
怀疑是GFPGAN中有trt中不支持的算子或者是没有进行int8量化、环境问题,好像并没有起到加速的作用,具体的原因还有待进一步排查
完整的工程代码,请看百度网盘链接: 百度网盘,提取码: gfpg
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。