当前位置:   article > 正文

Pytorch 模型部署方案_pytorch 部署

pytorch 部署


Torchserve 是 AWS 和 Facebook 推出的 pytorch 模型服务库,整体架构如下



  • 提供Management API和 Inference API,用户通过API进行模型管理和模型推理
  • 支持多模型,多GPU部署
  • Inference API支持批量推理
  • 支持模型版本控制
  • 提供日志服务,默认情况下,TorchServe将日志消息打印到stderr和stout




传入参数:data 字段

参数格式:Torchserve传入数据为 json 格式



  • 安装 Java 依赖

    TorchServe 由 Java 实现,因此需要最新版本的 OpenJDK 来运行

    sudo apt install openjdk-11-jdk

    安装 torchserve 及其依赖库

    pip install torchserve torchvision torchtext torch-model-archiver torch-workflow-archiver
  • 安装 Torchserve 最好的方法是使用docker镜像

    docker pull pytorch/torchserve:latest
  • 模型文件打包


    • .pth/bin模型文件(必需)
      |____ config.json
      |____ pytorch_model.bin
      |____ vocab.txt

      1. import torch
      2. import torch.nn as nn
      3. from transformers import BertForTokenClassification,BertTokenizer
      4. from transformers import WEIGHTS_NAME, CONFIG_NAME
      5. import os
      6. model = BertForTokenClassification.from_pretrained("Bert/bert", num_labels = 7)
      7. model.load_state_dict(torch.load('Bert/model/Bert.pkl'))
      8. tokenizer = BertTokenizer.from_pretrained('Bert/bert')
      9. output_dir = "./bert_model/"
      10. model_to_save = model.module if hasattr(model, 'module') else model
      11. #如果使用预定义的名称保存,则可以使用`from_pretrained`加载
      12. output_model_file = os.path.join(output_dir, WEIGHTS_NAME)
      13. output_config_file = os.path.join(output_dir, CONFIG_NAME)
      14. torch.save(model_to_save.state_dict(), output_model_file)
      15. model_to_save.config.to_json_file(output_config_file)
      16. tokenizer.save_vocabulary(output_dir)
    • model.py(非必需):该文件负责定义模型结构

    • 额外文件,bert模型需要依赖 config.json,vocab.txt文件
      |____ config.json
      |____ vocab.txt

    • handle.py(必需):该文件需要负责数据处理以及模型推理,文件中必须要有执行的入口(entry point)。入口点只接受data和context参数,data为请求数据,context包含服务上下文信息,例如model_name,model_dir,manifest,batch_size,gpu 等。服务启动后将执行该入口点。入口点有两种实现方式
      module level entry point:定义一个模块级函数作为执行的入口点,该函数可以有任何函数名称,但必须接受data,context参数并返回预测结果

      1. # Create model object
      2. model = None
      3. def entry_point_function_name(data, context):
      4. """
      5. Works on data and context to create model object or process inference request.
      6. Following sample demonstrates how model object can be initialized for jit mode.
      7. Similarly you can do it for eager mode models.
      8. :param data: Input data for prediction
      9. :param context: context contains model server system properties
      10. :return: prediction output
      11. """
      12. global model
      13. if not data:
      14. manifest = context.manifest
      15. properties = context.system_properties
      16. model_dir = properties.get("model_dir")
      17. device = torch.device("cuda:" + str(properties.get("gpu_id")) if torch.cuda.is_available() else "cpu")
      18. # Read model serialize/pt file
      19. serialized_file = manifest['model']['serializedFile']
      20. model_pt_path = os.path.join(model_dir, serialized_file)
      21. if not os.path.isfile(model_pt_path):
      22. raise RuntimeError("Missing the model.pt file")
      23. model = torch.jit.load(model_pt_path)
      24. else:
      25. #infer and return result
      26. return model(data)

      class level entry point:定义一个类作为执行的入口点,类名任意,但必须包含initialize和 handle 类方法。handle方法只接受data,context

      1. class ModelHandler(object):
      2. """
      3. A custom model handler implementation.
      4. """
      5. def __init__(self):
      6. self._context = None
      7. self.initialized = False
      8. self.model = None
      9. self.device = None
      10. def initialize(self, context):
      11. """
      12. Invoke by torchserve for loading a model
      13. :param context: context contains model server system properties
      14. :return:
      15. """
      16. # load the model
      17. self.manifest = context.manifest
      18. properties = context.system_properties
      19. model_dir = properties.get("model_dir")
      20. self.device = torch.device("cuda:" + str(properties.get("gpu_id")) if torch.cuda.is_available() else "cpu")
      21. # Read model serialize/pt file
      22. serialized_file = self.manifest['model']['serializedFile']
      23. model_pt_path = os.path.join(model_dir, serialized_file)
      24. if not os.path.isfile(model_pt_path):
      25. raise RuntimeError("Missing the model.pt file")
      26. self.model = torch.jit.load(model_pt_path)
      27. self.initialized = True
      28. def handle(self, data, context):
      29. """
      30. Invoke by TorchServe for prediction request.
      31. Do pre-processing of data, prediction using model and postprocessing of prediciton output
      32. :param data: Input data for prediction
      33. :param context: Initial context contains model server system properties.
      34. :return: prediction output
      35. """
      36. pred_out = self.model.forward(data)
      37. return pred_out


      1. from abc import ABC
      2. import json
      3. import os
      4. from transformers import BertForTokenClassification
      5. import torch
      6. from ts.torch_handler.base_handler import BaseHandler
      7. class BertHandler(BaseHandler,ABC):
      8. def __init__(self) -> None:
      9. # 父类 BertHandler 提供了基本的数据处理方法,实际任务中可按需求重写
      10. super(BertHandler,self).__init__()
      11. # 导入vocab.txt
      12. self.vocab = self._load_vocab('vocab.txt')
      13. self.max_length = 100
      14. self.input_text = None
      15. self.initialized = False
      16. def initialize(self,ctx):
      17. '''初始化类成员,加载模型
      18. 参数 ctx : 服务系统设置,服务启动后自动传入,具体属性可参考BaseHandler源码
      19. '''
      20. # 模型文件及其依赖文件位置由model_dir属性指定,后续引用文件使用model_dir+filename
      21. properties = ctx.system_properties
      22. model_dir = properties.get("model_dir")
      23. # 加载模型
      24. self.model = BertForTokenClassification.from_pretrained(model_dir,num_labels = 7)
      25. if torch.cuda.is_available():
      26. self.model.cuda()
      27. self.model.eval()
      28. self.initialized = True
      29. def _load_vocab(self,vocab_file):
      30. vocab = {}
      31. index = 0
      32. with open(vocab_file, "r", encoding="utf-8") as reader:
      33. while True:
      34. token = reader.readline()
      35. if not token:
      36. break
      37. token = token.strip()
      38. vocab[token] = index
      39. index += 1
      40. return vocab
      41. def preprocess(self,data):
      42. '''获取响应数据,数据预处理
      43. 参数 data:请求数据,格式为json
      44. 返回:模型输入张量
      45. '''
      46. # 请求数据包含在body字段中
      47. preprocessed_data = data[0].get("body").get("data")
      48. text = preprocessed_data
      49. tokens = [i for i in text]
      50. if len(tokens) > self.max_length-2:
      51. tokens = tokens[0:(self.max_length-2)]
      52. self.input_text = tokens
      53. tokens_f =['[CLS]'] + tokens + ['[SEP]']
      54. input_ids = [int(self.vocab[i]) if i in self.vocab else int(self.vocab['[UNK]']) for i in tokens_f]
      55. while len(input_ids) < self.max_length:
      56. input_ids.append(0)
      57. token_list = torch.tensor([input_ids], dtype=torch.long)
      58. return token_list
      59. def inference(self,data):
      60. '''模型预测
      61. 参数 data:模型输入张量
      62. 返回:模型预测结果
      63. '''
      64. with torch.no_grad():
      65. if torch.cuda.is_available():
      66. model_output = self.model(data.cuda(), token_type_ids=None, attention_mask=(data>0).cuda(), labels=torch.tensor([0 * self.max_length]).cuda()).logits
      67. else:
      68. model_output = self.model(data, token_type_ids=None, attention_mask=(data>0), labels=torch.tensor([0 * self.max_length])).logits
      69. return model_output
      70. def postprocess(self,inference_output):
      71. '''处理模型输出
      72. 参数 inference_output:模型输出
      73. 返回:响应数据
      74. '''
      75. tag = torch.squeeze(inference_output)
      76. tag = torch.argmax(tag, dim=1)
      77. tag = tag[1:1+len(self.input_text)]
      78. tmp = ''
      79. postprocess_output = []
      80. for t in range(len(self.input_text)):
      81. if tag[t] == 0:
      82. pass
      83. elif tag[t] == 1:
      84. tmp += self.input_text[t]
      85. elif tag[t] == 2:
      86. tmp += self.input_text[t]
      87. if t==len(self.input_text)-1:
      88. postprocess_output.append(tmp)
      89. tmp = ''
      90. elif tag[t+1] == 4:
      91. postprocess_output.append(tmp)
      92. tmp = ''
      93. else:
      94. pass
      95. elif tag[t] == 3:
      96. tmp += self.input_text[t]
      97. postprocess_output.append(tmp)
      98. tmp = ''
      99. # torchserve支持批量推理,因此返回数据需要增加一个batchsize维度
      100. return [postprocess_output]
      101. def handle(self,data,context):
      102. if not self.initialized:
      103. self.initialize(context)
      104. if data is None:
      105. return None
      106. model_input = self.preprocess(data)
      107. model_output = self.inference(model_input)
      108. return self.postprocess(model_output)


      1. torch-model-archiver --model-name bert --version 1.0 \
      2. --serialized-file bert_model/pytorch_model.bin\
      3. --extra-files bert_model/vocab.txt \
      4. --handler handle.py

      • serialized-file有多个模型,extra-files有多个依赖文件可使用逗号隔开
      • 如实际任务需提供多个接口,需要对应打包多个mar文件,通过 Inference API 指定模型名称调用

      在工作区创建model_store文件夹,将 bert.mar文件移至model_store 文件夹

      1. mkdir model_store
      2. mv bert.mar model_store/
  • 启动服务

    torchserve --start --model-store model_store --models bert.mar
  • 使用 Inference API 进行推理,默认端口号 8080

    curl http://localhost:8080/predictions/bert -T 请求数据

    1. import requests
    2. res = requests.post("http://localhost:8080/predictions/bert",json=data)
  • 使用 Management API 管理模型,默认端口号8081

    • 模型注册与注销


      curl -X POST  "http://localhost:8081/models?url=bert.mar"


      curl -X DELETE http://localhost:8081/models/bert
    • 分配workers

      curl -v -X PUT "http://localhost:8081/models/bert?min_worker=3"
    • 查看模型信息

      curl "http://localhost:8081/models"

Triton Inference server



  • 并发模型执行支持:多个模型(或同一模型的多个实例)可以在同一个GPU上同时运行
  • 批处理支持:Triton可以处理一批输入请求及其对应的一批预测结果
  • 多GPU支持:Triton可以在所有系统GPU上分布推理
  • 模型存储库可以驻留在本地可访问的文件系统(例如NFS)
  • 提供GPU利用率、服务器吞吐量和服务器延迟的指标,指标以Prometheus数据格式提供
  • 提供模型版本控制


  • 拉取镜像

    docker pull nvcr.io/nvidia/tritonserver:21.05-py3
  • 准备模型文件及依赖文件,按照下面的方式组织文件目录结构

    1. models/
    2. └── pytorch_model # 模型名字,需要和 config.pbtxt 中的名字对上
    3. ├── 1 # 模型版本号
    4. │ └── model.pt # 上面保存的模型
    5. ├── config.pbtxt # 模型配置文件,规定输入输出数据类型维度
    6. ├── extrafiles # 额外文件


    1. name: "bert"
    2. platform: "pytorch_libtorch"
    3. input [
    4. {
    5. name: "input__0"
    6. data_type: TYPE_INT32
    7. dims: [1, 100]
    8. } ,{
    9. output {
    10. name: "output__0"
    11. data_type: TYPE_FP32
    12. dims: [1, 100]
    13. }
  • 启动服务

    1. docker run --rm --gpus all \
    2. -p8000:8000 -p8001:8001 -p8002:8002 \
    3. -v model_repository:/models \
    4. nvcr.io/nvidia/tritonserver:21.05-py3 \
    5. tritonserver --strict-model-config=false --model-repository=/models
