当前位置:   article > 正文

通过fastapi多卡部署codellama-13b-instruct模型

codellama-13b-instruct

# 如果通过多卡去部署13b会发现两个卡会占用两个进程 rank=0 rank=1,这种情况 会导致程序死掉,所以无法直接部署

  1. class Config(BaseModel):
  2. prompts: List[str]=["""\
  3. import socket
  4. def ping_exponential_backoff(host: str):"""]
  5. max_gen_len: Optional[int] = None
  6. temperature: float = 0.2
  7. top_p: float = 0.90
  8. if dist.get_rank() == 0:
  9. @app.post("/llama/")
  10. def generate(config: Config):
  11. prompts = [config.prompts[0]]
  12. print(prompts)
  13. max_gen_len = config.max_gen_len
  14. temperature = config.temperature
  15. top_p = config.top_p
  16. dist.broadcast_object_list([config.prompts, config.max_gen_len,
  17. config.temperature, config.top_p])
  18. #print(instructions,max_gen_len,temperature,top_p)
  19. results = generator.text_completion(
  20. prompts, # type: ignore
  21. max_gen_len=max_gen_len,
  22. temperature=temperature,
  23. top_p=top_p,
  24. )
  25. print(results)
  26. return {"responses": results}
  27. uvicorn.run(app, host="127.0.0.1", port=5000)
  28. else:
  29. while True:
  30. config = [None] * 4
  31. try:
  32. dist.broadcast_object_list(config)
  33. generator.text_completion(
  34. config[0], max_gen_len=config[1], temperature=config[2],
  35. top_p=config[3]
  36. )
  37. except:
  38. pass

通过判断rank进行部署,这样就不会报错了^_^

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/128402
推荐阅读
相关标签
  

闽ICP备14008679号