当前位置:   article > 正文

开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(二)_vllm timeout

vllm timeout

一、术语介绍

    1.1. Gunicorn

        一个用于运行Python Web应用程序的HTTP服务器。它是一个基于UNIX的预叉(pre-fork)服务器,专为在高并发环境中运行Python Web应用程序而设计。

    1.2. Flask

          一个轻量级的 Python Web 框架,用于构建Web应用程序。它被设计成简单易用且灵活的框架,提供了基本的功能和工具,同时保持了扩展性和可定制性。

    1.3. Supervisor

          一个用于进程管理的软件工具,通常用于在 Unix 或类 Unix 系统上监控和管理后台进程。它可以确保被管理的进程在意外退出或崩溃时能够自动重启,以保持系统的稳定性和可靠性。

    1.4. slb

         一种网络均衡服务

    1.5. Postman

        一个流行的API开发工具和协作平台,用于测试、调试和文档化API。它提供了一个用户友好的界面,使开发者能够轻松地构建和发送HTTP请求,并查看和分析服务器的响应。


二、部署架构


三、构建环境

    3.1. gunicorn安装

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/175522
推荐阅读
相关标签
  

闽ICP备14008679号