赞
踩
流式输出就是一边生成一边输出结果,而不需要所有的结果都输出完成。流式传输是一种HTTP协议的特性,它允许服务器在响应数据准备好之前就开始向客户端发送数据。当数据准备好之后,服务器会将其作为一个或多个“块”传输到客户端,直到响应完成。
流式传输通常用于需要实时更新数据的应用程序,例如聊天应用程序、股票报价等。使用流式传输,客户端可以在服务器更新数据时实时接收更新,而无需等待完整的响应。
最近在部署Fastchat的vicuna-7b-v1.5-16k, Fastchat本身没有流式输出的serve,所以查找了一些资料,我的参考资料为FastChat+vicuna1.1部署与流式调用实践 - 知乎
1. 在 FastChat/fastchat/serve/ 目录下增加 api_stream.py
脚本
2. 在 FastChat/fastchat/protocol/ 目录下增加chat_completion.py 脚本
这两个脚本都在上面给的参考资料里博主的github代码库中下载,所在目录同上⬆️GitHub - little51/FastChat: An open platform for training, serving, and evaluating large languages. Release repo for Vicuna and FastChat-T5.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。