当前位置:   article > 正文

【大模型】FastChat实现gpt一样流式输出,亲测有效!!!_fastchat教程

fastchat教程

一、简介

    流式输出就是一边生成一边输出结果,而不需要所有的结果都输出完成。流式传输是一种HTTP协议的特性,它允许服务器在响应数据准备好之前就开始向客户端发送数据。当数据准备好之后,服务器会将其作为一个或多个“块”传输到客户端,直到响应完成。

    流式传输通常用于需要实时更新数据的应用程序,例如聊天应用程序、股票报价等。使用流式传输,客户端可以在服务器更新数据时实时接收更新,而无需等待完整的响应。

二、背景

最近在部署Fastchat的vicuna-7b-v1.5-16k, Fastchat本身没有流式输出的serve,所以查找了一些资料,我的参考资料为FastChat+vicuna1.1部署与流式调用实践 - 知乎

三、实现流式输出

1. 在 FastChat/fastchat/serve/ 目录下增加 api_stream.py 脚本

2. 在 FastChat/fastchat/protocol/ 目录下增加chat_completion.py 脚本

这两个脚本都在上面给的参考资料里博主的github代码库中下载,所在目录同上⬆️GitHub - little51/FastChat: An open platform for training, serving, and evaluating large languages. Release repo for Vicuna and FastChat-T5.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/73757
推荐阅读