赞
踩
显卡 | 目标市场 | 性能 | 应用场景 | 价格 |
---|---|---|---|---|
T4 | 企业/AI 推理 | 适中 | AI 推理, 轻量级训练, 图形渲染 | 7999(14G) |
4090 | 消费者 | 非常高 | 通用计算, 图形渲染, 高端游戏, 4K/8K 视频编辑 | 14599(24G) |
A10 | 企业/图形 | 适中 | 图形渲染, 轻量级计算 | 18999(24G) |
A6000 | 企业/图形 | 适中 | 图形渲染, 轻量级计算 | 32999(48G) |
V100 | 数据中心/AI | 高 | 深度学习训练/推理, 高性能计算 | 42999(32G) |
A100 | 数据中心/AI | 高 | 深度学习训练/推理, 高性能计算 | 69999(40G) |
A800 | 数据中心/AI | 中等 | 深度学习推理, 高性能计算, 大数据分析 | 110000 |
H100 | 数据中心/AI | 高 | 深度学习训练/推理, 高性能计算, 大数据分析 | 242000 |
Jonathan Ross - 前谷歌工程师,参与设计 TPU 芯片核心。后创办 Groq 公司,创造了世界首个语言处理单元 LPU™。
LPU™ 推理引擎可提供卓越 AI 工作负载速度,比其他领先供应商快 18 倍。
国内主流云服务厂商
国外主流云服务厂商
公司 | 名称 | 网址 | 备注 |
---|---|---|---|
百度 | 文心一言 | https://yiyan.baidu.com/ | |
阿里云 | 通义千问 | https://tongyi.aliyun.com/ | 开源模型Qwen-1.8B,7B,14B,72B、Qwen-VL和Qwen-Audio |
科大讯飞 | 星火 | https://xinghuo.xfyun.cn/ | |
百川智能 | 百川 | https://chat.baichuan-ai.com/ | 开源小模型baichuan-7B和Baichuan-13B |
零一万物 | Yi | https://github.com/01-ai/Yi | 6B 和 34B 开源模型 |
360 | 智脑/一见 | https://ai.360.cn/, https://github.com/360CVGroup/SEEChat | |
昆仑万维 | 天工 Skywork | https://github.com/SkyworkAI/Skywork | 开源且可商用,无需单独申请,Skywork 是由昆仑万维集团·天工团队开发的一系列大型模型,本次开源的模型有 Skywork-13B-Base 模型、Skywork-13B-Chat 模型、Skywork-13B-Math 模型和 Skywork-13B-MM 模型 |
腾讯 | 混元 | https://hunyuan.tencent.com/ | |
月之暗面 | Moonshot | https://www.moonshot.cn/ | “长文本”大模型 支持 20 万字输入 |
商汤科技 | 商量 | https://chat.sensetime.com/ |
4. OpenWebUI 前端页面与大模型交互
vLLM 是一个快速且易于使用的库,用于进行大型语言模型(LLM)的推理和服务。它具有以下特点:
速度快:
在每个请求需要 3 个并行输出完成时的服务吞吐量。vLLM 比 HuggingFace Transformers(HF)的吞吐量高出 8.5 倍-15 倍,比 HuggingFace 文本生成推理(TGI)的吞吐量高出 3.3 倍-3.5 倍
优化的 CUDA 内核
灵活且易于使用:
与流行的 Hugging Face 模型无缝集成。
高吞吐量服务,支持多种解码算法,包括并行抽样、束搜索等。
支持张量并行处理,实现分布式推理。
支持流式输出。
兼容 OpenAI API 服务器。
支持的模型
vLLM 无缝支持多个 Hugging Face 模型,包括 Aquila、Baichuan、BLOOM、Falcon、GPT-2、GPT BigCode、GPT-J、GPT-NeoX、InternLM、LLaMA、Mistral、MPT、OPT、Qwen 等不同架构的模型。
# (Recommended) Create a new conda environment.
conda create -n myenv python=3.9 -y
conda activate myenv
# Install vLLM with CUDA 12.1.
pip install vllm
python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/Yi-6B-Chat --trust-remote-code --port 6006
使用autodl算力服务
curl https://u394727-bf57-ff9e7382.westb.seetacloud.com:8443/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "/root/autodl-tmp/Yi-6B-Chat",
"max_tokens":60,
"messages": [
{
"role": "user",
"content": "你知道承德吗?"
}
]
}'
5. 分布式推理
要运行多 GPU 服务,请在启动服务器时传入 --tensor-parallel-size 参数。
例如,要在 2 个 GPU 上运行 API 服务器:
python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/Yi-6B-Chat --dtype auto --api-key token-agiclass --trust-remote-code --port 6006 --tensor-parallel-size 2
cd docker
docker compose up -d
敏感词库管理与用户输入过滤:
什么情况下要备案?
备案指南 && 申请引导
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。