当前位置:   article > 正文

DeepSeek-V2:强大、经济、高效的混合专家语言模型 github页面

DeepSeek-V2:强大、经济、高效的混合专家语言模型 github页面

DeepSeek-V2:强大、经济、高效的混合专家语言模型

1. 简介

今天我们来介绍 DeepSeek-V2,这是一个强大的混合专家 (MoE) 语言模型,具有训练经济、推理高效的特点。它总共包含 236B 参数,其中每个 token 激活 21B。与 DeepSeek 的 67B 相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提升至 5.76 倍

 

我们在一个包含 8.1 万亿个 token 的多样化高质量语料库上对 DeepSeek-V2 进行了预训练。在进行全面的预训练之后,我们进行了监督微调 (SFT) 和强化学习 (RL),以充分发挥模型的功能。评估结果验证了我们方法的有效性,因为 DeepSeek-V2 在标准基准和开放式生成评估中都取得了出色的表现。

2. 新闻

  • 2024.05.16:我们发布了DeepSeek-V2-Lite
  • 2024.05.06:我们发布了DeepSeek-V2。

3. 模型下载

模型#总参数#已激活参数上下文长度下载
DeepSeek-V2-Lite16B2.4B32千https://www.wpsshop.cn/w/煮酒与君饮/article/detail/878710
推荐阅读
相关标签