赞
踩
今天我们来介绍 DeepSeek-V2,这是一个强大的混合专家 (MoE) 语言模型,具有训练经济、推理高效的特点。它总共包含 236B 参数,其中每个 token 激活 21B。与 DeepSeek 的 67B 相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提升至 5.76 倍。
我们在一个包含 8.1 万亿个 token 的多样化高质量语料库上对 DeepSeek-V2 进行了预训练。在进行全面的预训练之后,我们进行了监督微调 (SFT) 和强化学习 (RL),以充分发挥模型的功能。评估结果验证了我们方法的有效性,因为 DeepSeek-V2 在标准基准和开放式生成评估中都取得了出色的表现。
模型 | #总参数 | #已激活参数 | 上下文长度 | 下载 |
---|---|---|---|---|
DeepSeek-V2-Lite | 16B | 2.4B | 32千 | https://www.wpsshop.cn/w/煮酒与君饮/article/detail/878710 推荐阅读 相关标签 Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。 |