赞
踩
中文综合能力(AlignBench):开源模型中最强,与 GPT-4-Turbo
、文心 4.0 等闭源模型在评测中处于同一梯队
英文综合能力(MT-Bench) :处于第一梯队 英文综合能力(MT-Bench
)与最强的开源模型 LLaMA3-70B
处于同一梯队,超过最强 MoE
开源模型 Mixtral8x22B
知识:知识、数学、推理、编程等榜单结果位居前列
上下文:开源模型和 API
支持 128K
上下文
一些分析报告指出,DeepSeek V2
模型在训练时使用了高达8.1万亿个token,并且展示了令人难以置信的高效训练能力,其计算需求仅为Meta Llama 3 70B
模型的五分之一。
换一种说法,DeepSeek-V2
在训练时所需的计算资源仅为 GPT-4
的二十分之一,但性能上却相差无几。
有外国网友对此给予了极高的评价,认为 DeepSeek V2
在仅有210亿个活跃参数的情况下,能够展现出如此强大的推理能力,实在令人震惊。
作为AI技术的前沿领域,大模型更新换代之快有目共睹,再强的性能也可能在发布的下一秒就被友商反超。
因此,DeepSeek
选择“卷”价格。
目前DeepSeek-V2 API
的定价为:每百万token输入1元、输出2元(32K上下文)。
和友商相比,仅为 GPT-4-Turbo
的近百分之一。
DeepSeek
宣称,其使用8个H800 GPU的单台服务器在最佳状态下每秒能够处理超过50000个解码token。
如果只考虑按照输出 token
的 API
计费,那么每个服务器每小时可以赚取超过50美元。
假设服务器的使用率是100%
,并且每个8个 H800 GPU
的服务器每小时的成本是15美元,那么 DeepSeek
的每台服务器每小时的净收益高达35美元以上,毛利率甚至超过70%。
有专家分析认为,即便服务器的使用率没有达到最大,或者批处理速度没有达到最高性能,DeepSeek
依然拥有可观的利润空间。
总结就是,主打一个“经济实惠”,简直就是AI版“拼多多”。
– 欢迎点赞、关注、转发、收藏【我码玄黄】,gonghao同名
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。