当前位置:   article > 正文

编码数学击败GPT4-Turbo!DeepSeek-Coder-v2登顶竞技场最强开源编码模型

deepseek gpt-4o
一水 发自 凹非寺
量子位 | 公众号 QbitAI

就在刚刚,竞技场排名再次刷新:

深度求索DeepSeek-Coder-v2成竞技场最强开源编码模型!

01c0886d67a2fd02be59704605ddb851.png

它在Coding Arena中已攀升至第4名,水平接近GPT-4-Turbo

在编码领域的整体性能评估中,DeepSeek-Coder-v2的评分和稳定性均位于前10,超越智谱GLM-4、Llama-3等一众知名开源模型。

f2b83e1481f7a1e9b233c973152b2166.png

据了解,完全开源的DeepSeek-Coder-v2现提供236B16B两种参数规模,支持338种编程语言128K上下文长度。

6e98a40d5f113666b136f81979fb4e7d.png

而且就在Claude 3.5 Sonnet发布同日,深度求索官网的代码助手也第一时间上线了和“Artifacts”类似的功能(自动生成代码并直接在浏览器上运行)。

比如由DeepSeek-Coder-v2直接生成经典游戏——扫雷。

(提示词:用html实现复杂一点的扫雷游戏,数字颜色分明,有计时,有重启按钮)

8c478014aca54fdfd5817862e863b727.gif

再比如设计网页:

e7b5df71ee7fc8ae30693e50278d41d7.gif

总之,DeepSeek-Coder-v2尤为擅长编码和数学。

编码、数学击败GPT4-Turbo

深度求索于上周发布了DeepSeek-Coder-v2,它在编码和数学方面击败了GPT4-Turbo

0396e8018946a02e084a21bbd9102192.png

在Arena-Hard-Auto排行榜上,DeepSeek-Coder-v2超过了Yi-large、Claude3-Opus、GLM-4 和Qwen2-72B。

0a1e82a449feafa3a91e703fd27ec792.png

同时,DeepSeek-Coder-v2还具有良好的通用性能,在推理和中英通用能力上位列国内第一梯队。

e9a3acc2097ec2d42a1ce8fbf967d9fc.png

当时甚至有网友怒赞:

DeepSeek-Coder-v2目前位居Aider代码编辑排行榜榜首(仅用了4天),领先于GPT-4o和Opus。
它的基准测试结果甚至比DeepSeek官方图表中显示的更好。

9f838ed1f6e2f5d1af17a95b3e5787bf.png
05c648bbd311c8953ffc8de7f10eebf9.png

而现在,仅过去一周时间,DeepSeek-Coder-v2正式登顶竞技场最强开源编码模型。

随着这一登顶,其背后的公司深度求索再次引人关注。

老实说,这家公司一直很有看点。

与月之暗面、智谱AI、Minimax、百川智能等获得大厂投资的AI初创公司不同,深度求索由一家搞私募量化的投资基金发起。

当同行都在寻找AI应用落地时,深度求索却喊出了“不做应用做研究”的口号。

短短半年时间,它发布并开源了多个百亿级参数的大模型。

甚至仅凭一己之力点燃了大模型价格战的第一把火。

具体啥情况?接下来一起扒一扒。

“价格战导火索”深度求索

深度求索由知名私募巨头幻方量化于2023年4月创立。

早在2019年,幻方就发布了自研深度学习训练平台“萤火一号”。

据称该项目总投资近2亿元,共搭载了1100块GPU。

后来“萤火一号”升级为“二号”,搭载的GPU数则达到了约1万张

这意味着,单从算力看,幻方甚至比很多大厂都更早拿到了做ChatGPT的入场券。

去年11月,深度求索发布第一代大模型DeepSeek Coder,免费商用,完全开源。

紧接着12月,它又发布了参数670亿的DeepSeek,主打发布即开源。

今年5月初,深度求索宣布开源第二代MoE大模型DeepSeek-V2

没错,就是那个“性能比肩GPT-4 Turbo,价格却只有GPT-4仅百分之一”的模型。

35a33ad83bf8eb2c05405d7b99be0361.png

DeepSeek-V2推出后,深度求索一度被AI圈称作“价格屠夫”,被认为是引爆大模型价格战的导火索之一。

此外,它还推出了专为视觉与语言理解应用设计的DeepSeek-VL系列大模型。

总之,这家公司一直被视为一匹可能改变国内AI市场格局的“黑马”。

Anthropic联合创始人Jack Clark曾表示:

DeepSeek组建了一支团队,他们对训练雄心勃勃的模型所需的基础设施有着深刻的理解。中国制造也将成为AI模型的发展趋势。

最后,面对竞技场最新排名,网友们纷纷猜测新王Claude 3.5 Sonnet在编码上究竟表现如何?

3504f68f21f52be94206b37ed72bab0b.png

竞技场:在更了!在更了!

693d09e5a9d1301ee92a3d00f05841bf.png

开源地址:
https://huggingface.co/collections/deepseek-ai/deepseekcoder-v2-666bf4b274a5f556827ceeca
参考链接:
[1]https://x.com/lmsysorg/status/1804967083358523559
[2]https://x.com/deepseek_ai/status/1802680388256768145

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

0601672f5816ae1bf62aad416d93087d.png

点这里

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/893001
推荐阅读
相关标签