赞
踩
上周,Stability AI 开源 Stable Code Instruct-3B,Mistral AI 宣布 Mistral 7B v0.2 Base Model,Databricks 开源了其 MoE 模型 DBRX,通义千问团队发布 MoE 模型:Qwen1.5-MoE-A2.7B,AI21 Labs 宣布开源 MoE 大模型 Jamba。
3 月 25 日,Stability AI 开源了小体量预训练模型 Stable Code Instruct 3B。这是一个基于 Stable Code 3B 的指令调整编码语言模型。给出自然语言 prompt,该模型可以处理各种任务,例如代码生成、数学和其他软件工程相关的任务。Stable Code Instruct 3B 增强了代码补全能力,还支持自然语言交互,旨在提高编程和软件开发相关任务的效率和直观性。
Stable Code Instruct 3B 实际有27亿参数,在1.3万亿个多样化的文本和代码数据集上进行预训练,用于代码补全、Debug等代码生成任务。
Stable Code Instruct 3B 根据 Stack Overflow 2023开发者调查的结果,将训练专注于Python、Javascript、 Java、C、Ct+和Go等18种编程语言。
Stable Code Instruct 3B 在代码处理精准度、自然语言识别及多种编程语言的处理能力上都有出色表现。
在MultiPL-E基准测试中,Stable Code Instruct 3B 展示了与同类模型相比的最先进性能。尤其在软件工程相关的任务上,Stable Code Instruct 3B 的表现甚至超过了规模更大的模型,比如 CodeLlama Instruct 7B 和 DeepSeek-Coder Instruct 1.3B。此外,Stable Code Instruct 3B 的性能与 StarChat 15B 相当。
根据Stability AI公司的介绍,Stable Code Instruct 3B的主要功能包括:
根据代码上下文自动产生代码;
根据相关代码场景,自动插入和补充代码;
能够生成与数据库交互的代码;
支持将代码从一种编程语言翻译为另一种编程语言;
对原有代码进行功能注释;
可根据用户需求生成新的代码。
模型测试地址:https://huggingface.co/spaces/stabilityai/stable-code-instruct-3b
Stable Code Instruct 3B是开源的,但是商业使用则需要拥有Stability AI的会员资格。
3月25日,Mistral AI 在一个名为 Cerebral Valley 的黑客松活动上宣布开源 Mistral-7B-v0.2 Base Model。
Mistral-7B-v0.2 是 Mistral AI 最新开源的70亿参数基座大语言模型,是此前Mistral-7B-v0.1 的升级版本。
此次更新主要包括三个方面:① 将 8K 上下文提到了 32K;② Rope Theta = 1e6;③ 取消滑动窗口。
下载链接:https://models.mistralcdn.com/mistral-7b-v0-2/mistral-7B-v0.2.tar
项目入口:https://top.aibase.com/tool/mistral-7b-instruct-v0-2
官方也有一个图来对 Mistral-7B-Instruct-v0.2 与其它模型的区别:
接连3天,业界有3个重磅的MoE技术大模型开源,包括 DBRX、Jamba 和阿里的Qwen1.5-MoE-A2.7B。
3 月 28 日, Databricks 开源了通用大模型 DBRX,这是一款拥有 1320 亿参数和 360亿 激活参数的混合专家模型(MoE),并支持 32k Tokens 的最长上下文长度,Base 和 Instruct 版本已经在 Github 和 Hugging Face 上发布。
DBRX 在语言理解、编程、数学和逻辑等方面轻松击败了目前业内领先的开源大模型,如LLaMA2-70B、Mixtral和 Grok-1。
DBRX 的整体性能超越GPT-3.5,尤其在编程方面,完全击败了GPT-3.5。
表 1 显示了 DBRX Instruct 和领先的开源模型比较结果。可以看出,DBRX Instruct 在两个综合基准(composite benchmarks)、编程和数学基准以及 MMLU 方面表现优越。
表 1. DBRX Instruct 和领先的开源模型比较
表 2 显示了 DBRX Instruct 和领先的闭源模型比较结果。DBRX Instruct 超越了 GPT-3.5(如 GPT-4 论文中所述),并且与 Gemini 1.0 Pro 和 Mistral Medium 具有相当的竞争力。
表 2.DBRX Instruct 与闭源模型的比较
DBRX 经対了 12T Tokens 的预训练,并提供了基础模型和指令遵循的微调模型,供研究和商业用途使用。该模型采用了细粒度的专家混合架构和先进技术,如旋转位置编码 (ROPE)和门控线性单元 (GLU),在大规模文本和代码数据上进行预训练,支持长达了2k Tokens的上下文长度。
企业可以在Databricks平台上访问DBRX,能在RAG系统中利用长上下文功能,还可以在自己的私有数据上构建定制的DBRX模型。
开源社区可以通过GitHub存储库和Hugging Face访问DBRX。
GitHub项目地址:https://github.com/databricks/dbrx
Hugging Face项目地址:https://huggingface.co/databricks
3 月 28 日,通义千问团队发布首个 MoE 模型 Qwen1.5-MoE-A2.7B,总的参数数量是143亿,但每次推理只使用 27亿 参数。与 Mistral 7B 和 Qwen1.5-7B 等最先进的7B模型的性能相媲美。
Qwen1.5-MoE-A2.7B 在参数数量上显著减少,仅为 Qwen1.5-7B 模型的三分之一,训练成本降低了 75%,推理速度则提升了 1.74 倍,展现了卓越的效率和性能。
Qwen1.5-MoE-A2.7B 采用了特别设计的MOE架构,包括每个transformer block中的8个expert,并引入了新的routing机制 DeepSeek-MOE,以及64个expert的finegrained experts设计。
阿里对MOE架构的几项修改:
Qwenl.5-MoE-A2.7B 在多个评估任务中表现出色,包括语言理解、数学和代码能力,以及多语言能力。
Qwen1.5-MoE-A2.7B 模型是允许免费商用的。不过由于最新的transformers代码没有合入这个模型,所以想要使用的话需要从GitHub下载源码进行编译安装后才能使用。
3 月 29 日,AI21 Labs 开源首个基于 Mamba 架构的生产级别的大语言模型 Jamba,拥有 520亿 总参数和 120亿 活跃参数,是全球首个SSM-Transformer混合模型。
目前大部分的大模型(如GPT、Gemini 和 Llama)都是基于 Transformer 结构,而 Jamba 结合了 Mamba 结构化状态空间模型(SSM)和 传统Transformer 架构,兼具了高质量输出、高吞吐量和低内存占用的优点。该混合结构的模型提供了256K的上下文窗口,显著提升了处理长文本时的吞吐量和效率。
Mamba 结构由卡内基梅隆大学和普林斯顿大学的研究人员提出,主要解决 Transformer 内存占用大,随着上下文的增长推理速度变慢等问题,在 Jamba 推出之前,Mamba 用例更多停留在学术圈。
Jamba 的关键特点:
Jamba 在各种基准测试中均优于或与同尺寸级别的其他最先进型号相媲美。
Blog地址:https://www.ai21.com/blog/announcing-jamba
Mamba论文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces
论文地址:https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf
Hugging Face地址:https://huggingface.co/ai21labs/Jamba-v0.1
参考:https://stability.ai/news/introducing-stable-code-instruct-3b?ref=top.aibase.com
欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。