赞
踩
最近做了一些大模型方面的研究 ,资料、开源模型源源不断,特此记录及近况更新。
llama模型是开源的,但需要发送申请,hugging face上有贡献者发布的hf转换模型(作为学术探讨,商业利益相关暂时不论,下文同)。
斯坦福在这之上最先使用了self-instruction生产的52k语料,使用lora技术微调开源了alpaca,据此经验,一系列羊驼模型出现,比如luotuo、驼铃等。这也是我觉得生态比较好的开源模型。
链家科技基于bloom进行指令微调开源了BELLE,同时也开源了一些中文数据集。
开源了支持中英双语的对话语言模型ChatGLM-6B,以及基底模型GLM
在中文对话和下游应用上,截至3.31是我目前测过效果最好的chat模型。基于chatglm-6B,还有许多人贡献了不少微调及应用代码,比如:
目前笔者参考第一个链接基于lora对chatglm-6b进行微调用于信息抽取任务
粗略的按照以下分类统计了三个预训练模型的词表,所以为什么chatglm对中文的支撑效果好,看词表也能略知一二了。
模型 | 英文 | 中文 | 标点 | 其他 | 合计 |
---|---|---|---|---|---|
llama-7b-hf | 24120 | 700 | 1167 | 5990 | 31977 |
BELLE-7B-2M | 89974 | 28585 | 1827 | 130223 | 250609 |
chatglm-6b | 63775 | 61345 | 1469 | 3660 | 130249 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。