赞
踩
一周SOTA:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊
最近UC伯克利主导的LMSYS Org发布了大语言模型排位赛,刷新了大家对当下比较出名的开源和「闭源」聊天机器人的认识。
传送门:UC伯克利LLM排行榜再更新!GPT-4稳居第一,Vicuna-33B登顶开源模型第一
6月29日,来自LMSYS Org的研究人员发布了两个支持16k token上下文长度的开源大模型LongChat-7B和LongChat-13B,并测试了几个支持长上下文能力的几个大模型的实际表现。
目前支持长上下文的开源大模型已经有支持65K的 MPT-7B-storyteller 和32K的ChatGLM2-6B,闭源大模型比如 Claude-100K and GPT-4-32K,但LMSYS Org的研究人员还是选择通过测试来印证它们是「李鬼」还是「李逵」。
如何迅速有效地确认一个新训练的模型是否能够真地有效处理预期的上下文长度?
为了解决这个问题,研究团队可以基于需要LLM处理长上下文的任务进行评估,例如文本生成、检索、摘要和长文本序列中的信息关联。
研究人员们设计了一个名为LongEval的长上下文测试套件,包括两个难度不同的任务,提供了一种简单快捷的方式来衡量和比较长上下文的性能。
任务一:粗粒度主题检索
研究团队使用主题检索任务来模拟长对话中讨论会在多个主题之间跳转的场景。
这个任务会要求聊天机器人检索由多个主题组成的长对话中的第一个主题,测试模型是否能够定位长下文中的一段文本并将其与正确的主题名称相关联。
任务二:细粒度检索
为了进一步测试模型在长对话中定位和关联文本的能力,研究人员引入了更精细的行检索测试(Line Retrieval test)。在这个测试中,聊天机器人需要精确地从长文档中检索一个数字,而不是从长对话中检索一个主题。
LMSYS Org的研究人员考虑了4款开源和2款闭源大模型。
图注:表1:模型规格
根据粗粒度的主题检索测试结果(如下图),可以发现:
图注:(任务一:粗粒度主题检索)在长距离主题检索任务上比较LongChat与其他模型
在更细粒度的行检索测试中,可以发现:
图注:(任务二:细粒度检索)长距离行检索任务的准确率
LongChat 通过压缩旋转嵌入技术,对从 ShareGPT 收集的用户共享对话分别微调 llama-7b、llama-13b 得到。评估结果表明,LongChat-13B 的远程检索准确性比其他长上下文模型高出 2 倍,包括 MPT-7B-storywriter(65K)、MPT-30B-chat(8K)和 ChatGLM2-6B(32k)。
LongChat模型在长距离检索任务上表现良好,但这是否会导致人类偏好显著下降呢?
研究人员使用了GPT-4评分的MT-bench测试LongChat是否仍然符合人类的偏好。结果发现:
图注:表2. LongChat-13B与其他类似规模的模型比较MT-bench得分
北大团队发布了首个中文法律大模型落地产品ChatLaw,为大众提供普惠法律服务。模型支持文件、语音输出,同时支持法律文书写作、法律建议、法律援助推荐。
ChatLaw 是一个法律大型语言模型,可以集成外部知识库,并基于姜子牙-13B 和 Anima-33B 进行训练,具有较强的逻辑推理能力。
目前开源了三个模型型号:ChatLaw-13、ChatLaw-33B、ChatLaw-Text2Vec。
论文地址:https://arxiv.org/abs/2306.16092
开源地址:https://github.com/PKU-YuanGroup/ChatLaw
官方地址:https://www.chatlaw.cloud/
ChatLaw 法律大型语言模型
扁鹊是一个中文医疗对话模型,当前发布两个版本 扁鹊-1.0 和 扁鹊-2.0。相比常见开源医疗问答模型,扁鹊更注重多轮交互中用户描述不足的情况,定义了询问链并强化了建议和知识查询能力。
开源地址:https://github.com/scutcyr/BianQue
HuggingFace地址:https://huggingface.co/spaces/scutcyr/BianQue
该项目由华南理工大学未来技术学院-广东省数字孪生人重点实验室发起的,开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT,包括:(1) 经过千万规模中文健康对话数据指令微调的生活空间健康大模型扁鹊 (BianQue) ;(2) 经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心 (SoulChat)。
图注:中文领域生活空间主动健康大模型基座ProactiveHealthGPT
模型开源链接如下:
扁鹊 (BianQue):https://github.com/scutcyr/BianQue
灵心 (SoulChat):https://github.com/scutcyr/SoulChat
欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。
参考:
https://lmsys.org/blog/2023-06-29-longchat/
https://www.zhihu.com/question/610072848/answer/3101663890
https://www.chatlaw.cloud/
https://www.163.com/dy/article/I70BJ9U00552UJUX.html
https://github.com/scutcyr/BianQue
https://www.ppmy.cn/news/52419.html?action=onClick
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。