赞
踩
本次模型用于RAG实验,由于时间和财力所限。只用3个线下模型一个线上模型进行比对,开源万岁~L(‘ω’)┘三└(‘ω’)」
线下模型为
零一万物的:Yi-1.5-9B
智谱旗下的:Chatglm3-6B
智谱旗下的:Chatglm4-9B
先说结论:个人整体性能下比对结果 Yi-1.5-9B ≈ Chatglm4-9B > Chatglm3-6B
李开复「零一万物」公司的Yi-1.5可以说是Yi的升级版本。Yi-1.5 包括一系列预训练和微调模型,分为 6B、9B、34B 三个版本。它使用 500B tokens的高质量语料库训练,还有 3M 个多样化的微调样本进行微调。
效果不错~排名又涨了一波。
本来RAG使用的模型为GLM3-6B。但遗憾的是,受限于模型参数大小+通用原生模型的知识。在面对稍微比较复杂的逻辑时。哪怕知识库能提供比较准确的信息时,模型的回答效果还是一言难尽。使用GLM4的api时效果就好一些但是不稳定。(不稳定的原因是开发GLM4的大佬们更新权重太频繁了,一样的问题和提示词,哪怕temperature设到最低。隔一天答案都能不一样o(╥﹏╥)o)
而本地部署的GLM3-6B模型由于模型尺寸大小影响有2个问题:
在文字的语言理解能力的的理解上: glm4 > Yi-1.5 > glm3
显然,文字理解能力越好,则我们给其描述任务要求或规则时,对字句就越不需要斟酌。就像是知己,你说上句,它就知道你要说的下句。反之亦然。
在文字的空间理解能力的的理解上: Yi-1.5 > glm4 > glm3
什么是空间理解能力呢?(我的业务需要的能力指标,非大众指标)
定义n个空间,每个空间有自己的简单数值范围定义。然后传入对多个空间数值的简易描述。模型即可求出对应的数值。
虽然我们经常听说有大厂把大模型小型化了,甚至装上手机。但是很遗憾,就目前而言,在没有全新的架构下,模型的智力水平和理解能力既和训练样本有关,也和模型尺寸成正比。GLM3确实有是很优秀,但终究是6B。
综上所述:
业务简单时且追求速度时,推荐glm3。
规则有点复杂,无需空间理解能力时,推荐glm4。
一旦涉及空间理解能力后,建议使用Yi-1.5,如果还规则复杂的话,那就慢慢改提示词吧( ̄▽ ̄)~* 。
总之效果就是Yi-1.5-9B-Chat效果不错,不然我也不会写这个了。
题外话:
RAG当涉及空间复杂理念时,个人建议最好只许一次交流。不然多次交流后容易爆发胡言乱语。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。