赞
踩
论文:https://arxiv.org/abs/2403.04652
代码:https://github.com/01-ai/Yi
模型:https://huggingface.co/01-ai
易模型系列(Yi model series)在大语言模型(LLM)领域的创新和实践,包括模型设计、数据处理、以及模型能力扩展等方面。
模型设计与目标
数据工程
模型能力扩展
基础设施与效率
社区影响
结果:易模型系列”的开发和实践展示了在大规模语言模型领域,通过精心的数据工程、模型设计和基础设施支持,如何有效提升模型性能和效率,同时对整个AI社区产生积极影响。
问题: 如何确保大规模语言模型在预训练阶段能够学习到高质量、高多样性的知识,以展现出先进的能力?
解法:
假设我们正在构建一个新闻聚合网站,需要从互联网上收集大量的新闻文章。
首先,我们会遇到的问题是如何快速识别并移除低质量的文本,比如广告、垃圾信息或者是复制粘贴的内容。
这时,启发式规则过滤器就派上用场了。
如果一篇文章的URL来自于已知的低质量内容发布网站,我们可以直接过滤掉这些来源的所有内容。
文章如果包含过高比例的特殊符号或短行,很可能是格式混乱、质量低下的文本,通过设定特定的阈值,可以自动识别并排除这类内容。
对于那些包含大量重复段落或短语的文章,也可以视为低质量内容进行过滤。
尽管启发式规则很有用,但它们可能无法处理一些更复杂的情况,比如文本中隐含的不当内容或质量难以通过简单规则定义的文本。
这时,我们可以利用机器学习模型来识别这些细微而复杂的情况。
我们可以训练一个分类器,来识别那些类似于维基百科这样高质量网站的文章。
这种分类器可以基于文章的结构、用词、主题等特征进行训练。
使用文本的一致性打分模型来评估文章是否流畅、逻辑连贯。
如果文章被判断为由随机句子或段落拼凑而成,那么可以认为它是低质量的。
构建一个安全评分器,专门识别含有毒性内容(比如暴力、色情等)的文章,确保这类内容不会被收录。
聚类是一种无监督学习方法,可以帮助我们理解和组织数据中的自然分组,进而增强数据的语义多样性。
我们可以对收集到的所有新闻文章进行语义聚类,将相似主题或内容的文章分为一组。
这有助于我们发现过度集中的主题或缺乏代表性的领域。
通过分析每个聚类的质量标签,我们可以优化新闻源的选择,比如发现某个聚类中的文章普遍质量不高,则可以针对性地调整或排除这类来源。
详情请猛击:MinHash-LSH 哈希模糊去重:如何解决医学大模型的大规模数据去重?
令牌化方法
模型架构调整
通过高质量、高多样性的数据处理,以及模型架构的细微调整,来确保模型能够学习到丰富而深入的知识,展现出高级的能力。
整个过程,如同做饭:
数据清洗流程:
用于提高数据质量的多级数据清洗管道:
数据构成:
模型配置:
表1提供了6B和34B两种模型的主要配置参数:
微调的数据不在多,在精。
一般,我们就是采用垂类领域的开源数据集,他们不是,是自己手动标注的,精心构造。
数据在构造过程中,采用WizardLM中的方法获取难度较高提示的数据集,采用LIMA中回复风格(总-分-总)对生成回复内容格式化,采用“Step-Back”模式对维链数据格式化。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。