赞
踩
M o d e l Model Model | n p a r a m s n_{params} nparams | n l a y e r s n_{layers} nlayers | d m o d e l d_{model} dmodel | d f f d_{ff} dff | n h e a d s n_{heads} nheads | d h e a d d_{head} dhead | n_position |
---|---|---|---|---|---|---|---|
E V A 2. 0 B a s e EVA2.0_{Base} EVA2.0Base | 300M | 12 | 768 | 3072 | 12 | 64 | 512 |
E V A 2. 0 L a r g e EVA2.0_{Large} EVA2.0Large | 970M | 24 | 1024 | 4096 | 16 | 64 | 512 |
E V A 2. 0 x L a r g e EVA2.0_{xLarge} EVA2.0xLarge | 2.8B | 24 | 2048 | 5120 | 32 | 64 | 512 |
C D i a l G P T L C C C − b a s e CDialGPT_{LCCC-base} CDialGPTLCCC−base | 104M | 12 | 768 | 3072 | 12 | 64 | 513 |
C D i a l G P T 2 L C C C − b a s e CDialGPT2_{LCCC-base} CDialGPT2LCCC−base | 104M | 12 | 768 | 3072 | 12 | 64 | 513 |
C D i a l G P T L C C C − l a r g e CDialGPT_{LCCC-large} CDialGPTLCCC−large | 104M | 12 | 768 | 3072 | 12 | 64 | 513 |
G P T 2 − c h i t c h a t GPT2-chitchat GPT2−chitchat | 88M | 12 | 768 | 3072 | 12 | 64 | 300 |
dialogue-bart-base-chinese | 6 | 768 | 3072 | 12 | 64 | 512 | |
dialogue-bart-large-chinese | 12 | 1024 | 4096 | 16 | 64 | 512 |
删除平台标记:Reply to @***,[dog];
删除文本中的URL;
大于30轮的对话分割为小于三十轮的多个对话;
一个句子中重复6次以上的短语或单词只保留一份;
删除回复太长或太短的对话;
删除广告(A dataset for research on short-text conversations,EMNLP2013);
如果回复中90%的三元语法是高频三元语法,则删除对话;
如果回复是具有某些特定形式的通用回复,则删除对话;
删除回复与帖子相同的对话;
去除含有脏词、敏感词、方言、特殊词如左氧氟沙星、姓名、称呼或者未知的缩写、特殊符号和表情符号、平台标志如广告、图片、视频相关词语的对话。
(1)人工标注了十万个对话训练一个BERT,识别对话是否为噪声:
(2)人工标注了一万个话语训练一个BERT,识别出现外部上下文知识,超出文本,使人难以理解。
把所有历史话语拼接成一个长文本序列,输入包括三种embedding之和,分别为word embedding,speaker embedding,position embedding。词嵌入和位置嵌入在预训练阶段学习,说话人嵌入则在后训练(微调)阶段学习。speaker embedding嵌入被用来表明不同的说话人,参考BERT,使用[CLS]和[SEP]表征一个句子的开始符和结束符。
参考DialoGPT,基于Chinese-GPT(GPT-Novel),在LCCC上进行训练。对于多轮对话,将第二个到最后一个句子都作为对话历史的回复。
GPT(Noval):12层GPT,104M参数;
CDialGPT(LCCC-base):12层GPT,104M参数;
CDialGPT2(LCCC-base):12层GPT2,104M参数;
CDialGPT(LCCC-large):12层GPT,104M参数;
参考了GPT2-Chinese和DialoGPT。
开源地址:https://github.com/yangjianxin1/GPT2-chitchat。
使用GPT2模型对中文闲聊语料进行训练,根据微软的DialoGPT的思想,在项目中添加了互信息。训练了两个模型:Dialogue Model与MMI Model(maximum mutual information scoring function)。首先使用Dialogue Model生成多个候选response,然后使用MMI Model从候选response中,选取loss最小的作为最终的response。
具体可见:https://zhuanlan.zhihu.com/p/101151633
社交媒体上的交互数据可以分为三类:
参照LCCC的数据清洗策略和方法。
传统的基于字符级的中文分词容易丢失汉语词汇或短语的重要于一,因此构建了一个中文的子词词表,包括中文的字和词,基于Sentencepiece的unigram language model。总共包含3万个词。
Encoder-Decoder型架构;
对于n个utterance,以n-1个utterances编码,生成第n个utterance。
最大编码和解码长度设置为128。
为了解决短utterance被大量pad的效率瓶颈,提出了一个新的数据采样策略,将多个context-response pairs拼成一个样本,引入新的attention-mask来区分它们,确保它们不会互相干扰。
EVA采用和T5一样的相对位置编码。
实验比较发现,EVA生成性能比CDialGPT好,主要体现在生成结果的信息性上,CDialGPT可能更倾向于生成通用回复。
这是目前开源的参数量最大,性能最好的中文对话预训练模型,相比EVA1.0它进行了更严格的数据清洗和过滤。这篇文章讲述了如何构造一个中文开放域的大规模对话系统,并做了一些严谨的实验去研究对训练结果造成影响的因素,如模型层数设置、预训练方法、解码策略,并且说明了对话系统仍然存在一致性、知识性、安全性的问题。
HIT-TMG开源的基于BART的中文对话模型,模型在四个语料库上训练。Chinese Persona Chat、LCCC (CPC)、Emotional STC (ESTC)、KdConv。
详情可见:
https://huggingface.co/HIT-TMG/dialogue-bart-base-chinese
https://huggingface.co/HIT-TMG/dialogue-bart-large-chinese
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。