赞
踩
备注(下面提及的两个名词):
(1)幻觉问题:回答不准确、前后不一致等,生成内容并非基于训练数据或不符合事实。
(2)chatgpt架构师:
考虑到最大似然性目标,模型的这种选择是显而易见的,在这种情况下,模型不会太关注输出内容的正确与否,而是更看重听起来正确或看起来合理,因此,以简单方式训练出的模型常常会产生幻觉。通过微调和人类反馈,我们可以显著减少幻觉的输出,但无法完全消除。免费模型带有较多幻觉,基于GPT-4模型的幻觉输出较少,但仍偶尔出现,特别是当涉及模型未经训练、未察觉到的特定限制时。
缓解幻觉的方法:如下图,从pretrain、sft、rlhf、inference等分别入手,下图源自论文《A Survey on Hallucination in Large Language Models》
GPT-3的预训练数据就是通过与一系列高质量参考数据的相似性进行清理。
Falcon通过启发式规则从网络中仔细提取高质量数据,并证明了经过适当分级的相关语料库可以产生强大的LLM。为了减少幻觉,目前的LLM通常会从可靠的文本来源收集预训练数据。
Llama2在构建预训练语料库时,从维基百科等高度事实性的来源中向上抽取数据
在封神榜的姜子牙写作模型(https://huggingface.co/IDEA-CCNL/Ziya-Writing-LLaMa-13B-v1)中,建议的解码参数如下:
from transformers import AutoTokenizer, AutoModelForCausalLM import torch device = torch.device("cuda") query="帮我写一份去西安的旅游计划" model = AutoModelForCausalLM.from_pretrained("IDEA-CCNL/Ziya-Writing-LLaMa-13B-v1", torch_dtype=torch.float16, device_map="auto") tokenizer = AutoTokenizer.from_pretrained("IDEA-CCNL/Ziya-Writing-LLaMa-13B-v1", use_fast=False) inputs = ': ' + query.strip() + '\n:' # 对输入进行分词和编码 input_ids = tokenizer(inputs, return_tensors="pt").input_ids.to(device) generate_ids = model.generate( input_ids, max_new_tokens=2048, do_sample = True, top_p = 0.85, temperature = 0.85, repetition_penalty=1., eos_token_id=2, bos_token_id=1, pad_token_id=0) # 对生成文本进行解码 output = tokenizer.batch_decode(generate_ids)[0] print(output)
多个LLM(agent)独立提出建议,进行协作辩论,达成单一共识。
TruthfulQA:https://aclanthology.org/2022.acl-long.229/
TruthfulQA介绍:一个很重要的用于评估LLM是否能够生成符合事实的答案的QA基准,被后续的LLM工作,如GPT4采用评估。包含了817个作者手写的问题,这些问题是精心设计,往往是模型或者人类都很容易回答错误的陈述。作者发现:
[1] 大模型中的幻觉性问题.thu知识工程实验室
[2] 大模型幻觉问题调研.李rumor
[3] 大型语言模型LLM中的幻觉研究综述(一)
[4] 减轻及避免大模型LLM幻觉(二)
[5] 大模型生成幻觉研究综述:大模型幻觉的起因、评估以及减轻策略总结.老刘说NLP
[6] DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
[7] 大模型幻觉缓解前沿方案DoLa:通过对比层解码缓解大模型幻觉工作介绍.老刘说NLP
[8] A Survey on Hallucination in Large Language Models:https://arxiv.org/abs/2309.01219
[9] 论文解读:Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。