当前位置:   article > 正文

GPT 学习笔记-让GPT基于embeddings搜索来回答问题_gpt embedding

gpt embedding

1.什么是embedding search

嵌入(Embedding)是一种将离散的符号(如词语、字符或文档)映射到连续向量空间的表示方法。它将离散的符号转换为实数向量,从而使得计算机可以更好地处理和理解文本数据。

OPENAI提供内置的Embedding api,可以直接使用。

2.如果要求GPT回答关于不熟悉的话题的问题,可以采用以下方法:

  1. 搜索:利用一个文本库,搜索相关的文本段落,这些段落可能包含与感兴趣的问题或话题相关的信息。

  2. 提问:一旦从搜索步骤中检索到相关的文本段落,将它们插入到向GPT提问的消息中,并询问具体的问题。

这种方法利用了GPT现有的知识和能力,并通过参考文本提供的额外信息来回答关于不熟悉话题的问题。

Why search is better than fine-tuning

GPT可以通过两种方式学习知识:

  1. 通过模型权重(即,在训练集上对模型进行微调)
  2. 通过模型输入(即,将知识插入到输入信息中)

虽然微调可能感觉更自然一些——毕竟,通过训练数据来学习知识是GPT学习其他知识的方式——但我们通常不建议将微调作为向模型传授知识的方式。微调更适合教授专门的任务或风格,对于事实回忆来说可靠性较低。

打个比方,模型权重就像长期记忆。当你对模型进行微调时,就像在一个离考试还有一周的时候开始复习。当考试来临时,模型可能会忘记细节,或者错误地记住从未读取过的事实。

相反,消息输入就像短期记忆。当你将知识插入到消息中时,就像带着开放式笔记参加考试。有了笔记,模型更有可能得出正确的答案。

相对于微调,文本搜索的一个缺点是每个模型一次只能阅读最大数量的文本。搜索方法的一个限制是每个模型一次只能阅读有限量的文本。因此,提取并提供简明扼要、相关的文本段落对于有效地回答问题至关重要。

延续上面的比喻,可以将模型想象成一个学生,尽管可能有许多书籍可供参考,但一次只能看几页笔记。

因此,为了构建一个能够利用大量文本回答问题的系统,我们建议采用搜索-提问的方法。

搜索

文本可以通过多种方式进行搜索,例如:

  • 基于词汇的搜索
  • 基于图的搜索
  • 基于Embedding的搜索

后面的例子使用基于嵌入的搜索。嵌入是一种简单实现的方法,特别适用于问题,因为问题通常在词汇上与其答案不重叠。

将仅使用嵌入进行搜索作为构建自己系统的起点。更好的搜索系统可以结合多种搜索方法,以及诸如受欢迎程度、最新性、用户历史、与先前搜索结果的冗余度、点击率数据等特征。通过技术如HyDE,可以改进问答检索性能,其中问题首先被转化为假设的答案,然后再进行嵌入。同样地,GPT也可以通过自动将问题转化为一组关键词或搜索术语来潜在地改进搜索结果。

以上学习通过

openai-cookbook/examples/Question_answering_using_embeddings.ipynb

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/242441
推荐阅读
相关标签
  

闽ICP备14008679号