赞
踩
如之前的文章所述,我司下半年成立大模型项目团队之后,我虽兼管整个项目团队,但为让项目的推进效率更高,故分成了三大项目组(不过到了24年Q1之后,则有了AIGC、论文、RAG、机器人、agent等五大项目组了)
对于知识库问答,现在有两种方案,一种基于llamaindex,一种基于langchain +LLM
最后强调一下,本文及后续相关的文章(比如embedding、文本语义分割、llamaindex等)更多是入门/梳理,且本文中列举的某些例子在chatchat项目更新的版本虽已经优化,但我司第三项目组在23年10月份时面对的是其较老的版本,故本文展示的优化思路依然有较大的参考价值
至于针对chatchat项目更新版本的优化,包括其中的细节/深入暂在我司的「大模型项目开发线上营」里见
将七月近两年整理的大厂面试题PDF文件作为源文件来进行知识库的构建
默认使用RapidOCRPDFLoader作为文档加载器
RapidOCR是目前已知运行速度最快、支持最广,完全开源免费并支持离线快速部署的多平台多语言OCR。由于PaddleOCR工程化不是太好,RapidOCR为了方便大家在各种端上进行OCR推理,将PaddleOCR中的模型转换为ONNX格式,使用Python/C++/Java/Swift/C# 将它移植到各个平台
更多详情参考:https://rapidai.github.io/RapidOCRDocs/docs/overview/
另,本文里的测试及二次开发主要针对langchain-chatchat的V0.2.6版本,资源及相关默认配置如下:
使用原始的langchain-chatchat V0.2.6版本,会出现对某些问题检索不到的情况
比如问一个面试题:Bert的预训练过程是什么?
可以看出,是没有检索到相关内容的出处 [1] 2021Q2大厂面试题共121题(含答案及解析).pdf
成. 15.6 bert 的改进版有哪些 参考答案: RoBERTa:更强大的 BERT 加大训练数据 16GB -> 160GB,更大的batch size,训练时间加长 不需要 NSP Loss: natural inference 使用更长的训练 SequenceStatic vs. Dynamic Masking 模型训练成本在 6 万美金以上(估算) ALBERT:参数更少的 BERT一个轻量级的 BERT 模型 共享层与层之间的参数 (减少模型参数)
出处 [2] 2022Q1大厂面试题共65题(含答案及解析).pdf
可以从预训练方法角度解答。
… 20
5、RoBERTa 相比 BERT 有哪些改进?
…
20 6、BERT 的输入有哪几种 Embedding?
出处 [3] 2022Q2大厂面试题共92题(含答案及解析).pdf
保证模型的训练,pre-norm 显然更好一些。 5、GPT 与 Bert 的区别 1) GPT
是单向模型,无法利用上下文信息,只能利用上文;而 BERT 是双向模型。 2) GPT 是基于自回归模型,可以应用在 NLU 和 NLG两大任务,而原生的 BERT 采用的基于自编码模 型,只能完成 NLU 任务,无法直接应用在文本生成上面。 6、如何加速 Bert模型的训练 BERT 基线模型的训练使用 Adam with weight decay(Adam 优化器的变体)作为优化器,LAMB 是一款通用优化器,它适用于小批量和大批量,且除了学习率以外其他超参数均无需调整。LAMB 优化器支持自
在没检索对的情况下,接下来,大模型便只能根据自己的知识去回答(下图左侧是chatglm2-6b的回答,下图右侧是chatglm3-6b的回答)
结果就是造成了大模型所谓的编造或幻觉问题,没有答到点子上:MLM和NSP
使用默认配置时,虽然上传文档可以实现基础的问答,但效果并不是最好的,通常需要考虑以下几点原因
优化方法:
关于各个embedding模型的介绍,请看此文:一文通透Text Embedding模型:从text2vec、openai-ada-002到m3e、bge
考虑到bge在各方面的表现不错,所以接下来,我们把m3e替换成bge再试下(至于如何更换embedding模型?1 找到condigs下的model_config.py文件;2 修改所用embedding模型的路径,即MODEL_PATH下的embed_model中的模型对应的路径,如:"bge-large-zh": "/data/datasets/bge-large-zh",3 修改选用的embedding模型:EMBEDDING_MODEL = "bge-large-zh"),得到的结果是:
如下图所示
最终大模型也正常答出来了(答到了点子上:MLM和NSP)
LLM问题主要有以下几点:
比如问一个面试题:用通俗的语言介绍下强化学习?
可以看出出处 [1] 2022Q2大厂面试题共92题(含答案及解析).pdf
CART 树算法的核心是在生成过程中用基尼指数来选择特征。 4、用通俗的语言介绍下强化学习(Reinforcement Learning)监督学习的特点是有一个“老师”来“监督”我们,告诉我们正确的结果是什么。在我们在小的时候,会有老师来教我们,本质上监督学习是一种知识的传递,但不能发现新的知识。对于人类整体而言,真正(甚至唯一)的知识来源是实践——也就是强化学习。比如神农尝百草,最早人类并不知道哪些草能治病,但是通 过尝试,就能学到新的知识。学习与决策者被称为智能体,与智能体交互的部分则称为环境。智能体与环境不断进行交互,具体而言,这一交互的过程可以看做是多个时刻,每一时刻,智能体根据环境的状态,依据一定的策略选择一个动作(这
出处 [2] 2021Q3大厂面试题共107题(含答案及解析).pdf
20.2 集成学习的方式,随机森林讲一下,boost 讲一下, XGBOOST 是怎么回事讲一下。 集成学习的方式主要有 bagging,boosting,stacking 等,随机森林主要是采用了 bagging 的思想,通过自助法(bootstrap)重采样技术,从原始训练样本集 N 中有放回地重复随机抽取 n 个样本生成新的训练样本集合训练决策树,然后按以上步骤生成 m 棵决策树组成随机森林,新数据的分类结果按分类树 投票多少形成的分数而定。 boosting是分步学习每个弱分类器,最终的强分类器由分步产生的分类器组合而成,根据每步学习到的分类器去改变各个样本的权重(被错分的样本权重加大,反之减小) 它是一种基于 boosting增强策略的加法模型,训练的时候采用前向分布算法进行贪婪的学习,每次迭代
出处 [3] 2022Q2大厂面试题共92题(含答案及解析).pdf
特征工程可以并行开发,大大加快开发的速度。 训练速度较快。分类的时候,计算量仅仅只和特征的数目相关。 缺点:准确率欠佳。因为形式非常的简单,而现实中的数据非常复杂,因此,很难达到很高的准确性。很难处理 数据不平衡的问题。 3、介绍下决策树算法常见的决策树算法有三种:ID3、C4.5、CART 树 ID3 算法的核心是在决策树的每个节点上应用信息增益准则选择特征,递归地构架决策树。C4.5 算法的核心是在生成过程中用信息增益比来选择特征。 CART 树算法的核心是在生成过程中用基尼指数来选择特征。4、用通俗的语言介绍下强化学习(Reinforcement Learning)
再看一个例子,即提问:生成式模型和判别式模型的区别并举一些例子
首先确定咱们的目标和步骤,我们需要先解析PDF,然后分别获取文本内容和图片内容,最后拼接文本内容和图片内容
而Langchian-Chatchat中对于不同类型的文件提供了不同的处理方式,从项目server/knoledge_base/utils.py文件中可以看到对于不同类型文件的加载方式,大体有HTML,Markdown,json,PDF,图片及其他类型等
- LOADER_DICT = {"UnstructuredHTMLLoader": ['.html'],
- "UnstructuredMarkdownLoader": ['.md'],
- "CustomJSONLoader": [".json"],
- "CSVLoader": [".csv"],
- # "FilteredCSVLoader": [".csv"], # 需要自己指定,目前还没有支持
- "RapidOCRPDFLoader": [".pdf"],
- "RapidOCRLoader": ['.png', '.jpg', '.jpeg', '.bmp'],
- "UnstructuredFileLoader": ['.eml', '.msg', '.rst',
- '.rtf', '.txt', '.xml',
- '.docx', '.epub', '.odt',
- '.ppt', '.pptx', '.tsv'],
- }
这里,我们重点关注PDF文件的解析方式,并探究其可能的优化方案
从上面的文件加载字典中可以看出,PDF文件使用的加载器为RapidOCRPDFLoader,该文件的方法在项目document_loaders/mypdfloader.py中
其对应的处理步骤为:
如你所见,chatchat原系统V0.2.6中默认的这种处理方式的
所以,通常情况下需要根据文档的具体情况对文档定制化处理,那下面,咱们就来根据文档固有的特点针对性优化下吧
首先,分析七月在线大厂面试题PDF文档特点
以「七月在线大厂面试题PDF文档」为例,有以下特点:
1) 文档具有书签,可以直接根据书签对应到具体的页码
2) 文档结构不复杂,共有两级标题,一级标题表示一个大的章节,二级标题表示面试题的问题,文本内容为每道面试题对应的答案
3) 每道面试题是独立的,和其前后的面试题并没有明显的相关性
4) 面试题题目的长度长短不一,短的有几个词组成,长的基本一句话
5) 文档中除中文外,还有大量模型或算法英文词,且文档中包含部分公式和代码
因此,可以考虑根据文档的标题进行分割,即将文档中的标题和标题对应的内容分为一块,在放入向量库的时候可以尝试两种方式
一种是只将题目进行向量化表示存入向量库
另一种是将题目和答案一起进行向量化表示存入向量库
然后考虑PDF文档解析可选方案
对此,常见的几种PDF解析工具包都可以尝试下,比如pdfplumber、PyPDF2、fitz(PyMuPDF)
“PyPDF2、pdfplumber、fitz(PyMuPDF)都是用于解析 PDF 文件的 Python 库,但它们在实现和功能上有一些本质区别
PyPDF2
描述:PyPDF2 是一个用于操作 PDF 文件的库,它提供了一些基本的功能,如合并、拆分和旋转 PDF 页面等
特点:PyPDF2 的主要目的是处理 PDF 文件的基本操作,而不是从 PDF 中提取高级内容。它提供了对页面、书签等基本元素的简单控制。
适用场景:PyPDF2 适用于对 PDF 文件进行简单的编辑和处理,例如合并多个 PDF 文件或旋转页面
pdfplumber
描述:pdfplumber 是基于 PDFMiner.six 构建的,它提供了更高级的接口,使得从 PDF 中提取文本、表格和图像等信息更加容易
特点:pdfplumber 提供了易于使用的API,使得从 PDF 中提取文本、表格等内容变得相对简单。它还允许通过页面对象来获取页面级别的信息
适用场景:pdfplumber 适用于需要从 PDF 中提取结构化数据的任务,如文本和表格,比如下面这个例子,先提取表格(主要用到 extract_table 这个函数),后保存为excel文件
import pdfplumber
from openpyxl import Workbook #保存表格,需要安装openpyxl
with pdfplumber.open("D:\\pdffiles\\人力资源部岗位编制.pdf") as pdf:
page01 = pdf.pages[0]
table = page01.extract_table()
workbook = Workbook()
sheet = workbook.active
for row in table:
sheet.append(row)
workbook.save(filename="D:\\pdffiles\\人力资源部岗位编制.xlsx")
fitz之PyMuPDF
描述:PyMuPDF 是对 MuPDF 渲染引擎的 Python 封装,MuPDF 是一个用于渲染 PDF、XPS、EPUB 和 CBZ 等格式的高性能库。
特点:PyMuPDF 提供了对 PDF 文件的低级别访问,允许直接访问页面内容,支持文本、图像等的提取。它的速度较快,适合对 PDF 进行高级处理
适用场景:PyMuPDF 适用于需要对 PDF 文件进行深度分析、提取详细信息或执行高级操作的应用场景
总的来说,选择使用哪个库取决于任务的性质
如果只需要基本的 PDF 文件处理,可以选择 PyPDF2
如果需要从 PDF 中提取结构化数据,pdfplumber 是一个不错的选择
如果需要进行更高级的处理、分析以及对 PDF 文件进行详细操作,PyMuPDF 可能更适合
当然,pdf解析工具远远不止以上三种,更多见下图
暂以上”
回到我们当前的问题上
首先,通过fitz(get_toc函数)获取书签信息,得到面试题题目与其所在的页码,保存为一个字典
- import fitz
- with fitz.open(data_path) as doc:
- # 通过get_toc获取书签内容
- toc = doc.get_toc() # [[lvl, title, page, …], …]
- for level, title, page in toc:
- print(level, title, page)
其次,分别尝试用PyPDF2、pdfplumber、fitz(pymupdf)抽取每一页的文本信息(分别通过extract_text、extract_text、get_text),然后与字典中的标题进行匹配(使用find方法)
接着,通过面试题当前位置和下一个面试题位置(这里的位置指的是索引),对面试题进行分块
最后,输出面试题与其对应的答案
至于以上4个步骤对应的完整代码见七月的「大模型项目开发线上营」
当然,PDF文档解析会存在一些问题
比如
a) 书签中的标题内容和文档中的标题内容并不完全一致,这种情况可能是解析后出现多余的空格导致的
b) 需要考虑一道面试题可能存在跨页的情况,一般是会出现一道面试题出现在两页的情况,但也需要考虑一道面试跨三页或多页的情况
c) 由于一级标题是有分页符的,每个一级标题会另起一页,因此在处理时也需要考虑此种情况
d) 解析的文本中带有页脚,如:第 4 页 共 46 页,由于页脚的内容对面试题是没有意义的,因此也需要考虑去掉
最终确定PDF文档解析的解决方案
解决方案:
①对于书签中的标题内容和文档中的标题内容并不完全一致的问题
一种方式有考虑去除文档中标题的空格,实现困难在于无法精确定位,如果全去掉就会出现一些英文单词拼接在一块的情况,可能对语义或后续的检索产生影响
一种方式是不去除,如果出现这种情况,则将标题所在页的信息都提取出来;
②对于一道面试题可能存在跨页的情况,可以通过设置起始页和终止页,对相邻标题(主要是下一个标题)所在页进行判断的方式来处理
③对于每个一级标题会另起一页的情况,可以通过添加对特殊字符“1、”判断的方式来处理;
④对于页脚,可以使用正则表达式进行匹配去除
以上方案更多针对文档的书签是准确的,和对应的标题完全对应,那如果书签不够准确或者没有书签呢,则需要另寻办法,详见下节
由于通过fiz(pymupdf)的get_toc函数获取书签信息与解析出的文中面试题的题目差别较大,匹配率较低,因此,考虑不使用书签信息,直接对每一页中的标题根据一定的规则进行识别。如可以通过字体的大小或字体类型进行规则设定
注意,本方案二中只用了fiz(pymupdf)解析器,这样可以保证面试题题目的获取与正文信息获取的一致性,而不会出现使用不同解析器可能导致匹配效果差的情况
- {'number': 1,
- 'type': 0,
- 'bbox': (45.35900115966797,
- 83.10362243652344,
- 475.92999267578125,
- 101.64714813232422),
- 'lines': [{'spans': [{'size': 14.050000190734863,
- 'flags': 20,
- 'font': 'MicrosoftYaHei-Bold',
- 'color': 0,
- 'ascender': 1.05810546875,
- 'descender': -0.26171875,
- 'text': '第十七篇:2022 年 4 月 10 日百度机器学习方向暑期实习面试题 6 道',
- 'origin': (45.35900115966797, 97.97000122070312),
- 'bbox': (45.35900115966797,
- 83.10362243652344,
- 475.92999267578125,
- 101.64714813232422)}],
- 'wmode': 0,
- 'dir': (1.0, 0.0),
- 'bbox': (45.35900115966797,
- 83.10362243652344,
- 475.92999267578125,
- 101.64714813232422)}]}
其中,number表示行的索引- (45.35900115966797, 83.10362243652344, 475.92999267578125, 101.64714813232422)
- 第十七篇:2022 年 4 月 10 日百度机器学习方向暑期实习面试题 6 道
- 1
- height:18.54352569580078
-
- (45.35900115966797, 135.19273376464844, 159.0, 151.03062438964844)
- 1、介绍下 SVM 算法
- 2
- height:15.837890625
-
- (67.31999969482422, 223.91693115234375, 161.88865661621094, 238.50099182128906)
- SVM 可分为三种:
- 5
- height:14.584060668945312
-
- (45.35900115966797, 671.832763671875, 172.8000030517578, 687.670654296875)
- 2、介绍下逻辑回归算法
- 21
- height:15.837890625
从结果可知,标题的高度介于15到18之间,从而可以根据这点定位出来的标题实现精准分割最后,便可以通过字体类型和规则获取标题,并进行分块
可先看此文《一文掌握文本语义分割:从朴素切分、Cross-Segment到阿里SeqModel》
主要任务为非对称召回任务,即一个相对较短的问句和一个相对较长的答案(文本块),进行匹配
将用户问题和本地知识进行embedding,通过向量相似度实现召回。
问题:通过语义向量相似度匹配度不够准确,故可以通过倒排索引召回出知识语料进行补充
在文本的召回中,倒排的召回方式也非常实用,它具备精确匹配、索引效率和可解释的优势
在目前的全文检索系统中
这两路召回在不同场景下都具备自己独立的优势,在知识召回中的互补性很强
最终的代码实现见大模型线上营
对召回的结果排序前 k 个 文本块中包含正确答案即可,即 TopK 的准确率
至于各路评估指标的详细介绍见大模型线上营
对于多路召回产生的结果进行重排,重排可以有三种方式选择
Reranking(重新排序):输入是一个查询query和文本的列表(列表中是与query相关或不相关的文本),其目的是根据与查询的相关性对结果进行排序
交叉编码器将对查询和答案实时计算相关性分数,这比向量模型(即双编码器)更准确,但比向量模型更耗时。 因此,它可以用来对嵌入模型返回的前k个文档重新排序。
与嵌入模型不同的是,reranker使用问题和文档作为输入,直接输出相似度,而不是嵌入模型。且其是基于交叉熵损失进行优化的,因此相关分数不局限于特定的范围
pip install -U FlagEmbedding
获得相关性得分 - from FlagEmbedding import FlagReranker
- reranker = FlagReranker('BAAI/bge-reranker-large', use_fp16=True) # Setting use_fp16 to True speeds up computation with a slight performance degradation
-
-
- score = reranker.compute_score(['query', 'passage'])
- print(score)
-
-
- scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']])
- print(scores)
- import torch
- from transformers import AutoModelForSequenceClassification, AutoTokenizer
-
-
- tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-reranker-large')
- model = AutoModelForSequenceClassification.from_pretrained('BAAI/bge-reranker-large')
- model.eval()
-
-
- pairs = [['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']]
- with torch.no_grad():
- inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
- scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
- print(scores)
https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/reranker
对于以下这种表格
可以通过OCR的方法把表格的内容提取出三元组,即根据表格格式(合并单元格、行列关系、图片)提取知识和结构化数据,比如先通过一些工具把表格的内容先识别出来
Excel文件有2种思路,导入到SQL或者转成JSON,针对这2种格式做问答相对容易些
或者把Excel再转成HTML表格源代码,这些源代码是包含表格结构信息的,然后再扔给大模型,基本可以做问答了
为证实上面的想法,通过如下例子验证一下
解析PDF的关键在于,解析后能否较精准地保留原始PDF中的各项元素和排版信息。保留信息越准确,越容易通过代码把想要的部分提取出来
一般来说,各大解析器会把PDF转化成HTML或XML格式,因为这2种格式能保留足够丰富的信息,而且容易提取。当然,不管是哪种格式,都依赖于解析器本身对PDF的解析能力
比如说,同样是有合并单元格和跨页的表格,如果解析器能正确识别这是表格,那么不管是html还是xml,都会加上对应的标签方便后续提取;但如果解析器理解成了这是一个文本段落,那么不管转化成什么格式,都无法把文本和表格正确分离开来
在下面这个例子中,使用pdf2docx的Converter类把pdf转化成docx文件,再把docx解压缩得到xml文件,可用于后续的解析
以上三节都只是初步简单的思路,更多细节的处理及代码实现,详见我司的大模型项目开发线上营
// 待更
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。