LLM漫谈（二）| QAnything支持任意格式文件或数据库的本地知识库问答系统_qanything 格式解析

作者：繁依Fanyi0 | 2024-04-27 06:16:23

踩

qanything 格式解析

一、QAnything介绍

QAnything (Question and Answer based on Anything) 是致力于支持任意格式文件或数据库的本地知识库问答系统，可断网安装使用。

您的任何格式的本地文件都可以往里扔，即可获得准确、快速、靠谱的问答体验。

目前已支持格式: PDF，Word(doc/docx)，PPT，Markdown，Eml，TXT，图片（jpg，png等），网页链接，更多格式，敬请期待...

知识库数据量大的场景下两阶段优势非常明显，如果只用一阶段embedding检索，随着数据量增大会出现检索退化的问题，如下图中绿线所示，二阶段rerank重排后能实现准确率稳定增长，即数据越多，效果越好。

QAnything使用的检索组件BCEmbedding（https://github.com/netease-youdao/BCEmbedding）有非常强悍的双语和跨语种能力，能消除语义检索里面的中英语言之间的差异，从而实现：

一阶段检索（embedding）

模型名称	Retrieval	STS	PairClassification	Classification	Reranking	Clustering	平均
bge-base-en-v1.5	37.14	55.06	75.45	59.73	43.05	37.74	47.20
bge-base-zh-v1.5	47.60	63.72	77.40	63.38	54.85	32.56	53.60
bge-large-en-v1.5	37.15	54.09	75.00	59.24	42.68	37.32	46.82
bge-large-zh-v1.5	47.54	64.73	79.14	64.19	55.88	33.26	54.21
jina-embeddings-v2-base-en	31.58	54.28	74.84	58.42	41.16	34.67	44.29
m3e-base	46.29	63.93	71.84	64.08	52.38	37.84	53.54
m3e-large	34.85	59.74	67.69	60.07	48.99	31.62	46.78
bce-embedding-base_v1	57.60	65.73	74.96	69.00	57.29	38.95	59.43

更详细的评测结果详见Embedding模型指标汇总（https://github.com/netease-youdao/BCEmbedding/blob/master/Docs/EvaluationSummary/embedding_eval_summary.md）。

二阶段检索（rerank）

更详细的评测结果详见Reranker模型指标汇总（https://github.com/netease-youdao/BCEmbedding/blob/master/Docs/EvaluationSummary/reranker_eval_summary.md）

NOTE:

开源版本QAnything的大模型基于通义千问，并在大量专业问答数据集上进行微调；在千问的基础上大大加强了问答的能力。如果需要商用请遵循千问的license，具体请参阅：通义千问（https://github.com/QwenLM/Qwen）

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/495218