赞
踩
越来越多的企业和个人希望能够利用LLM和生成式人工智能来构建专注于其特定领域的具备AI能力的产品。目前,大语言模型在处理通用问题方面表现较好,但由于训练语料和大模型的生成限制,对于专业知识和时效性方面存在一些局限。在信息时代,企业的知识库更新频率越来越高,而企业所拥有的垂直领域知识库(如文档、图像、音视频等)可能是未公开或不可公开的。因此,对于企业而言,如果想在大语言模型的基础上构建属于特定垂直领域的AI产品,就需要不断将自身的知识库输入到大语言模型中进行训练。
目前有两种常见的方法实现:
基于RDS PostgreSQL构建ChatBot的优势如下:
本文将以RDS PostgreSQL提供的开源向量索引插件(pgvector)和OpenAI提供的embedding能力为例,展示如何构建专属的ChatBot。
阿里云提供云速搭CADT平台模板,该方案模板已预部署了ECS以及RDS PostgreSQL数据库,并且预安装了前置安装包,能够帮助您快速体验专属ChatBot,您可以前往云速搭CADT控制台,参考大模型结合RDS PostgreSQL数据库构建企业级专属Chatbot进行体验。
Secret API Key
,并且您的网络环境可以使用OpenAI,本文展示的代码示例均部署在新加坡地域的ECS中。3.11.4
,使用的开发工具为PyCharm 2023.1.2
。嵌入(embedding)是指将高维数据映射为低维表示的过程。在机器学习和自然语言处理中,嵌入通常用于将离散的符号或对象表示为连续的向量空间中的点。
在自然语言处理中,词嵌入(word embedding)是一种常见的技术,它将单词映射到实数向量,以便计算机可以更好地理解和处理文本。通过词嵌入,单词之间的语义和语法关系可以在向量空间中得到反映。
OpenAI提供Embeddings能力。
本文展示的专属ChatBot的实现流程分为两个阶段:
第一阶段:数据准备
第二阶段:问答
流程图如下:
本文以创建RDS PostgreSQL实例文档的文本内容为例,将其拆分并存储到RDS PostgreSQL数据库中,您需要准备自己的专属领域知识库。
数据准备阶段的关键在于将专属领域知识转化为文本embedding,并有效地存储和匹配这些信息。通过利用LLM的强大语义理解能力,您可以获得与特定领域相关的高质量回答和建议。当前的一些开源框架,可以方便您上传和解析知识库文件,包括URL、Markdown、PDF、Word等格式。例如LangChain和OpenAI开源的ChatGPT Retrieval Plugin。LangChain和ChatGPT Retrieval Plugin均已经支持了基于pgvector扩展的PostgreSQL作为其后端向量数据库,这使得与RDS PostgreSQL实例的集成变得更加便捷。通过这样的集成,您可以方便地完成第一阶段领域知识库的数据准备,并充分利用pgvector提供的向量索引和相似度搜索功能,实现高效的文本匹配和查询操作。
rds_pgvector_test
为例。CREATE DATABASE testdb;
CREATE EXTENSION IF NOT EXISTS vector;
rds_pg_help_docs
为例),用于存储知识库内容。- CREATE TABLE rds_pg_help_docs (
- id bigserial PRIMARY KEY,
- title text, -- 文档标题
- description text, -- 描述
- doc_chunk text, -- 文档分块
- token_size int, -- 文档分块字数
- embedding vector(1536)); -- 文本嵌入信息
CREATE INDEX ON rds_pg_help_docs USING ivfflat (embedding vector_cosine_ops) WITH (lists = 100);
pip install openai psycopg2 tiktoken requests beautifulsoup4 numpy
.py
文件(本文以knowledge_chunk_storage.py
为例),拆分知识库文档内容并存储到数据库中,示例代码如下:- import openai
- import psycopg2
- import tiktoken
- import requests
- from bs4 import BeautifulSoup
- EMBEDDING_MODEL = "text-embedding-ada-002"
- tokenizer = tiktoken.get_encoding("cl100k_base")
- # 连接RDS PostgreSQL数据库
- conn = psycopg2.connect(database="<数据库名>",
- host="<RDS实例连接地址>",
- user="<用户名>",
- password="<密码>",
- port="<数据库端口>")
- conn.autocommit = True
- # OpenAI的API Key
- openai.api_key = '<Secret API Key>'
- # 自定义拆分方法(仅为示例)
- def get_text_chunks(text, max_chunk_size):
- chunks_ = []
- soup_ = BeautifulSoup(text, 'html.parser')
- content = ''.join(soup_.strings).strip()
- length = len(content)
- start = 0
- while start < length:
- end = start + max_chunk_size
- if end >= length:
- end = length
- chunk_ = content[start:end]
- chunks_.append(chunk_)
- start = end
- return chunks_
- # 指定需要拆分的网页
- url = 'https://help.aliyun.com/document_detail/148038.html'
- response = requests.get(url)
- if response.status_code == 200:
- # 获取网页内容
- web_html_data = response.text
- soup = BeautifulSoup(web_html_data, 'html.parser')
- # 获取标题(H1标签)
- title = soup.find('h1').text.strip()
- # 获取描述(class为shortdesc的p标签内容)
- description = soup.find('p', class_='shortdesc').text.strip()
- # 拆分并存储
- chunks = get_text_chunks(web_html_data, 500)
- for chunk in chunks:
- doc_item = {
- 'title': title,
- 'description': description,
- 'doc_chunk': chunk,
- 'token_size': len(tokenizer.encode(chunk))
- }
- query_embedding_response = openai.Embedding.create(
- model=EMBEDDING_MODEL,
- input=chunk,
- )
- doc_item['embedding'] = query_embedding_response['data'][0]['embedding']
- cur = conn.cursor()
- insert_query = '''
- INSERT INTO rds_pg_help_docs
- (title, description, doc_chunk, token_size, embedding) VALUES (%s, %s, %s, %s, %s);
- '''
- cur.execute(insert_query, (
- doc_item['title'], doc_item['description'], doc_item['doc_chunk'], doc_item['token_size'],
- doc_item['embedding']))
- conn.commit()
- else:
- print('Failed to fetch web page')
![](https://csdnimg.cn/release/blogv2/dist/pc/img/newCodeMoreWhite.png)
SELECT * FROM rds_pg_help_docs;
.py
文件(本文以chatbot.py
为例),创建问题并与数据库中的知识库内容比较相似度,返回结果。- import openai
- import psycopg2
- from psycopg2.extras import DictCursor
- GPT_MODEL = "gpt-3.5-turbo"
- EMBEDDING_MODEL = "text-embedding-ada-002"
- GPT_COMPLETIONS_MODEL = "text-davinci-003"
- MAX_TOKENS = 1024
- # OpenAI的API Key
- openai.api_key = '<Secret API Key>'
- prompt = '如何创建一个RDS PostgreSQL实例'
- prompt_response = openai.Embedding.create(
- model=EMBEDDING_MODEL,
- input=prompt,
- )
- prompt_embedding = prompt_response['data'][0]['embedding']
- # 连接RDS PostgreSQL数据库
- conn = psycopg2.connect(database="<数据库名>",
- host="<RDS实例连接地址>",
- user="<用户名>",
- password="<密码>",
- port="<数据库端口>")
- conn.autocommit = True
- def answer(prompt_doc, prompt):
- improved_prompt = f"""
- 按下面提供的文档和步骤来回答接下来的问题:
- (1) 首先,分析文档中的内容,看是否与问题相关
- (2) 其次,只能用文档中的内容进行回复,越详细越好,并且以markdown格式输出
- (3) 最后,如果问题与RDS PostgreSQL不相关,请回复"我对RDS PostgreSQL以外的知识不是很了解"
- 文档:
- \"\"\"
- {prompt_doc}
- \"\"\"
- 问题: {prompt}
- """
- response = openai.Completion.create(
- model=GPT_COMPLETIONS_MODEL,
- prompt=improved_prompt,
- temperature=0.2,
- max_tokens=MAX_TOKENS
- )
- print(f"{response['choices'][0]['text']}\n")
- similarity_threshold = 0.78
- max_matched_doc_counts = 8
- # 通过pgvector过滤出相似度大于一定阈值的文档块
- similarity_search_sql = f'''
- SELECT doc_chunk, token_size, 1 - (embedding <=> '{prompt_embedding}') AS similarity
- FROM rds_pg_help_docs WHERE 1 - (embedding <=> '{prompt_embedding}') > {similarity_threshold} ORDER BY id LIMIT {max_matched_doc_counts};
- '''
- cur = conn.cursor(cursor_factory=DictCursor)
- cur.execute(similarity_search_sql)
- matched_docs = cur.fetchall()
- total_tokens = 0
- prompt_doc = ''
- print('Answer: \n')
- for matched_doc in matched_docs:
- if total_tokens + matched_doc['token_size'] <= 1000:
- prompt_doc += f"\n---\n{matched_doc['doc_chunk']}"
- total_tokens += matched_doc['token_size']
- continue
- answer(prompt_doc,prompt)
- total_tokens = 0
- prompt_doc = ''
- answer(prompt_doc,prompt)
![](https://csdnimg.cn/release/blogv2/dist/pc/img/newCodeMoreWhite.png)
如果未接入专属知识库,OpenAI对于问题“如何创建一个RDS PostgreSQL实例”的回答往往与阿里云不相关,例如:
在接入存储在RDS PostgreSQL数据库中的专属知识库后,对于问题“如何创建一个RDS PostgreSQL实例”,我们将会得到只属于阿里云RDS PostgreSQL数据库的相关回答。
根据上述实践内容,可以看出RDS PostgreSQL完全具备构建基于LLM的垂直领域知识库的能力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。