当前位置:   article > 正文

大模型学习路线(10)——入门项目推荐_大模型入门实例

大模型入门实例

目录

前言

一、多模态大模型——以VisualGLM实现图文转换(入门级)

1. 安装相关依赖包

2. 导入依赖库、导入model & processor

3. 导入图片链接

4. 图生文

5. 图片内容推理

二、LLM——基于文心大模型的金融知识库问答(进阶级)

0. 环境配置

1. 载入本地非结构化文档

2. 文档split为若干chunk文本块

3. 文本Embedding-->Vectors

4. 存入向量数据库(以FAISS为例,常见向量数据库还有Milvus)

5. Query查询(用户提问)

6. Prompt合成

7. 调用LLM模型,实现答案生成任务(以文心大模型为例)

8. RAG流程封装(将提示词Prompt输入给文心大模型,获得输出结果)

三、推荐项目(综合级)


前言

        依托 aistudio 平台内容,章节一呈现了一个入门级demo(小白友好),以VisualGLM(多模型大模型)为例实现了图生文;章节二呈现了一个进阶版demo(适合有一定LLM基础的人群食用),以文心大模型(LLM+RAG)为例实现了金融知识库问答(参考aistudio上精品项目);章节三推荐了数个综合级、系统化的项目(适合从事/预从事 LLM/AIGC 岗的人群食用),把每个项目深挖吃透后,基本可以从事相关岗。


一、多模态大模型——以VisualGLM实现图文转换(入门级)

1. 安装相关依赖包

用git命令从github上下载visualglm-6b模型到本地,git PaddleMIX安装包、pip其它相关依赖包。

  1. !git clone http://git.aistudio.baidu.com/aistudio/visualglm-6b.git
  2. !git clone https://github.com/PaddlePaddle/PaddleMIX
  3. !pip install soundfile librosa

2. 导入依赖库、导入model & processor

  1. import os
  2. os.environ["CUDA_VISIBLE_DEVICES"] = "0"
  3. os.environ["FLAGS_use_cuda_managed_memory"] = "true"
  4. import requests
  5. from PIL import Image
  6. from PaddleMIX.paddlemix import VisualGLMForConditionalGeneration, VisualGLMProcessor
  7. import warnings
  8. warnings.filterwarnings('ignore')
  9. # 设置visualglm-6b预训练模型的本地路径(PS:本地导入比直接云端下载速度会快很多)
  10. pretrained_name_or_path = "aistudio/visualglm-6b"
  11. model = VisualGLMForConditionalGeneration.from_pretrained(pretrained_name_or_path, from_aistudio=True,dtype="float32")
  12. model.eval()
  13. processor = VisualGLMProcessor.from_pretrained(pretrained_name_or_path,from_aistudio=True)

3. 导入图片链接

  1. # 图片链接
  2. # url = "https://paddlenlp.bj.bcebos.com/data/images/mugs.png"
  3. url = 'https://i02piccdn.sogoucdn.com/5dd40dedd7107cc5'
  4. image = Image.open(requests.get(url, stream=True).raw)
  5. # 配置模型参数
  6. generate_kwargs = {
  7. "max_length": 1024,
  8. "min_length": 10,
  9. "num_beams": 1,
  10. "top_p": 1.0,
  11. "top_k": 1,
  12. "repetition_penalty": 1.2,
  13. "temperature": 0.8,
  14. "decode_strategy": "sampling",
  15. "eos_token_id": processor.tokenizer.eos_token_id,
  16. }

图1

4. 图生文

  1. # Epoch 1
  2. query = "写诗描述一下这个场景"
  3. history = []
  4. inputs = processor(image, query)
  5. generate_ids, _ = model.generate(**inputs, **generate_kwargs)
  6. responses = processor.get_responses(generate_ids)
  7. history.append([query, responses[0]])
  8. print(responses)

图2

5. 图片内容推理

  1. # Epoch 2
  2. query = "这部电影的导演是谁?"
  3. inputs = processor(image, query, history=history)
  4. generate_ids, _ = model.generate(**inputs, **generate_kwargs)
  5. responses = processor.get_responses(generate_ids)
  6. history.append([query, responses[0]])
  7. print(responses)

图3


二、LLM——基于文心大模型的金融知识库问答(进阶级)

图4. 整体流程

参考链接:https://aistudio.baidu.com/projectdetail/6682781?channelType=0&channel=0

0. 环境配置

  1. # (1)下载PDF文档
  2. !wget https://zihao-code.obs.cn-east-3.myhuaweicloud.com/20230709-langchain/carbon.pdf -i https://pypi.tuna.tsinghua.edu.cn/simple
  3. !wget https://zihao-code.obs.cn-east-3.myhuaweicloud.com/20230709-langchain/car.pdf -i https://pypi.tuna.tsinghua.edu.cn/simple
  4. # (2)安装依赖环境
  5. !pip install transformers langchain openai unstructured tiktoken faiss-cpu sentence_transformers pypdf -i https://pypi.tuna.tsinghua.edu.cn/simple

1. 载入本地非结构化文档

  1. from langchain.document_loaders import UnstructuredFileLoader
  2. from langchain.document_loaders import PyPDFLoader
  3. # 加载所有非结构化文件,提取文本
  4. loaders = [
  5. PyPDFLoader('car.pdf'),
  6. PyPDFLoader('carbon.pdf')
  7. ]
  8. # loaders = [
  9. # UnstructuredFileLoader('思修2018.txt'),
  10. # UnstructuredFileLoader('近代史2018.txt'),
  11. # PyPDFLoader('马原2023.pdf'),
  12. # PyPDFLoader('毛概2023.pdf')
  13. # ]
  14. # 把每个非结构化文件存入docs列表,并保存了对应出处
  15. docs = []
  16. for loader in loaders:
  17. docs.extend(loader.load())

2. 文档split为若干chunk文本块

  1. from langchain.text_splitter import CharacterTextSplitter
  2. text_splitter = CharacterTextSplitter(chunk_size=300, chunk_overlap=30, separator='\n')
  3. splits = text_splitter.split_documents(docs)
  4. print(len(splits))

3. 文本Embedding-->Vectors

  1. from langchain.embedding import HuggingFaceEmbeddings
  2. embedding_model = 'moka-ai/m3e-base'
  3. embedding = HuggingFaceEmbeddings(model_name=embedding_model)

4. 存入向量数据库(以FAISS为例,常见向量数据库还有Milvus)

  1. from langchain.vectorstores import FAISS
  2. # 提取每个chunk文本块的Embedding向量,构建知识库文本-向量数据库
  3. vector_store = FAISS.from_documents(splits, embeddings)

5. Query查询(用户提问)

  1. query = '政府发布了哪些双碳政策文件'
  2. # 针对query进行相似性搜索,从知识向量库(FAISS)检索出最相似的TOP K个Chunk
  3. K = 5
  4. docs_and_scores = vector_store.similarity_search_with_score(question, k=K)
  5. print(docs_and_scores)
  6. # 打印TOP K Chunk的来源、字数、和query相似度打分
  7. for i in range(docs_and_scores):
  8. source = docs_and_scores[i][0].metadata['source']
  9. content = docs_and_scores[i][0].page_content
  10. similarity = docs_and_scores[i][1]
  11. print(f'来源:{source}, 字数:{len(content)}, 相似度打分:{similarity}')
  12. print(content[:30]+'......')
  13. print('————————————————————————————————————')

图5

6. Prompt合成

  1. # 6.1. 生成背景内容(Top K个相似内容拼接)
  2. context = ''
  3. for i in docs_and_scores:
  4. context +=doc[0].page_content
  5. context +='\n'
  6. print(context)
  7. # 6.2. 生成提示词
  8. prompt = f'你是一个学习助手,请根据下面的已知信息回答问题,你只需要回答和已知信息相关的问题,如果问题和已知信息不相关,你可以直接回答"不知道" 问题:{query} 已知信息:{context}'

图6

7. 调用LLM模型,实现答案生成任务(以文心大模型为例)

  1. import requests
  2. class BaiduErnie:
  3. host: str = "https://aip.baidubce.com"
  4. client_id: str = ""
  5. client_secret: str = ""
  6. access_token: str = ""
  7. def __init__(self, client_id: str, client_secret: str):
  8. self.client_id = client_id
  9. self.client_secret = client_secret
  10. self.get_access_token()
  11. def get_access_token(self) -> str:
  12. url = f"{self.host}/oauth/2.0/token?grant_type=client_credentials&client_id={self.client_id}&client_secret={self.client_secret}"
  13. response = requests.get(url)
  14. if response.status_code == 200:
  15. self.access_token = response.json()["access_token"]
  16. return self.access_token
  17. else:
  18. raise Exception("获取access_token失败")
  19. def chat(self, messages: list, user_id: str) -> tuple:
  20. if not self.access_token:
  21. self.get_access_token()
  22. url = f"{self.host}/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/eb-instant?access_token={self.access_token}"
  23. data = {"messages": messages, "user_id": user_id}
  24. response = requests.post(url, json=data)
  25. if response.status_code == 200:
  26. resp = response.json()
  27. return resp["result"], resp
  28. else:
  29. raise Exception("请求失败")
  30. # 填入文心大模型后台的API信息
  31. # 获取地址: https://console.bce.baidu.com/ai/?_=1711963019980#/ai/intelligentwriting/overview/index
  32. client_id = "" # 自己的client_id
  33. client_secret = "" # 自己的client_secret
  34. user_id = "" # 自己的user_id
  35. baidu_ernie = BaiduErnie(client_id, client_secret)
  36. def chat(prompt):
  37. messages = []
  38. messages.append({"role": "user", "content": prompt})
  39. result, response = baidu_ernie.chat(messages, user_id)
  40. return result
  41. result = chat('你是哪家公司开发的什么大语言模型?')
  42. print(result)
  43. # result:我是百度公司开发的知识增强语言模型,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。

8. RAG流程封装(将提示词Prompt输入给文心大模型,获得输出结

果)

  1. def predict(query):
  2. docs_and_scores = vector_store.similarity_search_with_score(query, k=K)
  3. context = ''
  4. for doc in docs_and_scores:
  5. context +=doc[0].page_content
  6. context +='\n'
  7. prompt = '你是一个学习助手,请根据下面的已知信息回答问题,你只需要回答和已知信息相关的问题,如果问题和已知信息不相关,你可以直接回答"不知道" 问题:{} 已知信息:{}'.format(query, context)
  8. # 输入文心大模型
  9. result = chat(prompt)
  10. print(result)
  11. predict('政府发布了哪些双碳政策文件')
  12. # 根据政府发布的信息,中国提出了30·60“双碳”目标,并发布了《关于完整准确全面贯彻新发展理念做好碳达峰碳中和工作的意见》和《2030年前碳达峰行动方案》等纲领性文件,以保障目标的实现。中国作为全球第二大经济体,始终高度关注气候变化对国家和社会的影响。

三、推荐项目(综合级)

(1)多模态大模型(慎入,因为封闭式学习时长需要2周左右):https://aistudio.baidu.com/education/group/info/29948

(3)医学人工智能与大模型:https://aistudio.baidu.com/education/group/info/30524

(4)数字人定制(定制声音、造型,生成数字人,用于语音识别 & 聊天 & 翻译):https://aistudio.baidu.com/projectdetail/6998882?channelType=0&channel=0

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/890920
推荐阅读
相关标签
  

闽ICP备14008679号