#LLM入门 | langchain | RAG # 4.2_文档加载_langchain pdf加载器

作者：运维做开发 | 2024-08-14 15:17:51

踩

langchain pdf加载器

用户数据形式：PDF、视频、网页等。
LangChain：为LLM提供访问用户数据的技术。
处理步骤：加载和处理非结构化数据。
文档加载：访问数据的初步步骤。

一、PDF 文档

文档来源：DataWhale开源教程。PDF文档
教程名称：《Fantastic Matplotlib》。
示例数据：
- 英文版：吴恩达2009年的机器学习课程字幕文件
- 中文版：调整为更适合中文读者的示例。
代码实践：将遵循中文教程调整。

注意，要运行以下代码，你需要安装第三方库 pypdf：
!pip install -q pypdf

1.1 加载PDF文档

首先，我们将利用 PyPDFLoader 来对 PDF 文件进行读取和加载。

from langchain.document_loaders import PyPDFLoader

# 创建一个 PyPDFLoader Class 实例，输入为待加载的pdf文档路径
loader = PyPDFLoader("docs/matplotlib/第一回：Matplotlib初相识.pdf")

# 调用 PyPDFLoader Class 的函数 load对pdf文件进行加载
pages = loader.load() 
1
2
3
4
5
6
7

1.2 探索加载的数据

一旦文档被加载，它会被存储在名为pages的变量里。此外，pages的数据结构是一个List类型。为了确认其类型，我们可以借助Python内建的type函数来查看pages的确切数据类型。
print(type(pages)) <class ‘list’>
通过输出 pages 的长度，我们可以轻松地了解该PDF文件包含的总页数。
print(len(pages)) 3
在page变量中，每一个元素都代表一个文档，它们的数据类型是langchain.schema.Document。

page = pages[0]
print(type(page)) 
1
2

<class ‘langchain.schema.document.Document’>
langchain.schema.Document类型包含两个属性：

page_content：包含该文档页面的内容。

print(page.page_content[0:500])

第⼀回：Matplotlib 初相识
⼀、认识matplotlib
Matplotlib 是⼀个 Python 2D 绘图库，能够以多种硬拷⻉格式和跨平台的交互式环境⽣成出版物质量的图形，⽤来绘制各种静态，动态，
交互式的图表。
Matplotlib 可⽤于 Python 脚本， Python 和 IPython Shell 、 Jupyter notebook ， Web 应⽤程序服务器和各种图形⽤户界⾯⼯具包等。
Matplotlib 是 Python 数据可视化库中的泰⽃，它已经成为 python 中公认的数据可视化⼯具，我们所熟知的 pandas 和 seaborn 的绘图接⼝
其实也是基于 matplotlib 所作的⾼级封装。
为了对matplotlib 有更好的理解，让我们从⼀些最基本的概念开始认识它，再逐渐过渡到⼀些⾼级技巧中。
⼆、⼀个最简单的绘图例⼦
Matplotlib 的图像是画在 figure （如 windows ， jupyter 窗体）上的，每⼀个 figure ⼜包含了⼀个或多个 axes （⼀个可以指定坐标系的⼦区
域）。最简单的创建 figure  
1
2
3
4
5
6
7
8
9
10
11

meta_data：为文档页面相关的描述性数据。

print(page.metadata) {‘source’: ‘docs/matplotlib/第一回：Matplotlib初相识.pdf’, ‘page’: 0}

二、YouTube音频

当前部分将详细讨论如何加载并处理YouTube视频链接。

利用langchain加载工具，为指定的 YouTube 视频链接下载对应的音频至本地
通过OpenAIWhisperPaser工具，将这些音频文件转化为可读的文本内容

注意，要运行以下代码，你需要安装如下两个第三方库：

!pip -q install yt_dlp
!pip -q install pydub 
1
2

2.1 加载Youtube音频文档

首先，我们将构建一个 GenericLoader 实例来对 Youtube 视频的下载到本地并加载。

from langchain.document_loaders.generic import GenericLoader
from langchain.document_loaders.parsers import OpenAIWhisperParser
from langchain.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader

url="https://www.youtube.com/watch?v=_PHdzsQaDgw"
save_dir="docs/youtube-zh/"

# 创建一个 GenericLoader Class 实例
loader = GenericLoader(
    #将链接url中的Youtube视频的音频下载下来,存在本地路径save_dir
    YoutubeAudioLoader([url],save_dir), 
    
    #使用OpenAIWhisperPaser解析器将音频转化为文本
    OpenAIWhisperParser()
)

# 调用 GenericLoader Class 的函数 load对视频的音频文件进行加载
pages = loader.load() 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

[youtube] Extracting URL: https://www.youtube.com/watch?v=_PHdzsQaDgw
[youtube] _PHdzsQaDgw: Downloading webpage
[youtube] _PHdzsQaDgw: Downloading ios player API JSON
[youtube] _PHdzsQaDgw: Downloading android player API JSON
[youtube] _PHdzsQaDgw: Downloading m3u8 information


WARNING: [youtube] Failed to download m3u8 information: HTTP Error 429: Too Many Requests


[info] _PHdzsQaDgw: Downloading 1 format(s): 140
[download] docs/youtube-zh//【2023年7月最新】ChatGPT注册教程，国内详细注册流程，支持中文使用，chatgpt 中国怎么用？.m4a has already been downloaded
[download] 100% of    7.72MiB
[ExtractAudio] Not converting audio docs/youtube-zh//【2023年7月最新】ChatGPT注册教程，国内详细注册流程，支持中文使用，chatgpt 中国怎么用？.m4a; file is already in target format m4a
Transcribing part 1! 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

2.2 探索加载的数据

Y通过类似代码展示，YouTube音频文件加载过程与上文PDF文档类似，不再赘述。

print("Type of pages: ", type(pages))
print("Length of pages: ", len(pages))

page = pages[0]
print("Type of page: ", type(page))
print("Page_content: ", page.page_content[:500])
print("Meta Data: ", page.metadata) 
1
2
3
4
5
6
7

Type of pages:  <class 'list'>
Length of pages:  1
Type of page:  <class 'langchain.schema.document.Document'>
Page_content:  大家好,欢迎来到我的频道 今天我们来介绍如何注册ChetGBT账号 之前我有介绍过一期如何注册ChetGBT账号 但是还是会有一些朋友在注册过程当中 遇到了一些问题 今天我们再来详细介绍最新的注册方法 我们先打开这个网站 这个网站的网址我会放到视频下方的评论区 大家可以直接点击打开 这个网站是需要翻墙才能打开 建议使用全局模式翻墙打开 可以选择台湾,新加坡,日本,美国节点 不要选择香港节点 我这里使用的是台湾节点 这个翻墙软件如果大家需要的话 我也会共享在视频的下方 另外浏览器需要开启无痕模式打开 这个就是打开新的无痕模式窗口 我们可以按快捷键,Ctrl键加Shift键加N 可以打开新的无痕模式窗口 然后用无痕模式窗口来打开这个网站 然后点击这里 然后会出现这个登录注册界面 如果没有显示这个界面 显示的是拒绝访问 那么就表示你使用的节点可能有问题 我们需要切换其他的节点 我们可以这样切换其他的节点 能够正常打开这个页面 表示节点是没问题的 我们可以点击注册 这里需要填一个邮箱 然后点击继续 然后需要输入密码 再点击继续 然后会出现这个提示 我们需要去收一封邮件 刷新一下 邮件已经收到了
Meta Data:  {'source': 'docs/youtube-zh/【2023年7月最新】ChatGPT注册教程，国内详细注册流程，支持中文使用，chatgpt 中国怎么用？.m4a', 'chunk': 0} 
1
2
3
4
5

三、网页文档

在第二部分，我们利用LangChain加载器从YouTube视频链接下载音频到本地，并用OpenAIWhisperPaser解析器将音频转换为文本。
接下来，我们将探讨如何加载网页链接，以GitHub上的Markdown文档为例进行学习。

3.1 加载网页文档

首先，我们将构建一个WebBaseLoader实例来对网页进行加载。

from langchain.document_loaders import WebBaseLoader


# 创建一个 WebBaseLoader Class 实例
url = "https://github.com/datawhalechina/d2l-ai-solutions-manual/blob/master/docs/README.md"
header = {'User-Agent': 'python-requests/2.27.1', 
          'Accept-Encoding': 'gzip, deflate, br', 
          'Accept': '*/*',
          'Connection': 'keep-alive'}
loader = WebBaseLoader(web_path=url,header_template=header)

# 调用 WebBaseLoader Class 的函数 load对文件进行加载
pages = loader.load() 
1
2
3
4
5
6
7
8
9
10
11
12
13

3.2 探索加载的数据

同理我们通过上文代码可以展示加载数据：

print("Type of pages: ", type(pages))
print("Length of pages: ", len(pages))

page = pages[0]
print("Type of page: ", type(page))
print("Page_content: ", page.page_content[:500])
print("Meta Data: ", page.metadata) 
1
2
3
4
5
6
7

Type of pages:  <class 'list'>
Length of pages:  1
Type of page:  <class 'langchain.schema.document.Document'>
Page_content:  {"payload":{"allShortcutsEnabled":false,"fileTree":{"docs":{"items":[{"name":"ch02","path":"docs/ch02","contentType":"directory"},{"name":"ch03","path":"docs/ch03","contentType":"directory"},{"name":"ch05","path":"docs/ch05","contentType":"directory"},{"name":"ch06","path":"docs/ch06","contentType":"directory"},{"name":"ch08","path":"docs/ch08","contentType":"directory"},{"name":"ch09","path":"docs/ch09","contentType":"directory"},{"name":"ch10","path":"docs/ch10","contentType":"directory"},{"na
Meta Data:  {'source': 'https://github.com/datawhalechina/d2l-ai-solutions-manual/blob/master/docs/README.md'} 
1
2
3
4
5

可以看到上面的文档内容包含许多冗余的信息。通常来讲，我们需要进行对这种数据进行进一步处理(Post Processing)。

import json
convert_to_json = json.loads(page.page_content)
extracted_markdow = convert_to_json['payload']['blob']['richText']
print(extracted_markdow) 
1
2
3
4

动手学深度学习习题解答 {docsify-ignore-all}
  李沐老师的《动手学深度学习》是入门深度学习的经典书籍，这本书基于深度学习框架来介绍深度学习，书中代码可以做到“所学即所用”。对于一般的初学者来说想要把书中课后习题部分独立解答还是比较困难。本项目对《动手学深度学习》习题部分进行解答，作为该书的习题手册，帮助初学者快速理解书中内容。
使用说明
  动手学深度学习习题解答，主要完成了该书的所有习题，并提供代码和运行之后的截图，里面的内容是以深度学习的内容为前置知识，该习题解答的最佳使用方法是以李沐老师的《动手学深度学习》为主线，并尝试完成课后习题，如果遇到不会的，再来查阅习题解答。
  如果觉得解答不详细，可以点击这里提交你希望补充推导或者习题编号，我们看到后会尽快进行补充。
选用的《动手学深度学习》版本


书名：动手学深度学习（PyTorch版）
著者：阿斯顿·张、[美]扎卡里 C. 立顿、李沐、[德]亚历山大·J.斯莫拉
译者：何孝霆、瑞潮儿·胡
出版社：人民邮电出版社
版次：2023年2月第1版

项目结构
codes----------------------------------------------习题代码
docs-----------------------------------------------习题解答
notebook-------------------------------------------习题解答JupyterNotebook格式
requirements.txt-----------------------------------运行环境依赖包

关注我们

扫描下方二维码关注公众号：Datawhale


  Datawhale，一个专注于AI领域的学习圈子。初衷是for the learner，和学习者一起成长。目前加入学习社群的人数已经数千人，组织了机器学习，深度学习，数据分析，数据挖掘，爬虫，编程，统计学，Mysql，数据竞赛等多个领域的内容学习，微信搜索公众号Datawhale可以加入我们。
LICENSE
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

四、Notion文档

点击Notion示例文档(https://yolospace.notion.site/Blendle-s-Employee-Handbook-e31bff7da17346ee99f531087d8b133f)右上方复制按钮(Duplicate)，复制文档到你的Notion空间%E5%8F%B3%E4%B8%8A%E6%96%B9%E5%A4%8D%E5%88%B6%E6%8C%89%E9%92%AE(Duplicate)%EF%BC%8C%E5%A4%8D%E5%88%B6%E6%96%87%E6%A1%A3%E5%88%B0%E4%BD%A0%E7%9A%84Notion%E7%A9%BA%E9%97%B4)
点击右上方⋯ 按钮，选择导出为Mardown&CSV。导出的文件将为zip文件夹
解压并保存mardown文档到本地路径docs/Notion_DB/

4.1 加载Notion Markdown文档

首先，我们将使用NotionDirectoryLoader来对Notion Markdown文档进行加载。

from langchain.document_loaders import NotionDirectoryLoader
loader = NotionDirectoryLoader("docs/Notion_DB")
pages = loader.load() 
1
2
3

4.2 探索加载的数据

同理，使用上文代码：

print("Type of pages: ", type(pages))
print("Length of pages: ", len(pages))

page = pages[0]
print("Type of page: ", type(page))
print("Page_content: ", page.page_content[:500])
print("Meta Data: ", page.metadata) 
1
2
3
4
5
6
7

Type of pages:  <class 'list'>
Length of pages:  51
Type of page:  <class 'langchain.schema.document.Document'>
Page_content:  # #letstalkaboutstress

Let’s talk about stress. Too much stress. 

We know this can be a topic.

So let’s get this conversation going. 

[Intro: two things you should know](#letstalkaboutstress%2064040a0733074994976118bbe0acc7fb/Intro%20two%20things%20you%20should%20know%20b5fd0c5393a9498b93396e79fe71e8bf.md)

[What is stress](#letstalkaboutstress%2064040a0733074994976118bbe0acc7fb/What%20is%20stress%20b198b685ed6a474ab14f6fafff7004b6.md)

[When is there too much stress?](#letstalkaboutstress%2
Meta Data:  {'source': 'docs/Notion_DB/#letstalkaboutstress 6
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/979898