搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家小花儿
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
必看 | 《GBase 8a 集群认证培训》学习指南_gbase8a认证
2
Hadoop Shell 的基本操作_本关任务:使用hadoop的hdfs系统来上传文件。
3
如何为Delphi开源跨平台计算机视觉和机器学习软件库OpenCV翻译开发Object Pascal语言接口头文件_delphi opencv
4
【AI】Ollama+OpenWebUI+llama3本地部署保姆级教程,没有连接互联网一样可以使用AI大模型!!!_llama3 本地部署webui
5
数据结构 Java数据结构 --- 栈和队列_java中无法解析mystack类怎么处理?
6
Maven - MacOS 快速安装_mac 13.6 安装maven
7
mac下安装maven_mac如何安装maven
8
OpenGL ES短视频开发(MediaCodec编码)
9
大数据毕业设计PyFlink+Spark+Hive民宿数据分析可视化大屏 民宿推荐系统 民宿爬虫 民宿大数据 知识图谱 机器学习 计算机毕业设计_民宿大数据分析 csdn
10
LaTex中参考文献引用_latex引用格式
当前位置:
article
> 正文
5款可用于LLMs的爬虫工具/方案_爬虫 ai工具
作者:我家小花儿 | 2024-05-19 07:59:04
赞
踩
爬虫 ai工具
5款可用于LLMs的爬虫工具/方案
Crawl4AI
功能: 提取语义标记的数据块为JSON格式,提供干净的HTML和Markdown文件。
用途: 适用于RAG(检索增强生成)、微调以及AI聊天机器人的开发。
特点: 高效数据提取,支持LLM格式,多URL支持,易于集成和Docker容器化。
GitHub: https://github.com/unclecode/crawl4ai
FireCrawl
功能: 抓取网站的所有可访问子页面,并转换内容为干净的Markdown格式。
特点: 适用于JavaScript动态生成的内容网站,提供易用的API。
GitHub: https://github.com/mendableai/firecrawl
Scrapegraph-ai
功能: 使用LLM和直接图形逻辑创建网站和本地文档的抓取流程。
特点: 自动执行数据抓取任务,用户只需指定信息类型。
GitHub: https://github.com/VinciGit00/Scrapegraph-ai
Markdowner
功能: 将网站快速转换为Markdown数据。
特点: 支持自动爬虫、详细模式、JavaScript网站等,易于扩展和自托管。
GitHub: https://github.com/dhravya/markdowner
Jina Reader
功能:将任何URL转化为LLM所需的Markdown格式
特点:可以针对这些内容集成不同的模型,支持API
GitHub:https://github.com/jina-ai/reader
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/我家小花儿/article/detail/591954
推荐阅读
article
LoRA
L
a
nd
:性能优于
GPT
-4 的微调开源
LLMs
_lor
a
l
a
nd: 310 fin...
我们很高兴发布
LoRA
L
a
nd
,这是 25 个经过微调的 Mistr
a
l-7b 模型的集合,根据任务的不同,它们的性...
赞
踩
article
L
LM
s
:《A
Survey
of
Large
Language
Models
大
语言
模型
综述
》的翻译...
L
LM
s
:《A
Survey
of
Large
Language
Models
大
语言
模型
综述
》的翻译与解读(一)之序言...
赞
踩
article
NLP
vs.
LLMs
:
理解
它们之间
的
区别_llm算法
工程师
和nlp算法
工程师
的
区别...
随着人工智能持续发展并在无数行业解决问题,技术
的
一个关键部分是能够无缝地桥接人类语言和机器
理解
之间
的
差距。这就是自然语言...
赞
踩
article
LLMs
:
ColossalChat
相关的开源
训练
数据
集简介(
SFT
指令
微调
数据
集+奖励
模型
排序
数据
集...
LLMs
:
ColossalChat
相关的开源
训练
数据
集简介(
SFT
指令
微调
数据
集+奖励
模型
排序
数据
集+
RLHF
数据
集)...
赞
踩
article
吴恩达
ChatGPT
《Finetuning Large Language Models》笔记_202...
介绍了什么是
微调
,
微调
的作用和重要性,从数据准备到训练再到评估
模型
的步骤。_2023
吴恩达
新课
微调
大
模型
finetuni...
赞
踩
article
LLMs
Benchmarks基准测试
GLUE
,
Super
GLUE
, MMLU, BIG-ben...
正如你在上一个视频中所看到的,大型语言模型(
LLMs
)是复杂的,而像Rouge和BLEU分数这样的简单评估指标只能告诉你...
赞
踩
相关标签
开源
算法
人工智能
ai
自然语言处理
基础大模型
llama
elasticsearch
大数据
搜索引擎
全文检索
自然语言处理技术
chatgpt
prompt
llm
finetune