搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家小花儿
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
c++视觉处理---拉普拉斯金字塔和高斯金字塔
2
Opencv中人体检测_未定义标识符 "cvlatentsvmdetector
3
ERROR: [Labtools 27-1832] create_wave_config not a supported tcl command in labtools hardware mode.
4
Apache POI 在java中处理excel
5
基于transfomer架构的模型[GPT、BERT、VIT、ST、MAE等等]总结_cycle transfomer 图片
6
Java可解释性AI是指使用Java编程语言开发的具有可解释性的人工智能系统_java 集成ai可以实现什么功能
7
git rebase 使用[将其它分支合并到本分支]_如何把其他分支的代码rebase到现在的分支
8
Java数据结构第三讲-栈/队列_java栈 队列 数据结构
9
ABAP 数据写入Excel 并保存
10
如何管理和提升仓储的效率?FineVis带你了解什么是智慧仓储
当前位置:
article
> 正文
5款可用于LLMs的爬虫工具/方案_爬虫 ai工具
作者:我家小花儿 | 2024-05-19 07:59:04
赞
踩
爬虫 ai工具
5款可用于LLMs的爬虫工具/方案
Crawl4AI
功能: 提取语义标记的数据块为JSON格式,提供干净的HTML和Markdown文件。
用途: 适用于RAG(检索增强生成)、微调以及AI聊天机器人的开发。
特点: 高效数据提取,支持LLM格式,多URL支持,易于集成和Docker容器化。
GitHub: https://github.com/unclecode/crawl4ai
FireCrawl
功能: 抓取网站的所有可访问子页面,并转换内容为干净的Markdown格式。
特点: 适用于JavaScript动态生成的内容网站,提供易用的API。
GitHub: https://github.com/mendableai/firecrawl
Scrapegraph-ai
功能: 使用LLM和直接图形逻辑创建网站和本地文档的抓取流程。
特点: 自动执行数据抓取任务,用户只需指定信息类型。
GitHub: https://github.com/VinciGit00/Scrapegraph-ai
Markdowner
功能: 将网站快速转换为Markdown数据。
特点: 支持自动爬虫、详细模式、JavaScript网站等,易于扩展和自托管。
GitHub: https://github.com/dhravya/markdowner
Jina Reader
功能:将任何URL转化为LLM所需的Markdown格式
特点:可以针对这些内容集成不同的模型,支持API
GitHub:https://github.com/jina-ai/reader
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/我家小花儿/article/detail/591954
推荐阅读
article
LoRA
L
a
nd
:性能优于
GPT
-4 的微调开源
LLMs
_lor
a
l
a
nd: 310 fin...
我们很高兴发布
LoRA
L
a
nd
,这是 25 个经过微调的 Mistr
a
l-7b 模型的集合,根据任务的不同,它们的性...
赞
踩
article
L
LM
s
:《A
Survey
of
Large
Language
Models
大
语言
模型
综述
》的翻译...
L
LM
s
:《A
Survey
of
Large
Language
Models
大
语言
模型
综述
》的翻译与解读(一)之序言...
赞
踩
article
NLP
vs.
LLMs
:
理解
它们之间
的
区别_llm算法
工程师
和nlp算法
工程师
的
区别...
随着人工智能持续发展并在无数行业解决问题,技术
的
一个关键部分是能够无缝地桥接人类语言和机器
理解
之间
的
差距。这就是自然语言...
赞
踩
article
LLMs
:
ColossalChat
相关的开源
训练
数据
集简介(
SFT
指令
微调
数据
集+奖励
模型
排序
数据
集...
LLMs
:
ColossalChat
相关的开源
训练
数据
集简介(
SFT
指令
微调
数据
集+奖励
模型
排序
数据
集+
RLHF
数据
集)...
赞
踩
article
吴恩达
ChatGPT
《Finetuning Large Language Models》笔记_202...
介绍了什么是
微调
,
微调
的作用和重要性,从数据准备到训练再到评估
模型
的步骤。_2023
吴恩达
新课
微调
大
模型
finetuni...
赞
踩
article
LLMs
Benchmarks基准测试
GLUE
,
Super
GLUE
, MMLU, BIG-ben...
正如你在上一个视频中所看到的,大型语言模型(
LLMs
)是复杂的,而像Rouge和BLEU分数这样的简单评估指标只能告诉你...
赞
踩
相关标签
开源
算法
人工智能
ai
自然语言处理
基础大模型
llama
elasticsearch
大数据
搜索引擎
全文检索
自然语言处理技术
chatgpt
prompt
llm
finetune