当前位置:   article > 正文

WiseFlow:开源AI信息挖掘工具,传统的爬虫可以下线了

wiseflow

WiseFlow:开源AI信息挖掘工具,传统的爬虫可以下线了

原创 AI小白 开源AI项目落地 2024年07月10日 18:38 山东

在这个大数据时代,我们每天面对的都是海量的信息。

但我们的能力是有限的,想要获得自己想要的信息需要消耗我们大量的时间和精力。

要是有人能帮我每天整理信息该有多好啊,如果能帮我概括一下就更好了!

哎!俗话说得好,瞌睡了就有人来送枕头!

新开源的工具WiseFlow就是整理信息、概括信息的好手!

项目介绍

WiseFlow是一款快速准确的信息挖掘工具。

我们在使用时提前设定好自己的关注关键词,然后WiseFlow就能自动的从网站、微信公众号、社交平台等各种来源提取简明信息,自动分类并上传到数据库。

图片

从图片中我们可以看到,WiseFlow给出了每一条公众号和网站的内容概括,简单明了。

WiseFlow采用统计学习(依赖开源项目 GNE)和 LLM 相结合的方式,适应超过 90% 的新闻页面。

同时配置了专用的 mp 文章解析器,使得WiseFlow能更好地提取公众号的文章信息。

项目特点

听到这有人可能就懵了。那这玩意儿和传统的爬虫和LLM-Agent有什么区别?

图片

WiseFlow做的是数据的处理,包括过滤、提取和找出我们要的东西并且告诉我们这东西大概是什么。

而爬虫呢,是从网站上直接获取原始信息,那是有什么就拿什么,没有其他功能。

LLM-大模型则是更注重下游应用。

这三者之间还有不小的联系呢!如果将WiseFlow和爬虫组合,就可以帮助我们在获取的原始数据基础上做更好的数据处理和过滤。

也可以将WiseFlow和大模型Agent连接,将WiseFlow作为知识基础,来更好地帮助大模型处理事物。

听到这你是否已经动心了呢?什么?担心这么多内容需要很大的内存和硬件要求?

那你的担心完全是多余的!

图片

WiseFlow不使用任何矢量模型开销极小,不需要 GPU,适用于任何硬件环境,仅需要9B就能运行!

项目链接:

https://github.com/TeamWiseFlow/wiseflow

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/1008328
推荐阅读
相关标签
  

闽ICP备14008679号