当前位置:   article > 正文

PulsarRPA - 适用于网络爬虫和 AI agents 的高性能分布式 RPA

pulsarrpa

视频介绍了如何使用 PulsarRPA,来完整精确地采集和管理最复杂的电商数据。

我们以 Amazon 为例,为了展示我们解决的是 Amazon 全球站点的问题,而不单单是个别网站的问题,我们就以 Amazon 英国站为例。

PulsarRPA - 适用于网络爬虫和 AI agents 的高性能分布式 RPA

PulsarRPA 同时打开很多个商品页面,滚动到页面底部,确保所有信息均完整呈现。

尤其值得注意的是,PulsarRPA 执行了一个高难度动作:点击打开 seller 信息面板,同 seller 信息面板交互,等待 seller 信息完整加载。

和其他 RPA 不同的是,PulsarRPA 的性能非常高,这就意味着成本非常低,一台普通机器,每天访问十万、几十万网页,采集数千万、上亿数据点,毫无压力。

PulsarRPA 也包含了一系列其他黑科技,包括使用监督学习、无监督学习技术自动提取大批量网站,我们将在其他视频中介绍。

这里 PulsarRPA 是打开了4套浏览器,每一套浏览器都代表了一个独立的用户去访问网站,每个用户又同时打开了很多个页面。

如果我们有大量的网页需要采集或者监控,那么同时打开成千上万个网页,也是很正常的事情。

为了演示效果,让大家看到PulsarRPA访问每一个网页的具体过程,我们让chrome浏览器显示了图像化界面。

在生产环境中,我们也可以不显示浏览器的图像化界面,从而节约系统资源,提高系统性能,降低总体成本。

从日志中可以看到,在这台机器上,系统性能大致是每秒钟两个网页。

由于每天有86,400秒,按照这个速度,一台机器每天大约可以采集17万个网页。

咱们的高性能分布式RPA在网页上执行了交互动作,保证了所有字段均完整呈现在页面上,每个页面会有100~200个高价值字段被提取出来。因此一台机器一天就可以采集1700万到3400万个字段,并且存入数据库。

如果考虑到详情页上的评论信息,这个数据将会更加庞大。

现在我们看一下数据提取结果。默认情况下,所有数据均保存到了数据库。同时,为了我们方便查看,也保存了一小部分到文件系统中,可以直接打开。

除了高性能分布式网上冲浪外,PulsarRPA也提供了一系列其他黑科技。

基于无监督学习的自动网页提取,和网页理解技术,来提取超大规模网页数据,或者支持 AI agents准确识别网页元素。

基于监督学习的网页提取技术,适用于大批量不同的网站进行数据提取,一次训练,永久有效。

欢迎关注 platon.ai 的其他视频和资料。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/850311
推荐阅读
相关标签
  

闽ICP备14008679号