赞
踩
你是否曾经在网上查找信息时,被繁琐的步骤和冗长的网页内容所困扰?你是否希望有一个智能助手,能够理解你的指令,自动完成网页操作,并为你提取关键信息?
近年来,预训练的大型语言模型(LLM)在网页自动化领域展现出巨大的潜力。然而,现有的方法在处理真实网页时仍然面临着三大挑战:
为了解决这些问题,Google DeepMind 研究团队提出了 WebAgent,一个基于 LLM 的网页智能体,能够通过自学习的方式完成真实网站上的各种任务。
WebAgent 采用了一种模块化的设计,将网页自动化任务分解为三个关键步骤:
WebAgent 采用两个专门的 LLM 来完成这三个步骤:
为了让 WebAgent 能够更好地适应真实网页环境,研究团队引入了自学习监督机制。该机制通过脚本生成计划和摘要信息,并利用 Flan-U-PaLM 生成相应的 Python 代码。然后,将这些数据用来微调 HTML-T5,使其能够更好地理解真实网页上的操作。
研究团队在真实网站上进行了实验,测试了 WebAgent 在不同领域的网页自动化任务上的表现。结果表明,WebAgent 能够显著提高网页自动化的成功率,比单一 LLM 方法的成功率提高了 50% 以上。
此外,研究团队还对 HTML-T5 在其他网页自动化基准数据集上的表现进行了评估。结果表明,HTML-T5 在 MiniWoB++ 和 Mind2Web 数据集上都取得了领先的性能,甚至超越了 GPT-4。
WebAgent 的成功表明,将网页自动化任务分解为多个子任务,并使用专门的 LLM 来处理每个子任务,能够显著提高网页自动化的效率和准确性。未来,研究团队将继续探索以下方向:
希望这篇文章能够让你对网页智能体有一个更深入的了解。随着人工智能技术的不断发展,网页智能体将会在我们的生活中扮演越来越重要的角色,帮助我们更便捷、高效地完成各种网页任务。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。