当前位置:   article > 正文

网页智能体:让 AI 帮你完成网页任务_人工智能获取 html 正文内容

人工智能获取 html 正文内容

你是否曾经在网上查找信息时,被繁琐的步骤和冗长的网页内容所困扰?你是否希望有一个智能助手,能够理解你的指令,自动完成网页操作,并为你提取关键信息?

近年来,预训练的大型语言模型(LLM)在网页自动化领域展现出巨大的潜力。然而,现有的方法在处理真实网页时仍然面临着三大挑战:

  • 开放域性: 真实网页的结构和功能千变万化,无法预先定义所有可能的网页操作。
  • 有限上下文长度: 现实网页的 HTML 文档通常比模拟环境中的文档要长得多,而大多数 LLM 的上下文长度有限,难以处理如此庞大的信息。
  • 缺乏 HTML 领域知识: 现有的 LLM 通常缺乏专门的 HTML 理解能力,难以有效地解析和提取网页内容。

为了解决这些问题,Google DeepMind 研究团队提出了 WebAgent,一个基于 LLM 的网页智能体,能够通过自学习的方式完成真实网站上的各种任务。

WebAgent:三位一体的网页自动化

WebAgent 采用了一种模块化的设计,将网页自动化任务分解为三个关键步骤:

  1. 计划 (Planning): 将用户的自然语言指令分解成一系列子指令,例如“访问某网站”、“填写表单”、“点击按钮”等。
  2. 摘要 (Summarization): 从网页的 HTML 文档中提取与当前子指令相关的关键信息,例如网页元素的 ID、文本内容等。
  3. 程序合成 (Program Synthesis): 将子指令和摘要信息转化为可执行的 Python 代码,通过 Selenium WebDriver 控制浏览器执行相应的网页操作。

WebAgent 采用两个专门的 LLM 来完成这三个步骤:

  • HTML-T5: 一个专门为 HTML 文档设计的预训练语言模型,负责计划和摘要任务。HTML-T5 采用了局部和全局注意力机制,能够更好地理解 HTML 文档的层次结构。它还使用了长跨度去噪目标进行预训练,能够更好地处理长文本。
  • Flan-U-PaLM: 一个强大的代码生成模型,负责将子指令和摘要信息转化为 Python 代码。

自学习:让 WebAgent 更懂你

为了让 WebAgent 能够更好地适应真实网页环境,研究团队引入了自学习监督机制。该机制通过脚本生成计划和摘要信息,并利用 Flan-U-PaLM 生成相应的 Python 代码。然后,将这些数据用来微调 HTML-T5,使其能够更好地理解真实网页上的操作。

WebAgent 的优异表现

研究团队在真实网站上进行了实验,测试了 WebAgent 在不同领域的网页自动化任务上的表现。结果表明,WebAgent 能够显著提高网页自动化的成功率,比单一 LLM 方法的成功率提高了 50% 以上。

此外,研究团队还对 HTML-T5 在其他网页自动化基准数据集上的表现进行了评估。结果表明,HTML-T5 在 MiniWoB++ 和 Mind2Web 数据集上都取得了领先的性能,甚至超越了 GPT-4。

WebAgent 的未来展望

WebAgent 的成功表明,将网页自动化任务分解为多个子任务,并使用专门的 LLM 来处理每个子任务,能够显著提高网页自动化的效率和准确性。未来,研究团队将继续探索以下方向:

  • 收集更多真实网页数据: 为了让 WebAgent 能够更好地适应各种网页环境,需要收集更多真实网页数据进行训练。
  • 改进程序合成模块: 现有的程序合成模块仍然存在一些局限性,例如难以处理复杂的任务、难以从错误中学习等。未来需要进一步改进程序合成模块,使其能够更好地满足真实网页自动化的需求。
  • 开发更强大的计划模块: 计划模块是网页自动化的核心,需要能够准确地理解用户的指令,并生成有效的子指令序列。未来需要开发更强大的计划模块,使其能够处理更复杂的任务,并更好地适应不同的网页环境。

参考文献

  • Gur, I., Furuta, H., Huang, A., Safdari, M., Matsuo, Y., Eck, D., … & Faust, A. (2024). A Real-World WebAgent With Planning, Long Context Understanding, and Program Synthesis. arXiv preprint arXiv:2309.1265.

希望这篇文章能够让你对网页智能体有一个更深入的了解。随着人工智能技术的不断发展,网页智能体将会在我们的生活中扮演越来越重要的角色,帮助我们更便捷、高效地完成各种网页任务。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/827373
推荐阅读
相关标签
  

闽ICP备14008679号