网页智能体：让 AI 帮你完成网页任务_人工智能获取 html 正文内容

作者：人工智能uu | 2024-07-15 02:08:35

踩

人工智能获取 html 正文内容

你是否曾经在网上查找信息时，被繁琐的步骤和冗长的网页内容所困扰？你是否希望有一个智能助手，能够理解你的指令，自动完成网页操作，并为你提取关键信息？

近年来，预训练的大型语言模型（LLM）在网页自动化领域展现出巨大的潜力。然而，现有的方法在处理真实网页时仍然面临着三大挑战：

为了解决这些问题，Google DeepMind 研究团队提出了 WebAgent，一个基于 LLM 的网页智能体，能够通过自学习的方式完成真实网站上的各种任务。

WebAgent 采用了一种模块化的设计，将网页自动化任务分解为三个关键步骤：

计划 (Planning): 将用户的自然语言指令分解成一系列子指令，例如“访问某网站”、“填写表单”、“点击按钮”等。
摘要 (Summarization): 从网页的 HTML 文档中提取与当前子指令相关的关键信息，例如网页元素的 ID、文本内容等。
程序合成 (Program Synthesis): 将子指令和摘要信息转化为可执行的 Python 代码，通过 Selenium WebDriver 控制浏览器执行相应的网页操作。

WebAgent 采用两个专门的 LLM 来完成这三个步骤：

HTML-T5: 一个专门为 HTML 文档设计的预训练语言模型，负责计划和摘要任务。HTML-T5 采用了局部和全局注意力机制，能够更好地理解 HTML 文档的层次结构。它还使用了长跨度去噪目标进行预训练，能够更好地处理长文本。
Flan-U-PaLM: 一个强大的代码生成模型，负责将子指令和摘要信息转化为 Python 代码。

为了让 WebAgent 能够更好地适应真实网页环境，研究团队引入了自学习监督机制。该机制通过脚本生成计划和摘要信息，并利用 Flan-U-PaLM 生成相应的 Python 代码。然后，将这些数据用来微调 HTML-T5，使其能够更好地理解真实网页上的操作。

研究团队在真实网站上进行了实验，测试了 WebAgent 在不同领域的网页自动化任务上的表现。结果表明，WebAgent 能够显著提高网页自动化的成功率，比单一 LLM 方法的成功率提高了 50% 以上。

此外，研究团队还对 HTML-T5 在其他网页自动化基准数据集上的表现进行了评估。结果表明，HTML-T5 在 MiniWoB++ 和 Mind2Web 数据集上都取得了领先的性能，甚至超越了 GPT-4。

WebAgent 的成功表明，将网页自动化任务分解为多个子任务，并使用专门的 LLM 来处理每个子任务，能够显著提高网页自动化的效率和准确性。未来，研究团队将继续探索以下方向：

收集更多真实网页数据: 为了让 WebAgent 能够更好地适应各种网页环境，需要收集更多真实网页数据进行训练。
改进程序合成模块: 现有的程序合成模块仍然存在一些局限性，例如难以处理复杂的任务、难以从错误中学习等。未来需要进一步改进程序合成模块，使其能够更好地满足真实网页自动化的需求。
开发更强大的计划模块: 计划模块是网页自动化的核心，需要能够准确地理解用户的指令，并生成有效的子指令序列。未来需要开发更强大的计划模块，使其能够处理更复杂的任务，并更好地适应不同的网页环境。

Gur, I., Furuta, H., Huang, A., Safdari, M., Matsuo, Y., Eck, D., … & Faust, A. (2024). A Real-World WebAgent With Planning, Long Context Understanding, and Program Synthesis. arXiv preprint arXiv:2309.1265.

希望这篇文章能够让你对网页智能体有一个更深入的了解。随着人工智能技术的不断发展，网页智能体将会在我们的生活中扮演越来越重要的角色，帮助我们更便捷、高效地完成各种网页任务。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/827373