当前位置:   article > 正文

Meta 最近搞的LLM软件测试让人眼前一亮_testgen-llm

testgen-llm

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

"Meta 使用大型语言模型自动优化单元测试"(https://arxiv.org/abs/2402.09171)

这篇论文介绍了 Meta 的 TestGen-LLM 工具,这是一个利用大型语言模型(LLMs)来自动优化人类编写的测试的工具。该工具确保生成的测试类通过一系列过滤器,以保证相对原始测试套件的显著改进,并减少与 LLM 幻觉相关的问题。文中讨论了在 Instagram 和 Facebook 平台的 Meta 测试马拉松中部署 TestGen-LLM 的情况,并展示了令人鼓舞的结果。在专注于 Instagram 的 Reels 和 Stories 产品的评估中,75% 的 TestGen-LLM 测试用例成功构建,57% 可靠通过,测试覆盖率增加了25%。论文强调了在 diff 时间部署测试的有效性,因为它为工程师提供了现有测试和审核中的代码的完整上下文。通过测试马拉松的经验获得了关于 diff 时间部署模式的见解,揭示了这项技术在现实世界场景中的表现。最初是手动完成的,但在后续事件中自动化了,为 Instagram 测试马拉松构建 TestGen-LLM diffs 取得了有希望的结果。在第一次 Instagram 测试马拉松中,36名工程师提交了105个单元测试 diffs,其中16个由 TestGen-LLM 生成。值得注意的是,一个 diff 因测试用例中缺乏断言而被拒绝。结果各不相同,一些 diffs 通过覆盖以前未触及的方法和文件显著提高了覆盖率。最大的覆盖率改进来自于一个覆盖了多个新文件和 A/B 测试守门员的 diff。在相关工作方面,基于大型语言模型的软件工程(LLMSE)领域的软件测试生成已被广泛研究。虽然以前的文献回顾证实了基于 LLM 的测试生成方法的普遍性,但本文因其专注于扩展现有测试类并报告工业规模部署的结果而脱颖而出。总的来说,这篇论文通过 diff 时间部署策略,为使用 LLM 在 Meta 自动改进单元测试提供了宝贵的见解,并展示了在 Instagram 和 Facebook 等受欢迎的社交媒体平台上的实际应用的有希望的结果

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/643539
推荐阅读
相关标签
  

闽ICP备14008679号