你们的AI赋能测试，成功没？

作者：正经夜光杯 | 2024-07-30 09:11:58

踩

ai赋能测试

4个月前，测试圈几乎人手一个大模型，朋友圈里天天都有人晒如何调试chatGPT。一晃，4个月就过去了，忍不住想问问大家你们的AI赋能测试，成功没？我估计大多数都不了了之了吧，是不是会有点共鸣？你遇到的问题，早有人替你预判了。

但是我认为，AI赋能测试这个事情，它可以慢，但是它不能停。技术的前进，总是跌宕起伏，伴随着各种问题，最后慢慢沉寂，变成少数人的坚持，而这少数人的坚持突然有一天有了结果，就会又带来一波高潮。

我现在能看见的是很多大厂仍旧在坚持做这一块的投入。比如11月25日即将在【深圳登喜路国际大酒店】举办的MTSC中国互联网测试大会上，我们就会看到蚂蚁集团、贝壳、去哪儿、字节跳动等公司来分享他们在大模型赋能测试以及如何测试AIGC的实践和落地。（P.S 除25日正式会议大时段外，11月24日会议前一天，也额外设置了“AIGC落地实践”闭门研讨会（需另外报名），面向对于AI落地实践方面感兴趣的同学，组队针对特定议题进行讨论、提出解决方案，最后由讲师评审讨论投票选出优秀方案。

作为评委，我（作者）有幸提前研读了这些议题的PPT，下面给大家简单介绍下：

AI赋能测试

自动化的未来：探索基于LLM的测试生成技术 -- 字节跳动

利用菜单树让LLM理解被测App的操作，设计易生成维护的菜单树，并基于此建立低代码平台，再利用低代码平台收集LLM所需的自然语言标注数据，巧妙设计Prompt，利用LLM实现文本用例转DSL语言，生成自动化用例。对于如何减少LLM生成的虚假错误信息，如何提升LLM生成自动化用例的有效性，也进行调研和优化。听众通过该议题可以了解如何结合LLM实现测试自动化效率提升。

基于大模型AI应用在测试域提效难题及解决方案 -- 贝壳

针对现有技术的问题和痛点，基于AIGC和开源大模型的新一代测试应用实践，主要介绍了如何利用langchain和llama2等开源大模型、AI应用基建的能力去构建垂直领域大模型和实践落地，帮助提高测试人员执行和协助效率，llm下测试创新。通过该议题，测试同学可以知道利用不同类型的AI agent实现测试提效。

AI自动生成测试用例 -- 去哪儿网

需求沟通效率低，PM、DEV、QA三方沟通平均耗时30min-1h、人工写测试用例耗时，平均耗时1-5h、自测自发需求测试用例覆盖不充分、需文档质量参差不齐。这是去哪儿网的痛点，基于以上痛点，去哪儿网的同学研究基于AI自动生成测试用例，包含需求文档解析和预处理、prompt构建、测试用例自动生成、自动生成脑图可以真实执行。通过这个议题，大家可以看到一个非常完整，可以借鉴并且在自己公司落地的产品。

大模型专场的AI赋能测试的议题就这三个，思路比较一致，其实和几个月前也没有发生变化，依旧是在prompt、agent上下大功夫，而在垂类模型训练上略微尝试。我想之所以这样，很大部分原因是因为语料质量不高和没有算力吧。

在当今中国互联网的研发模式下，包括需求分析、系统设计、测试分析、测试执行和发布上线等阶段，不同的阶段产生不同的文档，文档的结构、撰写者水平的高地都据定了这些文档的质量。同时，需求、设计、开发和测试之间错综复杂的文档、需求关系也给数据准备带来了一些困难。

计算资源需求：大模型的训练和微调通常需要大量的计算资源，包括高性能的硬件设备和大规模的数据集。众所周知现在 A100 一卡难求，各大公司均在疯狂采购。而各类大模型底座训练所面临的显存墙又真实的拦在大家的面前。
--- 《 史上最全，细数 AIGC 在测试领域落地的困难点 》

这些困难当下其实几乎绕不过去了，所以对于测试领域来说，非常优质的针对某个业务的测试垂类模型遥不可及，也就是说pass@key实在太低，不能用啊。这样的通用大模型对我们来说，就好比一个不下基层的老专家，他不深入研究系统，但是可以给到我们建议（注：来自复旦计算机学院副院长彭鑫）。而建议好不好用，就看你怎么问，怎么理解，信不信。所以这里就又有一个思路，在现阶段大模型无法达到百分百准确的情况下，在模型结果中进行择优，把最终的选择权交给用户，我们把这个择优的过程自动化掉，其实也一样能达到效果。

AIGC评测

AI赋能测试其实是比较小众的事情，目前AI领域最火的还是AIGC，而对AIGC的评测的课题其实要大很多。这一块就更难，也更加专业了。本质上来说，我们一直以来做的都是穷举测试，业务功能的测试用例集是有限集。而AIGC的理论测试用例集则是无限集。如何有效、高效、并具有一定泛化能力地对AIGC进行质量评估，这是一个解决可测性问题的难题。这次AIGC评测的两个议题都是来自蚂蚁集团。

画质革命：VQAGPT大模型引领支付宝直播和AIGC评测新时代 -- 蚂蚁集团

目前，在传统或AIGC视觉评测领域，都存在过度依赖主观评测的一个现象，但主观评测相对人力成本较高，特别是在AIGC新时代。随着新场景的不断涌现，自动化地评测通用的视觉效果并使其更符合人类审美的需求已迫不及待。传统视觉评测任务依赖主观方法，如何降低传统场景下的人力标注成本？支付宝有大量AIGC应用场景，怎么能高效利用无标注数据，降低标注成本？传统场景和AIGC场景存在一些共同的评测问题，怎么让大模型解决一些共性问题？支付宝在这一方面有着非常多的沉淀，听众通过该议题可以了解传统直播场景和AIGC场景的视觉效果评测难点和支付宝在该领域上的一些解决方案，方法论和思路都值得借鉴。

AIGC图像生成的质量保证：测试难题与解决方案的深度剖析 -- 蚂蚁集团

鲸探是蚂蚁数科的一款数字藏品售卖平台，有兴趣的朋友可以应用市场下载玩玩。在 2023年5月上线了AIGC在线生图的功能，在AIGC业务测试中，最核心的一项工作是评估AIGC 图像生成算法的实际效果，但面临的挑战有：AIGC图像生成质量问题如何定义？如何构建 AIGC 图像生成质量算法模型？如何能够检测 AIGC 生成图像中的一些问题?如何构建 AIGC图像生成质量体系？蚂蚁数科质量团队通过各种调研，参考借鉴，初步攻克了这些问题，取得了不错的结果。听众通过该议题，可以了解AIGC图像生成算法测试中遇到的难题以及从蚂蚁数科质量团队的解决方案中获取一些启示。

总结

通过各位讲师的ppt，我们是可以看到微小但是可喜的进步的。对于AI赋能测试这块，我们一直是两条腿走路，一条就是垂类模型的微调，致力于打造出一个真正的测试专家模型，另外一条就是我们现在在走的，既然底子不够好，那就在外面多包几圈，我有个同事说这叫螺蛳壳里做道场。但是我们其实坚信，一个和测试专家能力不相上下的大模型才是未来，这条路任重而道远，或者用句时髦的话，也许突然就涌现了。

最后，囿于篇幅问题，不能详细介绍，也给大家留个念想，真正有志于此的同学，不要错过这次专场了。

行动吧，在路上总比一直观望的要好，未来的你肯定会感谢现在拼搏的自己！如果想学习提升找不到资料，没人答疑解惑时，请及时加入群： 786229024，里面有各种测试开发资料和技术可以一起交流哦。

最后： 下方这份完整的软件测试视频教程已经整理上传完成，需要的朋友们可以自行领取【保证100%免费】 在这里插入图片描述
软件测试面试文档
我们学习必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有字节大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。在这里插入图片描述

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/正经夜光杯/article/detail/903053