当前位置:   article > 正文

书生·浦语大模型实战营-学习笔记6_书生·浦语 提示词

书生·浦语 提示词

OpenCompass大模型测评

1. 关于评测

在这里插入图片描述

1.1 为什么要评测?

在这里插入图片描述

在这里插入图片描述

1.2 需要评测什么?

在这里插入图片描述
在这里插入图片描述

1.3 如何评测?

在这里插入图片描述

1.3.1 客观评测

在这里插入图片描述
可以基于正则表达式的方式,提取模型的回答,只要在模型的回答中提取到北京这个关键词,就认为模型在客观上答对了这道题。就可以去统计所有题目在客观上的准确率,这样是客观评测的方式。

1.3.2 主观评测

在这里插入图片描述

1.3.3 提示词工程评测

在这里插入图片描述
另一种对模型进行评测的方式:可以使用Prompt Enginnering方法测试模型对Prompt的敏感性

同一个问题有多种问法,有多种Prompt的表达方式,预期模型在这5种问题下的回答都是一样的,都能答对。如果只是简单的换了一种Prompt的问法,模型就答错了的话,说明模型的鲁棒性很差。

在这里插入图片描述

2. 介绍OpenCompass工具

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 实战演示

https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/86584
推荐阅读
相关标签
  

闽ICP备14008679号