小舞很执着

这个屌丝很懒，什么也没留下！

热门标签

AI文章互评：得分最高的竟然不是GPT-4！_千问通义官网

作者：小舞很执着 | 2024-06-26 07:49:04

踩

千问通义官网

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

在GPT-4o模型刚发布时，我曾写过一篇文章测评它的创意写作能力，并将其与Kimi和通义千问进行了横向对比，具体文章可以看这里：让AI写高考作文：GPT-4、Kimi、通义千问“创意写作”能力横向测评！。测评中我采用了2023年高考语文全国甲卷作文：《人·技术·时间》作为测试题目分别让GPT-4o、GPT-4 Turbo、Kimi、通义千问写出了对应的文章。具体的作文题目和AI创作的文章可以拉到文末查看。

虽然我在那篇文章里尽量客观地对这4个AI模型/工具的表现做了点评，但难免带有个人主观上的偏见，以及在文章质量判断上可能会出现不准确的情况，毕竟不是专业的。那么既然文章是由AI生成的，何不让AI作为阅卷老师给这些文章打分、点评，看看它们如何评价这些由AI生成的文章？这里感谢小伙伴@kiwilli的提议。

这里我们要做的操作就是让GPT-4o、GPT-4 Turbo、Kimi、通义千问这四个AI模型化身为高考作文的阅卷老师，然后分别给这四篇作文打分并点评，最终汇总每篇文章的最终得分。老规矩，先上结论，然后再讲操作细节。

结论

评分汇总

作文标题	GPT-4o	GPT-4 Turbo	Kimi	通义千问	平均分
掌控时间还是被时间掌控：技术发展的两面性 (来自`GPT-4o`)	54	55	56	57	55.5
技术的双刃剑：我们真正掌控了时间吗？ (来自`GPT-4 Turbo`)	51	57	58	58	56.0
时间的双刃剑：技术与自由 (来自Kimi)	55	57	57	58	56.75
做时间的主人，而非仆人 (来自通义千问)	56	54	58	58	56.5

数据分析与结论

平均分最高的作文：
- 时间的双刃剑：技术与自由（来自Kimi），平均分为56.75。
- 紧随其后的是 做时间的主人，而非仆人（来自通义千问），平均分为56.5。
AI评审员打分趋势：
- GPT-4o 对自己的作文评分相对较低（刚正不阿？），对其他作文评分较高，尤其对通义千问和Kimi的作文评分较高。
- GPT-4 Turbo 对自己和Kimi的作文评分相对较高，但对通义千问和GPT-4o的评分相对均衡。
- Kimi 对自己的评分最高，其他评分相对较高且一致。
- 通义千问 对所有作文的评分相对一致，但对Kimi和自己的评分较高。
AI评审员偏好：
- 不同评审员对作文的偏好可能不同。例如，Kimi和通义千问倾向于给出较高的语言评分，这可能表明他们更重视文章的语言表达和文学价值。
- GPT-4 Turbo对逻辑评分较为严格，更加注重论证的合理性和逻辑性。
评分一致性：
- 四篇作文中，时间的双刃剑：技术与自由和做时间的主人，而非仆人获得了比较一致的高评分，表明这两篇作文在评审员中获得了较为一致的认可。
- 从平均分来看，所有文章的表现都比较均衡，平均分在55分以上，表明所有作文的总体质量都较为优秀。
评分差异：
- 技术的双刃剑：我们真正掌控了时间吗？ 和 掌控时间还是被时间掌控：技术发展的两面性 在各评审员之间的评分差异相对较大，尤其是GPT-4o对前者评分较低，而其他评审员评分较高。

1号评审员：`GPT-4o`

作文标题	内容评分	结构评分	语言评分	逻辑评分	总分
掌控时间还是被时间掌控：技术发展的两面性	18/20	13/15	14/15	9/10	54/60
技术的双刃剑：我们真正掌控了时间吗？	17/20	13/15	13/15	8/10	51/60
时间的双刃剑：技术与自由	18/20	14/15	14/15	9/10	55/60
做时间的主人，而非仆人	19/20	14/15	14/15	9/10	56/60

2号评审员：`GPT-4 Turbo`

作文标题	内容评分	结构评分	语言评分	逻辑评分	总分
掌控时间还是被时间掌控：技术发展的两面性	18/20	14/15	14/15	9/10	55/60
技术的双刃剑：我们真正掌控了时间吗？	19/20	14/15	14/15	10/10	57/60
时间的双刃剑：技术与自由	18/20	15/15	14/15	10/10	57/60
做时间的主人，而非仆人	18/20	14/15	13/15	9/10	54/60

3号评审员：Kimi

作文标题	内容评分	结构评分	语言评分	逻辑评分	总分
掌控时间还是被时间掌控：技术发展的两面性	19/20	14/15	14/15	9/10	56/60
技术的双刃剑：我们真正掌控了时间吗？	20/20	14/15	15/15	9/10	58/60
时间的双刃剑：技术与自由	20/20	14/15	14/15	9/10	57/60
做时间的主人，而非仆人	20/20	14/15	15/15	9/10	58/60

4号评审员：通义千问

作文标题	内容评分	结构评分	语言评分	逻辑评分	总分
掌控时间还是被时间掌控：技术发展的两面性	19/20	14/15	15/15	9/10	57/60
技术的双刃剑：我们真正掌控了时间吗？	19/20	15/15	15/15	9/10	58/60
时间的双刃剑：技术与自由	19/20	15/15	15/15	9/10	58/60
做时间的主人，而非仆人	19/20	15/15	15/15	9/10	58/60

AI互评过程详述

`高考作文评审员`提示词

首先，直接把作文题目和每一篇文章发给AI工具打分点评是不可行的，因为无法保证评分维度和判断标准的一致性，也无法保证AI模型在评分过程中的稳定性。这个时候就需要像创建AI Agent那样，用一套完整的结构化提示词来定制化模型的行为，相当于创建一个AI版的高考作文评审员。

下面这个提示词是我经过多次测试优化后得出的效果比较好的高考作文评审员提示词，其中描述了上下文背景，任务目标，所需要用到的专业技能，以及评分标准。


# Role: 高考作文评审员
 
## Profile:
作为一名高考作文评审员，你需要对作文进行打分并提供详细点评，确保评分客观公正，并给出有深度的反馈。
 
## Background:
高考作文是高考语文考试的重要组成部分，满分为60分。高考作文评审需要对作文进行全面的分析和评估，打分不仅要客观公正，还要有深度的点评，帮助考生了解自己的优缺点。评分标准包括内容、结构、语言和逻辑四个方面。
 
## Goals:
1. 对高考作文进行全面评估和评分。
2. 提供详细的点评，指出作文的优点和不足。
3. 确保评分和点评具有客观性和深度。
4. 帮助考生提升写作能力，提供建设性的反馈。
 
## Constraints:
1. 不提及作者信息，以保证评分的客观性。
2. 保持评分的严谨性，避免个人偏见。
3. 遵循高考作文评分标准，从内容、结构、语言和逻辑四个方面进行评分。
4. 在点评时，应注意语言的专业性和指导性，避免打击考生的自信心。
 
## Skills:
1. 语文教学经验，熟悉高考作文评分标准。
2. 优秀的语言表达能力，能提供专业的点评。
3. 细致的分析能力，能全面评估作文的各个方面。
4. 保持评分和点评的客观性和公正性。
5. 识别优秀表达和逻辑能力，并给予建设性反馈。
 
## Workflow:
1. 开场白：介绍自己的角色，并说明将对作文进行评分和点评。
2. 输入：接收用户提交的高考作文题目和作文。
3. 评分：根据高考作文评分标准，从内容、结构、语言、逻辑等方面进行评分。
   - 内容：20分，评估作文的主题和论点是否明确、充实。
   - 结构：15分，评估作文的段落安排、逻辑顺序是否合理。
   - 语言：15分，评估作文的语言表达是否流畅、准确。
   - 逻辑：10分，评估作文的论证是否有力、严谨。
4. 点评：详细点评作文的优点和不足，给出改进建议。
5. 输出：生成评分结果和详细点评，反馈给用户。
 
## Examples:
### 输入:
高考作文题目:
高考作文: 
 
### 评分:
内容评分：18/20
结构评分：12/15
语言评分：14/15
逻辑评分：8/10
总分：52/60
 
### 点评:
这篇作文以“诚信”为主题，内容丰富，结构清晰。开头引入传统美德“诚信”的重要性，中间通过个人经历和社会现象的对比，突出了诚信在现代社会中的重要性。语言表达流畅，例子生动，具有很强的说服力。小小不足在于结尾可以更有力地总结全文，但整体表现非常出色。
 
## Initialization:
你好，我是高考作文评审员，我将对你的作文进行评分并提供详细的点评。请提交你的高考作文题目和作文，我会在接下来为你进行评审和反馈。

AI互评

接下来就是AI互评的环节。把上面的提示词分别发给4个AI模型/工具，它们就能够化身为高考作文评审员，然后发送作文题目和文章，开始互相点评。注意在向AI发文章时，为了保证客观性和公平性，我并没有提及这篇文章出自哪里。

`GPT-4o`

`GPT-4 Turbo`

Kimi

通义千问2.5

这里由于文章篇幅原因，就不放每一篇文章的打分点评截图了，具体的得分会在后面汇总。

打分汇总

既然打分和点评都是由AI完成的，那么后续的分数汇总肯定也得它们来完成。直接让他们把对上面4篇文章的评分汇总到一个markdown格式的表格里就行。值得一提的是，这一步其实对AI模型的能力要求非常高，其中最重要的是上下文的理解和处理，模型需要能够有足够长的上下文长度，以便向上搜索到对应每篇文章的得分。

在这一步过程中，GPT-4o、GPT-4 Turbo和Kimi都能够按照要求完成了汇总打分数据并制作表格这个任务，但通义千问表现不佳，我尝试了3次，它才得出了正确的结果（前几次均出现了表格中的数据和之前的打分不符合的情况，属于AI幻觉）。

`GPT-4o`

`GPT-4 Turbo`

Kimi

通义千问2.5

作文题目和AI文章

这里附上本次测评用到的高考作文题目，以及由这4个AI工具生成的文章，以便小伙伴们查看。

题目

阅读下面的材料，根据要求写作。

人们因技术发展得以更好地掌控时间，但也有人因此成了时间的仆人。

这句话引发了你怎样的联想与思考？请写一篇文章。

要求：选准角度，确定立意，明确文体，自拟标题；不要套作，不得抄袭；不得泄露个人信息；不少于800字。

AI创作的文章

`GPT-4o`

`GPT-4 Turbo`

Kimi

通义千问2.5

结语

Kimi第一，通义千问第二，果然还是中文模型最懂中文？对于这样的AI互评结果，你觉得怎么样？欢迎评论区留言讨论。

精选推荐

都读到这里了，点个赞鼓励一下吧，小手一赞，年薪百万！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小舞很执着/article/detail/758667

AI文章互评：得分最高的竟然不是GPT-4！_千问通义官网

结论

评分汇总

数据分析与结论

1号评审员：GPT-4o

2号评审员：GPT-4 Turbo

3号评审员：Kimi

4号评审员：通义千问

AI互评过程详述

高考作文评审员提示词

AI互评

GPT-4o

GPT-4 Turbo

Kimi

通义千问2.5

打分汇总

GPT-4o

GPT-4 Turbo

Kimi

通义千问2.5

作文题目和AI文章

题目

AI创作的文章

GPT-4o

GPT-4 Turbo

Kimi

通义千问2.5

结语

精选推荐

1号评审员：`GPT-4o`

2号评审员：`GPT-4 Turbo`

`高考作文评审员`提示词

`GPT-4o`

`GPT-4 Turbo`

`GPT-4o`

`GPT-4 Turbo`

`GPT-4o`

`GPT-4 Turbo`