赞
踩
简介
大语言模型已经展现出令人瞩目的能力并在多种任务上达到甚至超越人类的表现。然而,随着这些模型在社会中的应用越来越广泛,它们可能产生的负面影响也引起了人们的关注。确保模型的安全并负责任地部署,监管大语言模型成为了一个关键环节。鉴于此,浙江大学和新加坡国立大学学者在NLPCC 2024上组织了大语言模型监管评测任务(Task10),包含多模态大语言模型幻觉检测和大语言模型解毒两个子任务,促进大语言模型更加安全、可靠地应用。
任务介绍
本次评测共分为以下两个子任务:
1. 多模态大语言模型幻觉检测(Multimodal Hallucination Detection for Multimodal Large Language Models):检测多模态大模型的输出如文本、图像是否具有幻觉,该任务涉及到使用闭源大模型(如GPT-4)或训练开源大模型作为检测器,及调用公开的工具或知识库来实现可靠的幻觉检测;
2. 大语言模型解毒(Detoxifying Large Language Models):设计对大语言模型进行解毒的方法,不限于微调、对齐、编辑等以防止大语言模型生成有毒、有偏见或有害的内容。
比赛数据和baseline地址:
https://github.com/zjunlp/NLPCC2024_RegulatingLLM
赛程
训练数据发布
2024年4月15日
* 任务2会直接发布含test的全部数据
注册截止
2024年5月25日
测试数据发布
2024年6月11日
提交截止
2024年6月20日
评测结果发布
2024年6月30日
评测论文截止日期
2024年7月20日
评测论文通知
2024年8月9日
报名方式
1. 填写注册表:
http://tcci.ccf.org.cn/conference/2024/dldoc/NLPCC2024.SharedTask10.RegistrationForm.doc
2. 发送至邮箱:
mengruwg@zju.edu.cn
注意事项
本次评测数据仅供学术研究,不可商业应用,不可私自公开,烦请各位选手遵循协议。
所有获奖队伍(2个子任务的各自前三名)将提交代码审核并复现,如无法提交代码或结果差距较大将依次递补。
组织方
单位:
浙江大学、新加坡国立大学
组织者:
张宁豫、陈想、王梦如、王晨曦、徐子文、邓淑敏
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。