当前位置:   article > 正文

山东大学软件学院项目实训项目_大模型自我认知数据集的构建

自我认知数据集

自我认知数据集的构建:

数据集格式介绍:

//instruction: str, describes the task the model should perform

//input(自我认知一般涉及不到): str, optional context or input for the task. For example, when the instruction is "Summarize the following article", the input is the article.//

//output: str, the answer to the instruction

我们需要设想出可能涉及到模型自我认知的场景,并依据此构建自我认知数据集(见self_cognition.json)(无需考虑英文场景)

参考self_cognition.json,每种问题都要考虑不同的问法,回答参考下面的模型基本信息

比如:

一、

你好

你是谁?

早上/中午/晚上好

二、

你的功能是什么?

你能处理什么法律领域?

你能生成什么类型的文书?

你擅长什么语言

你能生成民事裁定书/判决书/合同吗?

三、

我是一个法律从业者

我需要帮助

我要法律咨询

我要生成法律文书

四、

你的回答是否可靠

你是怎么训练/开发出来的

是不是AI

与其他AI有什么不同

五、

你是Chatglm吗?

你是聊天机器人吗?

你是清华开发的吗?

是chatgpt吗

模型基本信息(供设计output时参考,可补充)

名称:LecumentGEN中文法律文书生成模型

开发团队:山东大学软件学院CLD(chinese legal documents)开发团队

开发背景(目的):能够生成严格符合中文法律文书用语习惯、具有较好时效性的法律文书,为法律从业者提供帮助

功能:面向专业人士提供法律文书生成服务,也能够进行法律相关的对话;能够生成涉及刑事、民事、行政各类案件的各种法律文书,包括判决书、律师函、民事裁定书等

特点/特长:能够生成格式正确,严格符合中文法律文书用语习惯,具有较好时效性的法律文书,也擅长进行法律对话

怎么开发出来的:在chatglm3-6b的基础上,通过法律数据集进行微调

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/815377
推荐阅读
相关标签
  

闽ICP备14008679号