当前位置:   article > 正文

一种基于中文命名实体识别以及线性回归的刑期预测方法_lstm模型预测刑期

lstm模型预测刑期

github:https://github.com/snowlixue/Prison-term-based-on-Chinese-NER

动机

量刑建议又称“求刑建议”,是指检察院在刑事诉讼中对被告人应当判处的刑罚依法向法院提出的建议。从这一概念可知,量刑建议的场域是刑事诉讼;量刑建议的主体是检察院;量刑建议的对象是法院;量刑建议的内容是所起诉的被告人应当判处的刑罚。在审查逮捕意见书的编写过程中,量刑建议始终是最重要且最难解决的一环,然而目前量刑建议仍需要人工定义,工作繁琐,因此急需一种更加智能化的方法进行解决。

问题

在对现有方法的考究下,提出一种更为科学的量刑建议方法。在基于基础文本的处理下,发现在对于已有文书内容的处理一般基于已有分类进行分析,例如罪名、判刑年限、是否死刑、罚款、犯罪嫌疑人、日期等明确内容处理,而对于犯罪主体中最重要的犯罪事实处理较少。而犯罪事实是案件中最重要的因素之一。由犯罪事实进行量刑建议是最为重要的方式

已有方法与问题

现有方案均基于深度学习模型进行的量刑建议,针对犯罪内容构建模型,训练后进行量刑预测。

现存方案都存在可解释差的缺点。

新增方法与改进

1)首先在参考已有其它领域性的实体抽取方案后,结合侦监中的文本特点,提出一种基于规则与深度学习并用的犯罪事实抽取方案。(以故意伤害罪为例)

在抽取故意伤害内容的犯罪事实时首先采用基于规则的方式粗略筛选:规则定义如下:

实体名称

前置词

包含词

后置词

分割词

区分词

词节数量

工具(arm)

用、持、拿

 

 

1或2

伤害(sick)

眼、骨等

构成、为

“、”

“,”

“;”

 

不定

伤害等级(hurt)

法医(学)鉴定、损伤程度为、致、构成

轻伤、重伤、轻伤二级、轻伤一级等

“,”

“。”

“)”

 

 

1或2

证据(evi)

且(并)有、宣读了、提供了、有经庭审举证

陈述、证言、证明、清单、鉴定意见书、供述等

等(证据证实)、足以认定、等(书证)、“。”

“、”

“;”

“,”

 

不定

 

案件信息中犯罪事实的抽取可以首先利用以上规则进行区分、粗略匹配:

例:

经审理查明/o :/o 2014/o 年/o 5/o 月/o 31/o 日/o 13/o 时许/o ,/o 被告人/o 郭/o 为其/o 亲属/o 郭/o 在/o 郎溪县/o 新/o 发镇/o 新/o 发村/o 承包/o 的/o 农田/o 里/o 用/o 拖拉机/o 耕田/o 。/o 被害人/o 周/o 认为/o 该/o 农田/o 的/o 承包/o 存在/o 争议/o ,/o 因而/o 阻止/o 被告人/o 郭/o 打田/o 。/o 后该/o 农田/o 承包人/o 郭/o 因此/o 事/o 与/o 周/o 发生/o 争吵/o ,/o 周/o 用/o 拳/arm 打/o 郭/o 头部/o ,/o 郭/o 用/o 玻璃/arm 茶杯/arm 将/o 周/o 的/o 头部/o 砸破/o 。/o 周/o 遂/o 将/o 郭/o 打倒/o 在/o 地/o ,/o 并/o 继续/o 对/o 郭/o 实施/o 殴打/o (/o 经/o 鉴定/o ,/o 郭/o 伤情/o 构成/o 轻微伤/hurt )/o 。/o 被告人/o 郭/o 见状/o ,/o 上前/o 用 修理/o 拖拉机/o 的/o 铁锤/arm 对周/o 右/o 肩胛/o 部/o 猛击/o 一锤/o 。/o 经/o 鉴定/o ,/o 被害人/o 周/o 的/o 伤情/o 构成/o 轻伤一级/hurt 。/o 案发/o 当日/o ,/o 郎溪县/o 公安局/o 传唤/o 郭/o 询问/o 查证/o 时/o ,/o 郭/o 如实供述/o 了/o 犯罪事实/o ,/o 后/o 郎溪县/o 公安局/o 立案侦查/o 。/o 案发后/o ,/o 被告人/o 郭/o 的/o 亲属/o 赔偿/o 了/o 被害人/o 周/o 10000/o 元/o 。/o 上述事实/o ,/o 被告人/o 郭/o 在/o 开庭审理/o 过程中/o 无异议/o ,/o 且/o 有/o 物证铁锤/evi 一把/o , 户籍证明/evi , 现场勘验检查笔录/evi 及/o 照片/evi , 辨认笔录/evi 及/o 照片/evi , 法医学人体损伤程度鉴定书/evi , 证人郭的证言/evi , 被害人周的陈述/evi , 被告人郭的供述与辩解/evi , 到案经过/evi , 情况说明/evi , 扣押清单/evi , 郭的病历/evi 、 出院/o 录等/o 证据/o 证实/o ,/o 足以认定/o 。/o 被告人/o 郭/o 的/o 辩护人/o 提出/o 以下/o 辩护意见/o :/o 被害人/o 对/o 本案/o 的/o 发生/o 存在/o 明显/o 过错/o ;/o 被告人/o 的/o 行为/o 具有/o 防卫/o 性质/o ,/o 属于/o 防卫过当/o ;/o 本案/o 是/o 因/o 在/o 农村土地/o 承包经营/o 过程中/o 的/o 琐事/o 矛盾/o 引起/o 的/o ,/o 被告人/o 的/o 主观恶性/o 和/o 社会危害性/o 均/o 较小/o ;/o 被告人/o 郭/o 具有/o 自首/o 、/o 自愿/o 认罪/o 、/o 初犯/o 、/o 偶犯/o 、/o 赔偿/o 被害人/o 损失/o 等/o 情节/o ,/o 建议/o 对/o 被告人/o 郭/o 从轻处罚/o 。/o

在上述标注文本中可以首先利用分词工具进行分词,根据工具前置词“用”匹配出作案工具“玻璃茶杯”,但“玻璃茶杯”分词时候会被切分为“玻璃”和“茶杯”,占两个词节。又如可以利用“构成”、“轻伤一级”以及标点“。”判断出其伤害程度为轻伤一级。再如利用“且”“有”二字的连接,标点“,”的切分和“等”字的结尾判断,切分出多条证据罗列。

在用上述基于规则的方法匹配之后,可以再用基于字符的深度学习模型进行进一步的学习帮助提取犯罪事实信息:

 

①长短期记忆网络(LSTM)是一种基于RNN的深度网络模型,传统RNN只有一种重复神经网络模块的链式形式。

 

https://ws1.sinaimg.cn/large/005BVyzmly1fotnatxsm7j30jg07bjsi.jpg

   LSTM在一个cell中放置了三扇门,分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。以此用来解决长序依赖问题。

②条件随机场(CRF)

CRF假设标注序列Y在给定观察序列X的条件下,Y构成的图为一个MRF,即可表示成图

https://images2015.cnblogs.com/blog/399159/201612/399159-20161223110341276-282562376.png

多种模型对比

经过上述模型发现其准确率较高,召回率和F1值较低。这与人工标注的不准确性和数据集较少关系密切,进一步分析4种实体内容分别的三项指标如下所示:

我们发现arm和sick三项指标均很低,这与arm和sick规则难以模拟有强烈关系,evi识别率较低与证据较多难以分割有关系,而hurt项较高则由于规则易学习。针对上诉问题,对于arm和sick引入词典进行处理,对于常见疾病和犯罪工具建立词典。对于evi则使用预处理方式将证据中与犯罪嫌疑人强烈相关的其他人名利用规则替换成统一内容。通过以上方法后,三项指标有一定提升,图略。

线性回归预测

线性回归可以参照其他博客,这里选取hurt项(准确率高,信息关键),采用one-hot向量的方式对每一则犯罪事实编码。y向量选择的是已知的犯罪事实对应的刑期形成。x,y矩阵,结果表明加权与不加权损失相同

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/769702
推荐阅读
相关标签
  

闽ICP备14008679号