赞
踩
前言
随着大模型能力的不断增强,大模型可以干的事情越来越多,利用大模型可以进行语义理解、语义识别。但是大模型也有其局限性,比如不知道时间。当你问大模型时间的时候,他的幻觉就来了。本来接下来将探讨如何解决这个问题。
Jionlp
是一个Python库,主要用于处理中文自然语言处理(NLP)任务。它提供了一系列的工具和功能,旨在帮助开发者更方便地处理和分析中文文本数据。Jionlp
可能包括以下功能:
Jionlp
可能还包括其他与中文文本处理相关的功能,如文本清洗、停用词过滤、词频统计等。这个库的目标是简化中文文本处理的复杂度,提供高效、易用的工具,以便开发者可以专注于他们的核心任务。
使用大模型识别日期即便可行,但由于大模型运算量巨大,时间基本是秒级
使用jionlp速度则很快,可以说是毫秒级
这样jionlp在性能上、准确性上都是比大模型技高一筹,当然这里主要是说日期识别方面。
- import time
- import datetime
- import jionlp as jio
代码如下(示例):
- text = '【新华社报2021-9-9】国家统计局今天发布了2021年8月份全国CPI(居民消费价格指数)和PPI(工业生产者出厂价格指数)数据。'
- # 抽取时间实体
- res = jio.ner.extract_time(text, time_base={'year': datetime.datetime.now().year})
- print(res)
返回结果如下,可见识别到了多个日期信息
这里time_base参数也很重要,即确认基础时间信息,会影响相对日期
- [
- {
- "text": "2021-9-9",
- "offset": [
- 5,
- 13
- ],
- "type": "time_point",
- "detail": {
- "type": "time_point",
- "definition": "accurate",
- "time": [
- "2021-09-09 00:00:00",
- "2021-09-09 23:59:59"
- ]
- }
- },
- {
- "text": "今天",
- "offset": [
- 19,
- 21
- ],
- "type": "time_point",
- "detail": {
- "type": "time_point",
- "definition": "accurate",
- "time": [
- "2024-01-01 00:00:00",
- "2024-01-01 23:59:59"
- ]
- }
- },
- {
- "text": "2021年8月份",
- "offset": [
- 24,
- 32
- ],
- "type": "time_point",
- "detail": {
- "type": "time_point",
- "definition": "accurate",
- "time": [
- "2021-08-01 00:00:00",
- "2021-08-31 23:59:59"
- ]
- }
- }
- ]
代码如下(示例):
- # 时间解析
- res = jio.parse_time('今年9月', time_base=time.time())
- res = jio.parse_time('今年9月')
- print(res)
返回结果如下,可以看到第一个方法也可以识别出具体时间信息,不一样的地方在于,第一个方法没识别到日期也不会报错,但是第二个方法识别不到日期会报错
- {
- "type": "time_span",
- "definition": "accurate",
- "time": [
- "2024-09-01 00:00:00",
- "2024-09-30 23:59:59"
- ]
- }
代码如下(示例):
- def getDate(date_Str):
- """
- 根据文字获取日趋信息
- """
-
- date_Str=date_Str.replace("这个月","本月")
-
- date={
- "start":"",
- "end":""
- }
- dateObjs = jio.ner.extract_time(date_Str, time_base=time.time())
- if len(dateObjs)>0:
- # print(dateObjs)
- # print(type(dateObjs))
-
- dateObj=dateObjs[0]
- # print(dateObj)
- # print(type(dateObj))
- detailTime=dateObj["detail"]["time"]
- if len(detailTime)==2:
- date['start']=detailTime[0]
- date['end']=detailTime[1]
-
- return date
直接传递包含日期的字符串,即可自动返回日期时间信息
为了方便其他应用调用,封装为api是一个比较好的方法
使用fastapi+uvicorn是一个比较推荐的方式
本文主要介绍了使用jionlp进行自然语言日期识别的方法过程,希望可以帮助到正好有需要的小伙伴。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。