当前位置:   article > 正文

BIO标注

BIO标注

目录

 一、test_df 各个字段解释

 举例说明

二、test_text_df 各个字段解释

三、代码从0实现 


 一、test_df 各个字段解释

 'id':文章id
'discourse_id':描述id(一篇文章会有多个描述)

'discourse_start':该描述在文章的开始位置

'discourse_end',:该描述在文章的结束位置

'discourse_text':具体内容

 'discourse_type':描述类型(有Name_desc,Age_desc)

        Name_desc:姓名描述信息

        Age_desc:年龄描述信息       

 'discourse_type_num':该文章包含该类描述的个数

'predictionstring':“描述”在文章的位置

 举例说明

文章:"i am zzz,i am 18 years old."

 'id':1

'discourse_id':11(第一篇文章的第一个描述)

'discourse_start':0

'discourse_end':8

'discourse_text':'i am zmz'

 'discourse_type':Name_desc   

 'discourse_type_num':该文章包含姓名描述信息:1个

'predictionstring':'0 2 3 5 6 7'-->'i a m z m z'

二、test_text_df 各个字段解释

"id":文章id

"text":文章内容

三、代码从0实现 

  1. # BIO标注
  2. test_text = "i am zzz,i am 18 years old."
  3. origin_text = [i for i in test_text]
  4. entity = ['0']*len(test_text)
  5. test_df = pd.DataFrame(columns=['id', 'discourse_id', 'discourse_start', 'discourse_end', 'discourse_text', 'discourse_type', 'discourse_type_num', 'predictionstring'])
  6. test_df.loc[0] = [1,11,0,8,'i am zmz','Name_desc',1,'0 2 3 5 6 7']
  7. test_df.loc[1] =[1,12,9,26,'i am 24 years old','Age_desc',1,'9 11 12 14 15 17 18 19 20 21 23 24 25']
  8. # test_text[test_df.loc[0]['discourse_start']:test_df.loc[0]['discourse_end']]
  9. test_text_df = pd.DataFrame([{'id':1,'text':test_text}])
  10. for index,row in test_df[test_df['id'] == 1].iterrows():
  11. list_discourse = [int(x) for x in row['predictionstring'].split()]
  12. # print(list_discourse)
  13. discourse_type = row['discourse_type']
  14. entity[list_discourse[0]] = 'B-' + discourse_type
  15. for i in range(1,len(list_discourse)):
  16. entity[list_discourse[i]] = 'I-' + discourse_type
  17. for i in range(len(entity)):
  18. print(entity[i] + ': ' +origin_text[i])

其中:

伪代码:

test_text[test_df['discourse_start'] : test_df['discourse_end']] == test_df['discourse_text']

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/961203
推荐阅读
相关标签
  

闽ICP备14008679号