当前位置:   article > 正文

nlp 中文数据预处理_nlp去除数据乱码

nlp去除数据乱码

nlp 中文数据预处理


此博文详细介绍中文数据预处理的过程并配上一定量的代码作为实例

数据加载(默认csv格式)
import pandas as pd
datas = pd.read_csv("./test.csv", header=0, index_col=0) # DataFrame
n_datas = data.to_numpy() # ndarray 转成numpy更好处理(个人喜好)
  • 1
  • 2
  • 3
去除空行
def delete_blank_lines(sentences):
    return [s for s in sentences if s.split()]

no_line_datas = delete_blank_lines(n_datas)
  • 1
  • 2
  • 3
  • 4
去除数字
DIGIT_RE = re.compile(r'\d+')
no_digit_datas = DIGIT_RE.sub('', no_line_datas)
def delete_digit(sentences):
    return [DIGIT_RE.sub('', s) for s in sentences]
  • 1
  • 2
  • 3
  • 4
判断句子形式(简单句或者复杂句)
STOPS = ['。', '.', '?', '?', '!', '!']  # 中英文句末字符
def is_
  • 1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/350036
推荐阅读
相关标签
  

闽ICP备14008679号