当前位置:   article > 正文

文本清洗?一个工具搞定!Python版 NLP 文本清洗工具_python jionlp

python jionlp

文本清洗是一个繁琐复杂的工作,不论是对于NLP 的开发者,还是其它领域工作者。这部分工作可以由 JioNLP 工具包一键搞定!!!

⭐ 源码戳这里 => JioNLPhttps://github.com/dongrixinyu/JioNLPhttps://github.com/dongrixinyu/JioNLP

⭐ (在线文本清洗)戳这里 => 在线文本清洗使用

工具包安装 Installation

  • python>=3.6 github 版本略领先于 pip
  1. $ git clone https://github.com/dongrixinyu/JioNLP
  2. $ cd ./JioNLP
  3. $ pip install .
  • pip 安装
$ pip install jionlp
  • 可能存在的问题
  1. # 如安装失败,遇到安装时提示的 pkuseg、Microsoft Visual C++、gcc、g++ 等信息,
  2. # 则说明是 pkuseg 安装失败,需要在相应系统中安装 C 和 C++ 编译器,重新安装。
  3. # pip install pkuseg

 工具包使用 Usage

清洗文本,主要步骤包括去除 html 标签、去除异常字符、去除冗余字符、去除括号补充内容、去除 URL、去除 E-mail、去除电话号码,将全角字母数字空格替换为半角,一般用于将其当做无关噪声,处理分析数据。

  1. >>> text = '''<p><br></p> <p><span>创历史!张帅美网女双夺冠创6纪录 大满贯双打2冠并列中国金花第1(号外)</span></p><p><span>fds</span></p><p><span>北京时间9月13日,2021年美网女双决赛展开角逐,跨国组合张帅/斯托瑟对决美国组合高芙/麦克纳莉。张帅/斯托瑟以总比分2-1击败高芙/麦克纳莉,三盘具体比分是6-3、3-6和6-3,从辛辛那提赛开始豪取一波11连胜,成功夺得美网女双冠军,张帅生涯首次夺得美网女双冠军,也是生涯第2次夺得大满贯双打冠军。(责任编辑:唐小林)联系电话:13302130583,邮箱:dongrixinyu.89@163.com~~~~'''
  2. >>> res = jionlp.clean_text(text)
  3. >>> print(res)
  4. >>> print(jionlp.clean_text.__doc__)
  5. # '创历史!张帅美网女双夺冠创6纪录 大满贯双打2冠并列中国金花第1fds北京时间9月13日,2021年美网女双决赛展开角逐,跨国组合张帅/斯托瑟对决美国组合高芙/麦克纳莉。张帅/斯托瑟以总比分2-1击败高芙/麦克纳莉,三盘具体比分是6-3、3-6和6-3,从辛辛那提赛开始豪取一波11连胜,成功夺得美网女双冠军,张帅生涯首次夺得美网女双冠军,也是生涯第2次夺得大满贯双打冠军。联系电话:,邮箱:~ '
  • 去除异常字符主要指由于非 UTF-8 编码造成的异常字符,如“板簳浠?拷涔”等
  • 去除冗余字符主要指文本中有多个连续的空格,“~~~~”等重复冗余信息,缩减为1个字符。
  • 该方法中的所有关键字参数均为 bool 型,支持选择控制是否去除相应类型的数据
  • 所有选项都可以自己控制调控。搞明白之后,来 在线文本清洗使用 试试吧。

如果觉得好用请点个 Star 赞吧 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/171871
推荐阅读
相关标签
  

闽ICP备14008679号