赞
踩
文本清洗是一个繁琐复杂的工作,不论是对于NLP 的开发者,还是其它领域工作者。这部分工作可以由 JioNLP 工具包一键搞定!!!
- $ git clone https://github.com/dongrixinyu/JioNLP
- $ cd ./JioNLP
- $ pip install .
$ pip install jionlp
- # 如安装失败,遇到安装时提示的 pkuseg、Microsoft Visual C++、gcc、g++ 等信息,
- # 则说明是 pkuseg 安装失败,需要在相应系统中安装 C 和 C++ 编译器,重新安装。
- # pip install pkuseg
清洗文本,主要步骤包括去除 html 标签、去除异常字符、去除冗余字符、去除括号补充内容、去除 URL、去除 E-mail、去除电话号码,将全角字母数字空格替换为半角,一般用于将其当做无关噪声,处理分析数据。
- >>> text = '''<p><br></p> <p><span>创历史!张帅美网女双夺冠创6纪录 大满贯双打2冠并列中国金花第1(号外)</span></p><p><span>fds</span></p><p><span>北京时间9月13日,2021年美网女双决赛展开角逐,跨国组合张帅/斯托瑟对决美国组合高芙/麦克纳莉。张帅/斯托瑟以总比分2-1击败高芙/麦克纳莉,三盘具体比分是6-3、3-6和6-3,从辛辛那提赛开始豪取一波11连胜,成功夺得美网女双冠军,张帅生涯首次夺得美网女双冠军,也是生涯第2次夺得大满贯双打冠军。(责任编辑:唐小林)联系电话:13302130583,邮箱:dongrixinyu.89@163.com~~~~'''
- >>> res = jionlp.clean_text(text)
- >>> print(res)
- >>> print(jionlp.clean_text.__doc__)
-
- # '创历史!张帅美网女双夺冠创6纪录 大满贯双打2冠并列中国金花第1fds北京时间9月13日,2021年美网女双决赛展开角逐,跨国组合张帅/斯托瑟对决美国组合高芙/麦克纳莉。张帅/斯托瑟以总比分2-1击败高芙/麦克纳莉,三盘具体比分是6-3、3-6和6-3,从辛辛那提赛开始豪取一波11连胜,成功夺得美网女双冠军,张帅生涯首次夺得美网女双冠军,也是生涯第2次夺得大满贯双打冠军。联系电话:,邮箱:~ '
如果觉得好用请点个 Star 赞吧
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。