当前位置:   article > 正文

0.NLP基础之正则表达式_nlp正则表达式

nlp正则表达式

正则表达式在NLP中有广泛的运用,一般用在文本清洗和过滤中,可以把我们的关注的文本内容选取出来再利用机器学习的技术。

否则我们一股脑未经筛选,将所有的文本丢到模型中,模型会被大量的噪声干扰。

示例:

  1. import re
  2. text_string = "文本最重要的来源无疑是网络。我们要把网络中的文本获取形成一个文本数据库。利用一个爬虫抓取到网络中的信息。爬取的策略有广度爬取和深度爬取。根据用户的需求,爬虫可以有主题爬虫和通用爬虫之分。"

1、获取文本中是否包含某个词

  1. # 我们需要找到哪句话 包含 ‘爬虫’这个词,需要先断句再搜索
  2. regex = '爬虫'
  3. #用句号断句形成列表
  4. p_string = text_string.split("。")
  5. print(p_string)
  6. >>>
  7. ['文本最重要的来源无疑是网络', '我们要把网络中的文本获取形成一个文本数据库', '利用一个爬虫抓取到网络中的信息', '爬取的策略有广度爬取和深度爬取', '根据用户的需求,爬虫可以有主题爬虫和通用爬虫之分', '']
  8. # 对列表中的每句话进行正则表达式匹配,搜索每句话中是否能查到‘爬虫’这个词
  9. for line in p_string:
  10. # 如果能查找到则返回line,查找不到结果会为None
  11. if re.search(regex,line) is not None:
  12. print(line)
  13. >>>
  14. 利用一个爬虫抓取到网络中的信息
  15. 根据用户的需求,爬虫可以有主题爬虫和通用爬虫之分

 

2、匹配任意一个字符

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/421175
推荐阅读
相关标签
  

闽ICP备14008679号