赞
踩
正则表达式在NLP中有广泛的运用,一般用在文本清洗和过滤中,可以把我们的关注的文本内容选取出来再利用机器学习的技术。
否则我们一股脑未经筛选,将所有的文本丢到模型中,模型会被大量的噪声干扰。
示例:
- import re
- text_string = "文本最重要的来源无疑是网络。我们要把网络中的文本获取形成一个文本数据库。利用一个爬虫抓取到网络中的信息。爬取的策略有广度爬取和深度爬取。根据用户的需求,爬虫可以有主题爬虫和通用爬虫之分。"
1、获取文本中是否包含某个词
- # 我们需要找到哪句话 包含 ‘爬虫’这个词,需要先断句再搜索
- regex = '爬虫'
- #用句号断句形成列表
- p_string = text_string.split("。")
- print(p_string)
-
- >>>
- ['文本最重要的来源无疑是网络', '我们要把网络中的文本获取形成一个文本数据库', '利用一个爬虫抓取到网络中的信息', '爬取的策略有广度爬取和深度爬取', '根据用户的需求,爬虫可以有主题爬虫和通用爬虫之分', '']
-
- # 对列表中的每句话进行正则表达式匹配,搜索每句话中是否能查到‘爬虫’这个词
- for line in p_string:
- # 如果能查找到则返回line,查找不到结果会为None
- if re.search(regex,line) is not None:
- print(line)
-
- >>>
- 利用一个爬虫抓取到网络中的信息
- 根据用户的需求,爬虫可以有主题爬虫和通用爬虫之分

2、匹配任意一个字符
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。