0.NLP基础之正则表达式_nlp正则表达式

作者：Monodyee | 2024-04-14 08:43:44

踩

nlp正则表达式

正则表达式在NLP中有广泛的运用，一般用在文本清洗和过滤中，可以把我们的关注的文本内容选取出来再利用机器学习的技术。

否则我们一股脑未经筛选，将所有的文本丢到模型中，模型会被大量的噪声干扰。

示例：


import re
text_string = "文本最重要的来源无疑是网络。我们要把网络中的文本获取形成一个文本数据库。利用一个爬虫抓取到网络中的信息。爬取的策略有广度爬取和深度爬取。根据用户的需求，爬虫可以有主题爬虫和通用爬虫之分。"

1、获取文本中是否包含某个词


# 我们需要找到哪句话  包含  ‘爬虫’这个词，需要先断句再搜索
regex = '爬虫'
#用句号断句形成列表
p_string = text_string.split("。")
print(p_string)
 
>>>
['文本最重要的来源无疑是网络', '我们要把网络中的文本获取形成一个文本数据库', '利用一个爬虫抓取到网络中的信息', '爬取的策略有广度爬取和深度爬取', '根据用户的需求，爬虫可以有主题爬虫和通用爬虫之分', '']
 
# 对列表中的每句话进行正则表达式匹配，搜索每句话中是否能查到‘爬虫’这个词
for line in p_string:
    # 如果能查找到则返回line，查找不到结果会为None
    if re.search(regex,line) is not None:
        print(line)
 
>>>
利用一个爬虫抓取到网络中的信息
根据用户的需求，爬虫可以有主题爬虫和通用爬虫之分

2、匹配任意一个字符

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/421175