赞
踩
- import jieba
-
- text='在中国古代文化中,书法和绘画是艺术的重要表现形式。古人常说,‘文字如其人’,通过墨迹可以窥见作者的性情和气质。而画家则以笔墨搏击,表现出山川河流、花鸟虫鱼的灵动。这些艺术形式不仅仅是技艺的表现,更是一种精神的抒发和文化的传承。'
-
- # 分词
- words = jieba.cut(text,cut_all=False)
- print(list(words))
返回结果:
['在', '中国', '古代', '文化', '中', ',', '书法', '和', '绘画', '是', '艺术', '的', '重要', '表现形式', '。', '古人', '常说', ',', '‘', '文字', '如其人', '’', ',', '通过', '墨迹', '可以', '窥见', '作者', '的', '性情', '和', '气质', '。', '而', '画家', '则', '以', '笔墨', '搏击', ',', '表现', '出', '山川', '河流', '、', '花鸟虫鱼', '的', '灵动', '。', '这些', '艺术', '形式', '不仅仅', '是', '技艺', '的', '表现', ',', '更是', '一种', '精神', '的', '抒发', '和', '文化', '的', '传承', '。']
- import spacy_stanza
- import stanza
-
- # 下载并加载 Stanza 中文模型
- stanza.download('zh')
- nlp = spacy_stanza.load_pipeline('zh')
-
- text='在中国古代文化中,书法和绘画是艺术的重要表现形式。古人常说,‘文字如其人’,通过墨迹可以窥见作者的性情和气质。而画家则以笔墨搏击,表现出山川河流、花鸟虫鱼的灵动。这些艺术形式不仅仅是技艺的表现,更是一种精神的抒发和文化的传承。'
-
- doc = nlp(text)
- words = [token.text for token in doc]
- print(words)
返回结果:
['在', '中国', '古代', '文化', '中', ',', '书法', '和', '绘画', '是', '艺术', '的', '重要', '表现', '形式', '。', '古', '人', '常', '说', ',', '‘', '文字', '如', '其', '人', '’', ',', '通过', '墨迹', '可以', '窥见', '作者', '的', '性情', '和', '气质', '。', '而', '画家', '则', '以', '笔', '墨', '搏击', ',', '表现', '出', '山川', '河流', '、', '花鸟', '虫', '鱼', '的', '灵动', '。', '这些', '艺术', '形式', '不', '仅仅', '是', '技艺', '的', '表现', ',', '更是', '一', '种', '精神', '的', '抒发', '和', '文化', '的', '传承', '。']
第一段分词结果:
选择哪种分词结果取决于你的具体需求:
- import spacy
- nlp = spacy.load("zh_core_web_sm")
- doc = nlp(text)
- print([w.text for w in doc])
上面这也是spaCy的一种实现中文文本处理的方式,但是它和spacy_stanza与什么区别吗?
下面来讲一下,它们的区别:
这两种中文文本处理方式的主要区别在于使用的底层技术和处理能力。
spacy_stanza
集成的 Stanza 中文模型zh_core_web_sm
zh_core_web_sm
是一个小型模型,主要适用于基础的 NLP 任务。Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。