当前位置:   article > 正文

python tokenizer是什么_Python tokenizer包_程序模块 - PyPI - Python中文网

python 'tokenizer' (d:\anaconda\install\lib\site-packages\tokenizer\__init__

这个包里有一本冰岛常用缩写的字典,

在文件

src/tokenizer/abbrev.conf

令牌赋予器是greynir项目的一个独立分支。

(github repository

此处

),作者相同。

注意,当greynir被许可时,tokenizer是在mit许可下被许可的。

在GPLv3下。

你也可以找到

冰岛语的reynir自然语言分析器

很有趣。reynir解析器在其输入上使用标记器。

要安装:$ pip install tokenizer

要使用(对于python 3,可以省略

u""

字符串前缀):from tokenizer import tokenize, TOK

text = (u"Málinu var vísað til stjórnskipunar- og eftirlitsnefndar "

u"skv. 3. gr. XVII. kafla laga nr. 10/2007 þann 3. janúar 2010.")

for token in tokenize(text):

print(u"{0}: '{1}' {2}".format(

TOK.descr[token.kind],

token.txt or "-",

token.val or ""))

输出:BEGIN SENT: '-' (0, None)

WORD: 'Málinu'

WORD: 'var

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/354858?site
推荐阅读
相关标签
  

闽ICP备14008679号