赞
踩
这个包里有一本冰岛常用缩写的字典,
在文件
src/tokenizer/abbrev.conf
令牌赋予器是greynir项目的一个独立分支。
(github repository
此处
),作者相同。
注意,当greynir被许可时,tokenizer是在mit许可下被许可的。
在GPLv3下。
你也可以找到
冰岛语的reynir自然语言分析器
很有趣。reynir解析器在其输入上使用标记器。
要安装:$ pip install tokenizer
要使用(对于python 3,可以省略
u""
字符串前缀):from tokenizer import tokenize, TOK
text = (u"Málinu var vísað til stjórnskipunar- og eftirlitsnefndar "
u"skv. 3. gr. XVII. kafla laga nr. 10/2007 þann 3. janúar 2010.")
for token in tokenize(text):
print(u"{0}: '{1}' {2}".format(
TOK.descr[token.kind],
token.txt or "-",
token.val or ""))
输出:BEGIN SENT: '-' (0, None)
WORD: 'Málinu'
WORD: 'var
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。