赞
踩
首先,我必须承认我是Python或R的新手。
在这里,我试图创建一个文件,其中包含双克/ 2克以及它们的POS标签(NN,VB等)列表。这用于轻松识别有意义的二元组及其POS标签组合。
例如:bigram - 'Gross''Profit'具有JJ& NN。但是,两个“四分之一”的POS标签组合是NN&在。有了这个,我可以找到有意义的POS组合。它可能不准确。没事儿。只是想研究它。
For Reference please check the section "2-gram Results" in this page.我的要求就是这样的。但它是在R中完成的,所以对我没有用处。
正如我在Python中遇到的那样,可以使用NLTK或TextBlob包完成POS标记和双元素创建。但是我无法找到为Python中生成的双元素分配POS标签的逻辑。请参阅下面的代码和相关输出。
import nltk
from textblob import TextBlob
from nltk import word_tokenize
from nltk import bigrams
################# Code snippet using TextBlob Package #######################
text1 = """This is an example for using TextBlob Package"""
blobs = TextBlob(text1) ### Converting str to textblob object
blob_tags = blobs.tags ### Assigning POS tags to the word blobs
print(blob_tags)
blob_bigrams = blobs.ngrams(n=2) ### Creating bi-grams from word blobs
print(blob_bigrams)
################# Code snippet using NLTK Package #######################
text2 = """This is an example for using NLTK Package"""
tokens = word_tokenize(text2) ### Converting str object to List object
nltk_tags = nltk.pos_tag(tokens) ### Assigning POS tags to the word tokens
print(nltk_tags)
nltk_bigrams = bigrams(tokens) ### Creating bi-grams from word tokens
print(list(nltk_bigrams))任何帮助深表感谢。提前致谢。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。