当前位置:   article > 正文

python 语言分析_python中的多语言分析

expression language and expression evaluation for python

我有一堆tweet存储在数据库中,现在我需要创建一个搜索引擎来查找特定的tweet,所以我试图创建所有tweet的反向索引。在

这样的过程需要对tweet进行解析,对于大多数语言来说,这可能很简单:只需在空格处分解句子。但对于一些人们通常不使用空格来分隔单词的语言,如汉语和日语,这将变得乏味。最糟糕的是,相当数量的推特是多语种的,例如下面的tweet:青空だ♪ (@ 成田国際空港 第1ターミナル (Narita International Airport - Terminal 1) w/ 3 others) http://t.co/eqjJSxTX

在这种情况下,我需要使用python将上述字符串转换为元组:("青","空","だ","♪","(@","成","田","国","際","空","港","","第","1","タ","ー","ミ","ナ","ル","(","Narita","International","Airport","-","Terminal","1)","w/","3","others)","http://t.co/eqjJSxTX")

也就是说,对于日语字符,每个元素应该只包含一个字符,但是对于非日语字符,字符串的解析应该通过空格进行。在

那么,是否有可用的库来执行此功能,或者如果不存在这样的库,那么实现这一功能的相对简单的方法是什么?在

谢谢大家。在

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号