当前位置:   article > 正文

用Python进行自然语言处理 - 语言处理与Python_通过程序查找聊天语料库(text5)中所有四个字母的单词。并使用频率分布函数(fr

通过程序查找聊天语料库(text5)中所有四个字母的单词。并使用频率分布函数(fr

最近在看《Analyzing Text with the Natural Language Toolkit》的中文翻译版本,觉得蛮有意思的,就把学习过程中的遇到的问题和一些代码的运行结果记录下来。小白一只,如有错误,请您指正,谢谢!

想要这本书资源的可以在评论区留下您的邮箱。

下面进入正题(之前我已经装好了Python3.6版本):

第1章    语言处理与Python

1.1 语言计算:文本和单词


  • NLTK入门    

       由于pip版本太老,先右键管理员身份打开cmd,根据提示输入 python -m pip install --upgrade pip 语句进行pip的更新。

       更新完毕,输入 pip install nltk 语句进行NLTK的安装。

       安装完毕,启动Python解释器。在Python提示符后输入以下命令:

                                                   >>>import nltk

                                                   >>>nltk.download()

       跳出以下界面:

       选中“book”这一行,点击“Download”。完成后,出现如下界面:

 

        关闭窗口。此时数据已经被下载到电脑上啦,你可以使用Python解释器去加载一些要用的文本。

        首先输入 from nltk.book import * ,即从NLTK的book模块加载all。

        若想找到这些文本,只需在>>>后输入它们的名字即可。如:


  •  搜索文本

        text1.concordance("monstrous") 即搜索《白鲸记》中的词monstrous:

         text2.concordance("affection") 即搜索《理智与情感》中的词affection:

         通过上述的词语索引,我们可以看到其上下文。如text1中的monstrous,我们可以看到 the_____pictures (见下图红框): 

 可以通过 文本名.similar("关键词”) 语句来查看还有哪些词出现在相似的上下文中。

        common_contexts函数可以

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号