赞
踩
目录
"re.sub('自然语言处理',"NLP",text l)"表示的含义为( )。正确答案: C :将test1中的"自然语言处理"替换为"NLP";
( )函数用于获取语料库中的文件。正确答案: D :fileids;
BOW模型其中的一个缺点是( )。正确答案: D :矩阵稀疏;
DM模型与CBOW模型的区别为( )。正确答案: C :DM模型输入不仅包括上下文,而且还包括相应的段落;
jieba词性标注的流程不包括( )。正确答案: D :创建规则库;
NLTK的安装步骤为( )。答案: D :安装NLP虚拟环境→安装NLTK→检查是否存在NLTK→下载NLTK数据包;
TF-lDF算法的主要思想是( )。正确答案: A :字词的重要性随着它在文档中出现次数的增加而上升,随着它在语料库中出现频率的升高而下降;
不是聊天机器人模型优化方法的是( )。正确答案: B :自适应梯度法;
不属于jieba分词步骤的是( )。正确答案: B :统计每个出现在词头的位置状态的次数,得到初始概率;统计每种位置状态转移至另一种状态的次数,得到转移概率。;
不属于NLP应用场景的是( )。正确答案: A :数据挖掘;
不属于常用的正则表达式函数的是( )。正确答案: B :matplotlib函数;
不属于常用的正则表达式函数的是( )。正确答案: B :matplotlib函数;
不属于打开Jupyter Notebook 方式的是( )。正确答案: B :单击桌面上的Jupyter Notebook 图标;
不属于分布式表示模型的是( )。正确答案: D :分类模型;
不属于关键词提取算法的是( )。正确答案: B :关联算法;
不属于基于规则的分词方法的是( )。正确答案: C :反向最大匹配法;
不属于情感分析应用的是( )。正确答案: B :远程通信;
不属于未登录词的是( )。正确答案: A :网络热门词语;
不属于未登录词的是( )。正确答案: D :网络热门词语;
不属于文本挖掘的基本技术分类的是( )。
不属于文本语料获取方法的是( )。正确答案: D :随机生成;
不属于语料库特征的是( )。正确答案: A :语料库是随机收集的,可以被计算机程序检索的语料集合;
不属于语料预处理的是( )。正确答案: A :去除数据中的文本部分;
不属于中文的实体边界识别变得更加有挑战性原因的是( )。正确答案: A :中文词数量繁多;
不属于中文的实体边界识别变得更加有挑战性原因的是( )。正确答案: D :中文词数量繁多;
常见的主题模型算法不包括( )。正确答案: D :潜在语义判断(LSJ);
常用NLP模型的评价指标不包括 ( )。正确答案: B :IGD;
常用的文本处理模型不包括 ( )。正确答案: D :NLTK;
独热表示的缺点不包括( )。正确答案: A :可以保留语义;
对于满足正态分布的样本数据来说效果会很好,但是过于依赖初始聚类中心的算法是基于( )的聚类算法。正确答案: A :模糊;
对原始的语料文件进行预处理时要进行( )。正确答案: C :构建词典;
构建或研究语料库的时候,一般应考虑代表性、结构性、平衡性、( ) 4
个特性。正确答案: B :规模性;
关键词提取最简单、最直观的方法是( )方法,用于识别定义类查询的句子。正确答案: D :规则的匹配方法;
关于TextRank算法的描述不正确的是( )。正确答案: B :通过平均分配的方式计算每个词的链接词的得分;
关于TF-IDF算法的描述不正确的是( )。正确答案: A :采取投票的方式对关键词进行排序;
关于逆文档频率说法错误的是( )。答案: C :一个词在文档集中越少的文档中出现,说明这个词对文档的区分能力越弱;
关于特征函数的输出值是0或1的叙述正确的是( )。正确答案: A :0表示要标注序列不符合这个特征,1表示要标注序列符合这个特征;
关于文本分类的描述正确的是( )。正确答案: A :文本分类主要是按照规则对文本实现自动划归类别的过程;
关于文本聚类的描述正确的是( )。正确答案: C :文本聚类主要是从杂乱的文本集合中挖掘对用户有价值的信息;
关于主题模型算法的描述不正确的是( )。正确答案: B :每个文档中只包含一个主题;
机器学习算法进行文本分类或聚类的步骤不包括( )。正确答案: D :计算概论矩阵;
基于LDA主题模型的文本情感分析不包括( )。正确答案: A :文本转换;
基于规则的中文分词中的问题不包括( )。正确答案: D :随机型切分歧义;
基于机器学习的情感分类,关键在于特征选择、( )、分类模型。正确答案: C :特征权重量化;
基于情感词典的文本情感分析不包括( )。正确答案: D :特征选取;
基于文本分类的文本情感分析不包括( )。正确答案: C :文本抽取;
决策树算法的缺点是( )。正确答案: B :易出现过拟合,易忽略数据集属性的相关性;
情感分析的基础性工作是( )。正确答案: C :文本信息抽取;
情感分析技术的核心问题是( )。正确答案: A :情感分类;
适用于样本容量较大的文本集合的文本分类算法是( )。正确答案: A :K最近邻;
属于特征提取方法的是( )。正确答案: D :BOW模型;
问答系统流程由问题理解、( )、答案生成3个部分组成。正确答案: A :知识检索;
下列Python中的预定义字符描述正确的是( )。正确答案: A :\s:空白字符;
下列Python中的预定义字符描述正确的是( )。正确答案: B :\s:空白字符;
下列不是基于规则的统计分词的是( )。正确答案: B :维特比模型;
下列不属于jieba分词模式的是( )。正确答案: C :自定义模式;
下列不属于NLP语料库构建规则的是( )。正确答案: D :不平衡性;
下列不属于按照研究目的和用途划分的语料库种类的是( )。正确答案: C :历史语料库;
下列不属于词性标注方法的是( )。正确答案: C :基于条件概率的词性标注;
下列关于jieba词性标注的流程错误的是( )。正确答案: A :构建无向无环图;
下列关于jieba词性标注的描述正确的是( )。正确答案: C :jieba词性标注与其分词的过程类似;
下列关于Word2Vec模型说法正确的是( )。正确答案: B :真正需要的是这个模型通过训练数据所得的参数;
下列关于文本聚类算法的描述正确的是( )。正确答案: A :基于层次的聚类算法不需要设定聚类数;
下列描述不正确的是( )。正确答案: A :语料库的规模越大对NLP研究越有利;
下列描述不正确的是( )。正确答案: B :match函数用于检测字符串是否匹配;
下列描述错误的是( )。正确答案: C :CRF是一种用于标记和切分序列化数据的基于规则的框架模型;
下列描述正确的是( )。正确答案: C :jieba分词结合了基于规则和基于统计的分词方法;
下列属于jieba分词全模式的语句是( )。正确答案: B :seg=jieba.cut(text,cut_all=True);
下列属于NLTK函数的是( )。正确答案: B :sorted;
下列属于正则表达式中的量化符的是( )。正确答案: A :?D.^;
要求关键词提取算法应具有的性质不包括( )。正确答案: C :简洁性;
一篇文章在讲各式各样的水果及其功效,当"水果" 这一关键词没有直接出现在文本中时,应该使用( )。正确答案: D :主题模型算法;
语料库以语料库结构进行划分可分为( )。正确答案: A :平衡结构语料库与自然随机结构语料库;
在NLP虚拟环境中安装需要的程序包,并自自动安装这个包的依赖项需要用到( )正确答案: D :conda install package_name;
在情感分析中,下列描述正错误的是( )。正确答案: D :情感极性判断属于二分类问题;
在情感分析中,下列描述正确的是( )。正确答案: B :文本的主客观分类是情感分析的基础性工作;
在文本向量化中,关于分布式表示的描述不正确的是( )。正确答案: D :词向量是一种稀疏词向量;
在文本向量化中,关于离散表示的描述不正确的是( )。正确答案: C :常用的方法有词集模型和连续词袋模型;
在文本向量化中,下列描述正确的是( )。正确答案: A :分布式表示将每个词根据上下文从高维空间映射到一个低维度、稠密的向量上;
在正则表达式的量化符中,下列描述不正确的是( )。正确答案: D :{n}表示前面的元素至少会被匹配n次;
在正则表达式中,下列描述不正确的是( )。正确答案: B :英文句号“.”表示匹配除换行符“\n”之外的第一个字符;
正确答案: C :文本数据挖掘;
正则表达式的功能不包括 ( )。正确答案: A :内容标注;
政府部门利用NLP技术分析人们对某一事件、政策法规或社会现象的评论,实时了解百姓的态度,这属于NLP研究内容的( )。正确答案: A :文本分类;
中文NLP的基本流程由语料获取、( )、文本向量化、模型构建、模型训班和模型评价6部分组成。正确答案: C :语料预处理;
中文实体识别的挑战不包括( )。正确答案: A :中文词无法通过空格分词;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。