赞
踩
自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个重要研究方向,其核心目的是对自然语言进行分析、理解和处理,使之成为计算机可以理解的形式,从而实现自然语言生成、理解和分析的功能。本文通过Python语言结合自然语言处理工具库SpaCy、Stanford Core NLP、Scikit-learn等实现中文文本的自动摘要和关键词提取。
首先,我们需要安装好相应的工具包,包括:
NLP中最基本的单元是词语(word)。中文由很多不同形态的字符组成,不同的字符可能代表着不同的意义和情感,为了解决这个问题,NLP将汉字分割成词汇,通常是按照“空格”、标点符号、连字符或语气助词进行分割。这样的分割方式存在一些问题,比如会导致“吃了吗?”,“长得像李荣浩一样”,“电脑性能不错”被分成四个词,而“吃了”,“长得像”,“性能不错”三个词在实际上表达的是同一个意思。因此,为了准确地捕获单词的意思,NLP引入了特征空间(Feature Space),在特征空间中,每个词对应着一个向量。词向量可以通过统计学习方法从语料库中训练得到。
另一种基本的单位是句子(sentence),由若干词组成。由于中文语句没有明显的分隔
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。