一、语言模型
(一)N元语言模型
(二)语言模型性能评价
(三)数据平滑
(四)语言模型自适应方法
二、汉语自动分词和词性标注
(一)基本分词方法
(二)未登陆词处理方法
(三)基于多特征的命名实体模型
(四)词性标注
(五)词性标注的一致性检查和自动校对
三、句法分析
(一)统计句法分析以及句法分析的检查
(二)层次化汉语长句结构分析
(三)浅层句法分析
(四)依据句法理论与依存句法分析
四、语义消歧
(一)有监督的语义消歧
(二)基于词典的语义消歧
(三)无监督的语义消歧
(四)语义消歧系统评测
五、文本分类
(一)文本表示
(二)文本 特征选择方法
(三)特征权重计算方法
(四)分类器设计
(五)文本分类器性能评估方法
六、自动文摘和信息抽取
(一)多文档摘要
(二)单文档摘要
(三)信息抽取
七、文档聚类
(一)聚类算法
(二)聚类结果评估
八、自然语言处理的主要范畴
1.文本朗读(Text to speech)/语音合成(Speech synthesis)
2.语音识别(Speech recognition)
3.中文自动分词(Chinese word segmentation)
4.词性标注(Part-of-speech tagging)
5.句法分析(Parsing)
6.自然语言生成(Natural language generation)
7.文本分类(Text categorization)
8.信息检索(Information retrieval)
9.信息抽取(Information extraction)
10.文字校对(Text-proofing)
11.问答系统(Question answering)
12.机器翻译(Machine translation)
13.自动摘要(Automatic summarization)
14.文字蕴涵(Textual entailment)
九、自然语言处理研究的难点
1. 单词的边界界定
在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。
2.词义的消歧
许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。
3.句法的模糊性
自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。
例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。
5.语言行为与计划
句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说 回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要 比回答“没人没通过”好。