赞
踩
自然语言处理中包含以下基础任务:
分词-word segmentation
Jieba分词
SnowNLP
LTP
HanNLP
词性标注-POS
句子中的每个单词被分类为一种词性,如动词,名词等,词性标注的过程依赖当前单词以及上下文信息,词性标注问题即序列标注问题。序列标注问题可以当做分类问题,一方面,可以对于当前单词以及上下文单词(sliding window)提取特征,并用这些特征做分类;另一方面,利用序列模型考虑单词之间前后的依赖关系来做预测,常见的序列模型算法有:HMM,CRF,RNN,LSTM,Transformer
词性标注是自然语言最基础的任务,可以认为是Solved Problem(已经解决的问题),很多时候,可以作为上游任务的特征。
命名实体识别-NER
命名实体识别类似于词性标注,命名实体识别的结果一般如下:
张三/PER 的 家 住 在 北京/LOC
不管是做文本摘要,还是问答系统、对话系统任务,又或者是文本分类任务,实体对任务会产生非常重要的影响。
句法分析-Syntatic Analysis
句法分析就是对一个句子的词语句法做分词,比如主谓宾。句法分析的结果是一棵树。这个在工业界用的地方不多。与之类似的依存文法分析(Dependency Parsing)用的地方比较多。在短文本分类中,如何准确的把控短文本的含义呢?针对这个场景,我们要做的是在各个维度来分析短文本
语义分析-Semantic Analysis
语义理解涉及两个问题:
1、 如何理解一个单词的意思?(理解某个单词在某句话中的意思)
2、如何理解一个文本的意思?(理解整句话的意思)
主要技术有:SkipGram,CBOW,Glove,ELMo,BERT,ALBERT,XLNet,GPT-2,GPT-3,Tiny-BERT
- 检索Query
- 文本处理
- 在数据库中搜索
- 返回排序前多少的结果
如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论或者私信!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。