当前位置:   article > 正文

自然语言处理实验_自然语言处理 实验

自然语言处理 实验

跨象乘云的个人空间_哔哩哔哩_Bilibili跨象乘云,广州跨象乘云软件技术有限公司;人工智能科研教学一体化实验平台|人工智能专业建设|人工智能实验室 | 项目案例|网址:https://www.080910t.com/;跨象乘云的主页、动态、视频、专栏、频道、收藏、订阅等。哔哩哔哩Bilibili,你感兴趣的视频都在B站。https://space.bilibili.com/189064479/channel/collectiondetail?sid=701611.文本分析

2.文本分词

3.词性标注

4.移除停用词 

        NLTK  自定义stop_words  中文使用jieba将句子分词,然后去掉停用词

5.文本标准化(文本正则化)  1.拼写错误 2.词干提取 3.词形还原

        拼写错误:英语-算法,最小编辑距离(更改后) autocorrect

        词干提取:from nltk import stem    stem.PorterStemmer

        词性还原:  WordNetLemmatizer()  配合词性标注,还原后将达到更优的效果

TextBlob是python的开元文本处理库,属于NLTK的扩展库,可以处理很多自然语言处理的任务。

6.文本翻译  实验使用python的Translate替换TextBlob的内置翻译引擎API,该引擎同样有翻译次数限制。

7.文本清洗和分词    结构化数据(表格)。半结构化数据(XML、JSON、HTML)

        re   使用正则表达式匹配字母、数字,其他全部使用空格替换:re.sub([r'[^\s\w]|_])

8.ngram:    两种使用方法 from NLTK import ngrams    from textblob import TextBlob

9.高级文本分词器:

10.NER命名实体识别, 

        1.分词  2.词性标注   3.实体识别

11.词义消歧

        拼写相同的词在不同句子中有不同的含义,词的分类任务,词在特定的句子中属于哪个意思

Lesk算法  NLTK中的lesk模块

12.语句边界检测

        from nltk import sent_tokenize   能够识别出真正是句子分割的  '.'

13.词袋模型

        忽略词序,语法,句法信息,单纯词频

        向量的维度有词袋的大小确定。。

        sklearn 的CountVectorizer创建词袋

14.TF-IDF

        TF单词频率

        IDF逆文档频率,真正相关的单词在其他文档出现的频率应该很低

15.Jaccard相似度和余弦相似度

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/378715
推荐阅读
相关标签
  

闽ICP备14008679号