当前位置:   article > 正文

人工智能(NLP)常用算法总结(面试准备)_nlp算法

nlp算法

感谢https://blog.csdn.net/u014597198/article/details/82182462的分享,补充整理了一些内容,今后会更新内容和知识点

一、人工智能学习算法分类

  • 二、详细算法
  • 三、建模方面
  • 一、人工智能学习算法分类

    人工智能算法大体上来说可以分类两类:基于统计的机器学习算法(Machine Learning)和深度学习算法(Deep Learning)

    总的来说,在sklearn中机器学习算法大概的分类如下:

    1. 纯算法类

    (1).回归算法
    (2).分类算法
    (3).聚类算法
    (4)降维算法
    (5)概率图模型算法
    (6)文本挖掘算法
    (7)优化算法
    (8)深度学习算法

    2.建模方面

    (1).模型优化
    (2).数据预处理

    二、详细算法

    1.分类算法

    (1).LR (Logistic Regression,逻辑回归又叫逻辑分类)
    (2).SVM (Support Vector Machine,支持向量机)
    (3).NB (Naive Bayes,朴素贝叶斯)
    (4).DT (Decision Tree,决策树)
    (5).KNN (k-Nearest Neighbors,K近邻算法)

    • 1).C4.5
    • 2).ID3
    • 3).CART

    (5).集成算法

    • 1).Bagging
    • 2).Random Forest (随机森林)
    • 3).GB(梯度提升,Gradient boosting)
    • 4).GBDT (Gradient Boosting Decision Tree)
    • 5).AdaBoost
    • 6).Xgboost

    (6).最大熵模型

    2.回归算法

    (1).LR (Linear Regression,线性回归)
    (2).SVR (支持向量机回归)
    (3). RR (Ridge Regression,岭回归,L2正则化)
    (4). Lasso Regression,L1正则化

    3.聚类算法

    (1).Kmeans 算法([优缺点与改进](https://blog.csdn.net/u014465639/article/details/71342072))
    (2).层次聚类
    (3).密度聚类
    (4).网格聚类
    (5).模型聚类 GMM

    4.降维算法

    (1).PCA 主成分分析
    (2).LDA 线性判别分析
    (3).降噪自编码器
    (4).t-SNE(降维后可视化效果好)

    5.概率图模型算法

    (1).贝叶斯网络
    (2).HMM
    (3).CRF (条件随机场)

    6.文本挖掘算法

    (1).模型

    • 1).LDA (主题生成模型,Latent Dirichlet Allocation)
    • 2).最大熵模型(其实是个多分类模型,归这里不一定合适)

    (2).关键词提取

    • 1).tf-idf
    • 2).bm25
    • 3).textrank
    • 4).pagerank
    • 5).左右熵 :左右熵高的作为关键词
    • 6).[互信息](https://blog.csdn.net/BigData_Mining/article/details/81279612)

    (3).词法分析

    • 1).分词
      – ①HMM (因马尔科夫)
      – ②CRF (条件随机场)
    • 2).词性标注
    • 3).命名实体识别

    (4).句法分析

    • 1).句法结构分析
    • 2).依存句法分析

    (5).文本向量化

    • 1).tf-idf
    • 2).word2vec
    • 3).doc2vec
    • 4).[cw2vec](https://www.jianshu.com/p/f258d0c5c317)

    (6).距离计算

    • 1).欧氏距离
    • 2).相似度计算

    7.正则化

  • 1).L1正则化
  • 2).L2正则化
  • 8.深度学习算法

    (1).BP
    (2).CNN
    (3).DNN
    (3).RNN、LSTM、GRU
    (4).Seq2Seq
    (5).[Attention、Transformer、BERT](https://www.cnblogs.com/huangyc/p/9813907.html)

    三、建模方面

    1.模型优化·

    • (1).特征选择
    • (2).梯度下降
      [SGD系列](https://blog.csdn.net/u014595019/article/details/52989301)
    • 梯度下降法和最速下降法的细微差别 https://blog.csdn.net/Timingspace/article/details/50963564
    • (3).交叉验证
    • (4).参数调优
    • (5).模型评估:准确率、召回率、F1、AUC、ROC、损失函数

    2.数据预处理

    • (1).标准化
    • (2).异常值处理
    • (3).二值化
    • (4).缺失值填充: 支持均值、中位数、特定值补差、多重插补
    • (5).不平衡样本处理(降采样,过采样)
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/500577
推荐阅读
相关标签
  

闽ICP备14008679号