当前位置:   article > 正文

nlp——机器学习(1)_传统机器学习nlp

传统机器学习nlp

这两天是看吴恩达老师的机器学习,概念讲得是真的细致,然后跟着黑马的代码练。

稍微放上今天学习的点内容。

  1. 监督学习(Supervised Learning):有收集到的数据集以及里面包含了正确答案,算法的目的是为了给出更多的正确答案,
  2. 像回归(regression) 即我们的目标,分类(classification),离散输出。
  3. 根据所给数据集,算法预测得出”正确答案“
  4. 无监督学习(Unsupervised Learning):拥有一个数据集,但是没有其他提示语。如聚类算法(clustering),
  5. (监督学习)
  6. 数据集(训练集)
  7. m = 样本数量
  8. x = 变量/特征
  9. y = 输出变量/目标变量
  10. (x,y):一个训练样本 上标i索引
  11. 线性回归模型(单变量线性回归):模型拟合,预测
  12. 分类:预测离散值输出
  13. h:假设函数 x得到y得函数
  14. h(x)
  15. 模型参数
  16. 代价函数(平方误差代价函数)
  1. 人工智能 --> 机器学习 --> 深度学习
  2. 机器学习是人工智能的一个实现途径
  3. 深度学习是机器学习的一个方法发展而来
  4. 机器学习:1.传统预测;2.图像识别;3.自然语言处理(nlp)
  5. 机器学习:从数据!中自动分析获得模型!,并利用模型对未知数据进行预测!
  6. 数据集的构成:特征值 + 目标值
  7. (对于每一行数据称之为样本;有些数据集可以没有目标值)
  8. 机器学习算法分类:1.目标值:类别,离散型 -->分类问题(人脸识别)
  9. 2.目标值:连续型数据 -->回归问题(预测天气)
  10. 1.2是监督学习,有目标值的
  11. 3. 无监督学习(聚类) 无目标值
  12. 监督学习:k-近邻算法,贝叶斯分类,决策树与随机森林,逻辑回归,线性回归,岭回归
  13. 无监督学习:聚类k-means
  14. 机器学习的开发流程:1.获取数据;2.数据处理;3.特征工程;4.机器学习算法进行训练-->模型;
  15. 5.模型评估;6.应用。
  16. 学习框架:1.算法是核心,数据与计算是基础;2.找准定位。
  17. 数据集:训练集和测试集
  18. 可用数据集:sklearn,kaggle,UCI
  19. API:接口
  20. 我使用的是pycharm,需要先安装好sklearn的包,在终端输入pip语句
  21. pip install scikit_learn-0.24.1-cp39-cp39-win_amd64.whl
  22. pip install numpy
  23. pip install matplotlib
  24. pip install scipy
  25. 分类(classification)回归(regression)聚类(clustering)
  26. 导包:from sklearn.datasets import (load_iris)
  27. 使用数据集:sklearn.datasets
  28. 示例:sklearn.datasets.load_iris()
  29. 1.load_*():获取小规模的数据集
  30. 2.fetch_*(data_home=None):获取大规模数据集,需要从网络上下载,参数为下载目录
  31. 数据集的返回值:继承自字典,根据索引dict['key] = values 或者 bunch.key = values
  32. 拿到的数据全部用来训练一个模型?(不行,要对数据集进行划分,用于训练(构建模型)和测试的(评估模型是否有效)
  33. 一般测试集:20%~30%
  34. 划分导包:from sklearn.model_selection import train_test_split
  35. sklearn.model_selection.train_test_split(array,*options)
  36. x:数据集的特征值
  37. y:数据集的标签值
  38. test_size:测试集的大小,一般为float
  39. random_state:随机数种子,不同的种子回造成不同的随机采样结果。相同的采样结果相同
  40. return:训练集特征值(x_train),测试集的特征值(x_test),训练集的目标值(y_train),测试集目标值(y_teat)
  1. from sklearn.datasets import load_iris
  2. from sklearn.model_selection import train_test_split
  3. # data:特征数据数组,二维
  4. # target:标签数组
  5. # DESCR:数据描述
  6. # feature_names:特征名
  7. # target_names:标签名
  8. def datasets_demo():
  9. # 获取数据集
  10. iris = load_iris()
  11. print('鸢尾花数据集:\n',iris)
  12. print('查看数据集描述\n',iris['DESCR'])
  13. print('查看特征值的名字\n',iris.feature_names)
  14. print('查看特征值\n',iris.data,iris.data.shape)
  15. # 数据集划分
  16. x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
  17. print('训练集的特征值\n',x_train,x_train.shape)
  18. return None
  19. if __name__ == '__main__':
  20. datasets_demo()

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/626491
推荐阅读
相关标签
  

闽ICP备14008679号