当前位置:   article > 正文

02机器学习基础-特征工程概念_特征值和目标值的区别

特征值和目标值的区别

特征工程

定义

将原始数据转换为特征,提高预测的准确性

数据集

可用的数据集

  • kaggle
    • 数据量大,真实,占有量大
  • UCI
    • 领域广
  • scikit-learn
    • 数据量小,方便学习

特征值和目标值

身高体重性别
117662
218574

特征值:身高、体重

样本:1、2

目标值:分析性别

  • pandas
    • dataFrame 缺失值、数据类型转换
  • sklearn
    • 提供了特征处理接口

重复值:不需要去重

使用sklearn特征抽取

安装sklearn

# !pip install -U scikit-learn -i  https://pypi.doubanio.com/simple/  --trusted-host pypi.doubanio.com



  • 1
  • 2
  • 3
  • 4

特征抽取演示

# 导入包
from sklearn.feature_extraction.text import CountVectorizer

# # 实例化CountVectorizer
vector = CountVectorizer()

# # 调用fit_transform输入并转换数据
res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])

print(vector.get_feature_names())
print(res.toarray())
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

在这里插入图片描述

特征抽取api

from sklearn.feature_extraction import DictVectorizer
onehot = DictVectorizer() # 如果结果不用toarray,请开启sparse=False
instances = [{'city': '北京','temperature':100},{'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
X = onehot.fit_transform(instances).toarray()
print(X)
print('*'*30)

# print(onehot.inverse_transform(X))
X = onehot.fit_transform(instances)
print(X)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/72913
推荐阅读
相关标签
  

闽ICP备14008679号