当前位置:   article > 正文

Python scikit-learn,数据的特征抽取,特征值化,DictVectorizer,CountVectorizer,TfidfVectorizer_sklearn 特征id化

sklearn 特征id化

scikit-learn工具可以做:数据的特征抽取、特征预处理、降维。

数据的特征抽取:将文本等数据进行特征值化(转换成计算机可以理解的数字类型)

 

demo.py(字典数据抽取,字典类型的数据转换成数字类型,DictVectorizer,one-hot编码):

  1. from sklearn.feature_extraction import DictVectorizer # 需要pip3安装scikit-learn。依赖Numpy,pandas等模块
  2. # 字典数据抽取(将字典类型的数据转换成数字类型)
  3. # 实例化DictVectorizer
  4. dict = DictVectorizer(sparse=False) # sparse=False表示返回矩阵形式(默认True)。(sparse表示稀疏,矩阵形式浪费内存)
  5. # 调用fit_transform (fit_transform()等同于fit()填充数据 + tansform()转换数据)(tansform转换器转换数据时所依赖的均值、标准差等取决于fit()填充的数据)
  6. data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
  7. print(dict.get_feature_names()) # ['city=上海', 'city=北京', 'city=深圳', 'temp
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/361077
推荐阅读
相关标签
  

闽ICP备14008679号