赞
踩
scikit-learn工具可以做:数据的特征抽取、特征预处理、降维。
数据的特征抽取:将文本等数据进行特征值化(转换成计算机可以理解的数字类型)
demo.py(字典数据抽取,字典类型的数据转换成数字类型,DictVectorizer,one-hot编码):
- from sklearn.feature_extraction import DictVectorizer # 需要pip3安装scikit-learn。依赖Numpy,pandas等模块
-
-
- # 字典数据抽取(将字典类型的数据转换成数字类型)
-
- # 实例化DictVectorizer
- dict = DictVectorizer(sparse=False) # sparse=False表示返回矩阵形式(默认True)。(sparse表示稀疏,矩阵形式浪费内存)
-
- # 调用fit_transform (fit_transform()等同于fit()填充数据 + tansform()转换数据)(tansform转换器转换数据时所依赖的均值、标准差等取决于fit()填充的数据)
- data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
-
- print(dict.get_feature_names()) # ['city=上海', 'city=北京', 'city=深圳', 'temp
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。