搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
Monodyee
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
Verilog实现串口通讯(UART)_verilog 串口复用
2
NEURAL MACHINE TRANSLATION
3
前端-js生成pdf文件
4
服务端开发Java之备战秋招面试篇1_秋招java需要准备微服务项目吗?
5
头插法建立双向链表_双向链表头插法
6
ES新建与查询父子文档,嵌套文档_java es 8.x 父子结构嵌套
7
华为认证报名多少钱?_hcip多少钱
8
土壤湿度使用详细教程(基于树莓派3b+)_树莓派自动浇水
9
springboot项目根据xjar插件加密jar包(不用go环境)_xjar-maven-plugin
10
SpringCloud确保服务由gateway网关转发(服务器端口规则及设置方法)_spring cloud gateway 端口
当前位置:
article
> 正文
sklearn--processing--labelencoder_processing label encoder
作者:Monodyee | 2024-04-12 18:23:41
赞
踩
processing label encoder
1、数据源:
http://blog.csdn.net/wiking__acm/article/details/50971461
2、参考:
https://www.kaggle.com/jeffd23/titanic/scikit-learn-ml-from-start-to-finish/notebook
中随机森林的使用
3、代码:
import pandas as pd
from sklearn import preprocessing
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score,make_scorer
train_data = pd.read_csv('D:\\workspace\\kaggle\\data\\zhouzhihua-gua\\train_data.csv')
test_data = pd.read_csv('D:\\workspace\\kaggle\\data\\zhouzhihua-gua\\test_data.csv')
#将数据转化未label(0-N)形式
def encode_features(df_train, df_test):
features = ['色泽', '根蒂', '敲声', '纹理', '脐部', '触感']
df_combined = pd.concat([df_train[features], df_test[features]])
for feature in features://
对特征从第一个开始进行转化
le = preprocessing.LabelEncoder()
le = le.fit(df_combined[feature])//
把训练集和测试集组合后的特征集拟合label encoder(‘)这个函数
df_train[feature] = le.transform(df_train[feature])
//
label encoder中有一个transform函数,把汉字的特征转换成数字序号的特赠,然乎把训练集测试集都转换一下
df_test[feature] = le.transform(df_test[feature])
return df_train, df_test//
返回更改之后的特征集
def simplify_interval_info(df)://
再进行连续特征的分类,甜度和密度,寻找阈值进行
bins_density = (0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8)//
密度分类,每隔0.1
bins_sugar = (0, 0.1, 0.2, 0.3, 0.4, 0.5)//
甜度分类,每个0.
1
group_name_density = [0, 1, 2, 3, 4, 5, 6, 7]//
然后对密度和甜度进行标号,成为标号序列
group_name_sugar = [0, 1, 2, 3, 4]
category_density = pd.cut(df['密度'], bins_density, labels=group_name_density)//
按我的理解就是,把数据按照分的类和标号按照该特征的名字进行分割;比如密度,0.1对应1.含糖率,0.5对应4
categroy_sugar = pd.cut(df['含糖率'], bins_sugar, labels=group_name_sugar)
df['密度'] = category_density
df['含糖率'] = categroy_sugar
return df//
对于连续特增值的处理完结
train_data, test_data = encode_features(train_data, test_data)//
测试集和训练集特征编码
train_data = simplify_interval_info(train_data)
test_data = simplify_interval_info(test_data)
X_all = train_data.drop(['好瓜'], axis=1)//
测试集把结果那一列去掉,drop
y_all = train_data['好瓜']//
测试集结果是否为好瓜
y_result = [1,0,0]
num_test = 0.50
X_train, X_test, y_train, y_test = train_test_split(X_all, y_all, test_size=num_test, random_state=3)//
分割训练集和测试集
# Choose some parameter combinations to try
parameters = {'n_estimators':[5,6,7],
'criterion':['entropy', 'gini']//
信息熵和gini衡量特征信息
}
# Type of scoring used to compare parameter combinations//
然后选择评判分数的评判机制,也就是预测的正确率
。
acc_scorer = make_scorer(accuracy_score)
clf = RandomForestClassifier()//
拟合模型为随机森林
# Run the grid search//
搜索方法,网络搜索方法,把相应的参数传进去
grid_obj = GridSearchCV(clf, parameters, scoring=acc_scorer)//
随机森林模型,用信息熵和gini做判别,分数选择
grid_obj = grid_obj.fit(X_train, y_train)//
再把数据写进去进行拟合模型,建立最优化的模型
# Set the clf to the best combination of parameters
clf = grid_obj.best_estimator_//
clf:classfunction,在寻找过程中的GridSerachCV,最好的估计传给clf
clf = clf.fit(X_train, y_train)
test_predictions = clf.predict(X_test)//
为什么还要把训练机的数据再去fit一下啊
print("测试集准确率: %s " % accuracy_score(y_test, test_predictions))//训练集正确率
predictions = clf.predict(test_data)
print("最终准确率: %s " % accuracy_score(y_result, predictions))测试集正确率
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/Monodyee/article/detail/412049
推荐阅读
article
Coursera
自然语言
处理专项课程04:
Natural
Language
Processing
w...
Question Answering using T5. 这个Specialization完结撒花!Coursera自然...
赞
踩
article
《
真实世界
自然语言
处理
(
Real
-World Natural
Language
Processing...
《
真实世界
自然语言
处理
》中代码的实现《
真实世界
自然语言
处理
(
Real
-World Natural
Language
Pr...
赞
踩
article
第 9 章:
自然语言
处理
Chapter
9
:
Natural
Language
Processi...
文本是按顺序书写的一组单词。文本中的每个单词都有其含义,文本可能有含义,也可能没有含义。在机器学习中我们采用特征,对吗?...
赞
踩
article
Caption
和
Label
的书写规范_
label
caption
...
Caption
和
Label
的书写规范 LabVIEW控件的
Caption
和
Label
的特性和用途很相似,都...
赞
踩
article
Pois
on
Frogs
! Targeted Clean-Label
Pois
on
ing Attac...
论文简介在这项工作中,我们研究了一种新的攻击类型,称为干净标签攻击,攻击者注入的训练示例被认证机构清晰地标记,而不是被攻...
赞
踩
article
线性
回归
---
sklearn
+
python
实现
_
python
实现
sklearn
库对数据进行均值方差规...
简单
线性
回归
问题思想回到正题,对于简单
线性
回归
有如下问题:下面通过程序来
实现
简单的
线性
回归
:import numpy a...
赞
踩
article
理解
sklearn
.
processing
.
scale
中使用有偏总体
标准差
_pre
processing
...
sklearn
.
processing
.
scale
数据标准化
sklearn
.pre
processing
.
scale
(X, ...
赞
踩
article
Sklearn.
processing
:
scale
,
StandardScaler
, MinMaxSc...
一、标准化去除均值和方差缩放:通过(X-X_mean)/std计算每个属性(每列),进而使所有数据聚集在0附近,方差为1...
赞
踩
article
python
sklearn
线性
回归
报错_【Python】
机器
学习
(一)——简单
线性
回归
...
本文大纲一、
机器
学习
及其步骤二、简单
线性
回归
相关性分析协方差和相关系数简单
线性
回归
线性
评估模型准确度相关关系和因果关系三...
赞
踩
article
金融风控训练营
Task03
基础知识学习笔记——特征工程_金融风控
task3
特征工程中
from
s...
金融风控训练营
Task03
基础知识学习笔记一、学习知识点概要二、学习内容及问题与解答1.读取数据2.预测指标3.拓展知识...
赞
踩
article
使用
sklearn
优雅地进行
数据挖掘
_
csdn
sklearn
hadoop
...
目录1 使用
sklearn
进行
数据挖掘
1.1
数据挖掘
的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 ...
赞
踩
article
机器学习——1.
Sklearn
:特征工程
_
sklearn
.
feature
_
extraction
.te...
用来加载获取流行数据集datasets.load
_
*() :获取小规模数据集,数据包含在datasets中dataset...
赞
踩
article
解决
Python
中
的
“
模块
未找到
错误:没有名为’
sklearn
’
的
模块
”
的
问题_no
module
...
在使用
Python
时可能会遇到ModuleNotFoundError: No
module
named
‘
sklearn
...
赞
踩
article
python
-使用
scikit
-
learn
工具计算文本TF-IDF值_
python
sk
learn
...
同时,如果同时计算“贵州”、“大数据”、“分析”的TF-IDF,将这些词的TF-IDF相加,可以得到整篇文档的值,用于信...
赞
踩
article
动态规划经典例题二_
int
nposition
=
distance
(
label
.
begin
(), ...
第7题 路径总数(Unique Paths II)继续思考题目"Unique Paths":如果在图中加入了一些障碍,有...
赞
踩
article
【
深度
学习】
sdxl
中的
text
_
encoder
text
_
encoder
_
2
区别
_
sdxl
t...
在仔细阅读这些代码后,我们了解到。
_
sdxl
text
encoder
sdxl
text
encoder
...
赞
踩
article
Python
学习——K-
means
聚类_
from
sklearn
.
cluster
import
km...
K-
means
的用法有了
Python
真的是做什么都方便得很,我们只要知道我们想要用的算法在哪个包中,我们如何去调用就ok...
赞
踩
article
Encoder
(
编码器
)
和
Decoder
(
解码器
)有什么区别_
transformer
编码器
和
解码器
区...
比如,BERT(Bidirectional
Encoder
Representations from Transform...
赞
踩
article
编码器
-
解码器
模型
(
Encoder
-
Decoder
)_
encoder
和decoder
模型
...
Encoder
-
Decoder
算法是一种深度学习
模型
结构,广泛应用于自然语言处理(NLP)、图像处理、语音识别等领域。它...
赞
踩
article
自然语言
处理
NLP:
文本
预
处理
Text
Pre-Processing...
大家好,
自然语言
处理
(NLP)是计算机科学领域与人工智能领域中的一个重要方向,其研究能实现人与计算机之间用
自然语言
进行有...
赞
踩
相关标签
自然语言处理
人工智能
ai
chatgpt
机器学习
nlp
word2vec
语言模型
Poison
线性回归
sklearn
pandas
numpy
std
无偏标准差
有偏标准差
Sklearn.processing
scale
StandardScaler
MinMaxScaler
Normalizer
python sklearn 线性回归 报错
数据挖掘