赞
踩
机器学习在当今社会扮演着日益重要的角色,但黑盒模型的不可解释性限制了其应用范围。因此,可解释性机器学习成为研究热点,有助于提高模型的可信度和可接受性。本文旨在探讨随机森林和fastshap作为可视化模型解析工具的应用,以帮助解释机器学习模型的决策过程和关键特征。通过对这两种方法的深入研究,可以更好地理解模型背后的逻辑,为进一步的应用提供指导。
可解释性对于机器学习模型至关重要,因为它有助于用户理解模型的决策过程、预测结果以及特征的重要性。在许多关键应用领域,如医疗诊断、金融风险评估和自动驾驶等,模型的可解释性对于决策者和相关利益相关者至关重要。通过了解模型背后的逻辑和推理过程,可以提高对模型预测的信任度,并且能够更好地发现模型的局限性和潜在的偏差,从而更好地应对不确定性。
然而,现有的可解释性方法存在一些局限性,例如针对复杂模型的解释性较差、解释结果的一致性问题以及解释结果的可信度等。因此,需要进一步研究和发展新的方法来解决这些问题,以提高机器学习模型的可解释性和可信度。
接下来我们将介绍随机森林和FastSHAP作为可解释性机器学习的工具,探讨它们如何应对现有方法的局限性并提供更好的模型解释能力。
FastSHAP是一种用于解释机器学习模型的可解释性方法,它基于SHAP(Shapley Additive Explanations)值的概念,并通过优化算法提高了计算效率和可扩展性。
FastSHAP的工作原理是通过对特征重要性进行评估,解释模型对每个特征的贡献。它使用了Shapley值的概念,Shapley值是一种博弈论中用于衡量参与者对协作价值的贡献的方法。在FastSHAP中,Shapley值被用来衡量每个特征对预测结果的影响程度。
FastSHAP的优势有以下几点:
在可解释性机器学习中,FastSHAP发挥着重要的作用。它可以帮助我们更好地了解机器学习模型的内部机制,解释其预测结果,并为决策者提供有针对性的洞察和决策依据。通过使用FastSHAP,我们能够提高模型的可解释性和可信度,从而推动机器学习在实际应用中的更广泛使用。
利用可视化工具解释随机森林模型的预测过程和特征重要性的步骤如下:
library(survival)
head(gbsg)
结果展示:
pid age meno size grade nodes pgr er hormon rfstime status
1 132 49 0 18 2 2 0 0 0 1838 0
2 1575 55 1 20 3 16 0 0 0 403 1
3 1140 56 1 40 3 3 0 0 0 1603 0
4 769 45 0 25 3 1 0 4 0 177 0
5 130 65 1 30 2 5 0 36 1 1855 0
6 1642 48 0 52 2 11 0 0 0 842 1
> str(gbsg)
'data.frame': 686 obs. of 10 variables:
$ age : int 49 55 56 45 65 48 48 37 67 45 ...
$ meno : int 0 1 1 0 1 0 0 0 1 0 ...
$ size : int 18 20 40 25 30 52 21 20 20 30 ...
$ grade : int 2 3 3 3 2 2 3 2 2 2 ...
$ nodes : int 2 16 3 1 5 11 8 9 1 1 ...
$ pgr : int 0 0 0 0 0 0 0 0 0 0 ...
$ er : int 0 0 0 4 36 0 0 0 0 0 ...
$ hormon : int 0 0 0 0 1 0 0 1 1 0 ...
$ rfstime: int 1838 403 1603 177 1855 842 293 42 564 1093 ...
$ status : Factor w/ 2 levels "0","1": 1 2 1 1 1 2 2 1 2 2 ...
age:患者年龄
meno:更年期状态(0表示未更年期,1表示已更年期)
size:肿瘤大小
grade:肿瘤分级
nodes:受累淋巴结数量
pgr:孕激素受体表达水平
er:雌激素受体表达水平
hormon:激素治疗(0表示否,1表示是)
rfstime:复发或死亡时间(以天为单位)
status:事件状态(0表示被截尾,1表示事件发生)
# 划分训练集和测试集
set.seed(123)
data <- gbsg[,c(-1)]
# 划分训练集和测试集
set.seed(123)
train_indices <- sample(x = 1:nrow(data), size = 0.7 * nrow(data), replace = FALSE)
test_indices <- sample(setdiff(1:nrow(data), train_indices), size = 0.3 * nrow(data), replace = FALSE)
train_data <- data[train_indices, ]
test_data <- data[test_indices, ]
library(randomForest)
rf <- randomForest(status~., data=train_data)
library(pROC)
# 获取模型预测的概率
pred_prob <- predict(rf, newdata = test_data, type = "class")
# 计算真阳性率和假阳性率
roc <- pROC::roc(test_data$status, pred_prob)
# 绘制ROC曲线
plot(roc, main = "ROC Curve", print.auc = TRUE, auc.polygon = TRUE, grid = TRUE, legacy.axes = TRUE,col="blue")
# 绘制特征重要性图
varImpPlot(rf)
library(fastshap)
shap <- explain(rf,X=train_data[,-10],nsim=10,
pred_wrapper = function(model,newdata){
predict(rf, newdata = newdata, type = "class")
})
library(magrittr)
library(tidyverse)
shap_handle <- shap %>% as.data.frame() %>% mutate(id=1:n()) %>% pivot_longer(cols = -(ncol(train_data[,-10])+1),values_to="shap") # 长宽数据转换
shap_handle
data2 <- train_data %>% mutate(id=1:n()) %>% pivot_longer(cols = -(ncol(train_data[,-10])+1))
# 开始画图
shap_scale <- shap_handle %>% rename("feature"
="name")%>%
group_by(feature)%>%
mutate(value=(value-min(value))/(max(value)-min(value)))
shap_scale <- shap_handle %>%
left_join(data2)%>%
rename("feature"
="name")%>%
group_by(feature)%>%
mutate(value=(value-min(value))/(max(value)-min(value))) %>% sample_n(200)
ggplot(data=shap_scale, aes(x=shap, y=feature, color=value)) +
geom_jitter(size=2, height=0.1, width=0) +
scale_color_gradient(low="#FFCC33", high="#6600CC", breaks=c(0, 1), labels=c("Low", "High"),
guide=guide_colorbar(barwidth=2, barheight=30),
name="Feature value",
aesthetics = c("color")) +
theme_bw()
结果展示:
# A tibble: 4,320 × 3
id name value
<int> <chr> <dbl>
1 1 age -0.00320
2 1 meno -0.00201
3 1 size -0.0711
4 1 grade -0.0336
5 1 nodes -0.126
6 1 pgr -0.0308
7 1 er 0.0160
8 1 hormon 0.00211
9 1 rfstime -0.189
10 2 age 0.00561
# ℹ 4,310 more rows
# ℹ Use `print(n = ...)` to see more rows
随机森林和FastSHAP在可解释性机器学习中具有重要作用,并有着许多优势和应用前景。以下是它们的优势以及在可解释性机器学习中的应用前景的总结:
在可解释性机器学习中,随机森林和FastSHAP的结合可以帮助用户更好地理解复杂模型的预测过程、特征重要性和决策依据,从而提高模型的可解释性和可信度。未来在可解释性机器学习领域的研究方向和发展趋势可能包括:
随机森林和FastSHAP作为可解释性机器学习领域的重要工具和方法,将继续发挥重要作用,并在未来的研究和应用中持续展现出潜力和价值。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。