百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

【Python机器学习系列】一文教你绘制校准曲线(案例+源码)

bigegpt 2024-09-10 11:16 10 浏览

这是我的第240篇原创文章。

一、引言

校准曲线绘制的基本步骤如下:

1. 首先根据预测模型输出目标事件的预测概率;

2. 根据预测概率从小到大进行排序,并按照等分位点划分成N组;

3. 分别计算各组的实际事件发生率,以及预测概率的平均值

4. 根据各组的预测概率以及实际事件发生率绘制校准曲线

如果模型预测发生率与实际发生率完全一致,模型既不会高估结局风险,也不会低估结局风险,那么根据上述步骤绘制的线会是一条Y=X的标准曲线。

二、实现过程

2.1 校准曲线绘制函数

def calibration_plot(true ,pred ,n):
    """
    参数说明:
    true: 实际标签值
    pred: 模型输出的预测概率
    n: 分组数目 (校准区间中有几个点)
        先加工绘图需要的数据形式:df_cal_trans
        然后绘图,可以选择是否带误差棒
    """
    df_cal = pd.DataFrame({'y_true' :true ,'y_pred' :pred}) # 现将实际值和预测值拼接成一个dataframe
    df_cal = df_cal.sort_values(by='y_pred') ## 根据预测概率值进行排序
    df_cal['group'], cut_bin = pd.qcut(df_cal['y_pred'] ,q=n ,retbins=True ,labels = list(range(1 , n +1))) ## 将数据进行分箱
    output_list = list()
    for i in range(1 , n +1):
        true_pos_rate = 1 - df_cal.loc[df_cal['group' ]==i ,'y_true'].value_counts(1)[0]
        y_pred_mean = df_cal.loc[df_cal['group' ]==i ,'y_pred'].mean()
        y_pred_sd = df_cal.loc[df_cal['group' ]==i ,'y_pred'].std()
        output = {'group' :i ,'true_pos_rate' :true_pos_rate ,'y_pred_mean' :y_pred_mean ,'y_pred_sd' :y_pred_sd}
        output_list.append(output)
    df_cal_trans = pd.DataFrame(output_list)
    calibration_slop = round(scipy.stats.linregress(df_cal_trans['y_pred_mean'] ,df_cal_trans['true_pos_rate']).slope
                             ,3)
    plt.figure(figsize=(6 ,4))
    plt.rcParams['axes.spines.right'] = False  # 不绘制右边的框线
    plt.rcParams['axes.spines.top'] = False    # 不绘制上方的框线
    line = plt.errorbar(df_cal_trans['y_pred_mean'] ,df_cal_trans['true_pos_rate'],
                        # yerr=df_cal_trans['y_pred_sd'],
                        fmt='--o', # 数据点标记式样和数据点标记的连线式样
                        ecolor="#00688B", # 误差棒的颜色
                        elinewidth=0.8,  # 误差棒线条粗细
                        ms=4, # 数据点大小
                        mfc = "#00688B", # 数据点颜色
                        capthick = 1, # 误差棒边界横线的厚度
                        capsize = 2  # 误差棒边界横线的大小
                        )
    limits = round(max(df_cal_trans['true_pos_rate'].max() ,df_cal_trans['y_pred_mean'].max()) + 0.02 ,3)
    plt.plot([0 ,limits] ,[0 ,limits] ,"--" ,lw=1 ,color="grey")
    plt.xlim(0 ,limits)
    plt.ylim(0 ,limits)
    plt.xlabel('Predicted event probability' ,fontsize=10)
    plt.ylabel('Observed event probability' ,fontsize=10)
    # plt.legend(handles=[line],labels=['HL P-value: > 0.05'], loc='best')
    plt.legend(handles=[line] ,labels=['Calibration slope: {}'.format(calibration_slop)], loc='best') # 'lower right'
    plt.grid(axis="y") # 设置横向网格线
    plt.show()
    # return df_cal_trans

2.2 案例应用

# 准备数据
data = pd.read_csv(r'Dataset.csv')
df = pd.DataFrame(data)

# 提取目标变量和特征变量
target = 'target'
features = df.columns.drop(target)
print(data["target"].value_counts()) # 顺便查看一下样本是否平衡

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df[features], df[[target]], test_size=0.2, random_state=0)

# 归一化
mm1 = MinMaxScaler()   # 特征进行归一化
X_train_m = mm1.fit_transform(X_train)
mm2 = MinMaxScaler()     # 标签进行归一化
y_train_m = mm2.fit_transform(y_train)

# 模型的构建与训练
model = LogisticRegression()
model.fit(X_train_m, y_train_m)

# 模型推理与评价
# 对测试集特征进行相同规则mm1的归一化处理,然后输入到模型进行预测
X_test_m = mm1.transform(X_test) #注意fit_transform() 和 transform()的区别
y_pred_m = model.predict(X_test_m) #利用输入特征input1和input2测试模型
y_scores = model.predict_proba(X_test_m)
y_pred = mm2.inverse_transform(np.reshape(y_pred_m, (-1, 1)))

calibration_plot(y_test[target], list(y_scores[:, 1]), 3)

三、结果

作者简介:

读研期间发表6篇SCI数据算法相关论文,目前在某研究院从事数据算法相关研究工作,结合自身科研实践经历不定期持续分享关于Python、数据分析、特征工程、机器学习、深度学习、人工智能系列基础知识与案例。致力于只做原创,以最简单的方式理解和学习,关注gzh:数据杂坛,获取数据和源码学习更多内容。

原文链接:

【Python机器学习系列】一文教你绘制校准曲线(案例+源码)

相关推荐

Go语言泛型-泛型约束与实践(go1.7泛型)

来源:械说在Go语言中,Go泛型-泛型约束与实践部分主要探讨如何定义和使用泛型约束(Constraints),以及如何在实际开发中利用泛型进行更灵活的编程。以下是详细内容:一、什么是泛型约束?**泛型...

golang总结(golang实战教程)

基础部分Go语言有哪些优势?1简单易学:语法简洁,减少了代码的冗余。高效并发:内置强大的goroutine和channel,使并发编程更加高效且易于管理。内存管理:拥有自动垃圾回收机制,减少内...

Go 官宣:新版 Protobuf API(go pro版本)

原文作者:JoeTsai,DamienNeil和HerbieOng原文链接:https://blog.golang.org/a-new-go-api-for-protocol-buffer...

Golang开发的一些注意事项(一)(golang入门项目)

1.channel关闭后读的问题当channel关闭之后再去读取它,虽然不会引发panic,但会直接得到零值,而且ok的值为false。packagemainimport"...

golang 托盘菜单应用及打开系统默认浏览器

之前看到一个应用,用go语言编写,说是某某程序的windows图形化客户端,体验一下发现只是一个托盘,然后托盘菜单的控制面板功能直接打开本地浏览器访问程序启动的webserver网页完成gui相关功...

golang标准库每日一库之 io/ioutil

一、核心函数概览函数作用描述替代方案(Go1.16+)ioutil.ReadFile(filename)一次性读取整个文件内容(返回[]byte)os.ReadFileioutil.WriteFi...

文件类型更改器——GoLang 中的 CLI 工具

我是如何为一项琐碎的工作任务创建一个简单的工具的,你也可以上周我开始玩GoLang,它是一种由Google制作的类C编译语言,非常轻量和快速,事实上它经常在Techempower的基准测...

Go (Golang) 中的 Channels 简介(golang channel长度和容量)

这篇文章重点介绍Channels(通道)在Go中的工作方式,以及如何在代码中使用它们。在Go中,Channels是一种编程结构,它允许我们在代码的不同部分之间移动数据,通常来自不同的goro...

Golang引入泛型:Go将Interface「」替换为“Any”

现在Go将拥有泛型:Go将Interface{}替换为“Any”,这是一个类型别名:typeany=interface{}这会引入了泛型作好准备,实际上,带有泛型的Go1.18Beta...

一文带你看懂Golang最新特性(golang2.0特性)

作者:腾讯PCG代码委员会经过十余年的迭代,Go语言逐渐成为云计算时代主流的编程语言。下到云计算基础设施,上到微服务,越来越多的流行产品使用Go语言编写。可见其影响力已经非常强大。一、Go语言发展历史...

Go 每日一库之 java 转 go 遇到 Apollo?让 agollo 来平滑迁移

以下文章来源于GoOfficialBlog,作者GoOfficialBlogIntroductionagollo是Apollo的Golang客户端Apollo(阿波罗)是携程框架部门研...

Golang使用grpc详解(golang gcc)

gRPC是Google开源的一种高性能、跨语言的远程过程调用(RPC)框架,它使用ProtocolBuffers作为序列化工具,支持多种编程语言,如C++,Java,Python,Go等。gR...

Etcd服务注册与发现封装实现--golang

服务注册register.gopackageregisterimport("fmt""time"etcd3"github.com/cor...

Golang:将日志以Json格式输出到Kafka

在上一篇文章中我实现了一个支持Debug、Info、Error等多个级别的日志库,并将日志写到了磁盘文件中,代码比较简单,适合练手。有兴趣的可以通过这个链接前往:https://github.com/...

如何从 PHP 过渡到 Golang?(php转golang)

我是PHP开发者,转Go两个月了吧,记录一下使用Golang怎么一步步开发新项目。本着有坑填坑,有错改错的宗旨,从零开始,开始学习。因为我司没有专门的Golang大牛,所以我也只能一步步自己去...