百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

懂Excel就能轻松入门Python数据分析包pandas(十一):分段匹配

bigegpt 2024-09-10 11:17 5 浏览

转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的)

经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas

前言

本系列已经有一篇文章介绍 pandas 中实现 Excel 的 vlookup 函数的方式,但是 vlookup 中还有一个"模糊匹配"的功能,主要用于分段匹配,今天就来看看 pandas 中是如何做到同等效果。


案例1

今天,你接到一份紧急的临时需求,数据表格如下:

  • 200百万行的记录
  • 需要按照 分数 列,按规则计算出 评级

规则表如下:

  • 这是特意为 Vlookup 而设计的规则表

若按 pandas 来设计规则表,那么 Vlookup 的解决方式就会很麻烦。

怎么办?数据多到 Excel 也打不开,管你是 Vlookup 还是 Xlookup 也没用。


多功能的 Vlookup

由于这次数据太多,用 Excel 已经不能打开此文件,因此我用少量数据简单演示一下如何用 Vlookup 解决此问题:

  • 其实就是最后一个参数输入 1(True),即可
  • 很重要一点,规则表的 值 列,记得要排好序,否则结果错乱你也不知道

pandas 中的分段匹配

这种需求在数据处理一般称为"分箱",pandas 中使用 cut 方法做到:

  • 我们从 csv 读取数据,从 Excel 中读取规则表
  • 注意这是 pandas 的顶层方法,因此是 pd.cut()
  • 第1参数传入判断数据列
  • 第2参数传入规则表的 值 ,但是 cut 方法必需给定所有区间的边界。像本例子的规则表,没有高于120分的结束边界,我们需要添加一个很大的值作为结束边界
  • 参数 right,设置为 False ,只是为了与 vlookup 效果一致而已,表示:"右区间边界开放",比如:120分,被划分到 A+ 评级
  • 参数 labels,就是返回的结果

可以看到 pandas 可以轻松从任意数据源中读取数据,本例中即使你的数据源在各种数据库也是没问题 注意,bins 没有升序排序时,会报错。这是非常好的设计


看文字很难理解,看看这个示意图,应该清晰很多:


案例2:自动划分

在实际分析工作中,你可能一开始并不清楚到底规则表的各个节点怎么定义才合理。

比如你现在希望划分3个段,但你不知道各个段之间的边界怎么定义才合理。那么可以这样子调用 cut 方法:

  • cut 方法的第2参数,我们指定3,表示划分3段
  • 不指定参数 labels,这可以看到划分的区间。

你也可以指定 labels:


最后的划分结果尽可能每个区间数量平衡,来看看各区间的数量:


总结

  • pd.cut() ,对数据做分箱处理
  • 参数 bins 可以指定自己的规则表,也可以直接指定划分段数目
  • 指定划分段数目时,会自动定义各个划分区间
  • 当指定的 bins 规则表没有升序排序时,会报错

需要源码的小伙伴请转发本文并私信我"python"

如果希望从零开始学习 pandas ,那么可以看看我的 pandas 专栏。

相关推荐

Go语言泛型-泛型约束与实践(go1.7泛型)

来源:械说在Go语言中,Go泛型-泛型约束与实践部分主要探讨如何定义和使用泛型约束(Constraints),以及如何在实际开发中利用泛型进行更灵活的编程。以下是详细内容:一、什么是泛型约束?**泛型...

golang总结(golang实战教程)

基础部分Go语言有哪些优势?1简单易学:语法简洁,减少了代码的冗余。高效并发:内置强大的goroutine和channel,使并发编程更加高效且易于管理。内存管理:拥有自动垃圾回收机制,减少内...

Go 官宣:新版 Protobuf API(go pro版本)

原文作者:JoeTsai,DamienNeil和HerbieOng原文链接:https://blog.golang.org/a-new-go-api-for-protocol-buffer...

Golang开发的一些注意事项(一)(golang入门项目)

1.channel关闭后读的问题当channel关闭之后再去读取它,虽然不会引发panic,但会直接得到零值,而且ok的值为false。packagemainimport"...

golang 托盘菜单应用及打开系统默认浏览器

之前看到一个应用,用go语言编写,说是某某程序的windows图形化客户端,体验一下发现只是一个托盘,然后托盘菜单的控制面板功能直接打开本地浏览器访问程序启动的webserver网页完成gui相关功...

golang标准库每日一库之 io/ioutil

一、核心函数概览函数作用描述替代方案(Go1.16+)ioutil.ReadFile(filename)一次性读取整个文件内容(返回[]byte)os.ReadFileioutil.WriteFi...

文件类型更改器——GoLang 中的 CLI 工具

我是如何为一项琐碎的工作任务创建一个简单的工具的,你也可以上周我开始玩GoLang,它是一种由Google制作的类C编译语言,非常轻量和快速,事实上它经常在Techempower的基准测...

Go (Golang) 中的 Channels 简介(golang channel长度和容量)

这篇文章重点介绍Channels(通道)在Go中的工作方式,以及如何在代码中使用它们。在Go中,Channels是一种编程结构,它允许我们在代码的不同部分之间移动数据,通常来自不同的goro...

Golang引入泛型:Go将Interface「」替换为“Any”

现在Go将拥有泛型:Go将Interface{}替换为“Any”,这是一个类型别名:typeany=interface{}这会引入了泛型作好准备,实际上,带有泛型的Go1.18Beta...

一文带你看懂Golang最新特性(golang2.0特性)

作者:腾讯PCG代码委员会经过十余年的迭代,Go语言逐渐成为云计算时代主流的编程语言。下到云计算基础设施,上到微服务,越来越多的流行产品使用Go语言编写。可见其影响力已经非常强大。一、Go语言发展历史...

Go 每日一库之 java 转 go 遇到 Apollo?让 agollo 来平滑迁移

以下文章来源于GoOfficialBlog,作者GoOfficialBlogIntroductionagollo是Apollo的Golang客户端Apollo(阿波罗)是携程框架部门研...

Golang使用grpc详解(golang gcc)

gRPC是Google开源的一种高性能、跨语言的远程过程调用(RPC)框架,它使用ProtocolBuffers作为序列化工具,支持多种编程语言,如C++,Java,Python,Go等。gR...

Etcd服务注册与发现封装实现--golang

服务注册register.gopackageregisterimport("fmt""time"etcd3"github.com/cor...

Golang:将日志以Json格式输出到Kafka

在上一篇文章中我实现了一个支持Debug、Info、Error等多个级别的日志库,并将日志写到了磁盘文件中,代码比较简单,适合练手。有兴趣的可以通过这个链接前往:https://github.com/...

如何从 PHP 过渡到 Golang?(php转golang)

我是PHP开发者,转Go两个月了吧,记录一下使用Golang怎么一步步开发新项目。本着有坑填坑,有错改错的宗旨,从零开始,开始学习。因为我司没有专门的Golang大牛,所以我也只能一步步自己去...