百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

像学Excel 一样学 Pandas系列-导入篇

bigegpt 2025-02-09 11:26 12 浏览

可以这么说吧,离了 Pandas,我基本就没法做数据分析了。

Pandas不是熊猫,是Python 数据分析的主力库。它为Python扩展了非常非常易于使用的数据结构和工具。

无论是结构化的表格数据、时间序列和更加复杂的数据结构,Pandas 都能轻松 hold 住。

为何 Pandas 表现如此优秀,先卖个关子。

回忆一下,一个初级的入门分析师,使用 excel 做数据处理,需要哪些步骤?

(先略过需求分析、分析思路组织和分析框架搭建部分。这又是一个单独的课题。以后再详细聊。)

我把具体步骤列在下面了。

上面提及到的所有处理任务,Pandas 都能完美完成。因为这个涉及到完整的数据处理过程,完完整整讲清楚明白,差不多需要一本书的篇幅。

所以,这次 Pandas 的系列文章,我打算分具体的步骤,把每一篇讲清楚、讲透来。

这篇主要做深入学习之前的准备工作和基础概念导入。

小伙伴们,准备好了么?咱们开车。

01

准备工作

搭建 Python 运行环境,安装 Pandas 。

推荐安装Anaconda,配置Jupyter Notebook环境。具体的软件包下载安装和 Jupyter Notebook 指引参照这篇文章。

Python小白的安装指南Anaconda+Jupyter Notebook

Ancaconda 已经提前集成了 Pandas 库和相关的依赖包。完成以后,只需要一步,就可以完成 Pandas 库导入和使用。

import pandas as pd


02

Pandas 基础知识-数据结构


Pandas库提供了两种基础的数据格式:DataFrame和Series,它们是进行数据分析时最常用的数据结构。

干讲比较抽象。接下来,我会把图示和代码放在一起看,方便理解。

1 、先说Series


Series是一个一维数组结构,可以包含任何数据类型(整数、字符串、浮点数、Python对象等)。

每个元素都有一个索引标签,这使得Series对象非常适合处理具有明确标签的数据。

划重点,Series 是一个一维数组结构。

Series 的元素可以包含任何数据类型(整数、字符串、浮点数、Python 对象等),并且每个元素都有一个索引标签。

下面做了一个图示(一个学生的各科成绩),方便理解。左边是 index,右边的是 data 。

所以,如果需要找各学科的成绩,就非常方便和简单。只要告诉 index值,就可以快速查找。

创建代码如下:

s = pd.Series([85, 92, 88, 78, 90], index=['Chinese', 'Math', 'English', 'Geography', 'Chemistry'])
print(s)

2 、 再看看 DataFrame

DataFrame是一个二维表格型数据结构,类似于Excel中的表格或者SQL数据库中的表。

它是Pandas中使用最频繁的数据结构,可以将其想象为一个Series的字典(每个键是一个列名,每个值是一个Series对象)。

特点如下:

  • 可以包含多种数据类型。
  • 每个轴都有标签(行标签称为索引,列标签称为列名)。
  • 可以进行复杂的数据操作,包括数据筛选、排序、分组、合并等。

同样的,我们用最常见的 excel 数据表来作类比。这张亲切的表,唯一需要特别注意的是 index 。

创建代码如下,小伙伴可以拷贝后黏贴到 JupyterNotebook 运行。

data = {
'学科名称': ['语文', '数学', '英语', '地理', '化学'],
'平均分': [78, 85, 82, 79, 86],
'参与考试人数': [120, 130, 125, 110, 100],
'考试时间': ['2024-06-01', '2024-06-02', '2024-06-03', '2024-06-04', '2024-06-05']
}
df = pd.DataFrame(data)
print(df)


03

Series 和 DataFrame 的基础操作


  • 打印DataFrame,直接打印DataFrame对象会显示其内容,包括列名和若干行数据(默认显示前5行)。

head() 方法,使用head()方法可以查看DataFrame的前几行,默认是前5行。

tail() 方法,使用tail()方法可以查看DataFrame的最后几行,默认是最后5行。

info() 方法,使用info()方法可以查看DataFrame的概要信息,包括列的数据类型、非空值的数量等。

describe() 方法,使用describe()方法可以查看数值列的统计摘要,包括计数、平均值、标准差、最小值、四分位数和最大值。

shape 属性,查看DataFrame的形状,即行数和列数。

columns 属性,查看DataFrame的列名。

dtypes 属性,查看DataFrame中各列的数据类型。

好的,简单小结一下,今天给大家介绍了 Pandas 用于数据分析的优势以及基础的 Pandas 数据结构。后续,会有其他的专栏文章,对 Pandas的数据清洗、转换、分组、聚合等复杂操作进行专项讲解。

感兴趣的小伙伴,欢迎关注、点赞、评论转发。您的每一份互动,都是我肝下去的动力。

相关推荐

php-fpm的配置和优化

目录概述php-fpm配置php-fpm进程优化配置慢日志查询配置php7进阶到架构师相关阅读概述这是关于php进阶到架构之php7核心技术与实战学习的系列课程:php-fpm的配置和优化学习目标:理...

成功安装 Magento2.4.3最新版教程「技术干货」

外贸独立站设计公司xingbell.com经过多次的反复实验,最新版的magento2.4.3在oneinstack的环境下的详细安装教程如下:一.vps系统:LinuxCentOS7.7.19...

十分钟让你学会LNMP架构负载均衡

业务架构、应用架构、数据架构和技术架构一、几个基本概念1、pv值pv值(pageviews):页面的浏览量概念:一个网站的所有页面,在一天内,被浏览的总次数。(大型网站通常是上千万的级别)2、u...

php从远程URL获取(mp4 mp3)音视频的流媒体数据

/***从远程URL中获取媒体(如mp4mp3)的内容*@parammixed$file_url*@parammixed$media_type...

Zabbix5.0安装部署

全盘展示运行状态,减轻运维人员的重复性工作量,提高系统排错速度,加速运维知识学习积累。1.png1、环境安装关闭SELinux并重启系统2.png安装httpd、mariadb、php运行yum-...

php 常见配置详解

以下是PHP常见的配置项及其含义:error_reporting:设置错误报告级别,可以控制PHP显示哪些错误。例如,设置为E_ALL将显示所有错误,而设置为0将禁止显示任何错误。displa...

实践分享|基于基石智算 DeepSeek API + WordPress 插件自动生成访客回复

基石智算举办的DeepSeek案例大赛汇集了不少基于CoresHubDeepSeekAPI服务或模型部署服务的精彩实践。本次我们将分享个人实践:通过DeepSeekAPI+Word...

如何在Eclipse中搭建Zabbix源码的调试和开发环境

Zabbix是一款非常优秀的企业级软件,被设计用于对数万台服务器、虚拟机和网络设备的数百万个监控项进行实时监控。Zabbix是开放源码和免费的,这就意味着当出现bug时,我们可以很方便地通过调试源码来...

MySQL自我保护参数

#头条创作挑战赛#之前(MySQL自我保护工具--pt-kill)提到用pt-kill工具来kill相关的会话,来达到保护数据库的目的,本文再通过修改数据库参数的方式达到阻断长时间运行的SQL的目...

Python闭包深度解析:掌握数据封装的高级技巧

闭包作为Python高级编程特性之一,为开发者提供了一种优雅的方式来实现数据封装和状态保持。这一概念源于函数式编程理论,在现代Python开发中发挥着重要作用。理解和掌握闭包的使用不仅能够提升代码的表...

Java服务网格故障注入与熔断实战

在分布式系统的高可用性挑战中,服务网格的故障注入与熔断机制是检验系统韧性的终极试金石。以下是10道逐步升级的"地狱关卡",每个关卡都对应真实生产环境中可能遇到的致命场景,并附具体场景示...

MySQL数据库性能优化全攻略:程序员必知的七大核心策略

作为程序员,我们每天都要与数据库打交道。当系统用户量突破百万级时,数据库往往成为性能瓶颈的首要怀疑对象。本文将深入探讨MySQL优化的七大核心策略,并提供可直接落地的优化方案,助您构建高效稳定的数据库...

如何在 Windows 11 上使用单个命令安装 XAMPP

XAMPP是一种广泛使用的软件,用于在Windows操作系统上快速运行LAMP服务器包,包括Windows11。尽管LAMP通常用于Linux系统,但XAMPP并不使用Li...

uTorrent怎样将bt种子转换为磁力

如何用uTorrent把BT种子转为磁力链接?以下方法希望能帮到你。1、在uTorrent窗口里,点击工具栏的按钮,所示。2、在打开窗口里,选取要转为磁力的种子文件,然后点击打开按钮,参照图示操作...

支持向量机SVM 分类和回归的实例

支持向量机(SupportVectorMachine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他...