百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

pandas.read_csv() 处理 CSV 文件的 6 个有用参数

bigegpt 2024-09-20 13:58 3 浏览

pandas.read_csv 有很多有用的参数,你都知道吗?本文将介绍一些 pandas.read_csv()有用的参数,这些参数在我们日常处理CSV文件的时候是非常有用的。

pandas.read_csv() 是最流行的数据分析框架 pandas 中的一个方法。 我们日常使用的时候这个函数也是我们用的最多的,但是pandas.read_csv() 有很多输入参数,其中 filepath或buffer 参数是必不可少的,其余的都是可选的。所以我们一般也不会太关注,但是这些可选参数可以帮我们解决大问题。以下是read_csv完整的参数列表:

pandas.read_csv(filepath_or_buffer, sep=NoDefault.no_default, delimiter=None, header='infer', names=NoDefault.no_default, index_col=None, usecols=None, squeeze=None, prefix=NoDefault.no_default, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=None, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, encoding_errors='strict', dialect=None, error_bad_lines=None, warn_bad_lines=None, on_bad_lines=None, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None, storage_options=None)

我们用以下的CSV 文件作为样例。 你可以将此数据复制到文本文件中并将其保存为 dummy.csv 文件。

#1.###############################################################,
#2. some metadata #,
#3. Last updated: 2022-06-23 05:49:15 UTC #,
#4. #,
#5. Terms Of Use: #,
#6. For questions please contact #,
#7. #############################################################,
#8. ,
date,name
2022-06-23 05:49:15,a1
2022-06-22 14:52:16,a2
2022-06-22 06:45:16,a3
2022-06-21 15:02:34,a4
2022-06-21 09:00:17,a5
2022-06-21 08:59:59,a6
2022-06-20 13:57:09,a7
2022-06-20 09:06:59,a8
2022-06-20 09:06:54,a9
2022-06-19 17:26:45,a10
2022-06-19 17:26:32,a11
2022-06-19 09:26:13,a12
2022-06-19 09:25:57,a13
2022-06-18 07:09:55,a14
2022-06-17 08:14:21,a15

1、skiprows

skiprows 接收一个正整数。 在读取 CSV 文件时,如果使用了 skiprows,Pandas 将从头开始删除指定的行。 我们想从开头跳过 8 行,因此将 skiprows 设置为 8。如下所示:

2、comment

comment接收一个字符。 如果该字符在行首出现,则将跳过该行。 我们想跳过上面显示的 CSV 文件中包含一些额外信息的行,所以 CSV 文件读入 pandas 时指定 comment = ‘#’:

3、nrows

nrows 表示从顶部开始读取的行数,这是在处理 skiprows 和comment参数后计算的。 如果希望从大文件中提取加载一部分数据,就需要这个参数。

例如,只读取在删除任何以数字“#”开头的行之后剩下的前 5 行。

4、dtype

在读取数据时可以直接定义某些列的 dtype。我们将name定义为string。

5、parse_dates

如果数据包含日期列,还可以在读取时使用 parse_dates 定义日期列。 Pandas 将自动从指定的“日期”列推断日期格式。 我们将date传入parse_dates , pandas 自动会将“date”列推断为日期 dtype。

6、skipfooter

与skiprows类似,它将跳过文件底部的行数。 (这个参数不支持engine='c',所以需要指定engine=“python”,可以看下面截图中的提示)。 CSV 文件中,如果想删除最后一行,那么可以指定 skipfooter =1:

以上就是6个非常简单但是有用的参数,在读取CSV时使用它们可以最大限度地减少数据加载所需的工作量并加快数据分析。

作者:R. Gupta

相关推荐

pyproject.toml到底是什么东西?(py trim)

最近,在Twitter上有一个Python项目的维护者,他的项目因为构建失败而出现了一些bug(这个特别的项目不提供wheel,只提供sdist)。最终,发现这个bug是由于这个项目使用了一个pypr...

BDP服务平台SDK for Python3发布(bdp数据平台)

下载地址https://github.com/imysm/opends-sdk-python3.git说明最近在开发和bdp平台有关的项目,用到了bdp的python的sdk,但是官方是基于p...

Python-for-Android (p4a):(python-for-android p4a windows)

一、Python-for-Android(p4a)简介Python-for-Android(p4a),一个强大的开发工具,能够将你的Python应用程序打包成可在Android设备上运行...

Qt for Python—Qt Designer 概览

前言本系列第三篇文章(QtforPython学习笔记—应用程序初探)、第四篇文章(QtforPython学习笔记—应用程序再探)中均是使用纯代码方式来开发PySide6GUI应用程序...

Python:判断质数(jmu-python-判断质数)

#Python:判断质数defisPrime(n):foriinrange(2,n):ifn%i==0:return0re...

为什么那么多人讨厌Python(为什么python这么难)

Python那么棒,为什么那么多人讨厌它呢?我整理了一下,主要有这些原因:用缩进替代大括号许多人抱怨Python完全依赖于缩进来创建代码块,代码多一点就很难看到函数在哪里结束,那么你就需要把一个函数拆...

一文了解 Python 中带有 else 的循环语句 for-else/while-else

在本文中,我们将向您介绍如何在python中使用带有else的for/while循环语句。可能许多人对循环和else一起使用感到困惑,因为在if-else选择结构中else正常...

python的numpy向量化语句为什么会比for快?

我们先来看看,python之类语言的for循环,和其它语言相比,额外付出了什么。我们知道,python是解释执行的。举例来说,执行x=1234+5678,对编译型语言,是从内存读入两个shor...

开眼界!Python遍历文件可以这样做

来源:【公众号】Python技术Python对于文件夹或者文件的遍历一般有两种操作方法,一种是至二级利用其封装好的walk方法操作:import osfor root,d...

告别简单format()!Python Formatter类让你的代码更专业

Python中Formatter类是string模块中的一个重要类,它实现了Python字符串格式化的底层机制,允许开发者创建自定义的格式化行为。通过深入理解Formatter类的工作原理和使用方法,...

python学习——038如何将for循环改写成列表推导式

在Python里,列表推导式是一种能够简洁生成列表的表达式,可用于替换普通的for循环。下面是列表推导式的基本语法和常见应用场景。基本语法result=[]foriteminite...

详谈for循环和while循环的区别(for循环语句与while循环语句有什么区别)

初九,潜龙勿用在刚开始使用python循环语句时,经常会遇到for循环和while循环的混用,不清楚该如何选择;今天就对这2个循环语句做深入的分析,让大家更好地了解这2个循环语句以方便后续学习的加深。...

Python编程基础:循环结构for和while

Python中的循环结构包括两个,一是遍历循环(for循环),一是条件循环(while循环)。遍历循环遍历循环(for循环)会挨个访问序列或可迭代对象的元素,并执行里面的代码块。foriinra...

学习编程第154天 python编程 for循环输出菱形图

今天学习的是刘金玉老师零基础Python教程第38期,主要内容是python编程for循环输出菱形※。(一)利用for循环输出菱形形状的*号图形1.思路:将菱形分解为上下两个部分三角形图案,分别利用...

python 10个堪称完美的for循环实践

在Python中,for循环的高效使用能显著提升代码性能和可读性。以下是10个堪称完美的for循环实践,涵盖数据处理、算法优化和Pythonic编程风格:1.遍历列表同时获取索引(enumerate...