百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

python数据分析:使用pandas库读取和写入csv文件

bigegpt 2025-01-01 18:05 4 浏览

pandas操作CSV文件

CSV后缀的文件是标准文件格式,可以通过文本编辑器或者excel表格打开,

使用非常广泛;使用文本编辑器打开后,每一行都以英文逗号隔开,如下所示:

之前文章我们介绍了使用python自带的csv库读取和写入(测开不得不会的python之csv文件读取和写入)。本章主要介绍使用pandas库读取和写入csv文件。

读取csv文件

使用pandas的read_csv函数,读取csv文件,默认返回DataFrame数据格式(pandas定义的一个二维数据结构,类似于excel表格有行和列的数据)

函数参数有很多,主要介绍下常用的参数:

  • filepath_or_buffer:要读取的文件路径或对象。比如文件路径,文件对象(如通过open函数打开的文件句柄),或者URL,有效的URL包括http、ftp、file等。
  • sep(或delimiter):字段分隔符,默认为英文逗号。如果CSV文件使用其他字符作为分隔符,可以通过此参数指定。
  • header:用作列名的行号,默认为0(第一行)。如果没有列名,则设为None。也可以指定多行作为多级列名,例如header=[0, 1]。
  • names:列名列表,当header=None时,可以使用此参数自定义列名。
  • index_col:用作索引的列编号或列名。默认为None,使用CSV文件中的行索引作为DataFrame的索引。
  • usecols:返回的列,可以是列名的列表或由列索引组成的列表。用于选择性地读取CSV文件中的某些列。
  • dtype:字典或列表,指定某些列的数据类型。例如,dtype={'column1': int, 'column2': float}。
  • skiprows:需要忽略的行数(从文件开头算起),或需要跳过的行号列表。用于跳过CSV文件开头的某些行。
  • nrows:需要读取的行数(从文件开头算起)。用于从大文件中提取部分数据。
  • skipfooter:文件尾部需要忽略的行数。

注意,此参数不支持某些引擎(如'c'),可能需要指定engine='python'。

  • encoding:文件编码(如'utf-8'、'latin-1'等)。用于指定文件的字符编码。
  • parse_dates:将某些列解析为日期。可以是列名的列表或由列索引组成的列表,还可以是布尔值True(尝试解析所有列)。
  • infer_datetime_format:如果True且parse_dates未指定,则尝试解析日期。
  • iterator:如果True,则返回TextFileReader对象,用于迭代循环读取文件。与chunksize参数配合使用,可以实现数据的分段读取。
  • chunksize:每个块的行数,用于逐块读取文件。与iterator=True配合使用。
  • compression:压缩格式,例如'gzip'或'xz'。用于读取压缩格式的CSV文件。

举例:读取csv文件为DataFrame对象,并打印对象的数据

准备一个csv文件如下:

读取csv文件并打印

import pandas as pd
dataframe = pd.read_csv("1.csv")
print(dataframe)

展示结果:这个结果跟excel表格中的数据结构很类似。

读取文件后,通过DataFrame对象的多种多样的函数,可以对读取的csv文件数据做各类操作(具体可参考上一篇文章介绍python数据分析:介绍pandas库的数据类型Series和DataFrame

保存为csv文件

使用DataFrame对象的to_csv函数将DataFrame格式数据保存为csv文件

常用参数介绍:

  • path_or_buf: 保存的文件路径或者文件对象
  • sep: 指定每行不同列值之间的分隔符,默认为 ','。
  • columns: sequence,:指定要写入的列名列表。如果为 None,则写入所有列。
  • index: 默认为 True。表示是否将行(索引)标签写入文件。
  • header: 默认为 True。是否将列名(表头)写入文件。如果为 False,则不写入列名;也可以是一个字符串列表,指定列名的别名。
  • mode: str, 默认为 'w',表示文件打开模式。'w':写模式(覆盖);'a':追加模式;'r+':读写模式(文件必须存在)。
  • encoding: 字符串编码格式。例如:'utf-8'。
  • compression: {'infer', 'gzip', 'bz2', 'zip', 'xz', None}, 可选,默认为 'infer'。指定压缩方式。如果为 'infer',则根据文件扩展名推断压缩方式。
  • line_terminator: 默认为 '\n'。指定行终止符。
  • chunksize: 指定每次写入文件的行数。这对于处理大文件很有用,可以节省内存。
  • date_format: 日期时间对象的格式化字符串。
  • doublequote: 默认为 True,表示字段中的双引号将被双写。
  • errors:指定错误处理方式。'strict':引发异常;'ignore':忽略错误;'replace':用替换字符替换错误字符。

测试代码:直接保存文件,不添加其他参数。

import pandas as pd
dataframe = pd.read_csv("1.csv")
#插入2行数据
dataframe.insert(2,'area','China')
dataframe.insert(3,'area',['China','America','korea','japan','China','America','korea','japan'],allow_duplicates=True)
#保存文件
dataframe.to_csv('2.csv')

结果:将行索引和所有的行和列的值都写入了

当然也可以像上面的参数介绍一样。添加一些参数的示例:

1)不写入行索引,只写入Name这一列的数据

dataframe.to_csv('3.csv',index=False,columns=['Name'])

2)不写入表头,并且做追加写入
dataframe.to_csv('3.csv',header=False,mode='a+')


共勉: 东汉·班固《汉书·枚乘传》:“泰山之管穿石,单极之绠断干。水非石之钻,索非木之锯,渐靡使之然也。”

-----指水滴不断地滴,可以滴穿石头;

-----比喻坚持不懈,集细微的力量也能成就难能的功劳。

----感谢读者的阅读和学习,谢谢大家。

相关推荐

为3D手游打造, Visual Studio Unity扩展下载

IT之家(www.ithome.com):为3D手游打造,VisualStudioUnity扩展下载7月30日消息,微软正式发布升级版VisualStudioToolsforUnity扩...

由ArcMap属性字段自增引出字段计算器使用Python的技巧

1.前言前些日子有人问我ArcMap中要让某个字段的值实现自增有什么方法?我首先想到像SQLServer中对于数值型字段可以设置自增。所以我打开ArcCatalog查看发现只提供默认值,没办法只能看...

微软首次回答 HoloLens 相关问题,终于爆料了

fengo2015/04/2115:11注:本文作者张静是NVIDIAGPU架构师,微信公众号“黑客与画家”(HackerAndPainter),知乎专栏地址。欢迎各位童鞋与他交流探讨。...

C#指针的应用(c#指针类型)

C#在有限的范围内支持指针。C#的指针只不过是一个持有另一类型内存地址的变量。但是在C#中,指针只能被声明为持有值类型和数组的内存地址。与引用类型不同,指针类型不被默认的垃圾收集机制所跟踪。出于同...

C# 堆栈(Stack)(c# 堆栈中定位调用messagebox 的地方)

C#集合在C#中,堆栈(Stack)是一种后进先出(LIFO,LastInFirstOut)的数据结构。堆栈(Stack)适用于存储和按顺序处理数据,其中最新添加的元素会最先被移除。堆...

欢迎回来:Fortran意外重回流行编程语言20强榜单

TIOBE指数是用来确定一种编程语言受欢迎程度的指标之一。它并不表明哪种编程语言是最好的,也不表明哪种编程语言写的代码行数最多,而是利用在谷歌、维基百科、必应、亚马逊、YouTube等各种引擎和网站上...

C#+NET MAUI实现跨平台/终端(linux,win,ios等)解决方案

简介.NETMulti-platformAppUI(.NETMAUI)是一个跨平台的框架,用于使用C#和XAML创建移动和桌面应用程序。使用.NETMAUI,您可以用一套代码库开发可以在A...

C#代码安全红线:SQL注入防护终极方案,让你的系统固若金汤

在数字化时代,应用系统的安全性至关重要。而SQL注入攻击,长期盘踞在OWASP(OpenWebApplicationSecurityProject)漏洞榜单的前列,成为众多基于数据库的应用系统...

C# (一)状态机模式(状态机代码实现)

最近空闲,炒炒隔夜饭,以前这些模式在自己项目种应用过不少,但一直没有像别人那样写一个系列,最近年纪大了,很多东西都忘记了,特别AI的兴起,更少写代码了,反正没什么事情,自己在重写一遍吧。创建型模式(5...

C# 中 Predicate 详解(c#中的replace)

Predicate泛型委托:表示定义一组条件并确定指定对象是否符合这些条件的方法。此委托由Array和List类的几种方法使用,用于在集合中搜索元素。Predicate<T>...

C#中$的用法?(c#中&&什么意思)

文章来自AI问答。在C#中,$符号用于字符串插值(StringInterpolation)。字符串插值是C#6.0引入的一种特性,它允许你在字符串中直接嵌入表达式,而不需要使用string.For...

C#并行编程:Parallel类(c# 并行处理)

在Parallel类中提供了三个静态方法作为结构化并行的基本形式:Parallel.Invoke方法:并行执行一组委托。Parallel.For方法:执行与C#for循环等价的并行方法。Parall...

颠覆认知!用Span重构foreach循环竟让数据处理快如闪电

在C#编程的世界里,数据处理效率始终是开发者们关注的焦点。随着项目规模的扩大和数据量的激增,哪怕是细微的性能提升,都可能对整个应用的响应速度和用户体验产生深远影响。近年来,C#引入的Span<T...

Unity3D手游开发实践《腾讯桌球》客户端开发经验总结

本次分享总结,起源于腾讯桌球项目,但是不仅仅限于项目本身。虽然基于Unity3D,很多东西同样适用于Cocos。本文从以下10大点进行阐述:1.架构设计2.原生插件/平台交互3.版本与补丁4.用脚本,...

.NET 7 AOT 的使用以及 .NET 与 Go 互相调用

目录背景C#部分环境要求创建一个控制台项目体验AOT编译C#调用库函数减少体积C#导出函数C#调用C#生成的AOTGolang部分安装GCCGolang导出函数.NETC#...