python数据分析:使用pandas库读取和写入csv文件
bigegpt 2025-01-01 18:05 4 浏览
pandas操作CSV文件
CSV后缀的文件是标准文件格式,可以通过文本编辑器或者excel表格打开,
使用非常广泛;使用文本编辑器打开后,每一行都以英文逗号隔开,如下所示:
之前文章我们介绍了使用python自带的csv库读取和写入(测开不得不会的python之csv文件读取和写入)。本章主要介绍使用pandas库读取和写入csv文件。
读取csv文件
使用pandas的read_csv函数,读取csv文件,默认返回DataFrame数据格式(pandas定义的一个二维数据结构,类似于excel表格有行和列的数据)
函数参数有很多,主要介绍下常用的参数:
- filepath_or_buffer:要读取的文件路径或对象。比如文件路径,文件对象(如通过open函数打开的文件句柄),或者URL,有效的URL包括http、ftp、file等。
- sep(或delimiter):字段分隔符,默认为英文逗号。如果CSV文件使用其他字符作为分隔符,可以通过此参数指定。
- header:用作列名的行号,默认为0(第一行)。如果没有列名,则设为None。也可以指定多行作为多级列名,例如header=[0, 1]。
- names:列名列表,当header=None时,可以使用此参数自定义列名。
- index_col:用作索引的列编号或列名。默认为None,使用CSV文件中的行索引作为DataFrame的索引。
- usecols:返回的列,可以是列名的列表或由列索引组成的列表。用于选择性地读取CSV文件中的某些列。
- dtype:字典或列表,指定某些列的数据类型。例如,dtype={'column1': int, 'column2': float}。
- skiprows:需要忽略的行数(从文件开头算起),或需要跳过的行号列表。用于跳过CSV文件开头的某些行。
- nrows:需要读取的行数(从文件开头算起)。用于从大文件中提取部分数据。
- skipfooter:文件尾部需要忽略的行数。
注意,此参数不支持某些引擎(如'c'),可能需要指定engine='python'。
- encoding:文件编码(如'utf-8'、'latin-1'等)。用于指定文件的字符编码。
- parse_dates:将某些列解析为日期。可以是列名的列表或由列索引组成的列表,还可以是布尔值True(尝试解析所有列)。
- infer_datetime_format:如果True且parse_dates未指定,则尝试解析日期。
- iterator:如果True,则返回TextFileReader对象,用于迭代循环读取文件。与chunksize参数配合使用,可以实现数据的分段读取。
- chunksize:每个块的行数,用于逐块读取文件。与iterator=True配合使用。
- compression:压缩格式,例如'gzip'或'xz'。用于读取压缩格式的CSV文件。
举例:读取csv文件为DataFrame对象,并打印对象的数据
准备一个csv文件如下:
读取csv文件并打印
import pandas as pd
dataframe = pd.read_csv("1.csv")
print(dataframe)
展示结果:这个结果跟excel表格中的数据结构很类似。
读取文件后,通过DataFrame对象的多种多样的函数,可以对读取的csv文件数据做各类操作(具体可参考上一篇文章介绍python数据分析:介绍pandas库的数据类型Series和DataFrame)
保存为csv文件
使用DataFrame对象的to_csv函数将DataFrame格式数据保存为csv文件
常用参数介绍:
- path_or_buf: 保存的文件路径或者文件对象
- sep: 指定每行不同列值之间的分隔符,默认为 ','。
- columns: sequence,:指定要写入的列名列表。如果为 None,则写入所有列。
- index: 默认为 True。表示是否将行(索引)标签写入文件。
- header: 默认为 True。是否将列名(表头)写入文件。如果为 False,则不写入列名;也可以是一个字符串列表,指定列名的别名。
- mode: str, 默认为 'w',表示文件打开模式。'w':写模式(覆盖);'a':追加模式;'r+':读写模式(文件必须存在)。
- encoding: 字符串编码格式。例如:'utf-8'。
- compression: {'infer', 'gzip', 'bz2', 'zip', 'xz', None}, 可选,默认为 'infer'。指定压缩方式。如果为 'infer',则根据文件扩展名推断压缩方式。
- line_terminator: 默认为 '\n'。指定行终止符。
- chunksize: 指定每次写入文件的行数。这对于处理大文件很有用,可以节省内存。
- date_format: 日期时间对象的格式化字符串。
- doublequote: 默认为 True,表示字段中的双引号将被双写。
- errors:指定错误处理方式。'strict':引发异常;'ignore':忽略错误;'replace':用替换字符替换错误字符。
测试代码:直接保存文件,不添加其他参数。
import pandas as pd
dataframe = pd.read_csv("1.csv")
#插入2行数据
dataframe.insert(2,'area','China')
dataframe.insert(3,'area',['China','America','korea','japan','China','America','korea','japan'],allow_duplicates=True)
#保存文件
dataframe.to_csv('2.csv')
结果:将行索引和所有的行和列的值都写入了
当然也可以像上面的参数介绍一样。添加一些参数的示例:
1)不写入行索引,只写入Name这一列的数据
dataframe.to_csv('3.csv',index=False,columns=['Name'])
2)不写入表头,并且做追加写入
dataframe.to_csv('3.csv',header=False,mode='a+')
共勉: 东汉·班固《汉书·枚乘传》:“泰山之管穿石,单极之绠断干。水非石之钻,索非木之锯,渐靡使之然也。”
-----指水滴不断地滴,可以滴穿石头;
-----比喻坚持不懈,集细微的力量也能成就难能的功劳。
----感谢读者的阅读和学习,谢谢大家。
- 上一篇:如何最简单、通俗地理解Python模块?
- 下一篇:如何把PY文件打包成EXE文件
相关推荐
- 为3D手游打造, Visual Studio Unity扩展下载
-
IT之家(www.ithome.com):为3D手游打造,VisualStudioUnity扩展下载7月30日消息,微软正式发布升级版VisualStudioToolsforUnity扩...
- 由ArcMap属性字段自增引出字段计算器使用Python的技巧
-
1.前言前些日子有人问我ArcMap中要让某个字段的值实现自增有什么方法?我首先想到像SQLServer中对于数值型字段可以设置自增。所以我打开ArcCatalog查看发现只提供默认值,没办法只能看...
- 微软首次回答 HoloLens 相关问题,终于爆料了
-
fengo2015/04/2115:11注:本文作者张静是NVIDIAGPU架构师,微信公众号“黑客与画家”(HackerAndPainter),知乎专栏地址。欢迎各位童鞋与他交流探讨。...
- C#指针的应用(c#指针类型)
-
C#在有限的范围内支持指针。C#的指针只不过是一个持有另一类型内存地址的变量。但是在C#中,指针只能被声明为持有值类型和数组的内存地址。与引用类型不同,指针类型不被默认的垃圾收集机制所跟踪。出于同...
- C# 堆栈(Stack)(c# 堆栈中定位调用messagebox 的地方)
-
C#集合在C#中,堆栈(Stack)是一种后进先出(LIFO,LastInFirstOut)的数据结构。堆栈(Stack)适用于存储和按顺序处理数据,其中最新添加的元素会最先被移除。堆...
- 欢迎回来:Fortran意外重回流行编程语言20强榜单
-
TIOBE指数是用来确定一种编程语言受欢迎程度的指标之一。它并不表明哪种编程语言是最好的,也不表明哪种编程语言写的代码行数最多,而是利用在谷歌、维基百科、必应、亚马逊、YouTube等各种引擎和网站上...
- C#+NET MAUI实现跨平台/终端(linux,win,ios等)解决方案
-
简介.NETMulti-platformAppUI(.NETMAUI)是一个跨平台的框架,用于使用C#和XAML创建移动和桌面应用程序。使用.NETMAUI,您可以用一套代码库开发可以在A...
- C#代码安全红线:SQL注入防护终极方案,让你的系统固若金汤
-
在数字化时代,应用系统的安全性至关重要。而SQL注入攻击,长期盘踞在OWASP(OpenWebApplicationSecurityProject)漏洞榜单的前列,成为众多基于数据库的应用系统...
- C# (一)状态机模式(状态机代码实现)
-
最近空闲,炒炒隔夜饭,以前这些模式在自己项目种应用过不少,但一直没有像别人那样写一个系列,最近年纪大了,很多东西都忘记了,特别AI的兴起,更少写代码了,反正没什么事情,自己在重写一遍吧。创建型模式(5...
- C# 中 Predicate 详解(c#中的replace)
-
Predicate泛型委托:表示定义一组条件并确定指定对象是否符合这些条件的方法。此委托由Array和List类的几种方法使用,用于在集合中搜索元素。Predicate<T>...
- C#中$的用法?(c#中&&什么意思)
-
文章来自AI问答。在C#中,$符号用于字符串插值(StringInterpolation)。字符串插值是C#6.0引入的一种特性,它允许你在字符串中直接嵌入表达式,而不需要使用string.For...
- C#并行编程:Parallel类(c# 并行处理)
-
在Parallel类中提供了三个静态方法作为结构化并行的基本形式:Parallel.Invoke方法:并行执行一组委托。Parallel.For方法:执行与C#for循环等价的并行方法。Parall...
- 颠覆认知!用Span重构foreach循环竟让数据处理快如闪电
-
在C#编程的世界里,数据处理效率始终是开发者们关注的焦点。随着项目规模的扩大和数据量的激增,哪怕是细微的性能提升,都可能对整个应用的响应速度和用户体验产生深远影响。近年来,C#引入的Span<T...
- Unity3D手游开发实践《腾讯桌球》客户端开发经验总结
-
本次分享总结,起源于腾讯桌球项目,但是不仅仅限于项目本身。虽然基于Unity3D,很多东西同样适用于Cocos。本文从以下10大点进行阐述:1.架构设计2.原生插件/平台交互3.版本与补丁4.用脚本,...
- .NET 7 AOT 的使用以及 .NET 与 Go 互相调用
-
目录背景C#部分环境要求创建一个控制台项目体验AOT编译C#调用库函数减少体积C#导出函数C#调用C#生成的AOTGolang部分安装GCCGolang导出函数.NETC#...
- 一周热门
- 最近发表
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- resize函数 (64)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- mybatis大于等于 (64)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- logstashinput (65)
- hadoop端口 (65)
- vue阻止冒泡 (67)
- oracle时间戳转换日期 (64)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)