百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

pandas 循环读取文件夹下的 excel,并汇总到一张表格

bigegpt 2025-02-09 11:26 8 浏览

-- coding:utf-8 –-

"""

利用 pandas 将多张 excel 表中的指定列数据合并成一张;因为原始的多张数据存在同样列名的数据,

因为原始多张 excel 是从 csv 文件转换股

并且我们只需要其中的部分列数据,所以进行指定列提取并汇总至 res 文件中

"""

import os

import pandas as pd

输入参数为 excel 表格所在目录

def to_one_excel(dir):

dfs = []

# 遍历文件目录,将所有表格表示为 pandas 中的 DataFrame 对象

# for root_dir, sub_dir, files in os.walk(r'' + dir): # 第一个为起始路径,第二个为起始路径下的文件夹,第三个是起始路径下的文件。

for root_dir, sub_dir, files in os.walk(dir): # 第一个为起始路径,第二个为起始路径下的文件夹,第三个是起始路径下的文件。

for file in files:

if file.endswith(‘xlsx’):

# 构造绝对路径

file_name = os.path.join(root_dir, file)

# df = pd.read_excel(file_name)

df_1 = list(pd.read_excel(file_name, nrows=1)) # 读取 excel 第一行数据并放进列表

# excel 第一行数据返回列表

print(file_name)

print(type(df_1))

print(df_1)

# 根据第一行列名获取每个文件中需要列的列索引,返回索引数值

suo_yin_1 = df_1.index(“Billing Country”)

suo_yin_2 = df_1.index(“Created at”)

suo_yin_3 = df_1.index(“Updated at”)

suo_yin_4 = df_1.index(“Paid Price”)

suo_yin_5 = df_1.index(“Shipment Type Name”)

suo_yin_6 = df_1.index(“Status”)

# 读取文件内容 usecols=[1, 3, 4] 读取第 1,3,4 列

df = pd.read_excel(file_name, usecols=[suo_yin_1, suo_yin_2, suo_yin_3, suo_yin_4, suo_yin_5, suo_yin_6]

, sheet_name=‘data’)

# pf = pd.read_excel('xxx.xls', usecols=[1, 3, 4], sheet_name='data')

# print(pf)

# 追加一列数据,将每个文件的名字追加进该文件的数据中,确定每条数据属于哪个文件

excel_name = file.replace(".xlsx", "") # 提取每个excel文件的名称,去掉.xlsx后缀

df["店铺"] = excel_name # 新建列名为“店铺”,列数据为excel文件名

dfs.append(df) # 将新建店铺列追加进汇总excel中

# 行合并

df_concated = pd.concat(dfs)

# 构造输出目录的绝对路径

out_path = os.path.join(dir, 'res.xlsx')

# 输出到excel表格中,并删除pandas默认的index列

df_concated.to_excel(out_path, sheet_name='Sheet1', index=None)

调用并执行函数

to_one_excel(r’C:\Users\Administrator\Desktop\ceshi\xlsx 文件’)

相关推荐

php-fpm的配置和优化

目录概述php-fpm配置php-fpm进程优化配置慢日志查询配置php7进阶到架构师相关阅读概述这是关于php进阶到架构之php7核心技术与实战学习的系列课程:php-fpm的配置和优化学习目标:理...

成功安装 Magento2.4.3最新版教程「技术干货」

外贸独立站设计公司xingbell.com经过多次的反复实验,最新版的magento2.4.3在oneinstack的环境下的详细安装教程如下:一.vps系统:LinuxCentOS7.7.19...

十分钟让你学会LNMP架构负载均衡

业务架构、应用架构、数据架构和技术架构一、几个基本概念1、pv值pv值(pageviews):页面的浏览量概念:一个网站的所有页面,在一天内,被浏览的总次数。(大型网站通常是上千万的级别)2、u...

php从远程URL获取(mp4 mp3)音视频的流媒体数据

/***从远程URL中获取媒体(如mp4mp3)的内容*@parammixed$file_url*@parammixed$media_type...

Zabbix5.0安装部署

全盘展示运行状态,减轻运维人员的重复性工作量,提高系统排错速度,加速运维知识学习积累。1.png1、环境安装关闭SELinux并重启系统2.png安装httpd、mariadb、php运行yum-...

php 常见配置详解

以下是PHP常见的配置项及其含义:error_reporting:设置错误报告级别,可以控制PHP显示哪些错误。例如,设置为E_ALL将显示所有错误,而设置为0将禁止显示任何错误。displa...

实践分享|基于基石智算 DeepSeek API + WordPress 插件自动生成访客回复

基石智算举办的DeepSeek案例大赛汇集了不少基于CoresHubDeepSeekAPI服务或模型部署服务的精彩实践。本次我们将分享个人实践:通过DeepSeekAPI+Word...

如何在Eclipse中搭建Zabbix源码的调试和开发环境

Zabbix是一款非常优秀的企业级软件,被设计用于对数万台服务器、虚拟机和网络设备的数百万个监控项进行实时监控。Zabbix是开放源码和免费的,这就意味着当出现bug时,我们可以很方便地通过调试源码来...

MySQL自我保护参数

#头条创作挑战赛#之前(MySQL自我保护工具--pt-kill)提到用pt-kill工具来kill相关的会话,来达到保护数据库的目的,本文再通过修改数据库参数的方式达到阻断长时间运行的SQL的目...

Python闭包深度解析:掌握数据封装的高级技巧

闭包作为Python高级编程特性之一,为开发者提供了一种优雅的方式来实现数据封装和状态保持。这一概念源于函数式编程理论,在现代Python开发中发挥着重要作用。理解和掌握闭包的使用不仅能够提升代码的表...

Java服务网格故障注入与熔断实战

在分布式系统的高可用性挑战中,服务网格的故障注入与熔断机制是检验系统韧性的终极试金石。以下是10道逐步升级的"地狱关卡",每个关卡都对应真实生产环境中可能遇到的致命场景,并附具体场景示...

MySQL数据库性能优化全攻略:程序员必知的七大核心策略

作为程序员,我们每天都要与数据库打交道。当系统用户量突破百万级时,数据库往往成为性能瓶颈的首要怀疑对象。本文将深入探讨MySQL优化的七大核心策略,并提供可直接落地的优化方案,助您构建高效稳定的数据库...

如何在 Windows 11 上使用单个命令安装 XAMPP

XAMPP是一种广泛使用的软件,用于在Windows操作系统上快速运行LAMP服务器包,包括Windows11。尽管LAMP通常用于Linux系统,但XAMPP并不使用Li...

uTorrent怎样将bt种子转换为磁力

如何用uTorrent把BT种子转为磁力链接?以下方法希望能帮到你。1、在uTorrent窗口里,点击工具栏的按钮,所示。2、在打开窗口里,选取要转为磁力的种子文件,然后点击打开按钮,参照图示操作...

支持向量机SVM 分类和回归的实例

支持向量机(SupportVectorMachine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他...