从 Python 列表中删除 NaN:完整指南
bigegpt 2025-01-03 14:20 55 浏览
在 Python 中处理数据时,经常会遇到 NaN(非数字)值。这些讨厌的缺失值可能会扰乱您的计算并导致代码错误。
什么是 NaN 以及为什么它很重要?
NaN 不仅仅是一个常规值——它是 Python 表达“这个数字缺失或未定义”的方式。将其想象为一个占位符,表示“此处没有数据”。让我们看看 NaN 在代码中出现的所有不同方式:
import math
import numpy as np
# Here are all the different types of NaN you might see
nan_values = [
float('nan'), # Python's basic NaN - used in regular Python
math.nan, # Math module's NaN - used in mathematical operations
np.nan, # NumPy's NaN - used in numerical arrays
None # Python's None - often treated like NaN in data analysis
]
# Let's see what type each one is
print([type(x) for x in nan_values])
# Output: [<class 'float'>, <class 'float'>, <class 'float'>, <class 'NoneType'>]
注意到一些有趣的事情了吗?前三种 NaN 类型都是浮点数(十进制数),但 None 是它自己的特殊类型。这很重要,因为在清理数据时需要以不同的方式处理它们。
清理简单列表:基本方法
让从最常见的任务开始:从常规 Python 列表中删除 NaN。将研究两种方法来实现这一点,并且将准确解释为什么代码的每个部分都很重要:
import math
# Create a test list with some NaN values mixed in
data = [1, float('nan'), 3, math.nan, 5, None]
# Method 1: Remove just NaN values
cleaned = [x for x in data if not (isinstance(x, float) and math.isnan(x))]
print(cleaned) # [1, 3, 5, None]
# Method 2: Remove both NaN and None values
cleaned = [x for x in data if not (isinstance(x, float) and math.isnan(x)) and x is not None]
print(cleaned) # [1, 3, 5]
让我们详细分析一下这段代码的作用:
1. `isinstance(x, float)` 检查每个值是否是浮点数
— 我们需要这个,因为只有浮点值可以是 NaN
— 如果我们跳过此检查,我们将收到非数字值的错误
2. `math.isnan(x)` 检查浮点数是否为 NaN
— 这只适用于浮点值
— 这就是为什么我们首先需要 isinstance 检查
3. `x is not None` 检查 None 值
— 我们使用 `is` 而不是 `==`,因为 None 是一个特殊的 Python 对象
— 这是检查 None 的正确方法
使用 NumPy:更快、更强大
当您处理更大的数据集时,NumPy 让生活变得更加轻松。使用方法如下:
import numpy as np
# Create a NumPy array with NaN values
arr = np.array([1, np.nan, 3, np.nan, 5, None])
# Method 1: Using np.isnan (fastest method)
cleaned = arr[~np.isnan(arr)]
print(cleaned) # [1. 3. 5.]
# Method 2: Using pandas (more flexible)
import pandas as pd
cleaned = pd.Series(arr).dropna().values
print(cleaned) # [1. 3. 5.]
# Method 3: Replace NaN with zeros (or any other value)
filled = np.nan_to_num(arr, nan=0)
print(filled) # [1. 0. 3. 0. 5. 0.]
以下是每种方法都很有用的原因:
1. `np.isnan(arr)`:
— 为每个值创建 True/False 掩码
— ‘~’ 将 True 翻转为 False,反之亦然
— 对于大型阵列来说非常快
— 适用于数值数据
2. `pd.Series(arr).dropna()`:
— 更灵活 — 处理不同类型的缺失数据
— 适合复杂的数据结构
— 速度稍慢但功能更丰富
3.`np.nan_to_num()`:
— 替换 NaN 而不是删除它
— 当您需要保持相同的数组大小时很有用
— 可以指定自定义替换值
现实示例:清理传感器数据
让我们看一个您在现实生活中可能遇到的实际示例 - 清理传感器中的数据:
import numpy as np
import pandas as pd
from datetime import datetime, timedelta
def clean_sensor_data(readings):
"""Clean sensor readings and provide detailed statistics"""
# Convert the readings to a numpy array
data = np.array(readings, dtype=float)
# Gather information about the data
total_readings = len(data)
nan_count = np.isnan(data).sum()
# Remove NaN values
cleaned_data = data[~np.isnan(data)]
# Calculate useful statistics
stats = {
'original_count': total_readings, # How many readings we started with
'nan_count': nan_count, # How many NaN values we found
'clean_count': len(cleaned_data), # How many readings remain
'nan_percentage': (nan_count/total_readings) * 100, # Percentage of bad data
'mean': np.mean(cleaned_data), # Average reading
'std': np.std(cleaned_data) # How much readings vary
}
return cleaned_data, stats
# Test the function with some sample sensor data
sensor_readings = [
23.5, np.nan, 24.1, 23.8, np.nan,
24.3, 23.9, np.nan, 24.0, 23.7
]
cleaned, stats = clean_sensor_data(sensor_readings)
print("Cleaned sensor data:", cleaned)
print("\nDetailed Statistics:")
for key, value in stats.items():
print(f"{key}: {value:.2f}")
这个函数做了几件重要的事情:
1. 将数据转换为 NumPy 数组以加快处理速度
2. 计算缺失的读数数量
3. 删除所有 NaN 值
4. 计算有关数据的有用统计数据
5. 以有组织的方式返回清理后的数据和统计数据
处理嵌套列表(列表中的列表)
有时,列表中会有列表,删除 NaN 值会变得更加棘手。这是一个强大的解决方案:
import math
import numpy as np
def clean_nested_list(nested_data):
"""Remove NaN values from lists within lists"""
# If we're looking at a list, process each item in it
if isinstance(nested_data, list):
# Process each item, but only keep non-NaN values
return [
clean_nested_list(item)
for item in nested_data
if not (isinstance(item, float) and math.isnan(item))
and item is not None
]
# If it's not a list, return it unchanged
return nested_data
# Test with a complex nested structure
nested_data = [
[1, float('nan'), [3, None]],
[math.nan, 5, [6, float('nan')]],
[7, [8, None, 9]]
]
cleaned = clean_nested_list(nested_data)
print("Cleaned nested data:")
print(cleaned)
# Output: [[1, [3]], [5, [6]], [7, [8, 9]]]
这个递归函数:
1. 检查每个项目本身是否是一个列表
2.如果是列表,则处理其中的每一项
3.如果不是列表,检查是否为NaN
4. 构建一个新的干净列表,删除所有 NaN 值
使用时间序列数据:详细方法
时间序列数据(随时间变化的数据点)需要特殊处理,因为数据点的顺序和间距很重要。以下是正确处理的方法:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
# Create realistic time series data with some missing values
dates = pd.date_range(start='2024-01-01', periods=10, freq='H')
temperatures = [23.5, np.nan, 24.1, 23.8, np.nan, 24.3, 23.9, np.nan, 24.0, 23.7]
# Create a DataFrame (a table-like structure)
df = pd.DataFrame({
'timestamp': dates,
'temperature': temperatures
})
# Method 1: Simply drop NaN values
cleaned_drop = df.dropna()
# Method 2: Fill NaN with the previous value (forward fill)
cleaned_ffill = df.fillna(method='ffill')
# Method 3: Fill NaN by estimating between points (interpolation)
cleaned_interp = df.copy()
cleaned_interp['temperature'] = df['temperature'].interpolate()
# Print all versions to compare
print("Original Data:")
print(df)
print("\nAfter Dropping NaN:")
print(cleaned_drop)
print("\nAfter Forward Filling:")
print(cleaned_ffill)
print("\nAfter Interpolation:")
print(cleaned_interp)
让我们详细了解每个方法:
1. `dropna()`:
— 简单地删除带有 NaN 的行
— 当您不需要每个时间戳的值时最好
— 保持数据准确性,但丢失时间点
2. `fillna(method='ffill')`:
— 向前复制最后一个有效值
— 适用于偶尔会丢失读数的传感器
— 假设条件保持不变直到下一次读数
3.`插值()`:
— 根据周围点估计缺失值
— 最适合温度等平滑变化的值
— 创建比前向填充更现实的估计
性能测试:哪种方法最快?
1.NumPy方法:
— 对于简单的数值数据通常最快
— 最适合大型阵列
— 仅限于数字数据
2. 列表理解:
— 适合小列表
— 数据类型更加灵活
— 列表越大,速度越慢
3. 熊猫方法:
— 比 NumPy 稍慢
— 更多功能和灵活性
— 更适合复杂的数据结构
常见错误以及如何避免它们
以下是人们在处理 NaN 值时最常犯的错误以及如何修复这些错误:
# Mistake 1: Not checking data types first
data = [1, float('nan'), '3', np.nan] # Mixed types
# Wrong way (will crash):
try:
cleaned = [x for x in data if not math.isnan(x)]
except TypeError as e:
print(f"Error: {e}")
# Right way:
cleaned = [x for x in data
if not (isinstance(x, float) and math.isnan(x))]
print("Correctly cleaned:", cleaned)
# Mistake 2: Losing data structure in pandas
import pandas as pd
df = pd.DataFrame({
'A': [1, np.nan, 3],
'B': [4, 5, 6]
})
# Wrong way (loses DataFrame structure):
wrong_clean = df.values[~np.isnan(df.values)]
print("\nWrong way shape:", wrong_clean.shape)
# Right way (keeps DataFrame structure):
right_clean = df.dropna()
print("Right way shape:", right_clean.shape)
为什么这些错误很重要:
1. 不检查类型:
— NaN 仅对浮点数有效
— 尝试检查其他类型会导致错误
— 始终首先使用 isinstance() 检查类型
2.丢失数据结构:
— 一些清理方法会破坏您的数据组织
— 列之间的重要关系可能会丢失
— 使用保留数据结构的方法
最佳实践总结
以下是使用每种方法的时机:
1. 在以下情况下使用列表理解:
— 使用简单的 Python 列表
— 处理混合数据类型
— 列表相对较小(< 10,000 项)
2. 在以下情况下使用 NumPy:
— 仅处理数值数据
— 需要快速处理
— 处理大型数据集
— 所有数据都是同一类型
3. 在以下情况下使用 Pandas:
— 处理表格数据
— 需要保留数据结构
— 想要更复杂的清洁选项
— 处理时间序列数据
记住:
- 始终首先检查您的数据类型
- 考虑 NaN 值是否意味着重要的事情
- 选择保留重要数据关系的方法
- 使用特定数据大小测试性能
现在,您拥有在任何 Python 数据结构中有效处理 NaN 值所需的所有工具。关键是为您的具体情况和数据类型选择正确的方法。
相关推荐
- 数据中台与业务中台总体技术架构设计方案
-
《数据中台与业务中台总体技术架构设计方案》提出**“开放、稳定、滋养”三原则**,强调通过统一技术架构与框架破除烟囱式系统,构建**“业务中台+数据中台”闭环体系**。方案主张从单体架...
- 三分钟摸清楚什么叫前后端分离(什么是前后端分离架构?)
-
什么叫前后端分离?其实,前后端分离的初衷是为了分离前后端开发人员的职责,解决开发模式的问题。说到底,前后端分离就是将前端视图和后端数据进行分离,这样,后端只需要提供接口(后端数据)给前端,而前端也可以...
- 刚刚,给学妹普及了登录的两大绝学
-
今天跟大家聊一个比较基础的话题,就是实现登录的方式有哪些?适合刚入行的朋友。华山之Session绝学Session我们称之为会话控制,是一种在服务器端保持会话状态的解决方案。通俗点来讲就是客户...
- 6种微服务RPC框架,你知道几个?(grpc是微服务框架吗)
-
开源RPC框架有哪些呢?一类是跟某种特定语言平台绑定的,另一类是与语言无关即跨语言平台的。跟语言平台绑定的开源RPC框架主要有下面几种。Dubbo:国内最早开源的RPC框架,由阿里巴巴公司...
- 微服务中,Spring Cloud 有哪些注册中心?
-
SpringCloud是微服务架构中经常使用的一个框架,它提供了一系列工具来帮助开发者构建和管理分布式系统,而服务注册中心又是微服务架构中一个关键组件。那么,SpringCloud支持哪些注册...
- Eureka的自我保护机制(eureka自我保护机制原理)
-
最近遇到一个问题,服务之间调用报错,显示无法路由到指定服务,但是对应的服务是启动的,查询eureka,结果eureka上显示如下,所有实例均消失,我个人对注册中心并没有什么研究,进行正好借此机会简单总...
- eureka、zookepeer、nacos的区别(eureka和nacos哪个更好)
-
前言随着微服务被各大企业应用在项目中,微服务的框架也被更多人学习和使用,但是大部分情况下都是停留在应用层。一、演变过程1.1服务注册和发现基本概念服务注册:将某个或者某些服务的信息(模块的ip和...
- 40K+Star!Mall电商实战项目开源,附源码、教程合集
-
最近看了下我的Github,发现mall项目已经突破40K+Star,有点小激动!记得去年8月的时候mall项目刚过20K+Star,时隔1年多已经增长到了40K+Star。今天跟大家聊聊mall项目...
- SpringCloud 常见注册中心的比较(springcloud注册过程)
-
一、概述springcloud是一个非常优秀的微服务框架,要管理众多的服务,就需要对这些服务进行治理,也就是我们说的服务治理,服务治理的作用就是在传统的rpc远程调用框架中,管理每个服务与每个服务之间...
- 简单介绍Nacos服务注册中心(nacos注册中心有什么用)
-
Nacos是阿里开源的一个新框架,在分布式的架构中,Nacos同时扮演着服务注册中心和配置中心的角色。今天主要讲的是Nacos作为服务注册中心。分布式中著名的CAP理论,任何一种服务注册中心都只能实现...
- 入门注册中心——consul(注册中心怎么注册)
-
基础概念什么是注册中心随着微服务理论发展的成熟,越来越多互联网公司采用微服务架构来支持业务发展。各个微服务之间都需要通过注册中心来实现自动化的注册和发现。注册中心主要有三种角色:服务提供者(RPCS...
- 08 Eureka的基础知识(eureka replication)
-
Eureka是Netflix开发的服务发现框架,SpringCloud将它集成在自己的子项目spring-cloud-netflix中,实现SpringCloud的服务发现功能。上图简要描述了Eur...
- 微服务架构中的服务注册与发现有哪些?Zookeeper、Eu
-
“大家好,我是码哥,《Redis高手心法》作者,本章节选自《Java面试高手心法58讲》专栏。随着单体应用的拆分,我们面临的首要问题就是采用哪种方式实现服务间的调用,像之前单体应用可能直接在配...
- Eureka 都挂了,微服务还能调通吗?
-
如果你做过微服务开发,这个面试题应该能够立马答出来,如果你没做过微服务开发,但是学过一些SpringCloud组件的用法,这个问题可能要稍微想一下,但是也应该能够答出来。今天就来和大家说说这个问...
- ZooKeeper、Eureka、Consul 、Nacos微服务注册中心对比
-
注册中心前言服务注册中心本质上是为了解耦服务提供者和服务消费者。对于任何一个微服务,原则上都应存在或者支持多个提供者,这是由微服务的分布式属性决定的。更进一步,为了支持弹性扩缩容特性,一个微服务的提供...
- 一周热门
- 最近发表
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- resize函数 (64)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- mybatis大于等于 (64)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- logstashinput (65)
- hadoop端口 (65)
- vue阻止冒泡 (67)
- oracle时间戳转换日期 (64)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)