Python中常见的机器学习编程错误 python常见错误怎么回事
bigegpt 2024-10-08 00:45 10 浏览
机器学习中常见的Python错误
在本文中,我将介绍在模型构建和开发过程中在python中遇到的一些最常见的错误。 出于演示目的,我们将使用在Kaggle上可以找到的身高/体重数据。 数据包含性别,身高(英寸)和体重(磅)。
我遇到的最常见错误如下:
Imports
1. NameError
2. ModuleNotFoundError
3. AttributeError
4. ImportError
读取数据
5. FileNotFoundError
选择列
6. KeyError
数据处理
7. ValueError
我们将建立一个简单的线性回归模型并修改代码,以显示上述错误在实践中是如何产生的。
首先,我们使用Pandas导入数据并打印前五行:
import pandas as pd
df = pd.read_csv("weight-height.csv")
print(df.head())
如您所见,数据集非常简单,包含性别,身高和体重列。 我们可以做的下一件事是使用matplotlib和seaborn可视化数据:
import matplotlib.pyplot as plt
plt.scatter(df['Weight'], df['Height'])
plt.xlabel("Weight")
plt.ylabel("Height")
plt.show()
查看体重与身高的散点图,我们发现该关系是线性的。
接下来,我们定义输入(X)和输出(y)并拆分数据以进行训练和测试:
from sklearn.model_selection import train_test_split
import numpy as np
X = np.array(df["Weight"]).reshape(-1,1)
y = np.array(df["Height"]).reshape(-1,1)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 42, test_size = 0.33)
然后,我们可以定义一个线性回归模型,以适合我们的训练数据,对测试集进行预测,并评估模型的性能:
from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(X_train, y_train)
y_pred = reg.predict(X_test)
print("R^2 Accuracy: ", reg.score(X_test, y_test))
我将讨论的第一个错误NameError,例如,如果我忘记导入包,就会发生。 在以下代码中,我删除了"import numpy as np":
from sklearn.model_selection import train_test_split
X = np.array(df["Weight"]).reshape(-1,1)
y = np.array(df["Height"]).reshape(-1,1)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 42, test_size = 0.33)
如果我尝试在缺少该行代码的情况下运行脚本,则会出现以下错误:
如果省略seaborn,matplotlib和pandas的import语句,我会收到类似的消息:
另一个问题是由于拼写错误而试图导入一个不存在的软件包,这会导致ModuleNotFoundError。 例如,如果我将" pandas"拼写错误为" pandnas":
import pandnas as pd
或者,如果我在matplotlib scatterplot导入中忘记了" pyplot",则会收到AttributeError:
import matplotlib as plt
同样,如果我在sklearn中忘记了导入linear_regression和model_selection属性,则会收到ImportError:
from sklearn import LinearRegression
from sklearn import train_test_split
在读取文件方面,如果我拼错了文件名,则会得到FileNotFoundError:
df = pd.read_csv("weight-heigh1t.csv")
此外,如果我尝试从不存在的熊猫数据框中选择一列,则会收到KeyError:
plt.scatter(df['Weight1'], df['Height'])
如果我忘记将" Weight"和" Height"的熊猫系列转换为numpy数组,则会收到ValueError。 这实际上是非常常见的sklearn方法,仅接受numpy数组。 我经常发现自己忘记了从熊猫系列转换为numpy数组的简单步骤:
X = df["Weight"]
y = df["Height"]
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 42, test_size = 0.33)
reg = LinearRegression()
reg.fit(X_train, y_train)
或者,如果我忘记将numpy数组重塑为二维数组,那么我还会收到ValueError:
X = np.array(df["Weight"])
y = np.array(df["Height"])
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 42, test_size = 0.33)
reg = LinearRegression()
reg.fit(X_train, y_train)
ValueError的另一个常见原因是在进行列车测试拆分时。 我经常忘记X和y数组的顺序:
X_train, X_test, y_train, y_test = train_test_split(X, y,
random_state = 42,
test_size = 0.33)
我在哪里切换X_test和y_train:
X_train, y_train, X_test, y_test = train_test_split(X, y,
random_state = 42,
test_size = 0.33)
拟合时会出现以下错误:
最后,当尝试拟合与特定类别或总体相对应的模型数据时,我经常遇到没有足够数据的问题。 让我们过滤数据框以复制此问题。 让我们过滤数据,使其仅包括"重量" = 241.893563的记录。 这将导致仅一行数据:
df = df[df['Weight'] == 241.893563]
如果尝试构建模型,则在拆分数据的行中将出现以下错误:
X_train, X_test, y_train, y_test = train_test_split(X, y,
random_state = 42,
test_size = 0.33)
reg = LinearRegression()
reg.fit(X_train, y_train)
y_pred = reg.predict(X_test)
print("R^2 Accuracy: ", reg.score(X_test, y_test))
如果我们尝试拟合,则会出现以下错误:
X_train, X_test, y_train, y_test = train_test_split(X, y,
random_state = 42,
test_size = 0.33)
reg = LinearRegression()
reg.fit(X, y)
最后,如果数据缺失或无穷大,则拟合时将引发错误。 让我们用" nan"(非数字)值重新定义权重列,以产生此错误:
df['Weight'] = np.nan
X = np.array(df["Weight"]).reshape(-1,1)
y = np.array(df["Height"]).reshape(-1,1)
X_train, X_test, y_train, y_test = train_test_split(X, y,
random_state = 42,
test_size = 0.33)
reg = LinearRegression()
reg.fit(X_train, y_train)
我们将获得具有无限值的相同错误消息:
df['Weight'] = np.inf
X = np.array(df["Weight"]).reshape(-1,1)
y = np.array(df["Height"]).reshape(-1,1)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 42, test_size = 0.33)
reg = LinearRegression()
reg.fit(X_train, y_train)
在这篇文章中,我们回顾了在python中开发模型时出现的不同错误。 我们检查了与导入包,读取文件,选择列和处理数据有关的错误。 对开发机器学习模型时出现的不同类型错误有扎实的知识,在生产机器学习代码时非常有用。 掌握这些知识可以防止错误发生,并通知可用于在错误发生时捕获这些错误的逻辑。
我每天都会遇到更多错误,但是根据我的经验,我在这篇文章中列出的错误最为常见。 我希望这篇文章有用。 这篇文章中的代码可在GitHub上找到。 感谢您的阅读!
(本文翻译自Sadrach Pierre, Ph.D.的文章《Common Machine Learning Programming Errors in Python》,参考:https://towardsdatascience.com/common-machine-learning-programming-errors-in-python-5d76de85e975)
相关推荐
- pyproject.toml到底是什么东西?(py trim)
-
最近,在Twitter上有一个Python项目的维护者,他的项目因为构建失败而出现了一些bug(这个特别的项目不提供wheel,只提供sdist)。最终,发现这个bug是由于这个项目使用了一个pypr...
- BDP服务平台SDK for Python3发布(bdp数据平台)
-
下载地址https://github.com/imysm/opends-sdk-python3.git说明最近在开发和bdp平台有关的项目,用到了bdp的python的sdk,但是官方是基于p...
- Python-for-Android (p4a):(python-for-android p4a windows)
-
一、Python-for-Android(p4a)简介Python-for-Android(p4a),一个强大的开发工具,能够将你的Python应用程序打包成可在Android设备上运行...
- Qt for Python—Qt Designer 概览
-
前言本系列第三篇文章(QtforPython学习笔记—应用程序初探)、第四篇文章(QtforPython学习笔记—应用程序再探)中均是使用纯代码方式来开发PySide6GUI应用程序...
- Python:判断质数(jmu-python-判断质数)
-
#Python:判断质数defisPrime(n):foriinrange(2,n):ifn%i==0:return0re...
- 为什么那么多人讨厌Python(为什么python这么难)
-
Python那么棒,为什么那么多人讨厌它呢?我整理了一下,主要有这些原因:用缩进替代大括号许多人抱怨Python完全依赖于缩进来创建代码块,代码多一点就很难看到函数在哪里结束,那么你就需要把一个函数拆...
- 一文了解 Python 中带有 else 的循环语句 for-else/while-else
-
在本文中,我们将向您介绍如何在python中使用带有else的for/while循环语句。可能许多人对循环和else一起使用感到困惑,因为在if-else选择结构中else正常...
- python的numpy向量化语句为什么会比for快?
-
我们先来看看,python之类语言的for循环,和其它语言相比,额外付出了什么。我们知道,python是解释执行的。举例来说,执行x=1234+5678,对编译型语言,是从内存读入两个shor...
- 开眼界!Python遍历文件可以这样做
-
来源:【公众号】Python技术Python对于文件夹或者文件的遍历一般有两种操作方法,一种是至二级利用其封装好的walk方法操作:import osfor root,d...
- 告别简单format()!Python Formatter类让你的代码更专业
-
Python中Formatter类是string模块中的一个重要类,它实现了Python字符串格式化的底层机制,允许开发者创建自定义的格式化行为。通过深入理解Formatter类的工作原理和使用方法,...
- python学习——038如何将for循环改写成列表推导式
-
在Python里,列表推导式是一种能够简洁生成列表的表达式,可用于替换普通的for循环。下面是列表推导式的基本语法和常见应用场景。基本语法result=[]foriteminite...
- 详谈for循环和while循环的区别(for循环语句与while循环语句有什么区别)
-
初九,潜龙勿用在刚开始使用python循环语句时,经常会遇到for循环和while循环的混用,不清楚该如何选择;今天就对这2个循环语句做深入的分析,让大家更好地了解这2个循环语句以方便后续学习的加深。...
- Python编程基础:循环结构for和while
-
Python中的循环结构包括两个,一是遍历循环(for循环),一是条件循环(while循环)。遍历循环遍历循环(for循环)会挨个访问序列或可迭代对象的元素,并执行里面的代码块。foriinra...
- 学习编程第154天 python编程 for循环输出菱形图
-
今天学习的是刘金玉老师零基础Python教程第38期,主要内容是python编程for循环输出菱形※。(一)利用for循环输出菱形形状的*号图形1.思路:将菱形分解为上下两个部分三角形图案,分别利用...
- python 10个堪称完美的for循环实践
-
在Python中,for循环的高效使用能显著提升代码性能和可读性。以下是10个堪称完美的for循环实践,涵盖数据处理、算法优化和Pythonic编程风格:1.遍历列表同时获取索引(enumerate...
- 一周热门
- 最近发表
-
- pyproject.toml到底是什么东西?(py trim)
- BDP服务平台SDK for Python3发布(bdp数据平台)
- Python-for-Android (p4a):(python-for-android p4a windows)
- Qt for Python—Qt Designer 概览
- Python:判断质数(jmu-python-判断质数)
- 为什么那么多人讨厌Python(为什么python这么难)
- 一文了解 Python 中带有 else 的循环语句 for-else/while-else
- python的numpy向量化语句为什么会比for快?
- 开眼界!Python遍历文件可以这样做
- 告别简单format()!Python Formatter类让你的代码更专业
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- libcrypto.so (74)
- linux安装minio (74)
- ubuntuunzip (67)
- vscode使用技巧 (83)
- secure-file-priv (67)
- vue阻止冒泡 (67)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)