百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

波士顿房价预测案例

bigegpt 2024-08-06 11:54 9 浏览

导入相关库

%matplotlib inline
import numpy as np
#pandas读取.csv文件
import pandas as pd
from sklearn.datasets import load_boston
#train_test_split函数用于数据集划分
from sklearn.cross_validation import train_test_split

查看数据集


#load_boston函数加载数据集
boston=load_boston
#输出对数据集的描述
print(boston.DESCR)
#X是boston数据集的特征,y是对应房价
X=boston.data
y=boston.target

数据集划分

#将数据集划分成75%的训练集和25%的测试集,random_state控制随机性
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=33,test_size=0.25)
#查看数据集的shape
print("Train dataset's shape is :",X_train.shape)
print("Test dataset's shape is :",X_test.shape)

数据预处理

#分析预测值的差异。预测房价之间差距较大,因此先对特征以及目标值进行标准化处理
#输出预测值的最大值、最小值和平均值
print("The maximum target value is :",np.max(boston.target))
print("The minimum target value is :",np.min(boston.target))
print("The mean target value is :",np.mean(boston.target))
#导入数据标准化模块
from sklearn.preprocessing import StandardScaler
#对数据集标准化处理。标准化处理对象,使用该对象的fit_transform函数
ss_X=StandardScaler
ss_y=StandardScaler
#使用fit_transform函数对特征、预测值标准化处理。在python 3中,由于y_train是一个np.array([……])的(1×N列)对象,要转化成(N×1)列的np.array对像,使用reshape(-1,1)函数,第一个-1表示可为任意行,第二个1表示1列。
X_train=ss_X.fit_transform(X_train)
X_test=ss_X.transform(X_test)
y_train = ss_y.fit_transform(y_train.reshape(-1, 1))
y_test = ss_y.transform(y_test.reshape(-1,1))

建立模型

#导入线性回归模型
from sklearn.linear_model import LinearRegression
#使用默认配置的初始化线性回归LinearRegression建立简单的线性回归模型
lr=LinearRegression
lr.fit(X_train,y_train)
#做预测
lr_y_predict=lr.predict(X_test)
#模型评估:使用LinearRegression模型自带的评估模块,并输出评估结果
print("lr_score:",lr.score(X_test,y_test))
#从sklearn.metrics中导入R-square,MSE,MAE,使用R-square,MSE(平均绝对误差),MAE(均方误差)评估LinearRegression回归性能
from sklearn.metrics import r2_score,mean_squared_error,mean_absolute_error
#计算r2_score
print("r2_score:",r2_score(y_test,lr_y_predict))
#计算平均绝对误差,使用inverse_transform函数是将归一化后的预测值再次转回原来的目标预测值
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(lr_y_predict)))
#计算均方误差
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(lr_y_predict)))

输出结果:

lr_score: 0.6763403831

r2_score: 0.6763403831

MSE: 25.0969856921

MAE: 3.5261239964

#使用默认配置的初始化线性回归SGDRegressor
from sklearn.linear_model import SGDRegressor
sgdr=SGDRegressor(max_iter=5)
#拟合模型,y_train.ravel将N×1的2维np.array对象转成1维的np.array对象
sgdr.fit(X_train,y_train.ravel)
sgdr_y_predict=sgdr.predict(X_test)
#使用LinearRegression模型自带的评估模块,并输出评估结果
print("sgdr_score:",sgdr.score(X_test,y_test))
print("r2_score:",r2_score(y_test,sgdr_y_predict))
print("r2_score:",r2_score(ss_y.inverse_transform(y_test),ss_y.inverse_transform(sgdr_y_predict)))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(sgdr_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(sgdr_y_predict)))

输出结果:

sgdr_score: 0.657641746361

r2_score: 0.657641746361

r2_score: 0.657641746361

MSE: 26.5469021914

MAE: 3.50598660941

#使用sklearn.svm中的支持向量回归
from sklearn.svm import SVR
#使用线性核函数
linear_svr=SVR(kernel='linear')
linear_svr.fit(X_train,y_train.ravel)
linear_svr_y_predict=linear_svr.predict(X_test)
print("linear_svm_score:",linear_svr.score(X_test,y_test.ravel))
print("r2_score:",r2_score(y_test,linear_svr_y_predict))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(linear_svr_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(linear_svr_y_predict)))

输出结果:

linear_svm_score: 0.65171709743

r2_score: 0.65171709743

MSE: 27.0063071393

MAE: 3.42667291687

#使用多项式核函数
poly_svr=SVR(kernel='poly')
poly_svr.fit(X_train,y_train.ravel)
poly_svr_y_predict=poly_svr.predict(X_test)
print("linear_svm_score:",poly_svr.score(X_test,y_test.ravel))
print("r2_score:",r2_score(y_test,poly_svr_y_predict))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(poly_svr_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(poly_svr_y_predict)))

输出结果:

poly_svm_score: 0.404454058003

r2_score: 0.404454058003

MSE: 46.179403314

MAE: 3.75205926674

使用径向基核函数
rbf_svr=SVR(kernel='rbf')
rbf_svr.fit(X_train,y_train.ravel)
rbf_svr_y_predict=rbf_svr.predict(X_test)
print("linear_svm_score:",rbf_svr.score(X_test,y_test.ravel))
print("r2_score:",r2_score(y_test,rbf_svr_y_predict))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(rbf_svr_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(rbf_svr_y_predict)))

输出结果:

rbf_svm_score: 0.756406891227

r2_score: 0.756406891227

MSE: 18.8885250008

MAE: 2.60756329798

#k近邻回归模型
#从sklearn.neighbors导入KNeighborRegressor
from sklearn.neighbors import KNeighborsRegressor
#初始化K近邻回归器,并且调整配置,使得预测的方式为平均回归:weights='uniform'
uni_knr = KNeighborsRegressor(weights='uniform')
uni_knr.fit(X_train, y_train.ravel)
uni_knr_y_predict = uni_knr.predict(X_test)
print("uni_knr_score:",uni_knr.score(X_test,y_test.ravel))
print("r2_score:",r2_score(y_test,uni_knr_y_predict))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(uni_knr_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(uni_knr_y_predict)))

输出结果:

uni_knr_score: 0.690345456461

r2_score: 0.690345456461

MSE: 24.0110141732

MAE: 2.96803149606

#初始化K近邻回归器,并且调整配置,使得预测的方式为根据距离加权回归:weights='distance'
dis_knr = KNeighborsRegressor(weights='distance')
dis_knr.fit(X_train, y_train.ravel)
dis_knr_y_predict = dis_knr.predict(X_test)
print("dis_knr_score:",dis_knr.score(X_test,y_test.ravel))
print("r2_score:",r2_score(y_test,dis_knr_y_predict))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(dis_knr_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(dis_knr_y_predict)))

输出结果:

dis_knr_score: 0.719758997016

r2_score: 0.719758997016

MSE: 21.7302501609

MAE: 2.80505687851

# 建立决策树回归,从sklearn.tree中导入DecisionTreeRegressor
from sklearn.tree import DecisionTreeRegressor
# 使用默认配置初始化的DecisionTreeRegressor
dtr = DecisionTreeRegressor
dtr.fit(X_train, y_train.ravel)
dtr_y_predict = dtr.predict(X_test)
print("dtr_score:",dtr.score(X_test,y_test.ravel))
print("r2_score:",r2_score(y_test,dtr_y_predict))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(dtr_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(dtr_y_predict)))

输出结果:

dtr_score: 0.724186586586

r2_score: 0.724186586586

MSE: 21.3869291339

MAE: 2.90866141732

#建立随机森林回归(RFR)、极端随机森林(ETRT)回归和梯度提升回归树(GBRT)
# 从sklearn.ensemble中导入RandomForestRegressor、ExtraTreesRegressor以及GradientBoostingRegressor
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor, GradientBoostingRegressor
# 使用RandomForestRegressor训练模型,并对测试数据做出预测,结果存储在变量rfr_y_predict中
rfr = RandomForestRegressor
rfr.fit(X_train, y_train.ravel)
rfr_y_predict = rfr.predict(X_test)
print("rfr_score:",rfr.score(X_test,y_test.ravel))
print("r2_score:",r2_score(y_test,rfr_y_predict))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(rfr_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(rfr_y_predict)))

输出结果:

rfr_score: 0.809357176431

r2_score: 0.809357176431

MSE: 14.7826913386

MAE: 2.45228346457

# 使用默认配置的ExtraTreesRegressor训练模型
etr = ExtraTreesRegressor
etr.fit(X_train, y_train.ravel)
etr_y_predict = etr.predict(X_test)
print("etr_score:",etr.score(X_test,y_test.ravel))
print("r2_score:",r2_score(y_test,etr_y_predict))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(etr_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(etr_y_predict)))

输出结果:

etr_score: 0.788650201156

r2_score: 0.788650201156

MSE: 16.3883370079

MAE: 2.47952755906

# 使用GradientBoostingRegressor(GBRT)训练模型
gbr = GradientBoostingRegressor
gbr.fit(X_train, y_train.ravel)
gbr_y_predict = gbr.predict(X_test)
print("gbr_score:",gbr.score(X_test,y_test.ravel))
print("r2_score:",r2_score(y_test,gbr_y_predict))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(gbr_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(gbr_y_predict)))

输出结果:

gbr_score: 0.840064661194

r2_score: 0.840064661194

MSE: 12.4015932173

MAE: 2.28207298939

#使用默认配置的AdaBoostRegressor训练模型
from sklearn.ensemble import AdaBoostRegressor
abr = AdaBoostRegressor
abr.fit(X_train,y_train.ravel)
abr_y_predict = abr.predict(X_test)
print("abr_score:",abr.score(X_test,y_test.ravel))
print("r2_score:",r2_score(y_test,abr_y_predict))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(abr_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(abr_y_predict)))

输出结果:

abr_score: 0.783785004026

r2_score: 0.783785004026

MSE: 16.7655906917

MAE: 2.89216618687

#使用默认配置的XGBRegressor训练模型
from xgboost import XGBRegressor
xgb = XGBRegressor
xgb.fit(X_train,y_train.ravel)
xgb_y_predict = xgb.predict(X_test)
print("xgbr_score:",xgb.score(X_test,y_test.ravel))
print("r2_score:",r2_score(y_test,xgb_y_predict))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(xgb_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(xgb_y_predict)))

输出结果:

xgbr_score: 0.843513197537

r2_score: 0.843513197537

MSE: 12.1341891225

MAE: 2.29020682132

#建立lightgbm模型
import lightgbm as lgb
params = {
'num_leaves': 6,
'objective': 'regression',
'min_data_in_leaf': 16,
'learning_rate': 0.04,
'feature_fraction': 0.97,
'bagging_fraction': 0.97,
'bagging_freq': 1,
'metric': 'l2',
'num_threads': 1
}
dtrain = lgb.Dataset(X_train, label=y_train.ravel)
#训练模型
lgb_ = lgb.train(params,dtrain,1000)
#做预测
lgb_y_predict = lgb_.predict(X_test)
print("r2_score:",r2_score(y_test,lgb_y_predict))
print("MSE:",mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(lgb_y_predict)))
print("MAE:",mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(lgb_y_predict)))

输出结果:

r2_score: 0.845939419188

MSE: 11.9460568773

MAE: 2.1404921479

特征重要性

#特征重要性
dtrimp = dtr.feature_importances_
rfrimp = rfr.feature_importances_
etrimp = etr.feature_importances_
gbrimp = gbr.feature_importances_
abrimp = abr.feature_importances_
xgbimp = xgb.feature_importances_
#建立特征字典
d = {'Decision Tree':dtrimp, 'Random Forest':rfrimp, 'Gradient Boost':gbrimp,'Ada boost':abrimp, 'Extra Tree':etrimp,'Xgb boost':xgbimp}
#将字典写入DataFrame,便于后面写成.csv格式
features = pd.DataFrame(data = d)
# 查特征看前几行
features.head
#为DataFrame新增两列“mean”和“names”
features['mean'] = features.mean(axis= 1)
features['names'] = boston.feature_names
#将Dataframe转化成csv文件!
features.to_csv("features_2.csv")

总结

  1. GBTR、Lightgbm、RFR、XGBR的表现最好。

  2. 本文模型几乎都使用默认配置,没有进行超参数调优;可进行交叉验证选择模型参数。

  3. 怎么将np.array格式的数组写成csv文件格式:先写成字典,再弄成DataFrame格式,最后使用to_csv函数;以及如何为csv文件新增列。

  4. 思考为什么集成模型表现最好?

  5. from sklearn.cross_validation import train_test_split
    from sklearn.metrics import r2_score,mean_squared_error,mean_absolute_error
    from sklearn.preprocessing import StandardScaler
    from sklearn.linear_model import LinearRegression
    from sklearn.linear_model import SGDRegressor
    from sklearn.svm import SVR
    from sklearn.neighbors import KNeighborsRegressor
    from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor, GradientBoostingRegressor
    from sklearn.ensemble import AdaBoostRegressor
    from xgboost import XGBRegressor
    import lightgbm as lgb

相关推荐

方差分析简介(方差分析通俗理解)

介绍方差分析(ANOVA,AnalysisofVariance)是一种广泛使用的统计方法,用于比较两个或多个组之间的均值。单因素方差分析是方差分析的一种变体,旨在检测三个或更多分类组的均值是否存在...

正如404页面所预示,猴子正成为断网元凶--吧嗒吧嗒真好吃

吧嗒吧嗒,绘图:MakiNaro你可以通过加热、冰冻、水淹、模塑、甚至压溃压力来使网络光缆硬化。但用猴子显然是不行的。光缆那新挤压成型的塑料外皮太尼玛诱人了,无法阻挡一场试吃盛宴的举行。印度政府正...

Python数据可视化:箱线图多种库画法

概念箱线图通过数据的四分位数来展示数据的分布情况。例如:数据的中心位置,数据间的离散程度,是否有异常值等。把数据从小到大进行排列并等分成四份,第一分位数(Q1),第二分位数(Q2)和第三分位数(Q3)...

多组独立(完全随机设计)样本秩和检验的SPSS操作教程及结果解读

作者/风仕在上一期,我们已经讲完了两组独立样本秩和检验的SPSS操作教程及结果解读,这期开始讲多组独立样本秩和检验,我们主要从多组独立样本秩和检验介绍、两组独立样本秩和检验使用条件及案例的SPSS操作...

方差分析 in R语言 and Excel(方差分析r语言例题)

今天来写一篇实际中比较实用的分析方法,方差分析。通过方差分析,我们可以确定组别之间的差异是否超出了由于随机因素引起的差异范围。方差分析分为单因素方差分析和多因素方差分析,这一篇先介绍一下单因素方差分析...

可视化:前端数据可视化插件大盘点 图表/图谱/地图/关系图

前端数据可视化插件大盘点图表/图谱/地图/关系图全有在大数据时代,很多时候我们需要在网页中显示数据统计报表,从而能很直观地了解数据的走向,开发人员很多时候需要使用图表来表现一些数据。随着Web技术的...

matplotlib 必知的 15 个图(matplotlib各种图)

施工专题,我已完成20篇,施工系列几乎覆盖Python完整技术栈,目标只总结实践中最实用的东西,直击问题本质,快速帮助读者们入门和进阶:1我的施工计划2数字专题3字符串专题4列表专题5流程控制专题6编...

R ggplot2常用图表绘制指南(ggplot2绘制折线图)

ggplot2是R语言中强大的数据可视化包,基于“图形语法”(GrammarofGraphics),通过分层方式构建图表。以下是常用图表命令的详细指南,涵盖基本语法、常见图表类型及示例,适合...

Python数据可视化:从Pandas基础到Seaborn高级应用

数据可视化是数据分析中不可或缺的一环,它能帮助我们直观理解数据模式和趋势。本文将全面介绍Python中最常用的三种可视化方法。Pandas内置绘图功能Pandas基于Matplotlib提供了简洁的绘...

Python 数据可视化常用命令备忘录

本文提供了一个全面的Python数据可视化备忘单,适用于探索性数据分析(EDA)。该备忘单涵盖了单变量分析、双变量分析、多变量分析、时间序列分析、文本数据分析、可视化定制以及保存与显示等内容。所...

统计图的种类(统计图的种类及特点图片)

统计图是利用几何图形或具体事物的形象和地图等形式来表现社会经济现象数量特征和数量关系的图形。以下是几种常见的统计图类型及其适用场景:1.条形图(BarChart)条形图是用矩形条的高度或长度来表示...

实测,大模型谁更懂数据可视化?(数据可视化和可视化分析的主要模型)

大家好,我是Ai学习的老章看论文时,经常看到漂亮的图表,很多不知道是用什么工具绘制的,或者很想复刻类似图表。实测,大模型LaTeX公式识别,出乎预料前文,我用Kimi、Qwen-3-235B...

通过AI提示词让Deepseek快速生成各种类型的图表制作

在数据分析和可视化领域,图表是传达信息的重要工具。然而,传统图表制作往往需要专业的软件和一定的技术知识。本文将介绍如何通过AI提示词,利用Deepseek快速生成各种类型的图表,包括柱状图、折线图、饼...

数据可视化:解析箱线图(box plot)

箱线图/盒须图(boxplot)是数据分布的图形表示,由五个摘要组成:最小值、第一四分位数(25th百分位数)、中位数、第三四分位数(75th百分位数)和最大值。箱子代表四分位距(IQR)。IQR是...

[seaborn] seaborn学习笔记1-箱形图Boxplot

1箱形图Boxplot(代码下载)Boxplot可能是最常见的图形类型之一。它能够很好表示数据中的分布规律。箱型图方框的末尾显示了上下四分位数。极线显示最高和最低值,不包括异常值。seaborn中...