百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

竞赛大杀器xgboost,波士顿房价预测

bigegpt 2024-08-06 11:54 3 浏览

文章转载自公众号

DC黑板报 , 作者 逗汁儿


经常出入DC竞赛、kaggle、天池等大数据比赛的同学应该很了解xgboost这座大山。

几乎所有的比赛都绕不过它,可能只需要这一个库,在比赛中就可以得到很高的分数,究竟是为什么呢?那么就来窥探一下它的庐山真面目吧。

起源

xgboost 的全称是 eXtreme Gradient Boosting。

正如其名,它是 Gradient Boosting Machine 的一个 c++ 实现,作者为曾在华盛顿大学研究机器学习的大牛陈天奇。

因为其出众的效率与较高的预测准确度在比赛论坛中引起了参赛选手的广泛关注。

为了方便大家使用,陈天奇将 xgboost 封装成了 python 库,从此作为普通人的我们也可以使用这种开挂般操作的库了。

安装

xgb(xgboost)安装很简单,和一般的库相同:

pip install xgboost

可在ide导入验证是否安装成功

import xgboost as xgb


数据形式

xgb可以接受一下格式文件:(通过xgboost.DMatrix()方法)

·LibSVM文本格式文件

·逗号分隔值(CSV)文件

·NumPy 2D阵列

·SciPy 2D稀疏阵列

·DataFrame数据框

·XGBoost二进制缓冲区文件

需要注意的是:XGBoost不支持分类功能; 如果您的数据包含分类功能,请先将其加载为NumPy阵列,然后执行onehot编码。

XGBoost无法解析带有标头的CSV文件。

参数设定

XGBoost可以使用列表或字典来设置参数,如下所示:

param = {'max_depth': 2, 'eta': 1, 'silent': 1, 'objective': 'binary:logistic'}
param['nthread'] = 4
param['eval_metric'] = 'auc'
param['eval_metric'] = ['auc', 'ams@0']


一般提前定义这些参数,训练时只需将param参数传入即可。

训练

bst = xgb.train(param, dtrain, num_round, evallist)


·param:各项参数,是一个字典

·dtrain:训练数据,由xgb.DMatrix传入

·num_round:boosting迭代计算次数

·evallist:一个列表,用于对训练过程中进行评估列表中的元素。例如:evallist = [(dtest, 'eval'), (dtrain, 'train')],用来为监视性能的验证

预测

模型训练好之后,接下来就是预测:

dtest = xgb.DMatrix(data)
ypred = bst.predict(dtest)


这样,最简单的xgboost使用就完成啦,接下来,我们通过一个简单的案例实操一下。

实战案例

我们利用kaggle的经典项目波士顿房价预测来进行实战。

kaggle网站波士顿房价项目链接:https://www.kaggle.com/c/boston-housing,将以下三个数据集下载好保存至文档备用。




对数据进行简单的认识一下(打开train.csv):




训练集包括了15列,第一列是ID,最后一列是medv(要预测的数据),因此在训练的时候将这两个属性去除。

打开测试集(test.csv):



测试集包含了14列,跟训练集相比缺少了预测项medv.

代码实现

01 导入相关的库

import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error


numpy和pandas是大数据分析计算中常用的两个包,使用它们,可以满足你绝大部分的数据分析需求。

sklearn是python著名的机器学习库,它其中封装了大量的机器学习算法,内置了大量的公开数据集,并且拥有完善的文档,因此成为目前最受欢迎的机器学习学习与实践的工具。

02 打开数据 并做相关的数据处理

data_train = pd.read_csv(dataset_train)
data_test = pd.read_csv(dataset_test)
#删除不相关属性
X = data_train.drop(['ID', 'medv'], axis=1)
y = data_train.medv
#将数据集拆分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)
xg_reg = xgb.XGBRegressor(objective='reg:linear', colsample_bytree=0.3, learning_rate=0.1, max_depth=8,
alpha = 8, n_estimators=500, reg_lambda=1)


打开训练集和测试集的数据,去除“ID”和“medv”两个属性,然后把数据集进行拆分,训练集中70%的数据取出用于训练,30%的数据取出用于评价,最后将拆分后的数据集进行模型参数设置。

03 训练模型

xg_reg.fit(X_train, y_train)


04 预测

x_test = data_test.drop(['ID'], axis=1)
predictions = xg_reg.predict(x_test)
ID = (data_test.ID).astype(int)
result = np.c_[ID, predictions]
np.savetxt(dataset_folder + 'xgb_submission.csv', result, fmt="%d,%.4f" ,header='ID,medv', delimiter=',', comments='')


预测结果,并将结果输出。

05 查看结果




关于波士顿房价预测的竞赛已经出来很长一段时间,有兴趣的同学还可以去kaggle官网上提交答案。

后台回复“房价”可直接获得数据集。

相关推荐

Linux 系统启动完整流程

一、启动系统流程简介如上图,简述系统启动的大概流程:1:硬件引导UEFi或BIOS初始化,运行POST开机自检2:grub2引导阶段系统固件会从MBR中读取启动加载器,然后将控制权交给启动加载器GRU...

超专业解析!10分钟带你搞懂Linux中直接I/O原理

我们先看一张图:这张图大体上描述了Linux系统上,应用程序对磁盘上的文件进行读写时,从上到下经历了哪些事情。这篇文章就以这张图为基础,介绍Linux在I/O上做了哪些事情。文件系统什么是...

linux入门系列12--磁盘管理之分区、格式化与挂载

前面系列文章讲解了VI编辑器、常用命令、防火墙及网络服务管理,本篇将讲解磁盘管理相关知识。本文将会介绍大量的Linux命令,其中有一部分在“linux入门系列5--新手必会的linux命令”一文中已经...

Linux环境下如何设置多个交叉编译工具链?

常见的Linux操作系统都可以通过包管理器安装交叉编译工具链,比如Ubuntu环境下使用如下命令安装gcc交叉编译器:sudoapt-getinstallgcc-arm-linux-gnueab...

可算是有文章,把Linux零拷贝技术讲透彻了

阅读本文大概需要6.0分钟。作者:卡巴拉的树链接:https://dwz.cn/BaQWWtmh本文探讨Linux中主要的几种零拷贝技术以及零拷贝技术适用的场景。为了迅速建立起零拷贝的概念...

linux软链接的创建、删除和更新

大家都知道,有的时候,我们为了省下空间,都会使用链接的方式来进行引用操作。同样的,在系统级别也有。在Windows系列中,我们称其为快捷方式,在Linux中我们称其为链接(基本上都差不多了,其中可能...

Linux 中最容易被黑客动手脚的关键目录

在Linux系统中,黑客攻击后常会针对关键目录和文件进行修改以实现持久化、提权或隐藏恶意活动。本文介绍下黑客最常修改的目录及其手法。一、/etc目录关键文件有:/etc/passwd和/et...

linux之间传文件命令之Rsync傻瓜式教程

1.前言linux之间传文件命令用什么命令?本文介绍一种最常用,也是功能强大的文件同步和传输工具Rsync,本文提供详细傻瓜式教程。在本教程中,我们将通过实际使用案例和最常见的rsync选项的详细说...

Linux下删除目录符号链接的方法

技术背景在Linux系统中,符号链接(symlink)是一种特殊的文件,它指向另一个文件或目录。有时候,我们可能需要删除符号链接,但保留其指向的目标目录。然而,在删除符号链接时可能会遇到一些问题,例如...

阿里云国际站注册教程:aa云服务器怎么远程链接?

在全球化的今天,互联网带给我们无以计数的便利,而云服务器则是其中的重要基础设施之一。这篇文章将围绕阿里云国际站注册、aa云服务器如何远程链接,以及服务器安全防护如Ddos防火墙、网站应用防护waf防火...

Linux 5.16 网络子系统大范围升级 多个新适配器驱动加入

Linux在数据中心中占主导地位,因此每个内核升级周期的网络子系统变化仍然相当活跃。Linux5.16也不例外,周一最新与网络相关的更新加入了大量的驱动和新规范的支持。一个较新硬件的驱动是Realt...

搭建局域网文件共享服务(Samba),手机电脑都能看喜欢的影视剧

作为一名影视爱好者,为了方便地观看自己喜欢的影视作品,在家里搞一个专门用来存放电影的服务器是有必要的。蚁哥选则用一台Ubuntu系统的电脑做为服务器,共享影音文件,其他同一个局域网内的电脑或手机可以...

分享一个实用脚本—centos7系统巡检

概述这周闲得慌,就根据需求写了差不多20个脚本(部分是之前分享过的做了一些改进),今天主要分享一个给平时运维人员用的centos7系统巡检的脚本,或者排查问题检查系统情况也可以用..实用脚本#!/bi...

Linux 中创建符号链接的方法

技术背景在Linux系统里,符号链接(SymbolicLink),也被叫做软链接(SoftLink),是一种特殊的文件,它指向另一个文件或者目录。符号链接为文件和目录的管理带来了极大的便利,比...

一文掌握 Linux 符号链接

符号链接(SymbolicLink),通常被称为“软链接”,是Linux文件系统中一种强大而灵活的工具。它允许用户创建指向文件或目录的“快捷方式”,不仅简化了文件管理,还在系统配置、软件开发和日...