决策树，建立决策树之前先预处理数据

bigegpt 2024-09-24 07:29 4 浏览

机器学习和深度学习专栏限时优惠

（此处已添加圈子卡片，请到今日头条客户端查看）

数据集介绍

我们以前做决策树是使用的鸢尾花数据集，这个数据集的特点是数据都是数值型的，这样sklearn库可以处理这个数据集，但是如果有的数据不是数值型的话，那么我们就需要先来预处理一下，之后才可以使用。

我们先来看一个这个数据集是什么样的：

可以看出特征age，income，student，credit_rating的值都不是数值型，我们要进行转换，这样数据集才可以进行处理，我们是这样处理的，比如age列，处理的方式是这样的：

age有三种值分别为：youth、middle_aged、senior我们可以把age这一列变成三列，分别为youth、middle_aged、senior，这样比如第一个样本age列值为youth，那么在新的数据中这三列就是100，这就表示这个样本是youth

以此类推，每个特征有几个类别就在新的数据集里建立几列，下面通过代码来实现这个步骤

读取数据

我们首先打开这个文件，然后使用csv读取这个数据

allElectronicsData = open(r'AllElectronics.csv', 'rb')

reader = csv.reader(allElectronicsData)

reader就表示这个文件本身，它是有光标来指引的

headers = reader.next()读取文件的第一行，结果为

['RID', 'age', 'income', 'student', 'credit_rating', 'class_buys_computer']

这个就是文件的第一行，我们先读取它的目的就是先将光标往下来移动一行。

下一步我们就遍历我们的reader，我们在遍历中要完成两个任务：

第一个任务是获取到每行的标签，然后存入list

任务二将每一行的数据以特征名：特征值的方式存入到一个字典中，然后将字典存入到列表中

我们最终会得到featrueList，这个是专门用于存放标注的，还会得到一个labelList这个是专门用于存放特征的，

labelList的值为['no', 'no', 'yes', 'yes', 'yes', 'no', 'yes', 'no', 'yes', 'yes', 'yes', 'yes', 'yes', 'no']

featrueList的值为[{'credit_rating': 'fair', 'age': 'youth', 'student': 'no', 'income': 'high'}, {'credit_rating': 'excellent', 'age': 'youth', 'student': 'no', 'income': 'high'}, {'credit_rating': 'fair', 'age': 'middle_aged', 'student': 'no', 'income': 'high'}, {'credit_rating': 'fair', 'age': 'senior', 'student': 'no', 'income': 'medium'}, {'credit_rating': 'fair', 'age': 'senior', 'student': 'yes', 'income': 'low'}, {'credit_rating': 'excellent', 'age': 'senior', 'student': 'yes', 'income': 'low'}, {'credit_rating': 'excellent', 'age': 'middle_aged', 'student': 'yes', 'income': 'low'}, {'credit_rating': 'fair', 'age': 'youth', 'student': 'no', 'income': 'medium'}, {'credit_rating': 'fair', 'age': 'youth', 'student': 'yes', 'income': 'low'}, {'credit_rating': 'fair', 'age': 'senior', 'student': 'yes', 'income': 'medium'}, {'credit_rating': 'excellent', 'age': 'youth', 'student': 'yes', 'income': 'medium'}, {'credit_rating': 'excellent', 'age': 'middle_aged', 'student': 'no', 'income': 'medium'}, {'credit_rating': 'fair', 'age': 'middle_aged', 'student': 'yes', 'income': 'high'}, {'credit_rating': 'excellent', 'age': 'senior', 'student': 'no', 'income': 'medium'}]

为什么我们要处理成这个样子呢？

因为只有处理成这个样子我们才可以使用sklearn库来自动将其处理成我们想要的模样

vec = DictVectorizer()dummyX = vec.fit_transform(featureList) .toarray()

使用这个代码处理完featureList的效果就是

我们可以查看此时的样本的列名是什么vec.get_feature_names(）

['age=middle_aged', 'age=senior', 'age=youth', 'credit_rating=excellent', 'credit_rating=fair', 'income=high', 'income=low', 'income=medium', 'student=no', 'student=yes']

特征处理好了，下面处理标签

lb = preprocessing.LabelBinarizer()

dummyY = lb.fit_transform(labelList)

输出dummyY，效果为

至此我们的样本的特征处理好了，样本的标签也处理好了，下面我们就可以使用训练我们想要的决策树了。

训练决策树

clf = tree.DecisionTreeClassifier(criterion='entropy')

clf = clf.fit(dummyX, dummyY)

clf就是我们训练的决策树

总代码

from sklearn.feature_extraction import DictVectorizer

import csv

from sklearn import tree

from sklearn import preprocessing

from sklearn.externals.six import StringIO

# Read in the csv file and put features into list of dict and list of class label

allElectronicsData = open(r'AllElectronics.csv', 'rb')

reader = csv.reader(allElectronicsData)

headers = reader.next()

featureList = []

labelList = []

for row in reader:

labelList.append(row[len(row)-1])

rowDict = {}

for i in range(1, len(row)-1):

rowDict[headers[i]] = row[i]

featureList.append(rowDict)

vec = DictVectorizer()

dummyX = vec.fit_transform(featureList) .toarray()

print("dummyX: " + str(dummyX))

print(vec.get_feature_names())

print("labelList: " + str(labelList))

# vectorize class labels

lb = preprocessing.LabelBinarizer()

dummyY = lb.fit_transform(labelList)

print("dummyY: " + str(dummyY))

# Using decision tree for classification

# clf = tree.DecisionTreeClassifier()

clf = tree.DecisionTreeClassifier(criterion='entropy')

clf = clf.fit(dummyX, dummyY)

print("clf: " + str(clf))

上面的代码是在python以前的版本，现在的版本需要代码做以下基础更改，才可以正常运行：

因为此csv文件并非二进制文件，只是一个文本文件。或者

因为open()默认打开文本文件

labelbinarizer

上一篇：CNN大战验证码
下一篇：过拟合(Overfitting) 与 Dropout

决策树，建立决策树之前先预处理数据

数据集介绍

读取数据

训练决策树

总代码

相关推荐

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

Docker 命令大全（docker命令大全记录表）

替代Docker build的Buildah简单介绍

Docker Desktop安装使用指南:零基础教程

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

服务器硬件RAID性能横评(2)（服务器常用raid技术）

Python教程:第9篇字符串基本操作

k8s中三种POD调度策略介绍 k8s pod间调用

决策树，建立决策树之前先预处理数据

数据集介绍

读取数据

训练决策树

总代码

相关推荐

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

Docker 命令大全（docker命令大全记录表）

替代Docker build的Buildah简单介绍

Docker Desktop安装使用指南:零基础教程

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

服务器硬件RAID性能横评(2)（服务器常用raid技术）

Python教程:第9篇 字符串基本操作

k8s中三种POD调度策略介绍 k8s pod间调用

Python教程:第9篇字符串基本操作