R语言第17篇——实例:买房不?(六)逻辑回归

昨天和前天使用的方法是把连续变量离散化后做贝叶斯分类，今天转换个方向，把已有的分类变量转换成连续数值，然后使用逻辑回归做最终分类

先读取之前的数据表：

我们现阶段的目标是通过已知的街区信息（block）和房屋总价排除面积影响得到的残差列（Cancha1）这两个因素推断装修程度（decoration）中的未知项7个，而今天的首要任务是把街区block这列通过连续性指派变成数值

在本人苦思冥想深思熟虑之后，找到了一个看起来很不错的指标，我们这次采取的数据基本都在一个比较邻近的范围里，那么在这个范围里可以找到一个中心位置，像是交通枢纽那样的，使用地图查出所有街区到这个交通枢纽的步行距离，这不就引入数值了么

额外建立了一个kmRef的参照表，查好了所有距离数据（单位km），如果是Excel，这时肯定毫不犹豫的就直接用vlookup把数据放进房源信息表了吧，但是既然说好了用R软件来说，那还是要有原则一点，咱用下和vlookup功能相当接近的merge函数

Table2 <- merge(Table1,Ref1,by="block",all.x=TRUE)

小小地解释下里面的参数，头两个逗号前面是两张需要匹配数据的表，完整的参数写法其实应该是x=Table1, y=Ref1，我就是省事儿惯了没写前缀，by=""表示的是参照哪列数据做匹配，而最后的all.x=TRUE指的是x那张表（也就是Table1）上的所有数据全部都要，这就形成了一个单方向向左匹配的动作

由此得到Table2：

咱需要的input有两列，残差列和新加入的距离列，亲们可以看到，这两列的数量级相差太大，后面做回归时估计够呛，所以，咱最好先做个标准化

Table2$Cancha1<-(Table2$Cancha1-mean(Table2$Cancha1))/sd(Table2$Cancha1)

Table2$kmtoCenter<-(Table2$kmtoCenter-mean(Table2$kmtoCenter))/sd(Table2$kmtoCenter)

接下来咱得开始做逻辑回归了，谢天谢地，作为一个专业工具，人家有现成函数提供，函数名glm

把咱的已知项提取出来

Known<- Table2[which(Table2$decoration !="未知"),c(2,6,8,10)]

然后，上主角

glm(decoration~Cancha1+kmtoCenter,Known,family=binomial)

再小小滴解释下里面的参数，第一部分是公式接口，表示y~x1+x2的关系，第二截是表名，第三截family表示用的是哪种拟合，这里用的是binomial二项分布，由于glm本身支持很多种拟合方式（高斯、泊松、伽马等），具体可以参考?glm再跳转到family词条解释

好完整，但也好长，咱只用系数那行吧

然后，计算未知的那7个

Unknown<- Table2[which(Table2$decoration =="未知"),c(2,8,10)] #提取所有未知项

Unknown<-cbind(Unknown,1) #增加一列常数1

w<-rep(Xishu1,7) #把系数的3个值重复7遍

dim(w)<-c(3,7) #变成3行7列的矩阵

z<-Unknown[,c(4,2,3)]*t(w) #把未知项的3列和系数矩阵的转置相乘

y<-1/(1+exp(-apply(z,1,sum))) #每行求和并计算1/(1+exp(-z))的值

此时y的计算结果如下：

可以看到，y的计算结果都在0~1之间，咱可以用0.5分界得到结果了

Result<-data.frame("X"=Unknown[,1],"decoration"=ifelse(y>0.5,"高配","低配"))

由于最前面做merge动作时表的上下顺序打乱过，所以这里把原表的行号拼上去了

咱排个序，再放回原表格，今天就差不多可以完工了

Result<-Result[order(Result$X),]

Table1[which(Table1$decoration =="未知"),6]<-Result$decoration

对比下昨天用贝叶斯分类做出来的结果，居然是一样一样的，真是让本人自信心回滚了不少呢——图我就不截了，不信的可以去翻昨天那篇

搞定，下线喽，哈哈哈哈~~~~~

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解

7 个对 Java 意义重大的性能指标，你知道几个?

PHP 远程调试最佳实践

Laravel框架使用图片处理简单教程