百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

机器学习:Logistic回归解释及Python实现

bigegpt 2024-10-26 08:15 4 浏览

在本文中,我们将深入研究机器学习中的广义线性回归模型来进行分类而不是预测。机器学习中的逻辑回归被称为线性分类器。它计算两个类在0和1之间的概率。如果一个项目的概率分数小于0.5,我们可以简单地对它进行分类,分类到Class 1,否则分类到Class 2。

为了得到逻辑回归的公式,由于它在概率模型上工作,我们必须通过logit(log odds)给出线性方程的值。

线性模型由下式给出:

Logit:

Logistic回归公式由下式给出:

由logistic回归形成的图形如下图所示,通常为“s”形,y轴上的值始终在0 - 1之间:

现在我们必须找到β0和β1的值,但是像线性回归一样,没有这样直接的公式来计算系数。这些系数的估计方法有很多种,如极大似然法、对数似然法、Newton Raphson法等。

Newton Raphson法

Newton Raphson方法是泰勒展开的迭代过程,用于找到图的根,根是图与x轴相交的点,这是我们的系数之一。系数可以通过Newton Raphson方法给出:

βi是系数的估计值之一,βi-1是在最后一次迭代中估计的相同系数的值。我们将迭代相同的过程直到βi的值稳定。现在我们需要找到函数的一阶和二阶导数。

伯努利分布的似然函数:

注意:我可以用上面等式中的P值替换它并将其设置为零,如果我这样做,我可以通过找出β0和β1函数的最大值来估计β0和β1的值。这种方法称为最大似然法。但是找到这样的值将非常困难,或者我们可能无法估计正确的值。现在用log来化简这个方程:

代入P值并化简

现在,一阶导数是

注意:我们可以将上面的等式设置为零,并尝试找出β0和β1的值,该方法称为对数似然法。但同样,我们将无法将其设置为零并解决它,因此采用二阶导数并进行generalizing:

Python实现

我们已经推导出了概率函数,一阶导数和二阶导数。让我们进入python来实现同样的功能。创建一个logsticregression类,并添加如下方法,Python实现如下:

class LogisticRegression:
 def __init__(self, X):
 self.beta_old_i = []
 #initializing b_i, always one additional coefficient than number of features of predictor
 #because eq β_0 + β_1*x having two coefficients β_0, β_1 where x has only one dimension
 self.beta_new_i = np.zeros(X.shape[1] + 1)
 
 #p(x) = e^(β_0 + β_1*x)/(1 + e^(β_0 + β_1*x))
 def probabilityFun(self, X):
 z = np.dot(self.beta_new_i, X.T)
 p = math.e**z/(1 + math.e**z)
 return p
#f'(β_j) = dl/d(β_j) = (i=1 to N)_Σ (y_i - p(x_i))*x_ij
 def firstDerivative(self, X, Y, P):
 firstDer = np.dot((Y-P), X)
 return firstDer
#f''(β_k) = dl/d(β_j)d(β_k) = - (i=1 to N)_Σ x_ij*x_ik*p(x_i)*(1 - p(x_i))
 def secondDerivative(self, X, P):
 probMul = P*(1-P)
 xMulp = np.array([x*y for (x,y) in zip(X, probMul)])
 secondDer = -1*np.dot(xMulp.T,X)
 return secondDer
#β_(i+1) = β_i - (f'(β_i))/(f''(β_i))
 def newtonRaphson(self, firstDer, secondDer):
 self.beta_new_i = self.beta_old_i - np.dot(linalg.inv(secondDer), firstDer)

所有函数都是按照导出的公式定义的。现在我们来写一个迭代过程,直到系数稳定下来。Python代码如下:

#training the model
def fit(self, X, Y, maxIteration=50, diffThreshHold=10**-5):
 #adding one additional column since we will have additional coefficient
 X = np.c_[X, np.array([1]*X.shape[0])]
 iteration = 0
 diffBetaList = []
while(list(self.beta_new_i) != list(self.beta_old_i)):
 self.beta_old_i = self.beta_new_i
 P = self.probabilityFun(X)
 firstDer = self.firstDerivative(X, Y, P)
 secondDer = self.secondDerivative(X, P)
 self.newtonRaphson(firstDer, secondDer)
 #difference between last calcuated coefficients and current coefficients
 diff = linalg.norm(self.beta_new_i - self.beta_old_i)
 diffBetaList.append(diff)
 iteration += 1
 if(diff <= diffThreshHold or iteration > maxIteration):
 break
 
 return diffBetaList

现在创建一个预测和分类方法来计算概率和分类。Python代码如下:

#predict probability any new data points
def predict(self, X):
 X = np.c_[X, np.array([1]*X.shape[0])]
 probability = self.probabilityFun(X)
 return probability
#classify based on provided classes
def classify(self, X, dataClass):
 Y = self.predict(X)
 #if probability is less than 0.5 than categorized as class one else class two
 return [0 if item <= 0.05 else 1 for item in Y]

最后使用iris数据训练和测试上面的代码,我将只使用两类iris数据:

iris = datasets.load_iris()
#iris data is 50 each three classes so only taking to 100 for two classes
x_train, x_test, y_train, y_test = train_test_split(iris['data'][:100], iris['target'][:100])
reg = LogisticRegression(x_train)
reg.fit(x_train,y_train)
pred = reg.classify(x_test, iris["target_names"][:2])
print("Accuracy: {:.2f}%".format(100*np.mean(pred == y_test)))

Output

Accuracy: 100.00%

相关推荐

Docker篇(二):Docker实战,命令解析

大家好,我是杰哥上周我们通过几个问题,让大家对于Docker有了一个全局的认识。然而,说跟练往往是两个概念。从学习的角度来说,理论知识的学习,往往只是第一步,只有经过实战,才能真正掌握一门技术所以,本...

docker学习笔记——安装和基本操作

今天学习了docker的基本知识,记录一下docker的安装步骤和基本命令(以CentOS7.x为例)一、安装docker的步骤:1.yuminstall-yyum-utils2.yum-con...

不可错过的Docker完整笔记(dockerhib)

简介一、Docker简介Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源。Docker可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,...

扔掉运营商的 IPTV 机顶盒,全屋全设备畅看 IPTV!

其实现在看电视节目的需求确实大大降低了,折腾也只是为了单纯的让它实现,享受这个过程带来的快乐而已,哈哈!预期构想家里所有设备直接接入网络随时接收并播放IPTV直播(电信点播的节目不是太多,但好在非常稳...

第五节 Docker 入门实践:从 Hello World 到容器操作

一、Docker容器基础运行(一)单次命令执行通过dockerrun命令可以直接在容器中执行指定命令,这是体验Docker最快捷的方式:#在ubuntu:15.10容器中执行ech...

替代Docker build的Buildah简单介绍

Buildah是用于通过较低级别的coreutils接口构建OCI兼容镜像的工具。与Podman相似,Buildah不依赖于Docker或CRI-O之类的守护程序,并且不需要root特权。Builda...

Docker 命令大全(docker命令大全记录表)

容器生命周期管理run-创建并启动一个新的容器。start/stop/restart-这些命令主要用于启动、停止和重启容器。kill-立即终止一个或多个正在运行的容器rm-于删除一个或...

docker常用指令及安装rabbitMQ(docker安装rabbitmq配置环境)

一、docker常用指令启动docker:systemctlstartdocker停止docker:systemctlstopdocker重启docker:systemctlrestart...

使用Docker快速部署Storm环境(docker部署confluence)

Storm的部署虽然不是特别麻烦,但是在生产环境中,为了提高部署效率,方便管理维护,使用Docker来统一管理部署是一个不错的选择。下面是我开源的一个新的项目,一个配置好了storm与mono环境的D...

Docker Desktop安装使用指南:零基础教程

在之前的文章中,我多次提到使用Docker来安装各类软件,尤其是开源软件应用。鉴于不少读者对此有需求,我决定专门制作一期关于Docker安装与使用的详细教程。我主要以Macbook(Mac平台)为例进...

Linux如何成功地离线安装docker(linux离线安装httpd)

系统环境:Redhat7.2和Centos7.4实测成功近期因项目需要用docker,所以记录一些相关知识,由于生产环境是不能直接连接互联网,尝试在linux中离线安装docker。步骤1.下载...

Docker 类面试题(常见问题)(docker面试题目)

Docker常见问题汇总镜像相关1、如何批量清理临时镜像文件?可以使用sudodockerrmi$(sudodockerimages-q-fdanging=true)命令2、如何查看...

面试官:你知道Dubbo怎么优雅上下线的吗?你:优雅上下线是啥?

最近无论是校招还是社招,都进行的如火如荼,我也承担了很多的面试工作,在一次面试过程中,和候选人聊了一些关于Dubbo的知识。Dubbo是一个比较著名的RPC框架,很多人对于他的一些网络通信、通信协议、...

【Docker 新手入门指南】第五章:Hello Word

适合人群:完全零基础新手|学习目标:30分钟掌握Docker核心操作一、准备工作:先确认是否安装成功打开终端(Windows用户用PowerShell或GitBash),输入:docker--...

松勤软件测试:详解Docker,如何用portainer管理Docker容器

镜像管理搜索镜像dockersearch镜像名称拉取镜像dockerpullname[:tag]列出镜像dockerimages删除镜像dockerrmiimage名称或id删除...