机器学习——逻辑回归（Logistic Regression）

发布时间：2024-12-12 07:36

了解机器学习基础，如逻辑回归和神经网络 #生活技巧# #工作学习技巧# #数字技能学习#

逻辑回归（Logistic Regression）是一种经典的二分类算法，虽然被称为回归，但其实际上是分类模型，并常用于二分类。

1、逻辑回归（Logistic Regression）算法详解 sigmoid函数

g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}} g(z)=1+e−z1
自变量取值为任意数，值域为[0,1]
解释：将任意的输入映射到[0,1]的区间,将在线性回归中得到的预测值映射到sigmoid函数中，实现由值到概率的转换，从而完成分类任务。

实际上，sigmoid函数是由对数几率（属于正类可能性与负类可能性的比值的对数）
p ( y = 1 ∣ x ; θ ) = g ( θ T x ) = 1 1 + e − θ T x p(y=1|x;\theta)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}} p(y=1∣x;θ)=g(θTx)=1+e−θTx1
有 ln ⁡ ( p ( y = 1 ∣ x ; θ ) p ( y = 0 ∣ x ; θ ) ) = θ 0 + θ 1 x 1 + ⋯ + θ n x n \ln(\frac{p(y=1|x;\theta)}{p(y=0|x;\theta)})=\theta_0+\theta_1x_1+\cdots+\theta_nx_n ln(p(y=0∣x;θ)p(y=1∣x;θ))=θ0+θ1x1+⋯+θnxn

预测函数

h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=g(θTx)=1+e−θTx1
其中 θ T x = ∑ i = 1 n θ i x i = θ 0 + θ 1 x 1 + ⋯ + θ n x n \theta^Tx=\displaystyle\sum_{i=1}^n\theta_ix_i=\theta_0+\theta_1x_1+\cdots+\theta_nx_n θTx=i=1∑nθixi=θ0+θ1x1+⋯+θnxn
分类任务：
p ( y = 1 ∣ x ; θ ) = h θ ( x ) p(y=1|x;\theta)=h_\theta(x) p(y=1∣x;θ)=hθ(x)
p ( y = 0 ∣ x ; θ ) = 1 − h θ ( x ) p(y=0|x;\theta)=1-h_\theta(x) p(y=0∣x;θ)=1−hθ(x)
整合有： p ( y ∣ x ; θ ) = ( h θ ( x ) ) y ( 1 − h θ ( x ) ) 1 − y p(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y} p(y∣x;θ)=(hθ(x))y(1−hθ(x))1−y

似然函数

L ( θ ) = ∏ i = 1 m p ( y ∣ x ; θ ) = ∏ i = 1 m ( h θ ( x i ) ) y i ( 1 − ( h θ ( x i ) ) 1 − y i L(\theta)=\displaystyle\prod_{i=1}^mp(y|x;\theta)=\displaystyle\prod_{i=1}^m(h_\theta(x_i))^{y_i}(1-(h_\theta(xi))^{1-y_i} L(θ)=i=1∏mp(y∣x;θ)=i=1∏m(hθ(xi))yi(1−(hθ(xi))1−yi
当似然函数取值最大时，数据的预测值恰好是真实值得概率最大

似然函数公式化简

由于似然函数包含累乘算术，将累乘变成累加有利于计算
根据 log ⁡ A ∗ B = log ⁡ A + log ⁡ B \log A*B=\log A +\log B logA∗B=logA+logB则有
对数似然函数：
log ⁡ L ( θ ) = log ⁡ ∏ i = 1 m ( h θ ( x i ) ) y i ( 1 − ( h θ ( x i ) ) 1 − y i \log L(\theta)=\log \displaystyle\prod_{i=1}^m(h_\theta(x_i))^{y_i}(1-(h_\theta(xi))^{1-y_i} logL(θ)=logi=1∏m(hθ(xi))yi(1−(hθ(xi))1−yi
展开化简：
∑ i = 1 m log ⁡ ( h θ ( x i ) ) y i ( 1 − h θ ( x i ) ) 1 − y i \displaystyle\sum_{i=1}^m\log(h_\theta(x_i))^{y_i}(1-h_\theta(x_i))^{1-y_i} i=1∑mlog(hθ(xi))yi(1−hθ(xi))1−yi
= ∑ i = 1 m ( y i log ⁡ ( h θ ( x i ) ) + ( 1 − y i ) log ⁡ ( 1 − h θ ( x i ) ) ) =\displaystyle\sum_{i=1}^m(y_i\log(h_\theta(x_i))+(1-y_i)\log(1-h_\theta(x_i))) =i=1∑m(yilog(hθ(xi))+(1−yi)log(1−hθ(xi)))
对似然函数求最大值，引入目标函数 J ( θ ) = − 1 m log ⁡ L ( θ ) J(\theta)=-\frac{1}{m}\log L(\theta) J(θ)=−m1logL(θ)，转换成求目标函数最小值。

目标函数

J ( θ ) = − 1 m log ⁡ L ( θ ) J(\theta)=-\frac{1}{m}\log L(\theta) J(θ)=−m1logL(θ)

2、优化求解梯度下降（gradient descent）

对 θ \theta θ求偏导，得 ∂ ∂ θ i J ( θ ) = 1 m ∑ i = 1 m ( h θ ( x i ) − y i ) x i j \frac{\partial}{ \partial\theta_i}J(\theta)=\frac{1}{m}\displaystyle\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j ∂θi∂J(θ)=m1i=1∑m(hθ(xi)−yi)xij
x i j x_i^j xij:代表第 i i i个样本的第 j j j个特征
根据梯度下降算法，有：
θ j : = θ j − α 1 m ∑ i = 1 m ( h θ ( x i ) − y i ) x i j \theta_j:=\theta_j-\alpha\frac{1}{m}\displaystyle\sum_{i=1}^m(h_\theta(x_i)-y_i)x_i^j θj:=θj−αm1i=1∑m(hθ(xi)−yi)xij
参数α叫学习率，代表每一步的步长，这个参数很关键，不能过大也不能过小。

随机梯度下降SGD (stochastic gradient descent)

梯度下降算法每次更新回归系数时都需要遍历整个数据集，当数据量很大的时候，该算法较为耗时，随机梯度下降算法的更新点在于：
每次只使用一个样本来更新回归系数，当新的样本到来时，分类器可以进行增量的更新。

改进的随机梯度下降

随机梯度下降会产生目标函数收敛速度慢，随机波动等问题。产生这个现象的原因是存在一些无法正确分类的样本点，也就是我们的数据集并非线性可分，logistic regression是线性分类模型，对非线性可分情况无能为力。然而我们的优化程序并没能意识到这些不正常的样本点，还一视同仁的对待，调整系数去减少对这些样本的分类误差，从而导致了在每次迭代时引发系数的剧烈改变。
对此，改进的随机梯度下降有以下优化点：

每次迭代时，调整更新步长 α \alpha α的值。随着迭代的进行， α \alpha α越来越小随机选择样本更新回归系数 3、样本不均衡的解决方案

对于二分类数据样本，若正类样本数据量与负类样本数据量差距很大，会产生样本极度不均衡的现象，处理策略有：

下采样策略
目标：使得正类样本和负类样本数量一样少
从正类中随机选择一定数量（和负类样本数量相当）的样本，可使用numpy.random.choice方法实现过采样策略
目标：使得负类样本的数量和正类样本数据一样多
方法：可采用SMOTE样本生成策略，构建新的样本
步骤：
①对于少数类中的每个样本 x x x,以欧式距离为标准计算其到少数类样本集中所有样本的距离，得到其K近邻
②根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每个少数类样本 x x x,从其K近邻中随机N个距离
③对于每个随机选出的距离，分别与原样本按照公式构建新的样本
x n e w = x + r a n d ( 0 , 1 ) ∗ d i x_{new}=x+rand(0,1)*d_i xnew=x+rand(0,1)∗di
d i d_i di:对于每个样本而言，随机选中的距离

网址：机器学习——逻辑回归（Logistic Regression） https://www.yuejiaxmz.com/news/view/450594

上一篇：mybatis一二级缓存

下一篇：执行下列python程序输出结果

机器学习——逻辑回归（Logistic Regression）

相关内容

随便看看

最新动态分享

热点动态分享

专题

推荐动态分享