少女祈祷中...

回归(Regression)和分类(Classification)是机器学习中两种常见的监督学习任务,它们在目标和方法上有所不同。

回归(Regression)

回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测一个具体的数值,如房价、股票价格、温度等。

关键特点:

  • 目标变量:连续值。
  • 输出:一个数值。
  • 例子:线性回归、多项式回归、决策树回归、随机森林回归等。

应用场景

  • 房价预测
  • 销售预测
  • 股票价格预测

线性回归

线性回归(Linear Regression)是统计学和机器学习中最基础的预测建模技术之一,它用于建立和估计一个变量(因变量)与一个或多个变量(自变量)之间的线性关系。线性回归假设因变量和自变量之间的关系可以用一条直线(在一维情况下)或一个超平面(在多维情况下)来近似表示。

基本概念

因变量(Dependent Variable):我们试图预测的变量,通常表示为 yy
自变量(Independent Variables):用于预测因变量的变量,通常表示为 x1,x2,,xnx_1, x_2, \ldots, x_n
参数(Parameters):模型中的系数,用于确定自变量和因变量之间的关系,通常表示为 β0,β1,,βn\beta_0, \beta_1, \ldots, \beta_n。其中 β0\beta_0 是截距,β1,,βn\beta_1, \ldots, \beta_n 是各自变量的系数。

模型表示

在一元线性回归(只有一个自变量)中,模型可以表示为:
y=β0+β1x+ϵy = \beta_0 + \beta_1x + \epsilon
在多元线性回归(有多个自变量)中,模型可以表示为:
y=β0+β1x1+β2x2+...+βnxn+ϵy = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n + \epsilon
其中ϵ\epsilon 是误差项,表示模型未能捕捉到的随机变异。

参数估计

线性回归模型的参数通常使用最小二乘法(Least Squares Method)来估计,目的是找到使所有观测值的残差平方和(RSS,Residual Sum of Squares)最小的参数值。数学上,这可以通过求解最小化问题来实现:

minβ0,β1,...,βni=1N(yi(β0+β1xi1+β2xi2+...+βnxin))2\min_{\beta_0, \beta_1, ..., \beta_n} \sum_{i=1}^{N} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in}))^2

假设

线性回归模型基于几个关键假设:

  1. 线性关系:因变量和自变量之间的关系是线性的。
  2. 独立性:观测值之间是相互独立的。
  3. 同方差性:误差项的方差对于所有观测值都是相同的。
  4. 无自相关:误差项之间不存在自相关(即序列相关)。
  5. 正态性:误差项是正态分布的。

评估指标

  • 均方误差(MSE):衡量预测值和实际值之间差异的平均平方值。
  • 决定系数(R-squared):表示模型解释的数据变异性的比例。

应用

线性回归广泛应用于各种领域,包括经济学、金融学、社会科学、物理学等,用于预测和分析变量之间的关系。

注意事项

  • 线性回归对异常值敏感。
  • 需要满足模型的假设条件。
  • 在处理非线性关系时,可能需要使用多项式回归或其他非线性模型。

线性回归虽然简单,但它是理解更复杂模型的基础,并且在许多实际问题中仍然非常有效。

分类(Classification)

分类是另一种预测模型,它涉及将数据分到预定义的类别或标签中。分类模型通常用于识别模式,并根据这些模式对数据进行分类。

关键特点:

  • 目标变量:离散值,通常是预定义的类别。
  • 输出:一个类别或标签。
  • 例子:逻辑回归、决策树分类、支持向量机(SVM)、随机森林分类、神经网络等。

应用场景

  • 垃圾邮件检测
  • 图像识别
  • 信用评分

主要区别

  • 目标变量的类型:回归分析处理连续数值,而分类处理离散的类别。
  • 输出的性质:回归输出一个数值,分类输出一个类别。
  • 损失函数:回归通常使用均方误差(MSE)等,分类则使用交叉熵损失等。

逻辑回归

逻辑回归(Logistic Regression)是一种广泛使用的统计学习方法,用于解决分类问题。尽管它的名字中包含“回归”,但实际上它主要用于分类任务,特别是二分类问题。逻辑回归通过使用逻辑函数(也称为Sigmoid函数)来估计概率,从而将线性回归的输出转换为0到1之间的概率值,这个概率值可以用来预测样本属于某一类别的概率。

基本概念

  • 因变量(Dependent Variable):通常是二元的,表示为yy,取值为0或1。
  • 自变量(Independent Variables):用于预测因变量的变量,表示为x1,x2,...,xnx_1, x_2, ..., x_n
  • 参数(Parameters):模型中的系数,用于确定自变量和因变量之间的关系,表示为β0,β1,...,βn\beta_0, \beta_1, ..., \beta_n

模型表示

逻辑回归模型可以表示为:

P(y=1X)=11+e(β0+β1x1+β2x2+...+βnxn)P(y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n)}}

其中P(y=1X)P(y=1|X)是给定自变量XX时,因变量yy取值为1的概率。逻辑函数(Sigmoid函数)定义为:

σ(z)=11+ez\sigma(z) = \frac{1}{1 + e^{-z}}

其中z=β0+β1x1+β2x2+...+βnxnz = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n

参数估计

逻辑回归的参数通常使用最大似然估计(Maximum Likelihood Estimation, MLE)来估计。目标是找到最大化观测数据似然函数的参数值。数学上,这可以通过求解优化问题来实现,通常使用梯度下降或其变体(如随机梯度下降、牛顿法等)来找到最优参数。

假设

逻辑回归模型基于以下假设:

  1. 线性关系:自变量和因变量之间的关系可以通过线性组合来近似。
  2. 概率输出:模型的输出是样本属于正类的概率。

评估指标

  • 准确率(Accuracy):正确预测的比例。
  • 混淆矩阵(Confusion Matrix):显示真正例(True Positives)、假正例(False Positives)、真反例(True Negatives)和假反例(False Negatives)的数量。
  • 精确率(Precision):真正例占所有预测为正例的比例。
  • 召回率(Recall):真正例占所有实际正例的比例。
  • F1分数(F1 Score):精确率和召回率的调和平均。

应用

逻辑回归广泛应用于各种领域,包括医学、金融、社会科学等,用于预测和分类任务,如信用评分、疾病诊断、垃圾邮件检测等。

注意事项

  • 逻辑回归对自变量的缩放和异常值敏感。
  • 它假设数据是线性可分的,这在某些情况下可能不成立。
  • 逻辑回归不直接提供概率的置信区间。

逻辑回归是一种强大且易于实现的分类算法,尤其适合于二分类问题,并且在实际应用中非常受欢迎。

小总结

回归和分类是机器学习中的基本任务,它们各自适用于不同类型的问题。选择哪种方法取决于问题的性质和所需解决的具体任务。在实际应用中,这两种方法都有广泛的应用,并且经常需要根据数据的特点和业务需求来选择合适的模型。

本文作者:戴诺斯·拉姆 @ 拉姆的小树屋

本文链接:https://sherry14love.github.io/2024/06/05/learn/data3/

本文版权:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!

留言