回归与分类

2024-06-05

learn

回归（Regression）和分类（Classification）是机器学习中两种常见的监督学习任务，它们在目标和方法上有所不同。

回归（Regression）

回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系。这种技术通常用于预测一个具体的数值，如房价、股票价格、温度等。

关键特点：

目标变量：连续值。
输出：一个数值。
例子：线性回归、多项式回归、决策树回归、随机森林回归等。

应用场景：

房价预测
销售预测
股票价格预测

线性回归

线性回归（Linear Regression）是统计学和机器学习中最基础的预测建模技术之一，它用于建立和估计一个变量（因变量）与一个或多个变量（自变量）之间的线性关系。线性回归假设因变量和自变量之间的关系可以用一条直线（在一维情况下）或一个超平面（在多维情况下）来近似表示。

基本概念

因变量（Dependent Variable）：我们试图预测的变量，通常表示为 $y$ 。
自变量（Independent Variables）：用于预测因变量的变量，通常表示为 $x_1, x_2, \ldots, x_n$ 。
参数（Parameters）：模型中的系数，用于确定自变量和因变量之间的关系，通常表示为 $\beta_0, \beta_1, \ldots, \beta_n$ 。其中 $\beta_0$ 是截距， $\beta_1, \ldots, \beta_n$ 是各自变量的系数。

模型表示

在一元线性回归（只有一个自变量）中，模型可以表示为：
$y = \beta_0 + \beta_1x + \epsilon$
在多元线性回归（有多个自变量）中，模型可以表示为：
$y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n + \epsilon$
其中 $\epsilon$ 是误差项，表示模型未能捕捉到的随机变异。

参数估计

线性回归模型的参数通常使用最小二乘法（Least Squares Method）来估计，目的是找到使所有观测值的残差平方和（RSS，Residual Sum of Squares）最小的参数值。数学上，这可以通过求解最小化问题来实现：

\min_{\beta_0, \beta_1, ..., \beta_n} \sum_{i=1}^{N} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in}))^2

假设

线性回归模型基于几个关键假设：

线性关系：因变量和自变量之间的关系是线性的。
独立性：观测值之间是相互独立的。
同方差性：误差项的方差对于所有观测值都是相同的。
无自相关：误差项之间不存在自相关（即序列相关）。
正态性：误差项是正态分布的。

评估指标

均方误差（MSE）：衡量预测值和实际值之间差异的平均平方值。
决定系数（R-squared）：表示模型解释的数据变异性的比例。

应用

线性回归广泛应用于各种领域，包括经济学、金融学、社会科学、物理学等，用于预测和分析变量之间的关系。

注意事项

线性回归对异常值敏感。
需要满足模型的假设条件。
在处理非线性关系时，可能需要使用多项式回归或其他非线性模型。

线性回归虽然简单，但它是理解更复杂模型的基础，并且在许多实际问题中仍然非常有效。

分类（Classification）

分类是另一种预测模型，它涉及将数据分到预定义的类别或标签中。分类模型通常用于识别模式，并根据这些模式对数据进行分类。

关键特点：

目标变量：离散值，通常是预定义的类别。
输出：一个类别或标签。
例子：逻辑回归、决策树分类、支持向量机（SVM）、随机森林分类、神经网络等。

应用场景：

垃圾邮件检测
图像识别
信用评分

主要区别

目标变量的类型：回归分析处理连续数值，而分类处理离散的类别。
输出的性质：回归输出一个数值，分类输出一个类别。
损失函数：回归通常使用均方误差（MSE）等，分类则使用交叉熵损失等。

逻辑回归

逻辑回归（Logistic Regression）是一种广泛使用的统计学习方法，用于解决分类问题。尽管它的名字中包含“回归”，但实际上它主要用于分类任务，特别是二分类问题。逻辑回归通过使用逻辑函数（也称为Sigmoid函数）来估计概率，从而将线性回归的输出转换为0到1之间的概率值，这个概率值可以用来预测样本属于某一类别的概率。

基本概念

因变量（Dependent Variable）：通常是二元的，表示为 $y$ ，取值为0或1。
自变量（Independent Variables）：用于预测因变量的变量，表示为 $x_1, x_2, ..., x_n$ 。
参数（Parameters）：模型中的系数，用于确定自变量和因变量之间的关系，表示为 $\beta_0, \beta_1, ..., \beta_n$ 。

模型表示

逻辑回归模型可以表示为：

P(y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n)}}

其中 $P(y=1|X)$ 是给定自变量 $X$ 时，因变量 $y$ 取值为1的概率。逻辑函数（Sigmoid函数）定义为：

\sigma(z) = \frac{1}{1 + e^{-z}}

其中 $z = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n$ 。

参数估计

逻辑回归的参数通常使用最大似然估计（Maximum Likelihood Estimation, MLE）来估计。目标是找到最大化观测数据似然函数的参数值。数学上，这可以通过求解优化问题来实现，通常使用梯度下降或其变体（如随机梯度下降、牛顿法等）来找到最优参数。

假设

逻辑回归模型基于以下假设：

线性关系：自变量和因变量之间的关系可以通过线性组合来近似。
概率输出：模型的输出是样本属于正类的概率。

评估指标

准确率（Accuracy）：正确预测的比例。
混淆矩阵（Confusion Matrix）：显示真正例（True Positives）、假正例（False Positives）、真反例（True Negatives）和假反例（False Negatives）的数量。
精确率（Precision）：真正例占所有预测为正例的比例。
召回率（Recall）：真正例占所有实际正例的比例。
F1分数（F1 Score）：精确率和召回率的调和平均。