Related Metrics

相关性（Correlation）是统计学中用来衡量两个变量之间关系的一种指标。它描述了两个变量在多大程度上以及以何种方式共同变化。相关性可以帮助我们理解变量之间的依赖性和预测关系。

常用的相关系数

1. 皮尔逊相关系数（Pearson Correlation Coefficient）

计算线性关系的强度和方向。
公式：

r = \frac{\sum ( x _{i} - x ˉ ) ( y _{i} - y ˉ )}{\sum ( x _{i} - x ˉ ) ^{2} \sum ( y _{i} - y ˉ ) ^{2}}

要求：变量之间是线性关系，并且数据是连续的和正态分布的。

2. 斯皮尔曼秩相关系数（Spearman’s Rank Correlation Coefficient）

计算两个变量的秩序关系，不要求线性关系。
公式：

r_{s} = 1 - \frac{6 \sum d _{i}^{2}}{n ( n ^{2} - 1 )}

其中 $d_{i}$ 是两个变量的秩之差， $n$ 是样本数量。

3. 肯德尔秩相关系数（Kendall’s Tau Coefficient）

衡量两个变量秩序关系的一致性。
公式：

τ = \frac{( C - D )}{( C + D + T ) ( C + D + U )}

其中 $C$ 是一致对， $D$ 是不一致对， $T$ 和 $U$ 是重复值的对数。

计算步骤

以皮尔逊相关系数为例，计算步骤如下：

计算每个变量的均值 $\overset{x}{ˉ}$ 和 $\overset{y}{ˉ}$ 。
计算每个数据点的偏差 $(x_{i} - \overset{x}{ˉ})$ 和 $(y_{i} - \overset{y}{ˉ})$ 。
计算偏差的乘积和 $\sum (x_{i} - \overset{x}{ˉ}) (y_{i} - \overset{y}{ˉ})$ 。
计算每个变量的偏差平方和 $\sum (x_{i} - \overset{x}{ˉ})^{2}$ 和 $\sum (y_{i} - \overset{y}{ˉ})^{2}$ 。
代入公式计算相关系数 $r$ 。

示例

假设有以下数据：

x	y
1	2
2	3
3	5
4	4
5	6

计算皮尔逊相关系数：

计算均值：
$\overset{x}{ˉ} = \frac{1 + 2 + 3 + 4 + 5}{5} = 3$ $\overset{y}{ˉ} = \frac{2 + 3 + 5 + 4 + 6}{5} = 4$
计算偏差：
$(x_{i} - \overset{x}{ˉ}) = [- 2, - 1, 0, 1, 2]$ $(y_{i} - \overset{y}{ˉ}) = [- 2, - 1, 1, 0, 2]$
计算偏差乘积和：
$\sum (x_{i} - \overset{x}{ˉ}) (y_{i} - \overset{y}{ˉ}) = (- 2 \cdot - 2) + (- 1 \cdot - 1) + (0 \cdot 1) + (1 \cdot 0) + (2 \cdot 2) = 4 + 1 + 0 + 0 + 4 = 9$
计算 $x$ 的偏差平方和：
$\sum (x_{i} - \overset{x}{ˉ})^{2} = (- 2)^{2} + (- 1)^{2} + 0^{2} + 1^{2} + 2^{2} = 4 + 1 + 0 + 1 + 4 = 10$
计算 $y$ 的偏差平方和：
$\sum (y_{i} - \overset{y}{ˉ})^{2} = (- 2)^{2} + (- 1)^{2} + 1^{2} + 0^{2} + 2^{2} = 4 + 1 + 1 + 0 + 4 = 10$
计算相关系数：
$r = \frac{9}{10 \cdot 10} = \frac{9}{10} = 0.9$

Python 代码示例

import numpy as np
 
# 数据点
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 3, 5, 4, 6])
 
# 计算皮尔逊相关系数
correlation = np.corrcoef(x, y)[0, 1]
 
print(f'Pearson correlation coefficient: {correlation}')](<import numpy as np
 
# 数据点
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 3, 5, 4, 6])
 
# 计算相关系数矩阵
# np.corrcoef 返回一个相关系数矩阵，其中 [0, 0] 和 [1, 1] 是自相关系数，值为 1
# [0, 1] 和 [1, 0] 是 x 和 y 之间的相关系数
corr_matrix = np.corrcoef(x, y)
 
# 打印相关系数矩阵以便查看
print("Correlation matrix:")
print(corr_matrix)
 
# 提取 x 和 y 之间的相关系数
# 相关系数矩阵的 [0, 1] 位置上的值是 x 和 y 之间的皮尔逊相关系数
correlation = corr_matrix[0, 1]
 
print(f'Pearson correlation coefficient: {correlation}')>)

残差（Residual）

残差是实际值与预测值之间的差异，表示模型预测误差。对于每一个数据点 $i$ ：

$残差_{i} = y_{i} - \overset{y}{^}_{i}$

其中：

$y_{i}$ 是第 $i$ 个数据点的实际值。
$\overset{y}{^}_{i}$ 是第 $i$ 个数据点的预测值。

均方误差（Mean Squared Error, MSE）

均方误差是残差的平方的平均值，用于衡量模型的预测精度。它更重视大误差，因为误差被平方了。

$MSE = \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - \overset{y}{^}_{i})^{2}$

其中：

$n$ 是数据点的数量。
$y_{i}$ 是第 $i$ 个数据点的实际值。
$\overset{y}{^}_{i}$ 是第 $i$ 个数据点的预测值。

平均绝对误差（Mean Absolute Error, MAE）

平均绝对误差是残差绝对值的平均值，用于衡量模型的平均预测误差。它对大误差的敏感度较低，因为误差没有被平方。

$MAE = \frac{1}{n} \sum_{i = 1}^{n} ∣ y_{i} - \overset{y}{^}_{i} ∣$

其中：

$n$ 是数据点的数量。
$y_{i}$ 是第 $i$ 个数据点的实际值。
$\overset{y}{^}_{i}$ 是第 $i$ 个数据点的预测值。

均方根误差（Root Mean Squared Error, RMSE）

均方根误差是均方误差（MSE）的平方根，用于衡量预测值与实际值之间的差异。RMSE 和 MSE 一样，对大误差比较敏感，因为误差被平方了。RMSE 的单位和原始数据的单位相同，使得其更容易解释。

$RMSE = \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - \overset{y}{^}_{i})^{2}$

其中：

$n$ 是数据点的数量。
$y_{i}$ 是第 $i$ 个数据点的实际值。
$\overset{y}{^}_{i}$ 是第 $i$ 个数据点的预测值。

示例

假设有以下数据点的实际值和预测值：

实际值 $y$	预测值 $\overset{y}{^}$
3	2.5
-0.5	0.0
2	2.1
7	8.1

我们可以计算残差、MSE、MAE 和 RMSE：

残差：
$残差_{1} = 3 - 2.5 = 0.5$ $残差_{2} = - 0.5 - 0.0 = - 0.5$ $残差_{3} = 2 - 2.1 = - 0.1$ $残差_{4} = 7 - 8.1 = - 1.1$
MSE：
$MSE = \frac{1}{4} ((0.5)^{2} + (- 0.5)^{2} + (- 0.1)^{2} + (- 1.1)^{2}) = \frac{1}{4} (0.25 + 0.25 + 0.01 + 1.21) = \frac{1.72}{4} = 0.43$
MAE：
$MAE = \frac{1}{4} (∣0.5∣ + ∣ - 0.5∣ + ∣ - 0.1∣ + ∣ - 1.1∣) = \frac{1}{4} (0.5 + 0.5 + 0.1 + 1.1) = \frac{2.2}{4} = 0.55$
RMSE：
$RMSE = MSE = 0.43 \approx 0.656$

Python 代码示例

import numpy as np
 
# 实际值和预测值
y = np.array([3, -0.5, 2, 7])
y_pred = np.array([2.5, 0.0, 2.1, 8.1])
 
# 计算残差
residuals = y - y_pred
print("Residuals:", residuals)
 
# 计算MSE
mse = np.mean((y - y_pred) ** 2)
print("Mean Squared Error (MSE):", mse)
 
# 计算MAE
mae = np.mean(np.abs(y - y_pred))
print("Mean Absolute Error (MAE):", mae)
 
# 计算RMSE
rmse = np.sqrt(mse)
print("Root Mean Squared Error (RMSE):", rmse)
 
# Residuals: [ 0.5 -0.5 -0.1 -1.1]
# Mean Squared Error (MSE): 0.43
# Mean Absolute Error (MAE): 0.55
# Root Mean Squared Error (RMSE): 0.6557438524302003

Hua Wang

Explorer

Related Metrics

相关系数

常用的相关系数

1. 皮尔逊相关系数（Pearson Correlation Coefficient）

2. 斯皮尔曼秩相关系数（Spearman’s Rank Correlation Coefficient）

3. 肯德尔秩相关系数（Kendall’s Tau Coefficient）

相关系数矩阵

计算步骤

示例

Python 代码示例

残差（Residual）

均方误差（Mean Squared Error, MSE）

平均绝对误差（Mean Absolute Error, MAE）

均方根误差（Root Mean Squared Error, RMSE）

示例

Python 代码示例

Table of Contents

Graph View

Backlinks