累积分布函数(Cumulative Distribution Function, CDF)
定义: 累积分布函数(CDF)是一个函数,用于描述随机变量小于或等于某个特定值的概率。对于一个随机变量,其累积分布函数定义为:
关键属性
-
非负性: 对于任意的,。
-
单调不减: 如果,那么。
-
归一化: 当趋向于负无穷时,;当趋向于正无穷时,。
-
右连续: 是右连续的,即对于任意的,。
关系
-
与概率密度函数(PDF)的关系: 对于连续型随机变量,其累积分布函数是概率密度函数的积分:
-
概率计算: 对于区间上的概率,可以通过CDF计算:
常见分布的CDF
-
正态分布(Normal Distribution): 正态分布的CDF通常用累积分布函数表示,没有简单的解析表达式,通常通过数值积分或查表获得。
from scipy.stats import norm import matplotlib.pyplot as plt import numpy as np x = np.linspace(-5, 5, 1000) y = norm.cdf(x, 0, 1) # 均值为0,标准差为1的正态分布 plt.plot(x, y, label='Normal Distribution CDF ($\mu=0$, $\sigma=1$)') plt.title('Cumulative Distribution Function of Normal Distribution') plt.xlabel('x') plt.ylabel('CDF') plt.legend() plt.show()
-
均匀分布(Uniform Distribution):
对于区间上的均匀分布,CDF为:
-
指数分布(Exponential Distribution):
对于参数为的指数分布,CDF为:
from scipy.stats import expon import matplotlib.pyplot as plt import numpy as np lambda_param = 1 x = np.linspace(0, 5, 1000) y = expon.cdf(x, scale=1/lambda_param) plt.plot(x, y, label='Exponential Distribution CDF ($\lambda=1$)') plt.title('Cumulative Distribution Function of Exponential Distribution') plt.xlabel('x') plt.ylabel('CDF') plt.legend() plt.show()
应用
- 统计学和数据分析: CDF用于计算特定区间的概率,进行统计推断。
- 可靠性工程: 通过CDF分析产品寿命和故障率。
- 金融工程: CDF用于风险评估和金融工具定价,如期权定价中的二项模型和布莱克-斯科尔斯模型。
总结
累积分布函数(CDF)是描述随机变量分布的重要工具,通过它可以计算随机变量在特定区间内出现的概率,理解数据的分布特性。与概率密度函数(PDF)不同,CDF提供了随机变量累计概率的全貌,是概率论和统计学中的基本概念。