文章出處

作者:Vamei 出處:http://www.cnblogs.com/vamei 歡迎轉載,也請保留這段聲明。謝謝!

 

隨機變量中,我提到了連續隨機變量。相對于離散隨機變量,連續隨機變量可以在一個連續區間內取值。比如一個均勻分布,從0到1的區間內取值。一個區間內包含了無窮多個實數,連續隨機變量的取值就有無窮多個可能。

為了表示連續隨機變量的概率分布,我們可以使用累積分布函數或者密度函數。密度函數是對累積分布函數的微分。連續隨機變量在某個區間內的概率可以使用累積分布函數相減獲得,即密度函數在相應區間的積分。

隨機變量中,我們了解了一種連續分布,即均勻分布(uniform distribution)。這里將羅列一些其他的經典連續分布。

 

指數分布

指數分布(exponential distribution)的密度函數隨著取值的變大而指數減小。指數分布的密度函數為:

$$f(x) = \left\{ \begin{array}{rcl} \lambda e^{-\lambda x} & if & x \ge 0 \\ 0 & if & x < 0 \end{array} \right.$$

累積分布函數為:

$$F(x) = 1 - e^{-\lambda x}, x \ge 0$$

 

我們繪制一個指數分布[$\lambda = 0.2$],如下:

這樣一種分布在生活中很常見。比如,洪水等級的分布就類似于這樣一個分布。小等級的洪水常發生,而大洪水發生的概率則很小。再比如,金礦的分布:大部分礦石的含金量少,而少部分礦石的含金量高。這提醒我們,一些特殊的條件導致了指數分布。感興趣的話可以學習“隨機過程”這一數學分支。

 

代碼如下:

from scipy.stats import expon
import numpy as np
import matplotlib.pyplot as plt

rv = expon(scale = 5)

x = np.linspace(0, 20, 100)

plt.plot(x, rv.pdf(x))
plt.xlim([0, 15])
plt.title("exponential distribution")
plt.xlabel("RV")
plt.ylabel("f(x)")

plt.show()

上面的expon函數接收一個參數scale。參數scale等于[$1/\lambda$]

 

指數分布是無記憶(memoryless)的。我們以原子衰變為例。任意時刻往后,都需要10年的時間,會有一半的原子衰變。已經發生的衰變對后面原子衰變的概率分布無影響。用數學的語言來說,就是

$$P(X > s) = P(X > s+t | X>t), for\, s,t \ge 0$$

等式的左邊是原子存活了s的概率。而等式的右邊是某一時刻t之后,原子再存活s時間的概率。可以利用指數分布的累積分布函數,很容易的證明上面的等式。指數分布經常用于模擬人的壽命或者電子產品的壽命,這意味著我們同樣假設這些分布是無記憶的。一個人活10年的概率和一個人到50歲后,再活10年的概率相等。這樣的假設有可能與現實情況有所出入,需要注意。

 

正態分布

正態分布(normal distribution)是最常用到的概率分布。正態分布又被稱為高斯分布(Gauss distribution),因為高斯在1809年使用該分布來預測星體位置。吐槽一句,第一個提出該分布的并不是數學王子高斯,而是法國人De Moivre。作為統計先驅,這位數學家需要在咖啡館“坐臺”,為賭徒計算概率為生。(看來法國咖啡館不止有文藝青年,也有技術屌絲啊。)

 Abraham De Moivre

Gauss

正態分布的發現來自于對誤差的估計。早期的物理學家發現,在測量中,測量值的分布很有特點:靠近平均值時,概率大;遠離平均值時,概率小。比如我們使用尺子去測量同一個物體的長度,重復許多次。如果沒有系統誤差,那么測量到的長度值是一個符合正態分布的隨機變量。再比如,在電子信號中白噪音,也很有可能符合正態分布。De Moivre最早用離散的二項分布來趨近這一分布,而高斯給出了這一分布的具體數學形式。

正態分布自從一出生就帶著無比強大的“主角光環”,它的特殊地位在后面文章中的中心極限定理中凸顯出來。

 

正態分布的密度函數如下:

$$f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}, -\infty < x < \infty$$

正態分布有兩個參數,[$\mu$]和[$\sigma$]。我們可以將正態分布表示成[$N(\mu, \sigma)$]。當[$\mu = 0$],[$\sigma = 1$],這樣的正態分布被稱作標準正態分布(standard normal distribution)。

 

我們繪制三個正態分布的密度函數:

可以看到,正態分布關于[$x = \mu$]對稱,密度函數在此處取得最大值,并隨著偏離中心而遞減。如果以測量長度為例,這說明的讀取值靠近[$\mu$]的可能性較大,而偏離[$\mu$]的可能性變小。

[$\sigma$]代表了概率分布的離散程度。[$\sigma$]越小,概率越趨近對稱中心[$x = \mu$]。

 

代碼如下:

# By Vamei

from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt

rv1 = norm(loc=0, scale = 1)
rv2 = norm(loc=2, scale = 1)
rv3 = norm(loc=0, scale = 2)
x = np.linspace(-5, 5, 200)

plt.plot(x, rv1.pdf(x), label="N(0,1)")
plt.plot(x, rv2.pdf(x), label="N(2,1)")
plt.plot(x, rv3.pdf(x), label="N(0,2)")
plt.legend()

plt.xlim([-5, 5])
plt.title("normal distribution")
plt.xlabel("RV")
plt.ylabel("f(x)")

plt.show()

正態分布在統計中有非常重要的地位。我們將在后面的中心極限理論的講解中,看到這一點。

 

Gamma分布

Gamma分布在統計推斷中具有重要地位。它的密度函數如下:

$$g(t) = \frac{\lambda^\alpha}{\Gamma(\alpha)}t^{\alpha-1}e^{-\lambda t}, t \ge 0$$

其中的Gamma函數可以表示為:

$$\Gamma(x) = \int \limits_{0}^{\infty} u^{x-1}e^{-u}du, x>0$$

注意到,Gamma分布有兩個控制參數[$\alpha$]和[$\lambda$]。

 

練習,利用scipy.stats.gamma繪制[$\alpha = 1, \lambda = 1$]和[$\alpha = 5, \lambda = 1$]的Gamma分布密度函數。

 

總結

我們研究了三種連續隨機變量的分布,并使用概率密度函數的方法來表示它們。密度函數在數學上比較容易處理,所以有很重要的理論意義。

密度函數在某個區間的積分,是隨機變量在該區間取值的概率。這意味著,在密度函數的繪圖中,概率是曲線下的面積。

 

歡迎繼續閱讀“數據科學”系列文章

 


文章列表


不含病毒。www.avast.com
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()