文章出處

作者:Vamei 出處:http://www.cnblogs.com/vamei 歡迎轉載,也請保留這段聲明。謝謝!

 

我之前一直專注于單一的隨機變量及其概率分布。我們自然的會想將以前的結論推廣到多個隨機變量。聯合分布(joint distribution)描述了多個隨機變量的概率分布,是對單一隨機變量的自然拓展。聯合分布的多個隨機變量都定義在同一個樣本空間中。

對于聯合分布來說,最核心的依然是概率測度這一概念。 

 

離散隨機變量的聯合分布

我們先從離散的情況出發,了解多個隨機變量并存的含義。

之前說,一個隨機變量是從樣本空間到實數的映射。然而,所謂的映射是人為創造的。從一個樣本空間,可以同時產生多個映射。比如,我們的實驗是連續三次投硬幣,樣本空間為

$$\Omega = \{hhh, hht, hth, thh, htt, tht, tth, ttt\}$$

h為正面,t為反面。在同一樣本空間上,我們可以定義多個隨機變量,比如:

  • [$X$]: 投擲為正面的總數,可以取值0,1,2,3
  • [$Y$]: 最后一次出現負面的總數,可以取值0,1
  • [$Z$]: 將正面記為10,負面記為5,第一次與第三次取值的差,可以有5, -5, 0

這三個隨機變量可以看作一個有三個分量的矢量。所以定義在同一樣本空間的多隨機變量,是一個從樣本空間到矢量的映射。 

(從這個角度上說,單一隨機變量是一個從樣本空間到一個有一個分量的矢量的映射)

 

如果樣本空間[$\Omega$]中每個結果出現的概率相等。而樣本空間中共有8個結果,那么個每個結果的出現的概率都是1/8。據此,我們可以計算聯合概率,比如

$$P(X=0, Y=1) = P(\{ttt\}) = 1/8$$

$$P(X=1, Y=1) = P(\{htt, tht\}) = 2/8$$

對于[$X = x, Y = y$],我們尋找樣本空間中滿足這兩個取值的所有元素。這些元素構成一個樣本空間的子集,該子集的概率就是[$P(X = x, Y = y)$]的聯合概率。[$p(x, y) = P(X = x, Y = y)$]稱為聯合概率質量函數(joint PMF, joint probability mass function)。聯合概率可以看做兩個事件同時發生時的概率,事件A為[$X=x$],事件B為[$Y=y$],即[$P(A \cap B)$]。

找到所有可能取值組合的概率,就找到了這兩個隨機變量的聯合分布:

[$X$] [$Y$] [$P(X,Y)$] 對應子集
0 0 0 [$\Phi$]
1 0 1/8 tth
2 0 2/8 thh, hth
3 0 1/8 hhh
0 1 1/8 ttt
1 1 2/8 htt, tht
2 1 1/8 hht
3 1  0 [$\Phi$]

 聯合分布

聯合分布描述了所有可能的取值情況。因此,聯合概率密度函數的累積和為1。

 

連續隨機變量的聯合分布

我們知道,單個連續隨機變量的概率是變量在某個區間(某段線的“長度”)取值的概率。做類似的推廣,多個連續隨機變量的概率,是這多個隨機變量在多維區間的概率。比如兩個隨機變量,我們需要表達一個二維區間的概率,比如[$P(a \le X \le b, c \le Y \le d)$]。這個二維區間可以有一個類似于一個小補丁的“面積”。二維區間對應的概率是一個體積。

 

面積對應的體積

 

在單變量情況下,概率是一個“面積”,是由區間的“長度”和密度函數(一條曲線)圍成的。這里的“體積”是二維區間的“面積”和密度函數(一個曲面)圍成的。我們可以使用聯合概率密度函數(joint PDF, joint probability density function)來表達多隨機變量的分布。對于雙變量的聯合分布來說,它等于無窮小塊的概率,除以無窮小塊的面積。

用微積分的語言來說,就是

$$P(a \le X \le b, c \le Y \le d) = \int_a^b \int_c^d f(x, y) dx dy$$

[$f(x, y)$]就是描述X和Y的聯合分布的聯合概率密度函數。

 

聯合概率密度函數描述了所有可能取值的情況,因此有

$$\int_{-\infty}^{+\infty} \int_{-\infty}^{\infty} f(x, y) dx dy = 1$$

 

實例

下面是兩個連續隨機變量的聯合PDF:

$$f(x,y) = \left\{ \begin{array}{rcl} 2x & for & 0 \le x,y \le 1 \\ 0 & for & else \end{array} \right.$$

通過積分,計算X在0到0.5,而Y在0到1的概率:

$$P(0 \le X \le 0.5, 0 \le Y \le 1) = \int_0^{0.5} \int_0^{1} 2x dx dy = 0.25$$

 

我們之間也說到,單個隨機變量的概率對應線段到概率密度曲線之間的面積。而兩個隨機變量的概率對應小塊到概率密度面之間的體積。

我們可以繪制[$f(x,y)$]的分布圖形,即一個二維的平面。圖中的顏色標記了f(x, y)值的大小。如下: 

可以看到,f(x, y)隨X增大而增大,在X值確定時,f(x, y)不隨Y變化。

# By Vamei

from mpl_toolkits.mplot3d import Axes3D
from matplotlib import cm
from matplotlib.ticker import LinearLocator, FormatStrFormatter
import matplotlib.pyplot as plt
import numpy as np

fig = plt.figure()
ax = fig.gca(projection='3d')
X = np.arange(0, 1, 0.05)
Y = np.arange(0, 1, 0.05)
X, Y = np.meshgrid(X, Y)
Z = 2*X
surf = ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap=cm.coolwarm,
        linewidth=0, antialiased=False)
ax.set_zlim(0.0, 2.5)

ax.zaxis.set_major_locator(LinearLocator(10))
ax.zaxis.set_major_formatter(FormatStrFormatter('%.02f'))

ax.set_xlabel("X")
ax.set_ylabel("Y")
ax.set_zlabel("f(x,y)")
fig.colorbar(surf, shrink=0.5, aspect=5)

plt.show()

 

邊緣概率

聯合分布包含了多個隨機變量的分布信息。我們當然可以從聯合分布中,提取出任意一個單一隨機變量的分布,也就是所謂的邊緣分布(marginal distribution)。

對于離散隨機變量,可以獲得邊緣概率質量函數(marginal pmf):

$$p_X(x) = \sum_{all \, y} p(x, y)$$

$$p_Y(y) = \sum_{all \, x} p(x, y)$$

在求X的單一邊緣分布時, 我們累加了相同x值、不同y值時的多個聯合概率,從而獲得該x值的的總體概率,即邊緣概率。

 

連續隨機變量X的邊緣密度函數(marginal pdf, marginal probability density function)可以定義為

$$f_X(x) = \int_{-\infty}^{+\infty} f(x,y)dy$$

[$f_X(x)$]是聯合密度函數對Y的積分。通過積分,我們將不同Y取值時的聯合概率加在一起,就獲得純粹的單一X的分布狀況。

類似的,Y的邊緣密度函數為

$$f_Y(y) = \int_{-\infty}^{+\infty} f(x,y)dx$$

 

取離散隨機分布的例子,即擲三次硬幣

  0 1 2 3 p(y)
0 0 1/8 2/8 1/8 1/2
1 1/8 2/8 1/8 0 1/2
p(x) 1/8 3/8 3/8 1/8  

邊緣概率是對各行和列的累加。最后一列p(y)是Y的分布,Y有1/2的概率取0,1/2的概率取1。最后一行p(x)是X的分布。

 

取連續隨機分布的例子,即下面的連續分布:

$$f(x,y) = \left\{ \begin{array}{rcl} 2x & for & 0 \le x,y \le 1 \\ 0 & for & else \end{array} \right.$$

可以得到:

$$f_X(x) = 2x, 0 \le x \le 1$$

$$f_Y(y) = 1, 0 \le y \le 1$$

 

條件分布

我們之前基于事件介紹了條件概率,即如果事件B發生,那么事件A發生的概率。相同的概念可以引申到隨機變量。隨機變量取某個值,這可以看做一個事件。我們想知道,隨機變量Y取值y,另一個隨機變量X為x的概率。

 

事件的條件概率類似,假設[$ p_Y(y) \ne 0 $],在[$Y=y$]的條件下,隨機變量X取值為x的概率定義為: 

$$p(x|y) = \frac{p(x, y)}{p_Y(y)}$$

即[$X=x, Y=y$]同時發生的概率,除以Y取值為y的的概率。

 

以擲三次硬幣為例。條件為Y值取值0,即最后一次投擲為正面時。此時,X取值為2有兩種可能,即前兩次為ht和th。由于前兩次投擲有四種組合,所以概率為0.5。

我們可以通過條件概率的公式計算并驗證:

$$p(2|0) = \frac{p(2, 0)}{p_Y(0)} = \frac{2/8}{1/2} = 0.5$$

 

如果說概率是分一個總和為1的大餅,如果大餅分八塊,每塊就是1/8。假設半個餅上撒胡椒,另半個餅上撒辣椒。那么在胡椒餅(相當于我們的條件)上選取一塊的概率,就是1/4。此時,也就是用原來的概率除以胡椒餅所占的比重。

 

對于連續隨機變量,假設[$ f_Y(y) \ne 0 $],給定Y=y,隨機變量X的條件分布為:

$$f(x|y) = f(x|Y=y) = \frac{f(x, y)}{f_Y(y)}$$

 

獨立隨機變量

正如事件之間可以相互獨立一樣,隨機變量之間也可以相互獨立。當X獨立于Y時,我們可以相像,Y的取值,將不影響X的概率。也就是說

$$p(x|y) = p_X(x)$$

這意味著,當且僅當

$$p(x, y) = p_X(x)p_Y(y)$$

時,X和Y相互獨立。

可以驗證,連續投擲三次硬幣的例子中,X和Y并不獨立,比如

$$p(1, 1) = 2/8$$

$$p_X(1) = 3/8$$

$$p_Y(1) = 1/2$$

因此,

$$p(1, 1) \ne p_X(1)p_Y(1)$$

X和Y并不獨立。

對于連續隨機變量來說,當且僅當

$$f(x, y) = f_X(x)f_Y(y)$$

時,X和Y相互獨立。

對于分布

$$f(x,y) = \left\{ \begin{array}{rcl} 2x & for & 0 \le x,y \le 1 \\ 0 & for & else \end{array} \right.$$

使用之前獲得的邊際分布,可以驗證

$$f(x, y) = f_X(x)f_Y(y)$$

因此,對于該分布來說,X和Y相互獨立。

 

總結

通過聯合分布,我們將單隨機變量的分布拓展到多隨機變量的分布。同樣的,在單隨機變量中引入的條件概率,也可以使用到多隨機變量。我們還探討了隨機變量的獨立性。

歡迎繼續閱讀“數據科學”系列文章 


文章列表


不含病毒。www.avast.com
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()