Featured Post

#31常識集_Gamma_Distribution



/*-------------分隔線-------------*/
(好吧其實常識集到現在沒有幾篇真的屬於常識的範疇......)


/*-------------分隔線-------------*/
        Gamma分布是一個非常重要的統計分布,這個統計分布的隨機變數是等到第k個事件發生所需要等待的時間。也就是說Gamma分布是描述「等待時間」的分布情形。這和我們之前介紹過的Poisson distribution不同,Poisson distribution描述的是單位時間內事件發生次數的分布情形。但是我們很快就會知道,這兩個分布之間有密切的關聯性。Gamma分布已經被用來描述神經放電、基因表現、疾病的發生率和降雨等多樣的現象。今天我們在這裡只討論Gamma分布的基本性質,未來的文章我們會介紹一種詮釋統計分布的新觀點,屆時若對幾個重要的統計分布有概念會比較容易接受。

        首先我們先來看看Gamma分布到底生作蝦米款:
若隨機變數x(值域介於0~)服從參數被定義為k & λ的Gamma分布,則(看不懂沒關係後面會解釋)其機率密度函數可以寫成:
而他的期望值和變異數則可寫成:

 
 
        Okay所以這到底是在寫蝦米咚咚?首先我們先看看那個很陌生的Γ(x)。Γ是一個函數,就像你熟悉的sin(x)、cos(x)一樣。但它是階乘(factorial)函數的擴充版本。階乘函數大家最熟悉的表達是:
 
或是以遞迴的方式表達:
 
可是如果我們想知道(3/2)!的時候這個定義就不管用了,所以我們需要擴展原本的定義,而且這個新的定義出來的函數仍然遵從我們想要的遞迴性質,於是乎Gamma函數就誕生了:
從integration by parts我們可以很容易證明我們想要的遞迴性質:

所以若x為正整數時,Γ(x) = (x-1)!。

        我們再來看看參數k & λ是甚麼東西。k其實就是在問你感興趣的是第幾個事件,而λ則是這個事件的發生率(單位時間內發生幾次)是多少。所以舉例來說,台北市一個月平均發生7起死亡車禍,我們想知道從四月一號開始第三件死亡車禍發生在一周內的機率是多少,我們可以這樣計算:
 
看起來不是一個很小的數字。不過為什麼我們可以這樣算呢?這我們就要回到Poisson distribution。


        還記得Poisson distribution的長相是:

而x是我們實際觀測到單位時間內發生幾次事件,λ則是平均而言單位時間內發生幾次事件。現在我們想知道第k次事件發生在某個時間點的機率密度是多少,也就是gamma分布在描述的東西,假設他是發生在時間點T。因為我們想關注的是時間,所以我們必須調整Poisson distribution的觀測時間變成原本的t倍,這樣原本的分布就可以被改寫成:
 
現在我們想求經過時間t之後,還沒有發生第k次事件的機率是多少。因為T是發生第k次事件的時間,所以這等於是在問T>t的機率是多少。 所以我們可以寫出:
 
那麼T<=t的機率當然就會是:

因為這是累積機率密度函數,所以想得到機率密度就只要對它作微分就可以:

我們就得到了原本的Gamma distribution。

Comments