Featured Post

#32解讀統計分布的方式_上



/*-------------分隔線-------------*/
        今天的參考文章有點長,各位其實可以不用去翻(別講的一副有人真的在看你的推薦文章一樣),主要是想和大家介紹一個解讀統計分布的另類方式。當我們在學習統計分布的時候,通常都是先設定好一些前提和假設,然後推導出一個統計分布函數,再去分析他的期望值、變異數或更高階的moment等性質。但在研究實務上,我們通常是先得到數據,畫出他的統計圖,嘗試找一個統計分布去fit他,然後試著從統計分布去得到一些關於這些數據背後的機轉。很明顯的,後者的作法遠比前者難度更高,且很多統計分布超過一般統計課程會教的二項式分布、常態分布、布瓦松分布等等範疇,該如何系統化的解讀實驗的數據呢?

        在開始之前,對一個統計分布Py,我們需要先回顧資訊熵(information entropy)的定義:
為什麼會是這樣定義的呢?首先我們要先想想看,假設一件事情發生的機率是p,如果我提前知道這件事情的話,我握有的資訊量比不知道這件事情的人多多少呢?飛機失事的機率約是400萬分之一,六面體骰子擲出1點的機率是1/6。假設A宣稱他能在擲骰子之前就知道骰子會擲出1點;B宣稱他能在飛機起飛之前知道他會不會失事,哪一個人握有的資訊量比較多呢?很顯然是B,因為飛機失事的機率非常非常低,所以如果能預先知道的話是握有比較多的資訊量的。因此我們知道,假設某一事件發生機率是p,他對應到的資訊量會是p的遞減函數(也就是p越大,該事件的資訊量越少)。

       再來我們思考一下,如果C說他能夠正確預測兩架飛機會不會失事,那他握有的資訊量是B的幾倍呢?假設每架飛機失不失事是彼此獨立,直觀來講我們應該覺得C握有的資訊量是B的兩倍,但我們知道,兩架飛機都失事的機率是1/400萬x1/400萬,也就是說,機率相乘,資訊量會相加。能把相乘變相加最簡單的方式就是取log,因此我們就可以合理定義對一發生機率為p的事件,他所握有的資訊量為-log(p)。最後因為一個統計分布是描述非常非常多情形的機率,因此整個統計分布握有的資訊量就是把這些資訊做加權平均,我們也就得到上面的積分式。

       講解完information entropy的觀念之後,我們現在就要來重新看待統計分布。根據principle of maximum entropy的假設,我們會觀測到的統計分布是讓information entropy最大化的統計分布。讓我們來看看這個假設會帶來怎樣的結論。首先如果我們對一個統計分布全然無知(只知道他是一個統計分布,其他通通不知道),那根據principle of maximum entropy,我們會觀測到甚麼?即便是一個全然無知的統計分布,我們也知道這個分布的機率總和必須等於1,因此想求出這個統計分布,我們可以使用Lagrangian multiplier,解下面這個函數的極大極小值問題。對Py偏微分,我們很容易可以知道極大化f的解是一個常數:

 也就是說沒有任何限制條件的時候,最大化資訊熵的統計分布是flat distribution。


         那如果我們給這個分布一點限制條件呢?比方說,假如我限制這個統計分布的期望值等於µ的話會如何?此時我們要解的函數極大極小值問題變成:
我們得到了exponential distribution。也就是說 exponential distribution其實只隱含唯一的資訊,那就是這個統計的平均值。那如果現在我改成限制這個統計分布的變異數為σ^2,那又會是如何呢?此時我們要解的函數極大極小值問題變成:
我們得到了Gaussian distribution。也就是說Gaussian distribution其實只隱含了關於變異數的唯一資訊。 Okay,那如果現在我們想對統計分布的限制條件不是單純的平均值或變異數,而是平均值或變異數的某種轉換呢?我們假設這個轉換叫做T,T(f(y))=Tf,其中f(y)=y或y^2,那麼我們的極大極小值問題就會變成:
 
理論上我們可以把任何一種統計分布都表達成上面的形式。舉例來說,假設我們觀測到的是power law distribution,Py∝y^(-λ) ,這表示我們的限制條件是log(y)的平均值必須等於某個數。用限制條件來表達一個統計分布可以簡潔的描述出統計分布的精髓,也讓我們比較容易思考製造出這個統計分布的underlying mechanism為何。

        今天的講解就到這邊,我們今天和大家介紹了資訊熵的觀念,以及如何將統計分布以限制條件的形式表達出來。下集我們將會介紹變數轉換,以及將統計分布的限制條件與資訊量的變化量做關聯的技巧。請大家拭目以待~。

/*-------------分隔線-------------*/
參考文章:
S. A. Frank. How to read probability distribution as statements about process. Entropy 16: 6059-6098. (2014).

Comments